Определение тематики запроса, используя графовые модели данных
Характеристика методов определения тематики запроса, используя графовые модели данных. Изучение особенностей хранения данных в ориентированном и неориентированном графе. Описание методики построения как ориентированного, так и неориентированного графа.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 29.07.2018 |
Размер файла | 123,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ОПРЕДЕЛЕНИЕ ТЕМАТИКИ ЗАПРОСА, ИСПОЛЬЗУЯ ГРАФОВЫЕ МОДЕЛИ ДАННЫХ
Довбенко Алексей Викторович - аспирант,
кафедра теоретических основ информатики, факультет прикладной математики, информатики и механики,
Воронежский государственный университет, г. Воронеж
Аннотация: в работе рассмотрены примеры определения тематики запроса, используя графовые модели данных. Рассмотрена основная проблема определения тематики текста, а также вполне неочевидные проблемы, с которыми может столкнуться разработчик. Рассмотрены основные примеры запросов, использование «стоп слов», приведен пример хранения данных в ориентированном и неориентированном графе, описана методика построения как ориентированного, так и неориентированного графа. Также приведен пример обучения системы, на основе повторений слов в различных документах. Предложены различные пути решения определения тематики текста. Ключевые слова: поисковый запрос, тематика запроса, графовая модель данных, поисковая система, метод машинного обучения.
DETERMINE THE SUBJECT OF THE QUERY USING GRAPH DATA MODELS
Dovbenko Alexey Victorovich - Post-Graduate Student,
DEPARTMENT OF THEORETICAL BASES OF COMPUTER SCIENCE, FACULTY OF APPLIED MATHEMATICS, COMPUTER SCIENCE AND MECHANICS, VORONEZH STATE UNIVERSITY, VORONEZH
Abstract: in the article examples of determining the subject of a query using graph data models are considered. The main problem of determining the subject matter of the text, as well as completely unobvious problems with which the developer may encounter, is considered. The main examples of queries, the use of 'stop words', an example of storing data in an oriented and undirected graph are presented, and the method of constructing both an oriented and undirected graph is described. Also given is an example of learning the system, based on word repetition in various documents. Various ways of solving the definition of the text are proposed. Keywords: search query, query topics, graph data model, search engine.
Определение тематики запроса применяется в разработки информационных поисковых систем, когда тематика запроса определена круг поиска сужается, что влечет за собой быструю отдачу и большую точность результата. Каждый контент имеет ту или иную тематику, причем чем больше страниц, тем больше тем и подтем, соответственно система должна удовлетворять следующим условиям:
- самообучаться, система должна сама выделять темы исходя из предоставленных ей текстов.
- реагировать на стоп слова, например «стрелы лука» относятся к теме охоты, а «жаренные стрелы лука» - к кулинарии.
Самой адекватной моделью для представления текста является граф, который определяется как конечное множество объектов (вершин) и множество пар различных вершин (ребер) [1, стр. 22]. Такая структура хорошо изучена с точки зрения математики и часто служит удобным средством представления структурированной информации для дальнейшего анализа. Графы используются в гуманитарных областях знаний для автоматической обработки текстов [2, 3], информационного поиска [4], реферирования и индексирования текстов [5, 6], автоматического перевода [7], стилистической диагностики [8, 9], в задачах атрибуции анонимных текстов [10] и т.д. Обучение системы
Для обучения системы нам понадобится извлечь ключевые слова из текста, соответственно, чем больше текстов, тем больше ключевых слов и связей между ними можно построить. Для определения ключевых слов необходимо определить частоту каждого слова, которая описывается формулой (1) [3].
Fword = n/m, (1),
где Fword - частота встречи слова в тексте; n - количество встреч слова и его словообразований; m - общее количество преобразованных в инфинитив слов.
После определения ключевых слов необходимо взять самые часто встречаемые слова, количество ключевых слов лучше выбирать исходя из размера текста, но стоит учитывать что количество не гарантирует качество, т.к. появляется высокая вероятность захватить «засоряющие слова», такие как числительные, наречия и т.п., которые не имеют тематического веса, но могут довольно часто встречаться в тексте.
Рис. 1. Пример связи слов в графовой модели данных
Далее из ключевых слов строится граф, где вершины сами слова, а ребра - количество общих упоминаний в одном тексте. Примерный вид графа представлен на рисунке 1.
После обработки достаточного количества текстовых документов, некоторые вершины будет иметь множества ребер, иными словами узел с множествами связей и есть определенная тема.
Определение тематики поискового запроса с помощью неориентированного графа.
Поиск тематики поискового запроса осуществляется поиском кратчайшего пути между вершинами неориентированного графа (поисковый запрос аналогично разбивается на слова в инфинитиве), причем путь должен проходить хотя бы через одну не искомую вершину. На примере рисунка 1 поисковый запрос «Брандо актер». путь имеет следующий вид: Брандо - фильм - актер, находя непрямой кратчайший путь из вершины «Брандо» в вершину «Фильм» и убирая искомые вершины получаем тематику запроса - «фильм». Имея взвешенный граф, в котором длина ребра равна 1/n, где n - число общих упоминаний вершин в одном тексте (т.е. максимальное значение n - количество обработанных страниц). Можно воспользоваться алгоритмом кратчайшего поиска пути из одной вершин в другую для взвешенного, неориентированного графа, таким как RBFS или SMA* [4].
Рассмотрим пример «стоп слов», т.е. слова которые полностью меняют тематику запроса, несмотря на присутствие других слов относящихся к одной тематике (Рисунок 2). При поисковом запросе «стрелы лука», тематика запроса будет «охота», но при запросе «жаренные стрелы лука», тематика становится равна кулинарии, т.к. кратчайший путь от вершин «лук - стрела» всё ещё проходит через тематику охоты, а вот пути от «жарить - лук» и «жарить - стрела», уже проходят через тематику «Кулинария».
Рис. 2. Пример работы «стоп слов»
Основные проблемы определения тематики поискового запроса с помощью графовой модели данных проявляются, если поисковый запрос уже содержит тематику (например «фильмы про охоту»), тогда использование неориентированного графа теряет смысл, т.к. связь между темами слабая и поиск общего узла среди множества ребер мало того, что затратен по времени и ресурсам [7], так и бессмыслен, потому что мы уходим от основных тем к подтемам. Также возникает проблема, когда связь между графами одна и она линейна, вычисления общих узлов займут много времени и в итоге ничего не вернут. Определение тематики поискового запроса с помощью ориентированного графа.
Итак хранение данных в неориентированном графе и поиск тематики по кратчайшему пути не удовлетворяет большинству условий, несмотря на отличную работу в «идеальной среде», такая модель ломается при запросе, включающем в себя тематику, при единственной линейной связи между узлами, при неимении связей. Исходя из этого рассмотрим пример модели хранения в ориентированном графе. Ориентированный граф должен перестраиваться в зависимости от количества новых документов и как следствие обучения исходной системы. Исходя из этого следует предположить, что в момент времени t0 или при n0 обработанных документов, систему стоит считать обученной. Направленность связей графа должна исходить из узлов с наименьшем общем количеством веса к наибольшему, т.е. главные темы не должны иметь исходящих связей (Рисунок 3). Определение темы идет от узлов поиска к конечным узлам, далее определяются общие узлы путей, так при запросе «Брандо актер», исходя из рисунка 3, тематика слова «Брандо» будет «Фильм», а слова «актер» - «Театр» и «Фильм».
Рис. 3. Пример ориентированного графа
Такая модель данных, поиска от частного к общему имеет ряд достоинств, алгоритм расчета довольно линеен, и не захватывает множество узлов, при имении темы изначально система не будет делать лишних вычислений (При запросе «Фильм Антракт», исходя из рисунка 3, выберутся два ключевых слова «Фильм» и «Антракт»). Стоит отметить, что в конечной модели данных вес ребер не имеет значимости, поэтому граф можно считать ненагруженным. Основной сложностью этой системы является построение ориентированного графа и его изменение при времени t (n+1) или количестве обработанных документов m (n+1), но исходя из того что построение такого графа делается незаметным для конечного пользователя, то быстродействие и расход ресурсов не играют большой роли.
Вывод
В статье рассмотрен пример построения простейшей графовой модели для определения тематики запроса, рассмотрен пример построения неориентированного графа и его недостаток, рассмотрен пример построения ориентированного графа и предложена модель по работе с ним. Данная тема требует экспериментального подхода и более глубокого анализа алгоритмов поиска для определения оптимальной структуры графовой модели и наиболее быстрого и универсального алгоритма для определения тематики.
запрос данные граф
Список литературы / References
1. Bunke H., Jiang X., Kandel A. On the minimum common supergraph of two graphs // Computing. 2000. Vol. 65. № 1. P. 13-25. [Электронный ресурс]. Режим доступа: http://wotan.liu.edu/docis/dbl/comput/2000 65 1 13 QTMCSQ.html/ (дата обращения: 15.01.2018).
2. Апресян Ю.Д. Идеи и методы современной структурной лингвистики. М.: Просвещение, 1966. 302 с.
3. Тарланов З.К. Методы и принципы лингвистического анализа: Учебное пособие для вузов. Петрозаводск: Издательство Петрозаводского университета, 1995. 189 с.
4. Шемакин Ю.И. Начала компьютерной лингвистики: Учебное пособие. М.: Издательство Московского государственного открытого университета, 1992. 113 с.
5. Фаронов В.В. Delphi. Программирование на языке высокого уровня: Учебник для вузов. СПб.: Питер, 2004. 640 с.
6. Химические приложения топологии и теория графов: Материалы симпозиума 18-22 апреля 1983 г.
Афины, шт. Джорджия, США / Под ред. Ю.А. Жданова. М.: Мир, 1987. 560 с.
7. Миркин Б.Г. Анализ качественных признаков и структур. М.: Статистика, 1980. 319 с.
8. Новиков А.И. Семантика текста и ее формализация. М.: Наука, 1983. 215 с.
9. Турыгина Л.А. Моделирование языковых структур средствами вычислительной техники. М.: Высшая школа, 1988. 175 с.
10. Севбо И.П. Графическое представление синтаксических структур и стилистическая диагностика. Киев: Наукова Думка, 1981. 192 с.
Размещено на Allbest.ru
...Подобные документы
Задача о кенигсбергских мостах, четырех красках, выходе из лабиринта. Матрица инцидентности для неориентированного и (ориентированного) графа. Степень вершины графа. Ориентированное дерево. Линейные диаграммы или графики Ганта. Метод критического пути.
презентация [258,0 K], добавлен 23.06.2013Описание заданного графа множествами вершин V и дуг X, списками смежности, матрицей инцидентности и смежности. Матрица весов соответствующего неориентированного графа. Определение дерева кратчайших путей по алгоритму Дейкстры. Поиск деревьев на графе.
курсовая работа [625,4 K], добавлен 30.09.2014Понятия и определения орграфа и неориентированного графа, методы решения. Неориентированные и ориентированные деревья. Подробное описание алгоритмов нахождения кратчайших путей в графе: мультиграф, псевдограф. Матрица достижимостей и контрдостижимостей.
курсовая работа [251,0 K], добавлен 16.01.2012Способы решения задач дискретной математики. Расчет кратчайшего пути между парами всех вершин в ориентированном и неориентированном графах с помощью использования алгоритма Флойда. Анализ задачи и методов ее решения. Разработка и характеристика программы.
курсовая работа [951,4 K], добавлен 22.01.2014Алгоритм перехода к графическому представлению для неориентированного графа. Количество вершин неориентированного графа. Чтение из матрицы смежностей. Связи между вершинами в матрице. Задание координат вершин в зависимости от количества секторов.
лабораторная работа [34,0 K], добавлен 29.04.2011Остовное дерево связного неориентированного графа. Алгоритм создания остовного дерева, его нахождение. Сущность и главные особенности алгоритма Крускала. Порядок построения алгоритма Прима, вершина наименьшего веса. Промежуточная структура данных.
презентация [140,8 K], добавлен 16.09.2013Исследование функции, построение ее графика, используя дифференциальное исчисление. Вычисление неопределенных интегралов, используя методы интегрирования. Пределы функции. Определение области сходимости степенного ряда. Решение дифференциальных уравнений.
контрольная работа [592,7 K], добавлен 06.09.2015Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.
дипломная работа [256,0 K], добавлен 29.06.2017Теоретико-множественная и геометрическая форма определения графов. Матрица смежностей вершин неориентированного и ориентированного графа. Элементы матрицы и их сумма. Свойства матрицы инцидентности и зависимость между ними. Подмножество столбцов.
реферат [81,0 K], добавлен 23.11.2008Проверка справедливости тождеств или включений с использованием алгебры множеств и диаграмм Эйлера-Венна. Изображение графа и матрицы отношения, обладающего свойствами рефлексивности, транзитивности и антисиммеричности. Изучение неориентированного графа.
контрольная работа [1,3 M], добавлен 05.05.2013Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.
дипломная работа [440,4 K], добавлен 23.07.2013Нахождение вероятности события, используя формулу Бернулли. Составление закона распределения случайной величины и уравнения регрессии. Расчет математического ожидания и дисперсии, сравнение эмпирических и теоретических частот, используя критерий Пирсона.
контрольная работа [167,7 K], добавлен 29.04.2012Порядок преобразования исходных данных и построения математической модели оптимального плана доставки газет. Выбор метода решения и основные этапы его реализации. Принципы освоения и практического применения оптимизационного пакета прикладных программ.
курсовая работа [235,0 K], добавлен 25.03.2017Изучение методов определения основных показателей надежности изделий на основные экспериментальных данных. Статистическая оценка интенсивности отказов и плотности их распределения. Определение функции надежности изделия (вероятности безотказной работы).
лабораторная работа [237,5 K], добавлен 10.04.2019Методика проведения группировки объектов на основе алгоритма K-средних, используя рандомизацию исходных данных (объединенной центрированной матрицы наблюдений). Оценка требуемого числа итераций. Расчет расстояния от объектов до новых центров кластеров.
практическая работа [195,6 K], добавлен 20.09.2011Разработка и анализ топологической модели электронной схемы для полного диапазона частот. Определение передаточной схемной функции методом эквивалентных схем в матричной форме, а также методом сигнальных графов, используя сигнальный граф Мэзона.
контрольная работа [469,9 K], добавлен 11.04.2016Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.
контрольная работа [242,1 K], добавлен 05.11.2011Подходы к оценке кредитного риска: недостатки методик Базеля II. Модели оценки: качество и прозрачность методик, структура данных. Скоринговые методики, кластерный и дискриминантный анализ, нейронные сети и дерево классификаций, data mining и регрессии.
курсовая работа [3,3 M], добавлен 21.08.2008Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.
реферат [33,3 K], добавлен 12.11.2009Законы алгебры Буля и их применение для преобразования логических выражений. Расчет информационной емкости документов предметной области. Построение инфологической, реляционной и даталогической моделей. Применение методов поиска и сортировки данных.
курсовая работа [261,7 K], добавлен 05.01.2013