Поиск документов по запросу, расширенному автоматически построенными парадигматическими отношениями

История разработки методов текстового поиска. Применение нечеткого подхода в поисковых машинах Интернет. Автоматические методы построения парадигматических отношений. Экспериментальная оценка поиска по расширенному запросу на текстовой базе малого объема.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 17.01.2018
Размер файла 12,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Поиск документов по запросу, расширенному автоматически построенными парадигматическими отношениями

Введение

Поиск документов можно отнести к наиболее важным задачам содержательной обработки текстовой информации, что, в частности, обусловлено потребностью поиска информации в сети Интернет.

Разработка методов текстового поиска имеет давнюю историю, насчитывающую более сорока лет [1, 2, 3]. За это время информационно-поисковые системы эволюционировали от систем формально-логического типа [4] к системам нечеткого поиска, основными особенностями которых являются следующие [5]:

запрос задается на естественном языке, а не в виде формального выражения булево-контекстного типа;

некоторые или даже все найденные документы содержат только часть информативных слов запроса;

найденные документы выдаются в ранжированном виде, т.е. в порядке убывания их соответствия запросу.

Нечеткий поиск используется во многих поисковых машинах Интернет (AltaVista, Excite, Lycos и др.) [6].

Применение нечеткого подхода повышает эффективность поиска, но недостаточно. На малых объемах текстов по-прежнему часто находится мало релевантных (т.е. соответствующих запросу) документов. При больших объемах текстовой базы релевантных документов более чем достаточно, однако качество ранжирования может оказаться неудовлетворительным.

Одним из подходов к устранению упомянутых недостатков является добавление к запросу слов, связанных парадигматическими отношениями со словами запроса, и последующий поиск по расширенному запросу. Этот метод расширения запроса рассматривается в настоящей статье.

1. Описание метода

Парадигматические отношения (синонимия, родовидовые и пр.) между терминами, как правило, устанавливаются вручную. Информация об этих отношениях фиксируется в тезаурусе и используется в дальнейшем при поиске по запросам, что позволяет повысить полноту (найти больше релевантных документов).

Существуют автоматические методы построения парадигматических отношений. При этом выделенные парадигматические отношения не разбиваются на типы (например, не различаются синонимия и отношение “целое-часть”), а сами отношения обычно называются ассоциативными, а не парадигматическими.

Построение ассоциативных отношений основывается на данных о совместной встречаемости терминов в документах [1; 7, с.103-104]. Автоматически построенные ассоциативные отношения могут применяться при поиске вместо вручную построенных парадигматических отношений либо в дополнение к ним. При этом эффективность поиска повышается только при использовании специальных алгоритмов ранжирования [8]. В работе [9] показано, что максимальный эффект достигается в том случае, если к исходному запросу добавляются те ассоциативные термины, которые имеют высокое соответствие по отношению ко всему запросу, а не к его отдельным словам.

Недостатком ассоциативных отношений является относительно невысокая скорость их построения и требуемые при этом большие объемы текстов. Немаловажно также и то обстоятельство, что в разных предметных областях один и тот же термин может иметь разный набор ассоциативных отношений. Поэтому ассоциативные отношения имеет смысл выделять динамически в процессе поиска по запросу. Предположим, что среди найденных по запросу документов есть такие, в которых содержатся все информативные слова запроса, причем в компактном виде. Из таких документов выделяются информативные слова, находящиеся в окрестности появлений запроса. Каждому из выделенных слов присваивается ассоциативный вес. Основной компонентой ассоциативного веса слова является количество появлений запроса, в окрестности которых содержатся эти слова.

Далее выполняется нечеткий поиск по расширенному запросу, составленному из исходного запроса путем добавления к нему ассоциативных слов с максимальными весами. Расширенный запрос содержит все информативные слова исходного запроса и динамические ассоциативные слова, для которых ассоциативный вес больше порога. Количество добавленных к запросу ассоциативных слов зависит от числа информативных слов исходного запроса (например, при 5 информативных словах запроса отбирается не более 3 ассоциативных слов).

Списки документов, найденных по исходному и расширенному запросам, объединяются в единый список, который и считается результатом поиска. Если некоторый документ присутствует в двух списках, то его вес вычисляется по формуле сложения вероятностей.

В качестве результата поиска выдается начальная часть объединенного списка. Количество выдаваемых документов определяется как произведение числа документов, найденных по исходному запросу, на некоторый множитель, который имеет фиксированное значение или же задается в виде таблицы.

Можно ожидать, что расширение запроса ассоциативными словами поможет решить две задачи:

· выдачу дополнительных релевантных документов. Эта задача важна при поиске в небольших текстовых базах данных. Поскольку поиск нечеткий, то по расширенному запросу могут быть найдены документы, в которых интересующая тема выражена по-другому, причем с помощью включенных в запрос ассоциативных слов;

· построение тематического представления результатов поиска. Очень актуально при поиске в больших текстовых базах (в частности, в Интернет). Если по запросу найдено много документов, то, как правило, они разбиваются на несколько групп тематически однородных документов, причем пользователя интересует только некоторые из этих тематических групп. Поэтому очень полезно разбиение найденных документов по тематикам. Такое разбиение значительно облегчает пользователю отбор нужных ему документов среди множества найденных. Если провести кластеризацию текстовых фрагментов с появлениями запроса, то это можно считать тематическим представлением, однако относительно ограниченного множества документов. Однако если по каждой из групп фрагментов, полученных в результате кластеризации, построить расширенный запрос, то с помощью такого множества запросов будет реализовано полноценное тематическое представление всего множества найденных документов.

2. Экспериментальная оценка метода

Экспериментальная оценка поиска по расширенному запросу выполнялась на текстовой базе малого объема. В такой ситуации актуально повышение полноты, т.е. выдача дополнительных релевантных документов. Как показано ниже, расширение запроса ассоциативными отношениями в определенной степени решает данную задачу.

Для эксперимента использовалась программа Следопыт [9, 10], разработанная компанией МедиаЛингва (http://www.medialingua.ru). Эта программа реализует нечеткий поиск текстовой информации по запросу на естественном языке.

Следопыт ищет документы по их содержанию. Запрос на поиск задается в виде фразы на русском, английском или немецком языке. Допускаются и комбинированные запросы, состоящие из смеси русских, английских и немецких слов. Программа сама учитывает все формы слов запроса на основе использования бессловарной машинной морфологии и оценивает компактность их расположения в текстах найденных документов.

Найденные документы программа ранжирует в порядке уменьшения их соответствия теме запроса, то есть наиболее важным, в большинстве случаев, будет первый по порядку из найденных документов. Хорошее качество ранжирования достигается путем реализации следующих частных механизмов:

учет только информативных слов запроса (не входящих в словарь неинформативных слов и выражений);

учет статистики распределений слов запроса по документам, среди которых выполняется поиск;

учет расстояния между словами запроса в документе;

статистика полных и частичных вхождений запроса в документ;

учет количества слов и их взаимной информативности в появлении запроса (полном или частичном);

приближенный (без использования словарей) морфологический анализ русских и английских текстов с синонимией не только на уровне словоформ, но и на уровне словообразования (одинаковыми считаются слова "море" и "морской").

Следопыт способен находить документы, в которых тема запроса выражена другими словами. Иначе говоря, в программе реализован не логический (на полное соответствие запросу), а смысловой (нечеткий) метод поиска текстов. Это очень существенно, поскольку человек хорошо запоминает смысл фразы, но с течением времени, как правило, не в состоянии воспроизвести ее дословно.

Качество поиска не зависит от лексики предметной области - Следопыт с одинаковой эффективностью производит поиск как по газетным или деловым текстам, так и по узким тематическим направлениям типа глазных болезней или порошковой металлургии.

Основой реализованного в программе Следопыт семантического поиска является метод преобразования исходного естественно-языкового запроса в оптимальную булево-контекстную форму. В данном случае под оптимальностью формы понимается ее максимальная эффективность среди всевозможных булево-контекстных форм в смысле максимизации критерия, выраженного в виде степенной функции от полноты и точности поиска. Дополнительно учитываются все те же самые факторы, что и в случае ранжирования найденных документов.

Экспериментальная оценка проводилась путем анализа результатов поиска программой Следопыт по 8 запросам в массиве компьютерных текстов общим объемом 8 Мбайт.

Сравнивались 2 метода поиска:

исходный поиск - нечеткий поиск Следопыта с параметром степень расширения запроса, равным 25%;

поиск с учетом ассоциативных отношений (далее называем его ассоциативным поиском). Множитель, используемый для определения количества выдаваемых документов, взят равным 1.5.

Ассоциативные слова отбирались вручную среди слов, входящих во фрагменты найденных документов. Эти фрагменты (называем их далее релевантными фрагментами) удовлетворяли следующим условиям:

содержали все слова запроса на небольшом (не более 5-6 слов) расстоянии друг от друга;

включали по 5 слов слева и справа от появления запроса в документе.

Ассоциативный вес слов вычислялся приближенно с учетом только количества релевантных фрагментов, содержащих слово (чем больше таких фрагментов, тем выше вес). Можно предположить, что при более корректном вычислении ассоциативного веса эффективность поиска не ухудшится.

Отобранные вышеуказанным образом ассоциативные слова добавлялись к исходному запросу, и по этому расширенному запросу выполнялся поиск с помощью Следопыта.

Пример

Для запроса

настольная картографическая система

сформирован расширенный запрос

настольная картографическая система MapInfo

По всем 8 запросам был проведен поиск и вычислены значения полноты П и точности Т поиска. Эти два параметра являются общепринятыми характеристиками эффективности поиска [7, 11]. Определяются они по следующим формулам:

П = Nrf/Nr

Т = Nrf/Nf

Здесь:

Nrf - количество релевантных документов среди документов, найденных по запросу;

Nr - общее количество содержащихся в базе данных документов, которые релевантны запросу. Поскольку определение полного числа релевантных документов требует больших затрат ручного труда, то в качестве оценки Nr принимаем полное число релевантных документов, найденных по запросу двумя сравниваемыми методами поиска. В результате получаем завышенное значение полноты, однако соотношения между значениями полноты при разных методах поиска будут те же самые, что и при корректном определении полноты;

Nf - количество документов, найденных по запросу (из них Nrf документов релевантны запросу).

Полнота и точность, полученные по отдельным запросам, усреднены и сведены в приведенную ниже таблицу

исходный поиск ассоциативный поиск

Полнота 0.74 1.0

Точность 0.96 0.89

Из таблицы следует, что за счет ассоциативных отношений заметно выросла полнота поиска при относительно небольшом падении точности. Отсюда можно сделать вывод о целесообразности использования автоматически построенных ассоциативных отношений в системах с нечетким поиском.

Литература

поиск текстовый запрос

Stiles H.E. The Association Factor in Information Retrieval. Journal of the ACM, 1961, Vol. 8, N 2, p. 271 - 279.

Salton G., Lesk M.E. Computer Evaluation of Indexing and Text Searching. Journal of the ACM. 1968, Vol. 15, N 1, p. 8-36.

Сэлтон Г. Автоматическая обработка, хранение и поиск информации, - М.: Советское радио, 1973. - 560 с.

Маркусова В.А., Реброва М.П., Страшко В.П. Особенности интерактивного поиска проблемно-ориентированной информации в базе данных SCI-SEARCH. НТИ. Сер. 2, №3, 1988. С. 26-30.

Ашманов И., Григорьев С., Гусев В., Харин Н., Шабанов В. Применение статистических методов для интеллектуальной компьютерной обработки текстов. Труды Международного семинара Диалог'97 по компьютерной лингвистике и ее приложениям. Ясная Поляна, 10-15 июня 1997 г. С. 33-37.

Солтон Дж. Динамические библиотечно-информационные системы. - М.: Мир, 1979. - 557 с.

Харин Н.П. Метод ранжирования выдачи, учитывающий автоматически построенные ассоциативные отношения между терминами. НТИ. Сер. 2, 1989, N 9, c. 19-23.

Y. Qui, H.P. Frei. Concept based query expansion. ACM SIGIR, 1993.

Ашманов И., Харин Н. Интеллектуальные технологии обработки текстов. Электронный офис, май-июнь 1997, с. 24-25.

Размещено на Allbest.ru

...

Подобные документы

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

    реферат [32,2 K], добавлен 02.11.2010

  • Основные критерии и требования к средствам поиска по ресурсу. Технологии создания инструментов поиска. Способы поиска по ресурсу. Принцип действия поиска по ключевым словам и при помощи поисковых систем. Разработка ресурса "Поиск по ресурсу" в виде блога.

    курсовая работа [983,7 K], добавлен 01.02.2015

  • Информационный поиск: векторная модель (vector-space model). Ранжирование документов по мере их соответствия запросу. Традиционные методы оценки эффективности поиска. Концептуальное индексирование. Разрешение многозначности. Board: значения и иерархия.

    презентация [95,2 K], добавлен 01.09.2013

  • Роль классификации документов в решении задач информационного поиска. Методы автоматической классификации документов и этапы построения классифицирующей системы: индексация документа, построение классификаторов на базе обучающих данных, оценка их работы.

    курсовая работа [354,2 K], добавлен 13.01.2013

  • Организация поиска информации по заданной теме в сети Интернет. Поиск с помощью поисковых машин. Преимущества и недостатки метода поиска по ключевому слову (фразе). Поиск в каталогах информационных ресурсов. Преимущества и недостатки предметных каталогов.

    курсовая работа [47,5 K], добавлен 03.11.2010

  • Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.

    реферат [27,3 K], добавлен 06.08.2014

  • Информационная революция, которую сейчас переживает общество. Проведение структурного анализа документов. Поиск аналоговой информации в системных областях. Поиск информации через сеть интернет. Виды поисковых ресурсов: каталоги и поисковые роботы.

    курсовая работа [58,6 K], добавлен 16.12.2012

  • Простота поиска информации в системе "Google.ru", его технологии и функции. История термина и его применение. Выбор условий поиска, автоматическое исключение общих слов. Калькулятор и конвертирование валют. Похожие страницы и проверка правописания.

    реферат [19,2 K], добавлен 21.02.2011

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Понятие "информация". Интерактивность. Информационный поиск. Интернет как основное средство интерактивного поиска информации. История создания Интернета. Доступ в Интернет. Поисковые ресурсы. Типы поисковых систем. Электронная почта.

    курсовая работа [51,0 K], добавлен 15.02.2007

  • Поиск информации в Интернет с помощью каталогов и поисковых машин. Мгновенный обмен информацией в Интернете. Основные программы и браузеры для поиска и обмена информацией. Программное обеспечение для просмотра веб-сайтов. Программы для обмена файлами.

    дипломная работа [81,1 K], добавлен 23.06.2012

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.

    презентация [1,9 M], добавлен 15.09.2011

  • Основные направления использования сети Интернет в юридической деятельности. Карточка реквизитов как средство поиска документов в информационной базе. Автоматический поиск по словам и словосочетаниям, основанный на использовании словаря данного типа.

    контрольная работа [765,3 K], добавлен 10.09.2010

  • Особенности программных средств (браузеров) для просмотра web-страниц и для работы с электронной почтой (почтовые клиенты). Этапы и методы разработки Интернет-сайта. Средства поиска информации в Интернет. Сравнительная характеристика поисковых сайтов.

    курсовая работа [617,9 K], добавлен 19.06.2010

  • Общие принципы организации поиска информации в сети Интернет. Поиск с помощью каталогов информационных ресурсов и с помощью поисковых машин. Правила поиска информации, касающейся учета текущих обязательств и расчетов с покупателями и заказчиками.

    курсовая работа [35,0 K], добавлен 09.11.2010

  • Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.

    презентация [775,3 K], добавлен 10.03.2015

  • Сущность и принцип работы глобальной сети Интернет. Поиск информации по параметрам в системе Google. Специализированные системы поиска информации: "КтоТам", "Tagoo", "Truveo", "Kinopoisk", "Улов-Умов". Целесообразное использование поисковых систем.

    презентация [572,6 K], добавлен 16.02.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.