Использование онтологических ресурсов для совершенствования поиска в эталонном банке данных правовой информации Республики Беларусь
Применение современных технологий представления знаний в виде онтологических ресурсов. Главная особенность использования информационно-поисковых тезаурусов для информационного поиска. Основная характеристика существующей системы поиска сайта услуги.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 27.11.2018 |
Размер файла | 25,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Национального центра правовой информации Республики Беларусь
ИСПОЛЬЗОВАНИЕ ОНТОЛОГИЧЕСКИХ РЕСУРСОВ ДЛЯ СОВЕРШЕНСТВОВАНИЯ ПОИСКА В ЭТАЛОННОМ БАНКЕ ДАННЫХ ПРАВОВОЙ ИНФОРМАЦИИ РЕСПУБЛИКИ БЕЛАРУСЬ
Е.Г. Кочергов
С целью повышения эффективности поиска в эталонном банке данных правовой информации Республики Беларусь исследован подход, основанный на применении современных технологий представления знаний в виде онтологических ресурсов. Для этого рассмотрены теоретические основы онтологий, их классификация, способы использования, проведен анализ существующей системы поиска сайта услуги «ЭТАЛОН-ONLINE», определен класс онтологических ресурсов, использование которых является перспективным в настоящее время для совершенствования информационного поиска. В заключительной части работы рассмотрены конкретные предложения по внедрению онтологических ресурсов и их развитию.
In order to improve search efficiency investigated an approach based on the use of modern technologies for knowledge representation in the form of ontological resources. To do this, the theoretical basis of ontologies, classification, methods of use, the analysis of the existing system of site search services «Etalon-ONLINE», defines a class of ontological resources, the use of which is now promising to improve information retrieval. In the final part of the considered specific proposals for implementation of ontological resources and their development.
1. Понятие и классификация онтологий
Актуальность задачи совершенствования информационного поиска в эталонном банке данных правовой информации Республики Беларусь (далее - ЭБДПИ) обусловлена как неуклонно возрастающими ролью и объемами использования электронных информационно-правовых ресурсов во всех сферах нормотворческой и правоприменительной деятельности, которые являются одними из важнейших составляющих государственного управления в целом, так и возрастанием правовой культуры населения страны и процессами формирования правового государства и информационного общества.
Недостаток лингвистических и онтологических знаний (знаний о мире), используемых в приложениях информационного поиска, служит причиной разнообразных проблем. Нехватка знаний приводит к нерелевантному поиску в тех случаях, если способы формулировки запросов отличаются от способов описания релевантных ситуаций в документах.
Для целей данной статьи наиболее применимо определение онтологии из работы [1]. Онтология - это иерархически структурированное множество терминов, описывающих предметную область, которая может быть использована как исходная структура для базы знаний.
Рассмотрим некоторые из типов онтологии в порядке от менее формализованных ресурсов к более формализованным [2].
Словарь с определениями, глоссарий, может рассматриваться как онтология с пустым множеством отношений.
Рубрикаторы представляют собой иерархически организованные онтологии. При этом отношения между рубриками не сводятся к одному и тому же типу отношений, смысл отношений между разными рубриками может различаться.
Информационно-поисковые тезаурусы также рассматриваются как онтологические ресурсы. Они имеют обычно таксономические отношения, а также ряд дополнительных отношений. Часто в тезаурусах происходит совмещение под одним именем отношения выше-ниже разного рода отношений, то есть отношения устанавливаются не всегда формальным образом.
Тезаурусы типа WordNet, особенно классификация существительных, также рассматриваются как ресурсы онтологического типа.
Можно выделить следующие отличительные особенности тезаурусов как вида онтологических ресурсов:
– единицы тезаурусов имеют тесную связь с естественным языком, обычно снабжаются вариантами их выражения на естественном языке;
– тезаурусы обычно не имеют внутренней структуры понятий. Знания о мире, предметной области представлены в виде отношений между понятиями;
– аксиомы (правила вывода) сводятся к свойствам транзитивности и наследования.
Следующий тип онтологических моделей - это модели с некоторым широким набором отношений. Для разных видов отношений могут указываться кардинальность (соотношение количеств экземпляров связываемых сущностей) и модальность (возможность/обязательность) связей. онтологический информационный поисковый тезаурус
Большей выразительностью обладают онтологии, включающие ограничения на область значений свойств. Значения свойств берутся из некоторого предопределенного множества (целые числа, символы алфавита) или из подмножества концептов онтологии (множество экземпляров данного класса, множество классов).
Наиболее формализованные онтологии представляют собой логические теории, построенные на произвольных логических утверждениях о понятиях - аксиомах. Для описания таких формальных онтологий применяются различные логики (дескриптивные логики, модальные логики, логика предикатов первого порядка) и языки описания онтологий DAML+OIL, OWL, CycL, Ontolingua.
2. Информационно-поисковые тезаурусы
Определение информационно-поискового тезауруса (ИПТ) формулируется следующим образом. ИПТ - это контролируемый словарь терминов на естественном языке, явно указывающий на отношения между терминами и предназначенный для информационного поиска [3].
Основными целями разработки традиционных ИПТ являются следующие:
– обеспечение перевода естественного языка документов и пользователей на контролируемый словарь, применяемый для индексирования и поиска;
– обеспечение последовательного использования единиц индексирования;
– описание отношений между терминами;
– использование в качестве поискового средства при поиске документов.
Основной единицей ИПТ являются термины, которые разделяются на дескрипторы (авторизованные термины) и недескрипторы (аскрипторы).
Значимость разработки и использования ИПТ значительно снизилась с появлением полнотекстовых информационно-поисковых систем, а также возможностей поиска по всем словам текста с помощью методов ранжированного информационного поиска, поскольку такие системы обеспечивают возможность поиска информации неподготовленному пользователю в любых предметных областях без предварительных затрат на разработку тезаурусов.
Применение хорошо разработанного ИПТ при ручном индексировании должно снимать проблемы синонимии, близких понятий, многозначности. Однако при этом могут возникнуть существенные различия между понятиями, используемыми в ИПТ, и информационной потребностью пользователя, когда последнему трудно сформулировать описание нужных ему текстов посредством понятий ИПТ или ИПТ действительно не содержит адекватных понятий. В этих случаях пословное индексирование имеет преимущество из-за больших выразительных возможностей.
При ручном индексировании серьезную проблему составляет фактор субъективности, когда приписывание тексту терминов ИПТ зависит от умения и опыта индексаторов, количества текстов, которые необходимо проиндексировать, и т.п.
В настоящее время существуют информационные службы, имеющие и разрабатывающие ИПТ, а также располагающие штатом профессиональных индексаторов, индексирующих документы на основе тезаурусов. Примерами таких организаций являются: Исследовательская служба Конгресса США, индексирующая по тезаурусу Legislative Indexing Vocabulary; Продовольственная и сельскохозяйственная организация при ООН, которая развивает тезаурус AGROVOC; службы Европейского сообщества, использующие для индексирования европейского законодательства тезаурус EUROVOC, и др.
3. Применение информационно-поисковых тезаурусов
для информационного поиска
Современные модели информационного поиска не используют знаний, описанных в тезаурусах и онтологиях, а базируются на моделях текста как набора слов, предлагая изощренные методы учета частотностей встречаемости слов в предложении, тексте, наборе документов, совместной встречаемости слов и т.п.
Для большинства документов простое автоматическое сопоставление дескрипторов и аскрипторов с документами не сможет отразить основное содержание документа:
– важные термины документа могут быть не найдены в ИПТ, поскольку выражены в нем несколько иначе;
– менее значимые термины найдут прямое отражение в ИПТ и выйдут на первый план и т.п.
Поэтому исследуются более сложные методы автоматизации индексирования по ИПТ. Одним из подходов для автоматизации индексирования по традиционным ИПТ является метод, основанный на правилах. Процесс автоматического приписывания дескрипторов тезауруса EUROVOC полнотекстовым документам включает две стадии.
На первой стадии (этапе обучения) на основе документов, вручную проиндексированных индексаторами, устанавливается соответствие между словами, встретившимися в тексте документа, и приписанными дескрипторами тезауруса на основе статистических мер. Вес соответствия отдельного слова ключевому слову тем выше, чем выше совместная частотность использования данного слова и данного ключевого слова относительно частотности во всей коллекции.
Например, дескриптору FISHERY MANAGEMENT соответствуют следующие слова (в порядке убывания веса): fishery, fish, stock, fishing, conservation, management, vessel и т.д.
На второй стадии (собственно индексирование) для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то слово добавляет к весу дескриптора для данного текста натуральный логарифм веса, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов.
Для Резолюции по правам языковых и культурных меньшинств в Европейском союзе были получены следующие дескрипторы (в порядке убывания веса): Community programme, Young person, cultural policy, CEEC, European Union и т.д.
В работе [4] в качестве одного из существенных факторов сложного запроса для современных информационных систем называлось расхождение между словесной формулировкой запроса и описанием релевантных ситуаций в документах коллекции, что, как показано в экспериментах, можно преодолеть с помощью ИПТ. Первым шагом на таком пути является нахождение корреляций между словами документов и дескрипторами ИПТ [5].
Появление таких корреляций дает возможность при обработке свободного запроса пользователя определить наиболее соответствующие этому запросу дескрипторы и предложить их пользователю, который может тем или иным образом включить их в запрос. Например, можно сложить веса дескрипторов, соответствующих каждому слову запроса, и получить упорядоченный список наиболее релевантных запросу дескрипторов [6].
Тезаурусные поисковые образы документов могут быть использованы и для автоматического расширения свободного запроса пользователя дескрипторами тезауруса [7; 8].
4. Предложения по совершенствованию поиска в эталонном банке данных правовой информации Республики Беларусь
На сайте услуги «ЭТАЛОН-ONLINE» (etalonline.by) размещена система доступа к ЭБДПИ, обеспечивающая ввод запросов на естественном языке и двуязычный (русско-белорусский) полнотекстовый поиск правовой информации с учетом морфологических преобразований слов, а также ранжирования результатов поиска по их релевантности запросу. Другими словами, запрос пользователя вводится как фраза или предложение на естественном языке и переводится на другой язык в зависимости от входного языка запроса. Результатом поиска является список правовых актов как на русском, так и на белорусском языках.
Анализ данной системы поиска позволяет сделать следующие выводы относительно возможности применения в ней онтологических ресурсов:
– подсистема поиска построена по современной широко используемой схеме, базирующейся на модели текста как наборе слов (bag of words) и использующей сложные методы учета частоты встречаемости слов в предложении, тексте, наборе документов. При этом не учитываются такие языковые явления, как синонимия, многозначность, существование лексических отношений между словами;
– наиболее приемлемым онтологическим ресурсом для совершенствования поиска является ИПТ заданной предметной области, поскольку универсальные формальные онтологии находятся на стадии становления и не имеют пока широкого практического применения;
– поскольку подсистема поиска двуязычная, необходимым условием является наличие двуязычного ИПТ.
В состав ЭБДПИ в качестве самостоятельного поискового инструмента включен ИПТ. В настоящее время данный инструмент доступен для использования в составе информационно-поисковой системы «ЭТАЛОН» версии 6.1. В состав ИПТ включено более 1100 обобщающих терминов-дескрипторов и свыше 10 тысяч иерархически подчиненных терминов-аскрипторов. ИПТ содержит синонимические и ассоциативные связи и ориентирован на правовую область правовой информации.
Для расширения поискового запроса предлагается:
– построить модель, связывающую термины ИПТ (дескрипторы и аскрипторы) и информационно-значимые канонические формы слов из полнотекстового индекса (модель может быть построена, поскольку тексты ЭБДПИ проиндексированы вручную терминами ИПТ);
– исходя из предположения о том, что слова запроса, как правило, найдут соотношение в полнотекстовом индексе, извлекаются соответствующие им термины ИПТ через модель, построенную на первом этапе;
– полученная совокупность терминов ИПТ, используя взаимосвязи, задаваемые моделью, «транслируется» в совокупность соответствующих им слов полнотекстового индекса, которыми расширяется запрос;
– дополнительно в полученной совокупности терминов ИПТ анализируются иерархические связи, что позволяет добавить слова, расширяющие запрос аналогично предыдущему этапу.
Для решения задач совершенствования поиска в ЭБДПИ представляется целесообразным дальнейшее развитие ИПТ по следующим направлениям:
– добавлению и формализации типов связей, обеспечивающих развитие ИПТ в сторону формальной онтологии;
– переводу ИПТ на белорусский язык, что позволит его эффективно использовать в двуязычной системе поиска;
– анализу и совершенствованию информационного наполнения ИПТ для повышения эффективности автоматического индексирования.
Совершенствование информационного наполнения ИПТ должно быть направлено на решение следующих проблем:
– некоторые дескрипторы снабжены подробными правилами их использования, которые предназначаются для индексаторов, и наличие этих правил говорит о том, что в текстах предметной области те же термины употребляются по-другому;
– в ИПТ, как правило, не включаются в синонимические ряды дескрипторов синонимы, которые являются очевидными для человека, однако для компьютера эти варианты должны быть обозначены;
– в ИПТ не указана неоднозначность некоторых терминов, описанных в тезаурусе только в одном значении, что несущественно для человека-индексатора, но необходимо для автоматической обработки.
Развитие ИПТ как онтологического ресурса и его переориентация на автоматическое индексирование и поиск является основным способом сохранения им значения как поискового инструмента.
Список использованных источников
1. Лукашевич, Н.В. Тезаурусы в задачах информационного поиска / Н.В. Лукашевич. - М.: Изд-во Моск. ун-та, 2011. - 512 с.
2. Lassila, O. The Role of Frame-Based Representation on the Semantic Web / O. Lassila, D. McGuinness // Knowledge Systems Laboratory Report KSL-01-02. - Stanford University, 2001.
3. Лукашевич, Н.В. Двуязычный информационный поиск на основе автоматического концептуального индексирования / Н.В. Лукашевич, Б.В. Добров; под ред. И.М. Кобозевой, Н.И. Лауфер, В.П. Селегея // Компьютерная лингвистика и интеллектуальные технологии: тр. Междунар. конф. Диалог'2003. - М.: Наука. - С. 425-432.
4. Shah, Ch. Evaluating High Accuracy Retrieval Techniques / Ch. Shah, B. Croft // Proc. of SIGIR'04. - Р. 2-9.
5. Plaunt, Ch. An Association Based Method for Automatic Indexing with a Controlled Vocabulary / Ch. Plaunt, B.A. Norgard // Journal of the American Society for Information Science 49 (10). -1998. - Р. 888-902.
6. French, J. Exploiting Manual Indexing to Improve Collection Selection and Retrieval Effectiveness / J. French [and others] // Information Retrieval. - 2002. - Vol. 5, No. 4. - Р. 323-351.
7. Petras, V. GIRT and the Use of Subject Metadata for Retrieval / V. Petras // Proc. of the 5th workshop on Multilingual Information Access for Text, Speech and Images, Cross- Language Evaluation Forum, CLEF-2004. Lecture Notes in Computer Science. Vol. 3491. Springer-Verlag. - 2004. - Р. 298-309.
8. Petras, V. How One Word Can Make all the Difference - Using Subject Metadata for Automatic Query Expansion and Reformulation / V. Petras // Proc. of the 6th workshop on Multilingual Information Access for Text, Speech and Images, CLEF-2005. Lecture Notes in Computer Science, Springer-Verlag. - 2005.
Размещено на Allbest.ru
...Подобные документы
Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.
реферат [17,2 K], добавлен 12.05.2010Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.
презентация [1,9 M], добавлен 15.09.2011Удовлетворение информационной потребности как цель поиска информации. Виды информационных ресурсов. Понятие документа в информационном поиске. Схема информационного поиска, этапы его представления. Характеристика качества поиска, его базовые положения.
презентация [1,2 M], добавлен 06.01.2014Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.
реферат [32,2 K], добавлен 02.11.2010Информационно-поисковый тезаурус, его определение и цель разработки. Организация быстрого и эффективного поиска документальной информации. Использование, структура, построение, сфера применения и перспективы развития информационно-поисковых тезаурусов.
контрольная работа [17,6 K], добавлен 01.08.2009Основные критерии и требования к средствам поиска по ресурсу. Технологии создания инструментов поиска. Способы поиска по ресурсу. Принцип действия поиска по ключевым словам и при помощи поисковых систем. Разработка ресурса "Поиск по ресурсу" в виде блога.
курсовая работа [983,7 K], добавлен 01.02.2015Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.
презентация [775,3 K], добавлен 10.03.2015Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.
реферат [27,3 K], добавлен 06.08.2014Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.
курсовая работа [101,1 K], добавлен 01.06.2012Применение современных компьютерных технологий в процессе обучения иностранным языкам. Использование Интернет-ресурсов, скайпа, социальных сетей в обучении и интернет-сайта для поиска дополнительно новой информации. Общение онлайн с носителями языка.
статья [15,8 K], добавлен 23.06.2015Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.
курсовая работа [77,2 K], добавлен 06.02.2014Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.
курсовая работа [918,3 K], добавлен 26.03.2011Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.
курсовая работа [30,9 K], добавлен 18.04.2010База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.
презентация [51,3 K], добавлен 17.10.2013Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.
дипломная работа [1,3 M], добавлен 16.06.2015Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.
курсовая работа [70,2 K], добавлен 10.06.2014Общее представление о поисковых службах. Характеристика видов информационно-поисковых систем, анализ их преимуществ и недостатков. Приемы простого поиска с помощью ключевых слов. Сохранение информации на компьютере для ее последующего использования.
учебное пособие [313,9 K], добавлен 10.10.2011Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.
курсовая работа [4,6 M], добавлен 14.05.2014Организация поиска информации по заданной теме в сети Интернет. Поиск с помощью поисковых машин. Преимущества и недостатки метода поиска по ключевому слову (фразе). Поиск в каталогах информационных ресурсов. Преимущества и недостатки предметных каталогов.
курсовая работа [47,5 K], добавлен 03.11.2010Оценка качества поисковых систем. Индексирование по ключевым словам. Внутренние представления запросов и документов на информационно-поисковом языке. Способы улучшения поиска при помощи тезаурусов и онтологий. Ранжированный поиск (vector-space model).
лекция [31,5 K], добавлен 19.10.2013