Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние
Описание идеи, методологии и текущего состояния проекта по созданию лингвистической онтологии – специального информационно-поискового тезауруса для автоматической обработки текстов по естественным наукам. Характеристика подходов к разработке ее ресурсов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 16.01.2018 |
Размер файла | 204,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Аннотация
УДК 004.822
Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние** Работа выполнена при финансовой поддержке РФФИ (проект № 05-07-90391).
Б.В. Добров11 119992, Москва, Ленинские горы, НИВЦ МГУ, dobroff@mail.cir.ru., Н.В. Лукашевич22 119992, Москва, Ленинские горы, НИВЦ МГУ, louk@mail.cir.ru.
В работе описывается идея, методология и текущее состояние проекта по созданию лингвистической онтологии - специального информационно-поискового тезауруса для автоматической обработки текстов по естественным наукам. В настоящее время онтология включает 25 тысяч понятий, 60 тысяч терминов таких областей как математика, физика, химия, геология, биология. Лингвистическая онтология создается на основе соединения трех методологий: методов разработки информационно-поисковых тезаурусов, методов разработки ресурсов типа WordNet и методов разработки формальных онтологий.
Введение
Одним из важных элементов концепции семантической сети (Semantic Web) является разработка онтологий, на основе которых поиск информации в сети Интернет должен стать более содержательным.
Онтологии представляют собой достаточно широкое понятие, включающее таксономии, тезаурусы, фундаментальные онтологии (аксиоматизированные теории) [Guarino, 1998]. Фундаментальные онтологии описывают предметную область максимально полно, безотносительно к приложениям и обычно с максимальной степенью формализации. Прикладные онтологии (application ontologies), которые также называются "легкими" онтологиями (lightweight ontologies), формализуются настолько, насколько это необходимо для приложения.
Представляется, что невозможно создать фундаментальные онтологии для таких сфер деятельности как естественные науки: физика, химия, геология в силу существования различных теорий и постоянного изменения трактовки самых базовых понятий.
В то же время подробность и строгость описания предметной области в информационно-поисковых тезаурусах [Шемакин, 1974], [NASA Thesaurus, 1988], которые являлись традиционными средствами тематического поиска научной информации в течение многих лет, является недостаточной для их эффективного использования в автоматический режимах обработки текстовой информации для информационно-поисковых приложений [Salton, 1989], [Voorhees, 1999].
Возникает вопрос, какова же должна быть степень формализации предметной области, структура онтологии, чтобы:
· с одной стороны, эту онтологию можно было создать в разумные сроки (2-3 года) относительно небольшим коллективом и начать широко использовать в прикладных задачах;
· с другой стороны, чтобы степень формализации понятийной структуры предметной области обеспечивала возможность содержательного информационного поиска в автоматических режимах.
Существенной особенностью онтологии, предназначенной для поддержки решения задач информационного поиска, является то, что понятия таких онтологий должны быть аккуратно связаны со значениями терминов предметной области. Такого рода онтологии называются лингвистическими онтологиями: главной характеристикой лингвистических онтологий является то, что их единицы связаны со значениями ("are bound to the semantics") языковых выражений (слов, именных групп и т.п.) [Gomez-Perez et.al., 2000]. В качестве примера лингвистической онтологии приводится обычно ресурс WordNet [Miller et.al., 1990].
Коллектив авторов в 2004 году начал работу над созданием лингвистической онтологии для автоматической обработки текстов в области естественных наук.
В статье описывается идея, методология и текущее состояние проекта. В первом разделе мы описываем основные принципы проекта создания лингвистической онтологии для естественных наук. В следующем разделе описывается ранее разработанная авторами онтология - Общественно-политический тезаурус, на основе методологии которой создается и новая лингвистическая онтология. В разделах 3 и 4 излагаются этапы построения онтологии, приводятся данные о текущем состоянии ресурса. В разделе 5 описывается процедура тестирования онтологии.
1. Принципы разработки лингвистической онтологии в области естественных наук
Создаваемая лингвистическая онтология строится на сочетании трех различных традиций и методологий:
· методологии разработки информационно-поисковых тезаурусов [Z39.19, 1993];
· методологии разработки лингвистических ресурсов типа WordNet (Принстонский университет) [Miller et.al., 1990];
· методологии созданий формальных онтологий [Gomez-Perez et.al., 2000].
Поскольку предполагается работать с терминологией, большими предметными областями и свободными текстами, то важно использовать опыт разработки информационно-поисковых тезаурусов, а именно:
· информационно-поисковый контекст, то есть тестирование и применение в информационно-поисковых приложениях;
· единицы онтологии создаются на основе значений терминов;
· описание большого числа многословных выражений, принципы включения (невключения) многословных единиц;
· небольшой набор отношений между понятийными единицами.
Так как предполагается использовать онтологию в автоматическом режиме обработки текстов, то необходимо использовать методологию разработки лексических ресурсов типа WordNet [Miller et.al., 1990], в которой важны следующие положения:
· понятия онтологии создаются на основе значений реально существующих языковых выражений, терминов;
· многоступенчатое иерархическое построение лексико-терминологической системы понятий;
· принципы описания значений многозначных слов и выражений.
Из методологии разработки формальных онтологий важны следующие положения:
· разработка лингвистической онтологии как сети понятий, связанных иерархическими отношениями;
· использование для описания нетаксономических отношений понятий отношений онтологической зависимости, которые описывают зависимость существования понятия или примеров понятия от существования других понятий (примеров понятия). В [Лукашевич и др., 2004] показано, что применение таких отношений в лингвистическом ресурсе эффективно для решения задач информационного поиска;
· в качестве аксиом (правил вывода) использование свойств транзитивности и наследования таксономических отношений и транзитивности отношений онтологической зависимости.
Основной процедурой разработки такой лингвистической онтологии является следующая совокупность этапов. Прежде всего, создается большой корпус текстов, принадлежащий предметной области, для которой создается онтология. С помощью автоматизированных процедур из текста извлекаются значимые в предметной области слова и словосочетания. После этого с корпусом, а также со словарями предметной области начинают работать эксперты. Наконец, завершающим этапом разработки (пополнения и уточнения) онтологии является тестирование в конкретных приложениях в автоматических режимах обработки текстов.
Как показывает практика, в связи с многократно описанными проблемами получения знания от экспертов в предметной области [Гаврилова, 2001], наиболее эффективным является максимально полная разработка ресурса на основе анализа текстового корпуса экспертами по знаниям. Далее созданный проект ресурса предъявляется экспертам в предметной области, которые уже достаточно легко находят в нем возможные ошибки и неточности, могут объяснить, почему им не понравилось то или иное отношение.
2. Отправная точка
Авторы проекта ранее [Лукашевич и др., 1996] создали информационно-поисковый тезаурус для автоматического индексирования текстов в общественно-политической области (далее - Общественно-политический тезаурус), включающих более 32 тысяч понятий, 79 тысяч русскоязычных и 80 тысяч англоязычных текстовых входов.
Представляя собой по форме информационно-поисковый тезаурус, Общественно-политический тезаурус построен на основе формальных онтологических принципов. Это позволяет нам позиционировать его как лингвистическую онтологию для автоматической обработки документов в области общественно-политических отношений.
Создан [Добров и др., 1996], [Лукашевич и др., 1996] не только лингвистический ресурс, но и комплекс математического обеспечения (моделей, алгоритмов) и программного обеспечения (утилит, информационных систем). То есть создан полный технологический цикл от набора терминологии до реализации обеспечения функционирования информационно-аналитических систем различного назначения.
Общественно-политический тезаурус используется как лингвистический ресурс в таких задачах информационного поиска как автоматическое концептуальное индексирование, визуализация результатов поиска, автоматическая рубрикация документов, автоматическое аннотирование. лингвистическая онтология информационный поисковый
Для реализации обсуждаемого проекта наиболее важны созданные ранее технологии быстрого автоматизированного формирования терминологической базы по текстам, а также возможность использования уже существующего ресурса большого объема.
В общественно-политических текстах понятия общественных наук встречаются значительно чаще, чем понятия естественных наук, что находит свое отражение в составе Общественно-политического тезауруса. Тем не менее сфера естественных наук затрагивается в связи с обсуждением вопросов промышленности, нефтедобычи, медицины и т.п., поэтому соответствующая научная лексика и терминология неплохо представлена в тезаурусе, что позволило поставить задачу ее использования при создании нового ресурса.
3. Этапы разработки онтологии
Основной задачей при создании лингвистической онтологии большого размера силами небольшого коллектива является максимальное использование методов автоматизации, а также фрагментов ранее созданных лингвистических онтологий.
3.1 Предварительный автоматизированный этап формирования онтологии
Для каждой науки из рассматриваемого списка (математика, физика, химия, биология, геология) были сформированы коллекции документов (от 3000 до 8000 документов, от 50 до 90 Мб). Источником коллекций являлись документы, доступные в Интернет, следующих основных типов: материалы школьных уроков, рефераты, университетские лекции, материалы специализированных сайтов.
На собранной коллекции были проведены две различные процедуры извлечения терминопободных словосочетаний [Добров и др., 2003] и проведено сопоставление с Общественно-политическим тезаурусом.
Полученные списки терминов-кандидатов были собраны в единый список и упорядочены по частотности, после чего были выданы на проверку экспертам. Задачей экспертов на данном этапе являлось очистить списки от ошибок и общеупотребительных сочетаний, а также приписать каждое словосочетание к одной или нескольким наукам. В результате был получен список из 32 тысяч терминов-кандидатов.
Термины-кандидаты были загружены в оболочку ведения онтологии как понятийные единицы онтологии и снабжены отношениями к тем областям наук, которые были проставлены экспертами. Для тех терминов, которые были найдены в Общественно-политическом тезаурусе, были перенесены все вышестоящие понятия, синонимы и отношения.
Размер первой версии ресурса составил более 70 тысяч понятий.
После чего данные версии были выданы экспертам, ответственным за формирование фрагмента лингвистической онтологии по отдельным научным дисциплинам.
3.2 Методология работы экспертов по знаниям
Основными целями работы экспертов являются следующие:
· Изучая конкретные языковые выражения, их словарные определения, употребление в конкретных текстах определить, какому понятию соответствует значение данного языкового выражения. Если такое понятие уже существует, данное языковое выражение приписывается этому понятию. Для нового понятия создается отдельная единица в иерархической сети;
· Для каждого понятия по корпусу набирается максимально возможное число различных слов, выражений, значения которых соответствуют этому понятию. Такие языковые выражения называются текстовыми входами понятия или терминами онтологии.
· Для каждого понятия проводится анализ терминологических словарей и текстовых источников для выяснения его таксономических отношений и отношений онтологической зависимости. Поскольку эти отношения являются наиболее важными для широкого круга понятий, их часто можно выявить на основе анализа определений соответствующих терминов в терминологических словарях, употреблений в текстовых контекстах, сопоставления определений и текстовых контекстов.
В работе над онтологией эксперты используют совокупность различных источников. Базовым источником является созданный список понятий-кандидатов:
· эксперт может одобрить созданное понятие-кандидат,
· несколько понятий-кандидатов могут возникнуть на основе синонимичных терминов, тогда эксперт склеивает понятия-кандидаты в одно понятие;
· понятия-кандидаты могут быть представлять конкретные использования понятий в текстах и, таким образом, служить источником примеров и контрпримеров для понятийных описаний.
Описания (Рис. 1) делаются экспертами на основе профильных и общих энциклопедий, терминологических словарей. Вся информация, полученная из словарей, проверяется с использованием глобальных поисковых машин по документам, хранимым в сети Интернет.
Документы могут выявить неописанную многозначность термина, вышедшие из употребления термины, дополнительные текстовые входы для понятия, вариативность в определениях и т.п.
Важным направлением деятельности экспертов является обеспечение полноты покрытия терминологии областей, которое целесообразно осуществлять по уровням обучения. Для этого эксперты анализируют учебные программы средней школы и вузов.
Рис. 1. Рабочий экран системы ведения онтологии
4. Текущее состояние проекта
В настоящее время онтология включает 25 тысяч понятий, 60 тысяч терминов таких областей как математика, физика, химия, геология, биология. Покрытие химической и биологической терминологии в пределах средней школы полностью завершено. Размер биологической подонтологии будут зафиксирован на достигнутом уровне. Покрытие терминологии математики и физики в пределах школьной программы будет завершено в течение ближайшего года. После окончания работ с терминологией в рамках школьных программ эксперты начинают работать с программами по отраслям естественных наук (аналитическая химия, историческая геология и т.п.), проверяя полноту отражений терминологии в онтологии.
Рис 1. представляет рабочий экран системы ведения онтологии. В левом верхнем углу помещены понятия онтологии, в левом нижнем углу представлены текстовые входы для понятия, на котором установлен курсор АЗУРИТ (МИНЕРАЛ) - азурит, медная лазурь, медная синь. В правом верхнем углу показаны отношения этого понятия. Оно описывается как подкласс понятий карбонат меди, минерал меди, природные карбонаты. Правый нижний угол экрана представляет варианты текстовых входов для понятия КАРБОНАТ МЕДИ.
Видно, что экран отражает отношения между традиционно геологическими и химическими понятиями. Таким образом, отражение понятий, традиционно относящихся к разным наукам, в рамках единого ресурса дает возможность использовать для описания отношений понятий разных наук.
5. Тестирование онтологии
Онтология, предназначенная для автоматической обработки текстов должна, прежде всего, тестироваться на текстах соответствующих предметных областей.
Разработан специальный интерфейс, позволяющий изучать результаты автоматической обработки текстов на основе онтологии. Программа позволяет проанализировать:
· совокупность терминов, обнаруженных в тексте;
· терминологическую многозначность в тексте: многозначность (однозначность) термина, результаты разрешения многозначности;
· отношения между понятиями, выявленными в тексте;
· тематическую аннотацию текста - совокупность близких по смыслу понятий (тематические узлы), которые наиболее полно характеризуют содержание текста [Добров и др., 1996]. Просмотр такой аннотации, сопоставление ее с заголовком текста может выявить неправильно описанные отношения между понятиями, пропущенные отношения, неправильно разрешенную многозначность без подробного просмотра текста. Так, например, если в математической статье, посвященной обсуждению генетических алгоритмов, автоматически (на основе знаний онтологии) выделился крупный узел близких по смыслу терминов: методы оптимизации, метод приведенного градиента, метод имитации обжига, а сами генетические алгоритмы в этот узел не вошли, то эта неточность описаний онтологии видна с первого взгляда на тематическую аннотацию, построенную для данного текста;
· результаты автоматической рубрикации текста, могут быть подсвечены совокупности терминов, на основе которых выведена та или иная рубрика.
Заключение
В статье описаны основные принципы и современное состояние разработки лингвистической онтологии по естественным наукам и технологиям. Разработка онтологии базируется на сочетании подходов к разработке трех разных видов ресурсов: информационно-поисковых тезаурусов, ресурсов типа WordNet и формальных онтологий.
Сочетание этих трех традиций позволяет нам создавать сверхбольшие лингвистические онтологии для решения задач информационного поиска.
Список литературы
1. [Гаврилова, 2001] Гаврилова Т.А. Извлечение знаний: лингвистический аспект // Корпоративные системы. - 2001. - N10 (25), c.24-28.
2. [Добров и др., 1996] Добров Б.В., Лукашевич Н.В. Построение и использование тематического представления содержания документов // V национальная конференция с международным участием "Искусственный интеллект-96", Казань, 1996, Том I, C.130_134.
3. [Добров и др., 2003] Добров Б.В., Лукашевич Н.В., Сыромятников С. В., Формирование базы терминологических словосочетаний по текстам предметной области // Пятая Всероссийская научная конференция "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Санкт-Петербург, 28-31 октября 2003 г. - СПб.: СпбГУ - 2003. - С. 201-210.
4. [Лукашевич и др., 1996] Лукашевич Н.В., Салий А.Д. Тезаурус для автоматического рубрицирования и индексирования: разработка, структура, ведение // НТИ. Сер.2. - 1996. - N 1. - С. 1-6. 3.
5. [Лукашевич и др., 2004] Лукашевич Н. В, Добров Б.В. Отношения в онтологиях для решения задач информационного поиска в больших разнородных текстовых коллекциях // Девятая национальная конференция по искусственному интеллекту с международным участием КИИ_2004. Труды конференции. В 3-х т. - Т 2. - М.: Физматлит, 2004. - С. 544-551.
6. [Шемакин, 1974] Шемакин Ю.И. Тезаурус в автоматизированных системах управления и информации. - М: Военное изд-во министерства обороны СССР, 1974. - 192 с.
7. [Guarino, 1998] Guarino N. Formal Ontology and Information Systems // N. Guarino, editor, Proceedings of the 1st International Conference on Formal Ontologies in Information Systems, FOIS'98, Trento, Italy, pages 3-- 15. IOS Press, June 1998.
8. [Z39.19, 1993] Z39.19 - Guidelines for the Construction, Format and Management of Monolingual Thesauri. - NISO, 1993.
9. [Gomez-Perez et.al, 2000] Gomez-Perez A., Fernandez-Lopez M., Corcho O. OntoWeb. Technical Roadmap. D.1.1.2. - IST project IST-2000-29243.
10. [Miller et.al., 1990] Miller G., Beckwith R., Fellbaum C., Gross D. and Miller K., Five papers on WordNet. - CSL Report 43. Cognitive Science Laboratory, Princeton University, 1990.
11. [NASA Thesaurus, 1988] NASA Thesaurus. NASA, Scientific and Technical Information Branch. Springfield, VA: NTIS, 1988.
12. [Salton, 1989] Salton G., Automatic Text Processing - The Analysis, Transformation and Retrieval of Information by Computer. Addison-Wesley, Reading, MA, 1989.
13. [Voorhees, 1999] Voorhees E. Natural Language Processing and Information Retrieval. In M.T. Pazienza (ed.). - Information Extraction: Towards Scalable, Adaptable Systems, New York: Springer, 1999, pp. 32-48.
Размещено на Allbest.ru
...Подобные документы
Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Подходы к описанию отношений при разработке онтологий. Родовидовое отношение выше-ниже. Семантическое смещение. Формальная онтология. Сравнение поисковых механизмов.
презентация [721,9 K], добавлен 19.10.2013Отличительные особенности тезауруса для автоматического концептуального индексирования. Методы, используемые при формировании состава Общественно-политического тезауруса. Описание идеи алгоритма, основанного на учете структуры связного текста.
презентация [38,0 K], добавлен 01.09.2013Тезаурусы как инструмент для облегчения поиска языковых средств выражающих данное понятие. Виды, состав и структура тезауруса. Сущность информационно-поискового тезауруса по сохранности документов. Тезаурус терминов по морскому делу и парусному туризму.
контрольная работа [22,1 K], добавлен 01.07.2009Методы представления знаний заданной предметной области. Создание онтологии бортовых информационно управляющих систем автомобиля. Создание среды разработки и приложения для поиска в интернете с использованием онтологии. Проверка эффективности приложения.
презентация [1,6 M], добавлен 25.12.2014Методы машинного обучения в задачах рубрикации, положительные и отрицательные примеры. Отсечение по центрам тяжести и ближайшим соседям. Оптимальный линейный сепаратор Support Vector Machines. Особенности применения тезауруса. Расчет веса конъюнкции.
лекция [405,0 K], добавлен 01.09.2013Формализации в онтологии областей знаний с помощью концептуальной схемы. Определение атрибутов класса и свойств экземпляров. Создание экземпляров класса и DL-Query запросов. Методика использования для разработки онтологии среды разработки Protege.
курсовая работа [2,0 M], добавлен 18.06.2014Понятие интеллектуального пространства, объекты изучения в онтологии. Разработка Web-сайта на тему "Онтологии в информатике". Описание логической и физической структуры сайта, шаблон дизайна его страниц, тестирование. Исходный текст шаблона html-страницы.
курсовая работа [4,7 M], добавлен 14.07.2012Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.
курсовая работа [57,4 K], добавлен 17.04.2012Нечеткая лингвистическая переменная. Конструктивное описание лингвистической переменной. Структура управляющей логики в виде вычислений с откатами. Наиболее заметные тенденции в истории развития языка программирования Prolog, основные элементы синтаксиса.
контрольная работа [38,8 K], добавлен 17.05.2011Создание множества религиозных понятий и их определение. Преимущества использование платформы Protеgе. Разработка онтологии по предметной области "Буддизм" посредством компьютерной программы Protеgе 4.2.0. Представление онтологии в графическом виде.
курсовая работа [768,0 K], добавлен 18.08.2013Описание предпроектной (разработка технико-экономического обоснования) и проектной (создание технического и рабочего проекта) стадий разработки автоматической системы управления, ввод ее в эксплуатацию путем проведения монтажных и пусконаладочных работ.
реферат [28,0 K], добавлен 25.10.2010Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.
курсовая работа [3,4 M], добавлен 27.08.2017Тенденции ускорения цикла разработки: кодирование – тестирование – сборка – развертывание в разработке веб-приложений и программного обеспечения. Применение методологии "Continuous Integration" для автоматизированного выполнения сборки и развертывания.
статья [183,2 K], добавлен 10.12.2016Классификация информационно-управляющих систем, технологии их проектирования. Функциональное назначение модулей корпоративной ИУС, анализ современного состояния рынка в этой области, описание архитектуры. Методологии моделирования предметной области.
презентация [498,3 K], добавлен 14.10.2013Понятие тезаурусов, их классификация, назначение, принципы работы. Анализ языков программирования: HTML, Java, C++, Delphi. Создание предварительного проекта. Поэтапная разработка тезауруса. Тип семиотических средств, используемых для семантизации лексем.
курсовая работа [988,5 K], добавлен 25.12.2014Понятие и компоненты онтологии. Назначение и использование рубрикаторов в интернет-системах по товарам. Автоматическая рубрикация по товарам. Фрагмент описания рубрики "Автозапчасти". Проблемы пословного поиска в системе Ontoseek и средства их решения.
презентация [1,2 M], добавлен 01.09.2013История создания языков С и С++. Разработка буквенного меню, посредством которого реализуются функции информационно-поискового справочника "Терморезисторы". Определение структуры данных, защита программы от ввода пользователем некорректных параметров.
курсовая работа [18,3 K], добавлен 16.02.2012Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.
дипломная работа [3,0 M], добавлен 06.03.2012Рубрикация на специализированном интернет-сайте. Системы общего назначения. Автоматическая рубрикация по товарам. Лингвистические онтологии: WordNet, РуТез. Рубрикаторы интернет-систем по товарам. Поиск товаров "по смыслу" - использование таксономии.
лекция [1,2 M], добавлен 19.10.2013Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.
дипломная работа [3,5 M], добавлен 13.01.2015