Проект OntosMiner: воспоминания о будущем

Описание проекта OntosMiner. Анализ инструментальных средств для создания систем извлечения информации из текстов на различных естественных языках, разработанных в рамках проекта. Характеристика семейства соответствующих лингвистических процессоров.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 19.01.2018
Размер файла 225,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ПРОЕКТ ONTOSMINER: ВОСПОМИНАНИЯ О БУДУЩЕМ

И.В. Ефименко (Irina.Efimenko@avicomp.ru)

П.П. Жалыбин (Petr.Zhalybin@avicomp.ru)

С.Г. Минор (Sergey.Minor@avicomp.ru)

ЗАО «Авикомп Сервисез», Москва

А.С. Старостин (astarostin@abbyy.ru)

Компания ABBYY, Москва

В.Ф. Хорошевский (khor@ccas.ru)

Вычислительный центр им. А.А. Дородницына РАН, Москва

В работе дано ретроспективное описание проекта OntosMiner, обсуждаются инструментальные средства для создания систем извлечения информации из текстов на различных естественных языках, разработанные в рамках проекта, и реализация семейства соответствующих лингвистических процессоров. Представлены основные результаты проекта и анализ проблем в процессе его выполнения.

информация текст процессор лингвистический

Ключевые слова и выражения: проект OntosMiner, извлечение информации из текстов, семантизация контента, Semantic Web.

Введение

Начало работ по проекту OntosMiner датируется 2003 годом, когда российской IT-компанией ЗАО «Авикомп Сервисез» и швейцарской компанией Ontos был открыт инновационный проект по созданию прикладных систем извлечения информации из текстов.

В проекте, который получил название OntosMiner, а в последствии развился в комплексный проект Ontos, была поставлена задача разработки прикладных систем извлечения информации из текстов с характеристиками качества, удовлетворяющими требованиям практики, на базе создания промышленной технологии обработки ЕЯ-текстов.

За 7 лет своего существования проект OntosMiner прошел все стадии - от исследовательских прототипов до коммерчески значимых систем, а сформированный в рамках проекта коллектив получил признание как в нашей стране, так и за рубежом. Результаты по проекту OntosMiner неоднократно представлялись на таких IT-выставках, как CeBIT, а также европейских конференциях ESTC, ESWC и всемирных форумах SemTech За время существования проекта было опубликовано 37 статей, получено 2 патента, подготовлена глава в коллективную монографию, вышедшую в издательстве IN-TECH. Учитывая значительный объем библиографии по проекту OntosMiner, в данной статье приводятся лишь некоторые ссылки.

Целью работы является ретроспективное обсуждение проекта, анализ тех проблем, с которыми встретилась команда OntosMiner, и полученных результатов.

1. Становление проекта и первые результаты

Понимание того, что поставленная перед проектом задача, в силу своей наукоемкости, не под силу даже высокотехнологичным, но традиционным IT-компаниям, привело к тому, что для формирования проектного коллектива в качестве консультанта был приглашен В.Ф. Хорошевский из ВЦ РАН, а затем и другие специалисты из институтов РАН и МГУ. В разное время в работах по проекту OntosMiner принимали участие такие известные в нашей стране специалисты, как Н.В. Перцов и Н.Н. Перцова, Н.Н. Леонтьева, а основной костяк лингвистической команды OntosMiner, благодаря поддержке и вниманию А.Е. Кибрика, был сформирован из выпускников и аспирантов кафедры теоретической и прикладной лингвистики МГУ. В команду также вошли выпускники и аспиранты ВМиК МГУ и МФТИ. В результате был образован работоспособный коллектив программирующих лингвистов и достаточно глубоко понимающих проблемы компьютерной лингвистики системных программистов, к работам которых были также подключены специалисты по базам данных и другие IT-специалисты ЗАО «Авикомп Сервисез».

Опыт привлеченных к проекту специалистов, а также проведенный анализ состояния исследований и разработок показал, что основные усилия разработчиков во всем мире сосредоточены в области создания систем типа IE (Information Extraction) для обработки мультиязычных коллекций документов из различных источников в заданных предметных областях. С учетом вышесказанного проект OntosMiner был также сориентирован на создание семейства систем типа MIE (Multilingual Information Extraction).

При этом подход OntosMiner к обработке ЕЯ-текстов отличается от подходов большинства других исследовательских коллективов и коммерческих компаний, прежде всего, в следующем: в OntosMiner НЕ решается и даже НЕ ставится задача абсолютно полного и правильного анализа произвольных ЕЯ-текстов. Задача OntosMiner - не пропустить те конструкции, которые могут быть обработаны правильно и которые содержат информацию, релевантную для заданной предметной области, и не обрабатывать то, что пока правильно обработано быть не может. Такой подход, как показывает опыт, позволяет пользователям получать адекватное интегральное видение проблемы.

Следующим принципом, положенным в основу проекта OntosMiner, является принцип разработки и многоплатформенной реализации повторно используемых компонент, интеграция которых в рамках мощной инструментальной среды позволяет достаточно быстро проектировать и реализовывать коммерческие системы извлечения информации из ЕЯ_текстов в заданных предметных областях.

И, наконец, последним по счету, но не по важности является принцип использования для управления анализом ЕЯ-текстов моделей предметных областей, специфицированных в виде предметных онтологий.

Таким образом, основные требования, которые предъявляются к системам семейства OntosMiner, следующие:

Работа с мультиязычными коллекциями документов.

Обработка монотематических коллекций документов одной версией системы.

Достаточно полное и точное выделение из текстов основных объектов и отношений между ними в соответствии с предметной онтологией.

Представление результатов обработки в виде когнитивных карт, которые являются семантическими сетями специального вида.

Масштабируемость решений и многоплатформенность всех систем семейства.

С учетом перечисленных выше требований, а также с учетом понимания того, что разработка собственного инструментария «с нуля» была бы непозволительной роскошью, в качестве технологичесого базиса проекта OntosMiner была выбрана мощная многоплатформенная среда GATE (General Architecture for Text Engineering), созданная в Шеффилдском университете Великобритании [Cunningham et al., 2002] и распространяемая на условиях Open Source.

При этом уже на начальной стадии проекта OntosMiner были развернуты работы по развитию и модификации среды GATE. На первом этапе проекта эти работы велись в 3-х направлениях:

Модификация ядра среды GATE Компоненты ядра переданы Шеффилдскому университету и распространяются с релизом GATE 3.0. (разработка и реализация интерактивного отладчика для базового ЯПЗ Jape среды GATE; разработка собственного расширения ЯПЗ Jape (Jape+) и реализация компилятора с этого языка [Karasev et al., 2004]).

Модификация и расширение состава GATE-компонент (модификация базового модуля лексического форматирования входных текстов (Tokenizer); создание wrapper-ов для свободно распространяемых POS-модулей для французского и немецкого языков (POS Tagger); модификация блока русской морфологии С. Старостина и включение его в состав базовых обработчиков среды GATE (Morph); модификация базового блока словарей среды GATE для обработки структурных атрибутов (Gazetteer); разработка модуля генерации когнитивных карт (XML Generator)).

Разработка и реализация новых инструментальных компонент (создание системы Dix для формирования и сопровождения словарей терминов; создание системы LightOntos для спецификации предметных онтологий и визуализации когнитивных карт).

Одновременно с разработкой инструментария были развернуты работы по реализации новых ресурсов-обработчиков, например, модуля выделения из текстов предикатных конструкций (глаголов и аналитических глагольных форм).

Одним из первых прототипов систем извлечения информации из русскоязычных текстов, разработанных в рамках проекта OntosMiner, стала система анализа сводок об угонах автомобилей - OntosMiner/CarCrime [Khoroshevsky, 2003], а в 2004 году были начаты планомерные исследования и разработки по первым системам семейства OntosMiner, которые, с одной стороны, подтвердили правильность основных принципов, положенных в основу проекта, а с другой - показали необходимость вовлечения в процессы обработки текстов более мощных методов (по сравнению с т.н. shallow-методами [Engels et al., 2000]).

Практически значимыми результатами I этапа проекта OntosMiner можно считать формирование работоспособного коллектива, создание (на базе среды GATE) основы собственной технологической платформы обработки текстов, а также государственный заказ на создание прикладной системы извлечения информации из документов-сводок.

2. Формирование технологии и прикладные системы

На втором этапе (2005-2008 г.г.) проект OntosMiner развивался в следующих направлениях:

Формирование промышленной технологии извлечения информации из мультиязычных коллекций документов.

Расширение состава моделей предметных областей и спецификация соответствующих предметных онтологий с использованием стандартов W3C.

Развитие методов обработки ЕЯ-текстов, формирование методологии извлечения информации и методов интеграции полученных результатов в базах знаний, построенных на основе RDF-хранилищ.

Разработка прикладных систем в рамках государственных контрактов и инициативных проектов.

2.1 Промышленная технология обработки ЕЯ-информации

Формирование промышленной технологии извлечения информации из мультиязычных коллекций документов - закономерная стадия развития проекта OntosMiner, соответствующие работы выполнялись в рамках Госконтракта ЗАО «Авикомп Сервисез» с Федеральным Агентством по Науке и Инновациям РФ в 2007-2009 г.г. ОКР «Разработка технологий извлечения данных и анализа текстовых информационных ресурсов на различных естественных языках для информационно-аналитических систем нового поколения в глобальных и локальных информационных сетях».

Детальное обсуждение этого масштабного проекта с ФАНИ выходит за рамки настоящей работы. Поэтому здесь отметим лишь следующее: успешная его реализация позволила развернуть на базе РНЦ «Курчатовский институт» программно-технический комплекс из более чем 40 физических серверов и дисковых систем хранения, функционирующих в среде распределенных GRID-вычислений, который позволяет обрабатывать до 15000 док/час при объёме документа до 10К, поддерживает формирование БЗ для таких предметных областей, как политика и бизнес, нанотехнологии, медицина и др., хранит не менее 10млн. документов для одной предметной области с объемами БЗ не менее 1млрд. фактов БЗ, обеспечивает режим работы 24х7х365 и поддерживает до 10000 конкурентных сессий пользователей.

2.2 Инструментарий онтологического инжиниринга

Онтологический подход к проектированию систем семейства OntosMiner стимулировал, на втором этапе развития проекта, создание собственного инструментария онтологического инжиниринга, одним из основных функционалов которого является поддержка онтологических словарей. При этом словарные входы до погружения в БЗ обрабатываются диалоговым модулем синтаксического анализа словосочетаний [Старостин и др., 2010], а результаты обработки всех словарных статей, после «утверждения» пользователем, компилируются в эффективный автомат, который подключается в качестве словарного ресурса к соответствующим системам семейства OntosMiner на этапе исполнения.

2.3 Предметные онтологии

На втором этапе развития проекта OntosMiner в рамках нескольких заказных и инвестиционных НИОКР были, в частности, разработаны предметные онтологии «Политика и Бизнес» (русская и английская версии), «Фармацевтика» (русская версия), «Anti money laundering» и «Homeland Security» (английская и немецкая версии), «Нанотехнологии» (русская и английская версии), «Незримые коллективы» (кросс-языковая версия) и др.

2.4 Лингвистические процессоры семейства OntosMiner

На втором этапе выполнения проекта внимание разработчиков было сфокусировано и на лингвистических процессорах семейства OntosMiner, общая архитектура которых представлена на рис. 1.

Рис. 1. Архитектура систем семейства OntosMiner

В данной архитектуре задействованы как классические модули систем типа IE (Tokenizer, MorphTagger, Gazetteer, NE-extractor), так и такие «нетипичные» и/или новые для этого класса систем модули, как Parser, Minimizer, Coreferencer, Semantic Tagger и Triples Converter.

Parser играет в структуре систем семейства OntosMiner роль модуля, обеспечивающего выполнение частичного синтаксического анализа в объеме, продиктованном требованиями практики.

Основной задачей модуля Minimizer является разрешение неоднозначностей на выходе модуля NE-extractor. Для этого используется достаточно сложная система весов и правил, которые их учитывают.

Как известно [Orasan et al., 2008], автоматический анализ кореферентных и анафорических связей является одной из самых сложных проблем современной прикладной лингвистики, которая до настоящего времени не имеет полного решения. Поэтому в системах семейства OntosMiner модуль Coreferencer решает несколько практически важных, но частных задач. Это обработка наиболее частотных случаев местоименной анафоры и простейших эллипсисов, а также установление кореферентных связей между именованными сущностями с использованием как лингвистических правил, так и статистических методов.

Принципиально новым для IE-систем модулем в системах семейства OntosMiner является модуль Semantic Tagger. На уровне этого модуля из обрабатываемого текста под управлением предметной онтологии с помощью системы семантико-синтаксических правил извлекаются отношения между именованными сущностями и атрибуты этих отношений, что соответствует связям между объектами и событиям реального мира.

Новым для IE-систем модулем является и модуль Triples Converter, поскольку в классических системах его простейшую функцию - вывод результатов обработки - берет на себя инструментальная среда. В нашем случае этого недостаточно, и в системах семейства OntosMiner Triples Converter не только конвертирует результаты обработки текста во внешнее представление в соответствии со стандартами W3C, но и осуществляет отображение их на внешние предметные онтологии, что позволяет использовать единое внутреннее представление для разных языков (русский, английский, немецкий и др.).

2.5 Прикладные системы обработки текстов

Реализация прикладных систем обработки больших коллекций документов выполнялась специалистами команды OntosMiner и других подразделений ЗАО «Авикомп Сервисез» как в рамках госконтрактов с различными министерствами и ведомствами РФ, так и по инициативным проектам самой компании. Ниже представлены результаты по одному из проектов, поскольку на публикацию материалов по некоторым госконтрактам имеются определенные ограничения.

2.5.1 Информационно-аналитическая система NanoTrack разработана в рамках пилотного проекта с госкорпорацией «Роснанотех». Основные задачи, которые стояли перед разработчиками в этом проекте, - следующие: семантическая обработка разнородной информации из области нанотехнологий, ее интеграция в БЗ, реализованной в соответствии со стандартами W3C, использование концепции SemanticWiki для представления результатов, а также предоставление пользователям набора аналитических сервисов. В системе представлены следующие основные разделы: мониторинг новостей в области нанотехнологий, профили экспертов и центров компетенции, «скрытые коллективы» исследователей, wiki-страницы по продуктам наноиндустрии, патентный анализ, семантическая ГИС (гео-информационная система), навигация по графу базы знаний, мониторинг хода финансирования международных проектов и др. (рис. 2).

Рис. 2. Web-сервисы информационно-аналитической системы NanoTrack

Все разделы работают с БЗ, которая строится на результатах работы систем семейства OntosMiner. Сформированная БЗ используется для семантической навигации по информационным источникам, а также для генерации wiki-статей и аналитики на знаниях.

3. Текущее состояние и уроки проекта

На текущем этапе развития проекта OntosMiner основные усилия разработчиков концентрируются на решении следующих задач:

Переход процессоров семейства на новую версию ЯПЗ - Jape4, основные отличия которого от ЯПЗ Jape+ состоят в смещении парадигмы языка от продукционной к объектно-ориентированной, существенно более мощных средствах задания образцов в левых частях правил и повышении уровня спецификации алгоритмов преобразования в правых частях правил.

Уход от концепции бинарных отношений к концепции событий в представлении смысла обрабатываемых текстов.

Активное использование статистических методов обработки текстов и интеграция их в систему правил для построения гибридных систем извлечения информации.

Использование энциклопедических знаний для повышения точности и полноты извлечения информации, а также повышения качества идентификации объектов, полученных на коллекциях документов.

В дополнение к перечисленным научно-техническим задачам командой OntosMiner осуществляется разработка MIE-систем для новых предметных областей и, в частности, оценки тональности документов, а также поддержка активностей комплексного проекта Ontos по реализации решений для Semantic Web и прикладных аналитических сервисов.

К основным урокам проекта можно отнести понимание сложности формирования, сохранения и гармоничного развития междисциплинарной высоко квалифицированной команды, а также противоречий между фундаментальным характером стоящих перед проектом проблем и прессингом рынка в части быстрого получения коммерчески значимых результатов.

Благодарности. Авторы считают своим долгом поблагодарить руководство компаний ЗАО «Авикомп Сервисез» и Ontos за многолетнее финансирование проекта, а также всех членов команды OntosMiner и проекта Ontos за плодотворное сотрудничество.

Список литературы

[Старостин и др., 2010] Старостин А.С., Арефьев Н.В., Мальковский М.Г. Синтаксический анализатор «TreeVial». принцип динамического ранжирования гипотез. Сб. Трудов международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2010». (Бекасово, 26-30 мая 2010 г.).

[Хорошевский, 2004] Хорошевский В.Ф. OntosMiner: семейство систем извлечения информации из мультиязычных коллекций документов. Труды конференции КИИ-2004. - Тверь, 2004.

[Cunningham et al., 2002] Cunningham, H., Maynard D., Bontcheva K., Tablan V., GATE: an Architecture for Development of Robust HLT Applications, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002.

[Efimenko et al., 2009] Efimenko I., Minor S., Starostin A., Drobyazko G., Khoroshevsky V., Generating Semantic Content for the Next Generation Web, Chapter in Monograph “Semantic Web”, Publisher IN-TECH, 2009, ISBN 978-953-7619-33-6.

[Engels et al., 2000] Engels R., Bremdal B. Information Extraction: State-of-the-Art Report, CognIT a.s., Asker, Norway, 2000.

[Karasev et al., 2004] Karasev V., Khoroshevsky V.F., Shafirin A., New Flexible KRL JAPE+: Development & Implementation, In Proc. of Joint Conference on Knowledge-Based Software Engineering 2004, JCKBSE-2004, 24-27 August 2004, Protvino, Russia.

[Khoroshevsky, 2003] Khoroshevsky V. F., Shallow Ontology-Driven Information Extraction from Russian Texts with GATE, In: Proc. International Workshop “Information Extraction for Slavonic and Other Central and Eastern European Languages”, IESL-2003, Borovec, Bulgaria, 2003.

[Khoroshevsky, 2009] Khoroshevsky V. F., Ontology Driven Multilingual Information Extraction and Intelligent Analytics, In: Proc. of NATO Advanced Research Workshop on Web Intelligence and Security, November 18-20, 2009 in Ein-Bokek, Israel, 2009.

[Orasan et al., 2008] Orasan, C., Cristea, D., Mitkov, R. and Branco, A. Anaphora Resolution Exercise - an overview. Proceedings of 6th Language Resources and Evaluation Conference (LREC2008), Marrakesh, Morocco, 28 - 30 May 2008.

Размещено на Allbest.ru

...

Подобные документы

  • Значение диалектизмов, профессионализмов, жаргонизмов, слов с книжной и разговорной окраской. Анализ текстов разных стилей. Библиографическое описание книги, статьи, документа. Составление аннотации и рецензии. Примеры употребления фразеологизмов.

    контрольная работа [39,1 K], добавлен 25.10.2013

  • Характеристика научно-популярных лингвистических текстов с различных позиций. Описание семантических особенностей художественных сравнений. Определение грамматических способов выражения сравнений. Характеристика функций художественных сравнений.

    контрольная работа [35,7 K], добавлен 05.08.2010

  • Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.

    дипломная работа [4,4 M], добавлен 14.02.2013

  • Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.

    курсовая работа [46,9 K], добавлен 22.05.2015

  • Сопоставительный анализ универсальных характеристик, национально-культурных особенностей фразеосемантического поля соматизмов в английском и русском языках; понятия "теория лингвистических полей". Анализ фразеологических единиц с составными компонентами.

    дипломная работа [132,6 K], добавлен 14.06.2011

  • Теоретическое исследование вопроса перевода многозначных слов на примере газетных текстов. Многозначные слова в русском и английском языках. Особенности газетно-информационных текстов. Изучение закономерных соответствий между конкретными парами языков.

    дипломная работа [142,1 K], добавлен 06.06.2015

  • Анализ особенностей морфологической и синтаксической структур новых лингвистических единиц, характеризующих интернет-грамматику речи интернет-сообщений на материале текстов, выбранных из немецких социальных сетей. Примеры лингвистических новообразований.

    курсовая работа [954,7 K], добавлен 31.10.2014

  • Лингвостилистические свойства языка немецких средств массовой информации. Изменения словарного состава речи. Заимствования с точки зрения лексической структуры. Анализ классификации неологизмов. Лексико-стилистический анализ информативных медиа-текстов.

    дипломная работа [98,0 K], добавлен 26.07.2017

  • Описание профессии учителя с использованием стилистических средств разговорного, официально-делового, научного и публицистического жанров. Содержательно-логический анализ текстов: ситуация общения, языковые средства, определение стиля и речевого жанра.

    контрольная работа [19,5 K], добавлен 18.08.2011

  • Стилистика как наука, ее место в ряду лингвистических дисциплин. Общая характеристика стилей текстов и классификация стилистических ошибок в русском языке. Особенности публицистического стиля. Исследование молодежных журналов и их читательской аудитории.

    курсовая работа [40,5 K], добавлен 22.11.2010

  • Смысловой объем концепта "труд" в русском и французском языках, выявление специфики его языкового выражения с использованием данных энциклопедических и лингвистических словарей. Понятийно-дефиниционные и коннотативные, ассоциативные характеристики.

    реферат [22,3 K], добавлен 06.09.2009

  • Классификация рекламных текстов. Стилистическое средство как способ передачи выразительности. Методы передачи средств экспрессивности в рекламном тексте. Типология стилистических средств. Анализ перевода английских рекламных текстов на русский язык.

    дипломная работа [77,5 K], добавлен 13.04.2015

  • Категория модальности, роль в предложении. Анализ текстов различных стилей на наличие в них средств выражения предположения и установления их разнообразия. Методика установления соотношения средств выражения предположения в текстах различных стилей.

    курсовая работа [48,7 K], добавлен 21.11.2010

  • Характеристика семантики зооморфизмов. Функционирование зооморфизмов в германских языках. Функционирование зооморфизмов во фразеологии английского языка. Функционирование зооморфизмов в славянских языках. Зооморфизмы в русском, белорусском языках.

    дипломная работа [138,4 K], добавлен 31.08.2008

  • Грамматическая категория вида и времени, ее особенности в английском и в русском языках. Общая характеристика видо-временных форм настоящего, прошедшего и будущего времени. Сравнительный анализ системы глагольных времён в русском и английском языках.

    курсовая работа [82,0 K], добавлен 24.05.2013

  • Понятие и функции медиадискурса. Приемы актуализации информации в новостном интернет-дискурсе. Сходства и различия в использовании лингвистических средств выдвижения информации в англоязычных и русскоязычных интернет-публикациях, их языковые особенности.

    дипломная работа [84,9 K], добавлен 03.07.2013

  • Анализ различных подходов к определению категории модальности, существующих в лингвистике. Исследование способов выражения модальности в английском и русском языках. Обзор особенностей употребления модальных слов, глаголов, частиц, семантики наклонения.

    курсовая работа [716,6 K], добавлен 13.06.2012

  • Общая характеристика междометий как особой части речи в системе языка. Ознакомление с часто употребляемыми междометиями в итальянском и русском языках, их делением на группы. Особенности, контекстуальные значения. Сравнение полученной информации.

    курсовая работа [39,6 K], добавлен 17.12.2014

  • Исследование семантических группировок в рамках классической и когнитивной лингвистики. Принципы построения лексико-семантического поля. Построение и сравнительный анализ лексико-семантических полей "свобода" и "freedom" в русском и английском языках.

    дипломная работа [978,4 K], добавлен 25.03.2011

  • Определения ассимиляции германистами и русистами. Порядок слов как одно из средств выражения коммуникативного членения предложения. Анализ основных исследований в русле ассимиляционных процессов. Анализ типов ассимиляции в русском и немецком языках.

    курсовая работа [49,2 K], добавлен 16.04.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.