Инструментальные средства для автоматизированного формирования баз знаний
Экспериментальные результаты подхода, ориентированного в основном на фундаментальные аспекты проблемы обработки естественного языка. Автоматизация процесса формирования баз знаний путем сканирования соответствующих текстов на естественном языке.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 18.01.2018 |
Размер файла | 58,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Инструментальные средства для автоматизированного формирования баз знаний
Курбатов С.С., к.т.н., ведущий научный сотрудник
НИЦЭВТ
Москва
Введение
естественный язык сканирование текст
В данной статье описываются экспериментальные результаты подхода, ориентированного в основном на фундаментальные аспекты проблемы обработки естественного языка. Отмечаются прикладные аспекты современных исследований данной проблемы и позиционирование развиваемого подхода в контексте этих исследований. Подход предполагает автоматизацию процесса формирования и сопровождения баз знаний по произвольным предметным областям путем сканирования соответствующих текстов на естественном языке.
В настоящее время акцент в автоматической обработке естественного языка (ЕЯ) переместился от задач машинного перевода и систем общения с ЭВМ (в частности ЕЯ-интерфейсов к базам данных) к задачам структуризации больших объемов текстовой информации. Одна из основных целей анализа такой информации - высокорелевантный поиск в сети Интернет и представление неструктурированной текстовой информации из сети Интернет в структурированном виде, позволяющем осуществить последующую обработку (в частности оперативный анализ - OLAP и интеллектуальный анализ - Data Mining) для систем принятия решений.
Экспресс-анализ данной проблемы приведен в [1], где кратко охарактеризованы некоторые из наиболее продвинутых разработок в данном направлении: Fact Extractor, ConExt, Excalibur [2,3]. Из года в год подчеркивается актуальность проблемы анализа больших объемов текстовой информации из глобальной сети в связи с постоянным ростом объемов информации не только в Интернет, но и в масштабе отдельных организаций. Аналитические отделы как в государственных учреждениях (например, ФАПСИ), так и в крупных коммерческих структурах ежедневно получают десятки мегабайт текстовой информации (например, из СМИ). По этой информации достаточно оперативно (обычно также ежедневно) аналитики представляют руководству обобщенные сводки, в концентрированном виде отображающие суть текстов.
Автоматизация анализа позволяет существенно облегчить задачу аналитика и такие системы были разработаны и используются по настоящее время, но их качество уже не удовлетворяет пользователей по мере роста объемов текстов. Кроме того, c появлением систем извлечения знаний (Data Mining) аналитика интересуют автоматически выявляемые скрытые закономерности в данных. Однако системы Data Mining работают со структурированной информацией (в базах данных, точнее в хранилищах данных - Data Warehouse). Поэтому помимо получения оперативных сводок по массивам текстов, результат автоматического анализа целесообразно представить в структурированном виде и далее использовать средства извлечения знаний. OLAP-технология (оперативный анализ данных) также работает лишь со структурированной информацией и, следовательно, результаты анализа больших объемов текстовой информации целесообразно использовать и для нее.
В обзоре [1] отмечено, что результаты анализа полученной структурированной семантически значимой информации помогают решению общих задач в сферах политики и экономики, а именно
в политике: общие тенденции развития политической ситуации; выявление реальных намерений политиков; выявление специфики потенциально-опасных ситуаций.
в экономике: конкурентный анализ; информационная разведка; управление репутацией; изучение отраслевого рынка; оперативный мониторинг; выявление критических новостей.
При впечатляющем обилии систем для анализа больших объемов текстовой информации проблема семантической структуризации выявила ряд трудностей, которые пока далеки от удовлетворительного решения, в частности:
- использование единого информационного пространства взаимосвязанных фактов или гипотез вне зависимости от типа содержимого источников информации;
- связь фактов или гипотез с релевантными источниками информации, то есть аргументированность фактов и гипотез;
- применение исторически-пространственной информационной модели баз данных фактов и гипотез;
- преобразования различных форм представления знаний;
- понятийный разрыв между результатами работы систем типа Knowledge Discovery и Data Mining и входом систем поддержки принятия решений;
- возможность тиражирования онтологий.
На уровне коммерческих приложений разрабатываются инструментальные программные средства для преодоления указанных трудностей. Особый интерес представляет язык OWL (Ontology Web Language), разработанный с целью описания и представления объектов в Семантической Сети на более высоком уровне, чем средства XML и RDF. В обзоре [1] отмечено, что OWL включает ряд интересных особенностей (логический вывод, развитые средства работы с онтологиями, в частности с их версиями; поддержку теоретико-множественных операций; организацию иерархий, как классов, так и свойств), однако вопрос о преодолении в реализациях языка недостатков, присущих внутренним механизмам логического программирования, остается открытым.
Общая характеристика подхода
Развиваемый подход ориентирован на частичное преодоление вышеперечисленных трудностей с акцентом на фундаментальную проработку вопросов автоматического формирования и сопровождения баз знаний. Подход предполагает «раскрутку» базы знаний с помощью разработки некоторого фундаментального концептуального ядра и сервисов, позволяющих путем сканирования произвольных ЕЯ-текстов строить предположения о взаимосвязи ЕЯ-объектов и структур ядра, а также искать для них подтверждения (опровержения). Стиль такой раскрутки намечен в работах [4,5].
Ядро должно включать априорную базу знаний с понятиями и отношениями высокого уровня (время, пространство, материальный объект, абстрактный объект и т.п.). Дополнительно априорная база включает базисные знания о естественном языке (в основном, на уровне морфологии).
В качестве корпусов текстов первоначально были взяты ЕЯ-описания объектов реляционной СУБД в предметной области «Розничная торговля» (РТ), далее корпус был существенно расширен текстами из Большой Советской Энциклопедии (БСЭ). Выбор БСЭ мотивировался следующим:
- энциклопедия обеспечивает разнообразие и полноту знаний (разумеется, с учетом ограничений объема, хронологии и политической ангажированности);
- энциклопедический текст обладает естественной структурированностью (входы и статьи).
ЕЯ-описания из РТ были относительно специализированы, они включали описания товаров (с развитой иерархией), наименования торговых предприятий и поставщиков, описания бизнес-процессов и т.д. Априорная база знаний для данной области включала абстрактные объекты, ориентированные на реляционную СУБД: <таблица>, <атрибут>, <значение>, <первичный ключ>, <внешний ключ> и т.п.
На первом этапе были разработаны механизм и эвристики, позволяющие автоматически выдвигать предположения о морфологических и синтаксических характеристиках словоформ из области РТ. Далее для этих предположений путем сканирования разнообразных ЕЯ-текстов отыскивались контексты, увеличивающие (или уменьшающие) правдоподобие предположений.
Далее была разработана логика анализа схемы и содержимого СУБД, позволяющая выдвигать предположения, как о связях объектов реляционной базы, так и о ЕЯ-описаниях этих объектов.
На втором этапе были разработаны механизм и эвристики для автоматического выдвижения предположений о иерархии понятий в БСЭ и разработаны структуры для представления ряда высокоуровневых объектов априорной базы знаний. Общая логика построения такой иерархии предполагает выделение понятия (именной группы), описывающей вход в статью и поиск этого понятия как нового входа. В случае удачи процесс поиска повторяется до тех пор, пока либо не удается найти вход, либо вход уже использовался ранее.
Эксперимент
В рамках подхода был разработан комплекс программных средств (КПС), в экспериментальном варианте реализующих вышеописанную логику и обеспечивающих исследователю удобную для экспериментов среду. КПС позволяет в автоматизированном режиме строить предположения о морфологических, синтаксических и примитивных семантических характеристиках незнакомых слов, исходя из контекста и соответствующих эвристик. КПС объясняет исследователю свои предположения, предъявляя контексты и использованные эвристики. Типичный пример эвристики для выдвижения предположения, что некоторая словоформа является существительным: ЕСЛИ два слова стоят рядом И первое слово - прилагательное И слова согласуются в роде, числе и падеже, ТО можно предположить, что второе слово - существительное. Более детально вопросы формирования такого рода предположений и их верификации приведены в [7].
Первоначально автоматическое получение свойств естественно-языковых (ЕЯ) объектов было ориентировано на построение ЕЯ-интерфейса к реляционным базам данных [4]. При этом семантика задавалась в основном элементами реляционной СУБД (таблицы, атрибуты, первичные ключи и т.д.) и контрукциями языка SQL. Постулировалось, что ЕЯ-описание имеет смысл, если оно может быть формализовано в виде корректного SQL-текста. Инструментальные программные средства использовали схему реляционной СУБД и ее содержимое как исходные данные для автоматизированного формирования ЕЯ-интерфейса. Иерархические отношения при этом определялись иерархиями сущностей, задаваемых объектами СУБД.
В дальнейшем подход в качестве основного корпуса текстов, на которых проводились эксперименты, были выбраны статьи Большой Советской Энциклопедии (БСЭ). Статьи БСЭ рассматривались как эталонный источник знаний (неявных для КПС). Суть работы КПС - сделать эти знания явными, не дублируя их в базе знаний, а создавая компактную концептуальную надстройку. В процессе экспериментов среди всех словоформ БСЭ были автоматически выявлены предполагаемые существительные и прилагательные. На основе этих предположений выполнялось выявление именных групп, описывающих вход в статьи БСЭ. Далее формировались предположения об элементах иерархии статей в соответствии с общей логикой, намеченной в разделе 2.
Автоматически выявленные понятия на высшем уровне иерархии предполагается связать с понятиями априорных знаний обычным редактированием. Эксперимент показал интересные (с учетом морфологических ошибок КПС и трудностями текстов реальной сложности) результаты при автоматическом построении иерархии, выявленные ошибки позволили существенно уточнить и дополнить используемые эвристики.
Развиваемый подход использует комбинированную схему представления знаний: семантическую сеть и реляционную СУБД (Progress 9). Эксперименты позволили выявить не только преимущества, но и ряд слабых звеньев используемого представления (в основном, технического, а не идейного характера). В силу этого основные усилия в настоящее время направлены как на усовершенствование программных компонент, так и на дальнейшую углубленную проработку фундаментальных вопросов представления знаний (в частности, онтологий). Направление такой проработки намечено в [7].
Заключение
Описанные результаты носят экспериментальный характер, однако они могут быть полезны не только для выбора направления дальнейших НИР и ОКР, но и для прикладных разработок. Механизмы автоматического формирования базы знаний могут резко снизить трудоемкость, как создания базы, так и ее сопровождения. Концепция априорной базы с понятиями очень высокого уровня может послужить целям разработки соответствующих стандартов представления знаний. На рис. 1 приведена общая схема обработки текстов больших объемов для систем принятия решений и намечено место развиваемого подхода в рамках этой схемы. На рисунке подчеркнутым курсивом отмечены фрагменты, где использование результатов подхода представляется перспективным. Глобальная сеть как источник информации объединяет данные, доступные по Интернет, данные СМИ, корпоративные данные и т.п.
Системы, формирующие структурные данные из текстов глобальной сети (например, ConExt, FactExtractor, Uima), условно названы “структуризатором”. В процессе обработки структуризатор существенно использует базу знаний. Структуризаторы могут формировать результаты как в виде таблиц реляционной базы, так в виде семантической сети. Если достаточно таблиц или семантической сети, то ЛПР получает аналитическую информацию с помощью интерфейса к базе знаний или стандартного интерфейса к СУБД. Если требуется более глубокий анализ, то из семантической сети информация также отображается в таблицы базы данных (например, в системе UIMA это выполняется с помощью сервисов SUKI[1]). Далее из структурированных в таблицах данных извлекается аналитическая информация (технологии Data Mining и OLAP), поступающая для ЛПР.
Возможное использование результатов подхода отражено на схеме фрагментами “Инструментальные средства для автоматизированного построения и сопровождения базы знаний” и “Естественно-языковый интерфейс”. Первый фрагмент ориентирован на формирование онтологий, обладающих как концептами максимально высокого уровня, программно поддержанных соответствующей аксиоматикой, так и механизмами автоматического пополнения иерархии концептов путем сканирования произвольных ЕЯ-текстов. Второй фрагмент ориентирован на доступ к структурированной на предшествующем этапе информации, представленной либо в реляционной СУБД, либо в некоторой семантической сети.
Рис. 1. Общая схема обработки больших объемов текстовой информации для ЛПР
Литература
1. Курбатов С.С., html-страница - http://eia--dostup.ru/exp_anal.htm.
2. А.В.Нечипоренко, А.О. Русин Система автоматизированного извлечения знаний из текстов на естественном языке. Международная конференция «Информационные системы и технологии», Новосибирск, Россия,
3. Чибисов А. Поисковые возможности Excalibur RetrievalWare// Открытые системы. - 1996. - №5.
4. Курбатов С.С., Автоматический анализ схемы и данных реляционных баз// Новости искусственного интеллекта. - 2004. - № 1. - С.77-81.
5. Курбатов С.С., Априорная модель данных в реляционных базах// Новости искусственного интеллекта. - 2004. - № 1. - С.77-81.
6. Гринева М., Гринев М., Лизоркин Д. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов// Труды Института системного программирования РАН.
7. Курбатов С.С., html-страница - http://eia--dostup.ru/ head_doc_01.htm.
Размещено на Allbest.ru
...Подобные документы
Разработка и внедрение автоматизированного комплекса проверки знаний, позволяющего производить одновременный контроль знаний до 127 рабочих мест. Система сбора и обработки информации на основе локальной микросети на базе микропроцессорных контроллеров.
курсовая работа [37,2 K], добавлен 23.12.2012Понятие компетентностно-ориентированного обучения. Традиционные методы проверки знаний. Проблемы в оценивании компетентности. Современные контрольно-оценочные средства: адаптивное тестирование, катенатест, контекстная задача, междисциплинарный экзамен.
курсовая работа [1,9 M], добавлен 22.06.2014Общая характеристика объектно-ориентированного подхода в программировании, его основные свойства и принципы. Разработка программы для автоматизация деятельности кафе на основе объектно-ориентированного подхода, проектирования и реализации схемы данных.
курсовая работа [1,2 M], добавлен 22.01.2012База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.
презентация [51,3 K], добавлен 17.10.2013Особенности разработки системы автоматизированного контроля знаний специалистов по дефектоскопии. Обзор автоматизированных систем обучения и контроля знаний. Психологические механизмы усвоения знаний. Принципы создания эффективной тестирующей программы.
дипломная работа [1,8 M], добавлен 30.08.2010Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.
курсовая работа [33,1 K], добавлен 21.07.2012Сетевая система контроля знаний студентов на основе объектно-ориентированного подхода. Выбор программно-технических средств для реализации проекта. Алгоритмическое и программное обеспечение, интерфейс пользователя. Разработка элементов базы данных.
дипломная работа [1,3 M], добавлен 04.02.2013Понятия, классификация и структура экспертных систем. Базы знаний и модели представления знаний. Механизмы логического вывода. Инструментальные средства проектирования и разработки экспертных систем. Предметная область ЭС "Выбор мобильного телефона".
курсовая работа [2,2 M], добавлен 05.11.2014Определения знаний и приобретения знаний человеком. Виды знаний и способы их представления. Приобретение и извлечение знаний. Визуальное проектирование баз знаний как инструмент обучения. Программное обеспечение для проведения лабораторных работ.
дипломная работа [960,9 K], добавлен 12.12.2008Моделирование разработки системы тестирования остаточных знаний на основе компетентностного подхода с помощью нескольких этапов: моделирование бизнес-процесса, планирование работ, UML-моделирование, моделирование данных логического и физического уровня.
курсовая работа [2,2 M], добавлен 14.12.2012Программные системы искусственного интеллекта, экспертные системы как их разновидность. Автоматизированное формирование баз знаний в формате CLIPS на основе анализа баз данных СУБД Cache. Программные средства и технологии. Описание программной системы.
дипломная работа [5,1 M], добавлен 25.05.2012Анализ современных концепций построения сайтов онлайн-тестирования. Разработка автоматизированного тестирующего комплекса – обучающего Web-приложения, позволяющего проводить контроль уровня знаний математики с применением языка программирования Php.
дипломная работа [865,8 K], добавлен 24.06.2013Разработка программы автоматизации процесса проверки знаний учащихся. Использование языка программирования Borland Delphi 7.0, его свойства, компоненты для работы со строками. Создание обучающих тестов на знание лексики и грамматики английского языка.
курсовая работа [521,0 K], добавлен 06.03.2016Использование информационных технологий в учебном процессе. Тестирование как средство контроля знаний. Разработка компьютерной системы тестирования знаний. Описание языка программирования. Вредные факторы воздействия компьютера на здоровье человека.
дипломная работа [562,2 K], добавлен 06.06.2014Задача обработки естественного языка при помощи ЭВМ с каждым днем становится все актуальней и актуальней. Развитие научно-технического прогресса во всем мире привело к тому, что объем новой информации постоянно растет с увеличивающейся скоростью.
реферат [13,0 K], добавлен 26.11.2004Исследование принципов объектно-ориентированного программирования на базе языка программирования С++. Разработка программного комплекса для ведения учёта памятников города. Описание процессов сортировки, поиска, формирования статистики по памятникам.
курсовая работа [782,4 K], добавлен 26.05.2014Классы и группы моделей представления знаний. Состав продукционной системы. Классификация моделей представления знаний. Программные средства для реализации семантических сетей. Участок сети причинно-следственных связей. Достоинства продукционной модели.
презентация [380,4 K], добавлен 14.08.2013Возможности автоматизации в сфере бытового обслуживания, в частности в фотоателье. Автоматизация работы с клиентами. Апробации возможностей языка SQL. Реализация информационной системы, создание программы средствами объектно-ориентированного языка Delphi.
курсовая работа [28,5 K], добавлен 30.11.2009Проблемы автоматизации учета технического состояния ПК в аудиториях учебного заведения. Структура базы данных. Обоснование выбора языка программирования. Создание программного средства на языке Object Pascal с использованием среды разработки Delphi 7.0.
курсовая работа [1,5 M], добавлен 28.08.2012Построение графа связей фактов и определение структуры базы знаний. Описание функций инициализации и констатации фактов, входных и выходных данных. Операции, направленные на занесение фактов и действий в базу знаний. Итоговое представление базы знаний.
курсовая работа [176,9 K], добавлен 13.11.2012