Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Инструментальные средства для автоматизированного формирования баз знаний

Инструментальные средства для автоматизированного формирования баз знаний

Экспериментальные результаты подхода, ориентированного в основном на фундаментальные аспекты проблемы обработки естественного языка. Автоматизация процесса формирования баз знаний путем сканирования соответствующих текстов на естественном языке.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	18.01.2018
Размер файла	58,4 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Инструментальные средства для автоматизированного формирования баз знаний

Курбатов С.С., к.т.н., ведущий научный сотрудник

НИЦЭВТ

Москва

Введение

естественный язык сканирование текст

В данной статье описываются экспериментальные результаты подхода, ориентированного в основном на фундаментальные аспекты проблемы обработки естественного языка. Отмечаются прикладные аспекты современных исследований данной проблемы и позиционирование развиваемого подхода в контексте этих исследований. Подход предполагает автоматизацию процесса формирования и сопровождения баз знаний по произвольным предметным областям путем сканирования соответствующих текстов на естественном языке.

В настоящее время акцент в автоматической обработке естественного языка (ЕЯ) переместился от задач машинного перевода и систем общения с ЭВМ (в частности ЕЯ-интерфейсов к базам данных) к задачам структуризации больших объемов текстовой информации. Одна из основных целей анализа такой информации - высокорелевантный поиск в сети Интернет и представление неструктурированной текстовой информации из сети Интернет в структурированном виде, позволяющем осуществить последующую обработку (в частности оперативный анализ - OLAP и интеллектуальный анализ - Data Mining) для систем принятия решений.

Экспресс-анализ данной проблемы приведен в [1], где кратко охарактеризованы некоторые из наиболее продвинутых разработок в данном направлении: Fact Extractor, ConExt, Excalibur [2,3]. Из года в год подчеркивается актуальность проблемы анализа больших объемов текстовой информации из глобальной сети в связи с постоянным ростом объемов информации не только в Интернет, но и в масштабе отдельных организаций. Аналитические отделы как в государственных учреждениях (например, ФАПСИ), так и в крупных коммерческих структурах ежедневно получают десятки мегабайт текстовой информации (например, из СМИ). По этой информации достаточно оперативно (обычно также ежедневно) аналитики представляют руководству обобщенные сводки, в концентрированном виде отображающие суть текстов.

Автоматизация анализа позволяет существенно облегчить задачу аналитика и такие системы были разработаны и используются по настоящее время, но их качество уже не удовлетворяет пользователей по мере роста объемов текстов. Кроме того, c появлением систем извлечения знаний (Data Mining) аналитика интересуют автоматически выявляемые скрытые закономерности в данных. Однако системы Data Mining работают со структурированной информацией (в базах данных, точнее в хранилищах данных - Data Warehouse). Поэтому помимо получения оперативных сводок по массивам текстов, результат автоматического анализа целесообразно представить в структурированном виде и далее использовать средства извлечения знаний. OLAP-технология (оперативный анализ данных) также работает лишь со структурированной информацией и, следовательно, результаты анализа больших объемов текстовой информации целесообразно использовать и для нее.

В обзоре [1] отмечено, что результаты анализа полученной структурированной семантически значимой информации помогают решению общих задач в сферах политики и экономики, а именно

в политике: общие тенденции развития политической ситуации; выявление реальных намерений политиков; выявление специфики потенциально-опасных ситуаций.

в экономике: конкурентный анализ; информационная разведка; управление репутацией; изучение отраслевого рынка; оперативный мониторинг; выявление критических новостей.

При впечатляющем обилии систем для анализа больших объемов текстовой информации проблема семантической структуризации выявила ряд трудностей, которые пока далеки от удовлетворительного решения, в частности:

- использование единого информационного пространства взаимосвязанных фактов или гипотез вне зависимости от типа содержимого источников информации;

- связь фактов или гипотез с релевантными источниками информации, то есть аргументированность фактов и гипотез;

- применение исторически-пространственной информационной модели баз данных фактов и гипотез;

- преобразования различных форм представления знаний;

- понятийный разрыв между результатами работы систем типа Knowledge Discovery и Data Mining и входом систем поддержки принятия решений;

- возможность тиражирования онтологий.

На уровне коммерческих приложений разрабатываются инструментальные программные средства для преодоления указанных трудностей. Особый интерес представляет язык OWL (Ontology Web Language), разработанный с целью описания и представления объектов в Семантической Сети на более высоком уровне, чем средства XML и RDF. В обзоре [1] отмечено, что OWL включает ряд интересных особенностей (логический вывод, развитые средства работы с онтологиями, в частности с их версиями; поддержку теоретико-множественных операций; организацию иерархий, как классов, так и свойств), однако вопрос о преодолении в реализациях языка недостатков, присущих внутренним механизмам логического программирования, остается открытым.

Общая характеристика подхода

Развиваемый подход ориентирован на частичное преодоление вышеперечисленных трудностей с акцентом на фундаментальную проработку вопросов автоматического формирования и сопровождения баз знаний. Подход предполагает «раскрутку» базы знаний с помощью разработки некоторого фундаментального концептуального ядра и сервисов, позволяющих путем сканирования произвольных ЕЯ-текстов строить предположения о взаимосвязи ЕЯ-объектов и структур ядра, а также искать для них подтверждения (опровержения). Стиль такой раскрутки намечен в работах [4,5].

Ядро должно включать априорную базу знаний с понятиями и отношениями высокого уровня (время, пространство, материальный объект, абстрактный объект и т.п.). Дополнительно априорная база включает базисные знания о естественном языке (в основном, на уровне морфологии).

В качестве корпусов текстов первоначально были взяты ЕЯ-описания объектов реляционной СУБД в предметной области «Розничная торговля» (РТ), далее корпус был существенно расширен текстами из Большой Советской Энциклопедии (БСЭ). Выбор БСЭ мотивировался следующим:

- энциклопедия обеспечивает разнообразие и полноту знаний (разумеется, с учетом ограничений объема, хронологии и политической ангажированности);

- энциклопедический текст обладает естественной структурированностью (входы и статьи).

ЕЯ-описания из РТ были относительно специализированы, они включали описания товаров (с развитой иерархией), наименования торговых предприятий и поставщиков, описания бизнес-процессов и т.д. Априорная база знаний для данной области включала абстрактные объекты, ориентированные на реляционную СУБД: <таблица>, <атрибут>, <значение>, <первичный ключ>, <внешний ключ> и т.п.

На первом этапе были разработаны механизм и эвристики, позволяющие автоматически выдвигать предположения о морфологических и синтаксических характеристиках словоформ из области РТ. Далее для этих предположений путем сканирования разнообразных ЕЯ-текстов отыскивались контексты, увеличивающие (или уменьшающие) правдоподобие предположений.

Далее была разработана логика анализа схемы и содержимого СУБД, позволяющая выдвигать предположения, как о связях объектов реляционной базы, так и о ЕЯ-описаниях этих объектов.

На втором этапе были разработаны механизм и эвристики для автоматического выдвижения предположений о иерархии понятий в БСЭ и разработаны структуры для представления ряда высокоуровневых объектов априорной базы знаний. Общая логика построения такой иерархии предполагает выделение понятия (именной группы), описывающей вход в статью и поиск этого понятия как нового входа. В случае удачи процесс поиска повторяется до тех пор, пока либо не удается найти вход, либо вход уже использовался ранее.

Эксперимент

В рамках подхода был разработан комплекс программных средств (КПС), в экспериментальном варианте реализующих вышеописанную логику и обеспечивающих исследователю удобную для экспериментов среду. КПС позволяет в автоматизированном режиме строить предположения о морфологических, синтаксических и примитивных семантических характеристиках незнакомых слов, исходя из контекста и соответствующих эвристик. КПС объясняет исследователю свои предположения, предъявляя контексты и использованные эвристики. Типичный пример эвристики для выдвижения предположения, что некоторая словоформа является существительным: ЕСЛИ два слова стоят рядом И первое слово - прилагательное И слова согласуются в роде, числе и падеже, ТО можно предположить, что второе слово - существительное. Более детально вопросы формирования такого рода предположений и их верификации приведены в [7].

Первоначально автоматическое получение свойств естественно-языковых (ЕЯ) объектов было ориентировано на построение ЕЯ-интерфейса к реляционным базам данных [4]. При этом семантика задавалась в основном элементами реляционной СУБД (таблицы, атрибуты, первичные ключи и т.д.) и контрукциями языка SQL. Постулировалось, что ЕЯ-описание имеет смысл, если оно может быть формализовано в виде корректного SQL-текста. Инструментальные программные средства использовали схему реляционной СУБД и ее содержимое как исходные данные для автоматизированного формирования ЕЯ-интерфейса. Иерархические отношения при этом определялись иерархиями сущностей, задаваемых объектами СУБД.

В дальнейшем подход в качестве основного корпуса текстов, на которых проводились эксперименты, были выбраны статьи Большой Советской Энциклопедии (БСЭ). Статьи БСЭ рассматривались как эталонный источник знаний (неявных для КПС). Суть работы КПС - сделать эти знания явными, не дублируя их в базе знаний, а создавая компактную концептуальную надстройку. В процессе экспериментов среди всех словоформ БСЭ были автоматически выявлены предполагаемые существительные и прилагательные. На основе этих предположений выполнялось выявление именных групп, описывающих вход в статьи БСЭ. Далее формировались предположения об элементах иерархии статей в соответствии с общей логикой, намеченной в разделе 2.

Автоматически выявленные понятия на высшем уровне иерархии предполагается связать с понятиями априорных знаний обычным редактированием. Эксперимент показал интересные (с учетом морфологических ошибок КПС и трудностями текстов реальной сложности) результаты при автоматическом построении иерархии, выявленные ошибки позволили существенно уточнить и дополнить используемые эвристики.

Развиваемый подход использует комбинированную схему представления знаний: семантическую сеть и реляционную СУБД (Progress 9). Эксперименты позволили выявить не только преимущества, но и ряд слабых звеньев используемого представления (в основном, технического, а не идейного характера). В силу этого основные усилия в настоящее время направлены как на усовершенствование программных компонент, так и на дальнейшую углубленную проработку фундаментальных вопросов представления знаний (в частности, онтологий). Направление такой проработки намечено в [7].

Заключение

Описанные результаты носят экспериментальный характер, однако они могут быть полезны не только для выбора направления дальнейших НИР и ОКР, но и для прикладных разработок. Механизмы автоматического формирования базы знаний могут резко снизить трудоемкость, как создания базы, так и ее сопровождения. Концепция априорной базы с понятиями очень высокого уровня может послужить целям разработки соответствующих стандартов представления знаний. На рис. 1 приведена общая схема обработки текстов больших объемов для систем принятия решений и намечено место развиваемого подхода в рамках этой схемы. На рисунке подчеркнутым курсивом отмечены фрагменты, где использование результатов подхода представляется перспективным. Глобальная сеть как источник информации объединяет данные, доступные по Интернет, данные СМИ, корпоративные данные и т.п.

Системы, формирующие структурные данные из текстов глобальной сети (например, ConExt, FactExtractor, Uima), условно названы “структуризатором”. В процессе обработки структуризатор существенно использует базу знаний. Структуризаторы могут формировать результаты как в виде таблиц реляционной базы, так в виде семантической сети. Если достаточно таблиц или семантической сети, то ЛПР получает аналитическую информацию с помощью интерфейса к базе знаний или стандартного интерфейса к СУБД. Если требуется более глубокий анализ, то из семантической сети информация также отображается в таблицы базы данных (например, в системе UIMA это выполняется с помощью сервисов SUKI[1]). Далее из структурированных в таблицах данных извлекается аналитическая информация (технологии Data Mining и OLAP), поступающая для ЛПР.

Возможное использование результатов подхода отражено на схеме фрагментами “Инструментальные средства для автоматизированного построения и сопровождения базы знаний” и “Естественно-языковый интерфейс”. Первый фрагмент ориентирован на формирование онтологий, обладающих как концептами максимально высокого уровня, программно поддержанных соответствующей аксиоматикой, так и механизмами автоматического пополнения иерархии концептов путем сканирования произвольных ЕЯ-текстов. Второй фрагмент ориентирован на доступ к структурированной на предшествующем этапе информации, представленной либо в реляционной СУБД, либо в некоторой семантической сети.

Рис. 1. Общая схема обработки больших объемов текстовой информации для ЛПР

Литература

1. Курбатов С.С., html-страница - http://eia--dostup.ru/exp_anal.htm.

2. А.В.Нечипоренко, А.О. Русин Система автоматизированного извлечения знаний из текстов на естественном языке. Международная конференция «Информационные системы и технологии», Новосибирск, Россия,

3. Чибисов А. Поисковые возможности Excalibur RetrievalWare// Открытые системы. - 1996. - №5.

4. Курбатов С.С., Автоматический анализ схемы и данных реляционных баз// Новости искусственного интеллекта. - 2004. - № 1. - С.77-81.

5. Курбатов С.С., Априорная модель данных в реляционных базах// Новости искусственного интеллекта. - 2004. - № 1. - С.77-81.

6. Гринева М., Гринев М., Лизоркин Д. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов// Труды Института системного программирования РАН.

7. Курбатов С.С., html-страница - http://eia--dostup.ru/ head_doc_01.htm.

Размещено на Allbest.ru

...

статья "Инструментальные средства для автоматизированного формирования баз знаний" скачать

Подобные документы

Класс проверки знаний
Разработка и внедрение автоматизированного комплекса проверки знаний, позволяющего производить одновременный контроль знаний до 127 рабочих мест. Система сбора и обработки информации на основе локальной микросети на базе микропроцессорных контроллеров.

курсовая работа [37,2 K], добавлен 23.12.2012
Особенности организации контроля знаний учащихся в условиях компетентностно-ориентированного обучения
Понятие компетентностно-ориентированного обучения. Традиционные методы проверки знаний. Проблемы в оценивании компетентности. Современные контрольно-оценочные средства: адаптивное тестирование, катенатест, контекстная задача, междисциплинарный экзамен.

курсовая работа [1,9 M], добавлен 22.06.2014
Разработка программы "Кафе" с использованием классов на языке программирования С#
Общая характеристика объектно-ориентированного подхода в программировании, его основные свойства и принципы. Разработка программы для автоматизация деятельности кафе на основе объектно-ориентированного подхода, проектирования и реализации схемы данных.

курсовая работа [1,2 M], добавлен 22.01.2012
Базы данных, знаний и экспертные системы
База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.

презентация [51,3 K], добавлен 17.10.2013
Автоматизированная система контроля знаний специалистов по дефектоскопии
Особенности разработки системы автоматизированного контроля знаний специалистов по дефектоскопии. Обзор автоматизированных систем обучения и контроля знаний. Психологические механизмы усвоения знаний. Принципы создания эффективной тестирующей программы.

дипломная работа [1,8 M], добавлен 30.08.2010
Способы описания знаний
Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.

курсовая работа [33,1 K], добавлен 21.07.2012
Разработка распределенного программного обеспечения для контроля знаний студентов
Сетевая система контроля знаний студентов на основе объектно-ориентированного подхода. Выбор программно-технических средств для реализации проекта. Алгоритмическое и программное обеспечение, интерфейс пользователя. Разработка элементов базы данных.

дипломная работа [1,3 M], добавлен 04.02.2013
Разработка экспертной системы по выбору мобильного телефона
Понятия, классификация и структура экспертных систем. Базы знаний и модели представления знаний. Механизмы логического вывода. Инструментальные средства проектирования и разработки экспертных систем. Предметная область ЭС "Выбор мобильного телефона".

курсовая работа [2,2 M], добавлен 05.11.2014
Разработка элективного курса "Основы искусственного интеллекта"
Определения знаний и приобретения знаний человеком. Виды знаний и способы их представления. Приобретение и извлечение знаний. Визуальное проектирование баз знаний как инструмент обучения. Программное обеспечение для проведения лабораторных работ.

дипломная работа [960,9 K], добавлен 12.12.2008
Система тестирования остаточных знаний на основе компетентностного подхода
Моделирование разработки системы тестирования остаточных знаний на основе компетентностного подхода с помощью нескольких этапов: моделирование бизнес-процесса, планирование работ, UML-моделирование, моделирование данных логического и физического уровня.

курсовая работа [2,2 M], добавлен 14.12.2012
Программная система формирования баз знаний в формате CLIPS
Программные системы искусственного интеллекта, экспертные системы как их разновидность. Автоматизированное формирование баз знаний в формате CLIPS на основе анализа баз данных СУБД Cache. Программные средства и технологии. Описание программной системы.

дипломная работа [5,1 M], добавлен 25.05.2012
Разработка Web-сайта проверки уровня знаний математики учениками младших классов
Анализ современных концепций построения сайтов онлайн-тестирования. Разработка автоматизированного тестирующего комплекса – обучающего Web-приложения, позволяющего проводить контроль уровня знаний математики с применением языка программирования Php.

дипломная работа [865,8 K], добавлен 24.06.2013
Разработка тестовых заданий по теме "Лексика и грамматика английского языка" на языке программирования Delphi
Разработка программы автоматизации процесса проверки знаний учащихся. Использование языка программирования Borland Delphi 7.0, его свойства, компоненты для работы со строками. Создание обучающих тестов на знание лексики и грамматики английского языка.

курсовая работа [521,0 K], добавлен 06.03.2016
Разработка информационной системы для автоматизации тестирования знаний школьников
Использование информационных технологий в учебном процессе. Тестирование как средство контроля знаний. Разработка компьютерной системы тестирования знаний. Описание языка программирования. Вредные факторы воздействия компьютера на здоровье человека.

дипломная работа [562,2 K], добавлен 06.06.2014
Обзор методов обработки естественного языка в задачах дистанционного обучения
Задача обработки естественного языка при помощи ЭВМ с каждым днем становится все актуальней и актуальней. Развитие научно-технического прогресса во всем мире привело к тому, что объем новой информации постоянно растет с увеличивающейся скоростью.

реферат [13,0 K], добавлен 26.11.2004
Разработка программного комплекса на языке программирования С++ с использованием принципов объектно-ориентированного программирования
Исследование принципов объектно-ориентированного программирования на базе языка программирования С++. Разработка программного комплекса для ведения учёта памятников города. Описание процессов сортировки, поиска, формирования статистики по памятникам.

курсовая работа [782,4 K], добавлен 26.05.2014
Модели представления знаний
Классы и группы моделей представления знаний. Состав продукционной системы. Классификация моделей представления знаний. Программные средства для реализации семантических сетей. Участок сети причинно-следственных связей. Достоинства продукционной модели.

презентация [380,4 K], добавлен 14.08.2013
Автоматизация работы фотоателье
Возможности автоматизации в сфере бытового обслуживания, в частности в фотоателье. Автоматизация работы с клиентами. Апробации возможностей языка SQL. Реализация информационной системы, создание программы средствами объектно-ориентированного языка Delphi.

курсовая работа [28,5 K], добавлен 30.11.2009
Автоматизация учета технического состояния компьютеров в аудитории
Проблемы автоматизации учета технического состояния ПК в аудиториях учебного заведения. Структура базы данных. Обоснование выбора языка программирования. Создание программного средства на языке Object Pascal с использованием среды разработки Delphi 7.0.

курсовая работа [1,5 M], добавлен 28.08.2012
Разработка структуры базы знаний
Построение графа связей фактов и определение структуры базы знаний. Описание функций инициализации и констатации фактов, входных и выходных данных. Операции, направленные на занесение фактов и действий в базу знаний. Итоговое представление базы знаний.

курсовая работа [176,9 K], добавлен 13.11.2012

Другие документы, подобные "Инструментальные средства для автоматизированного формирования баз знаний"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.