Автоматическая обработка естественного языка в задаче инженерии знаний и доступа к ним
Технология создания и тестирования лингвистических ресурсов автоматического распознавания в текстовых документах. Методы, алгоритмы и программные средства автоматической обработки запросов пользователя при автоматизации инженерии знаний и доступа к ним.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | русский |
Дата добавления | 19.08.2018 |
Размер файла | 199,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
2
Автоматическая обработка естественного языка в задаче инженерии знаний и доступа к ним
КРАТКОЕ ВВЕДЕНИЕ
программный автоматический алгоритм запрос
В связи с перспективами перехода общества на инновационный этап развития все более актуальной становится задача разработки интеллектуальных информационных систем (ИИС), ориентированных на эффективную информационную поддержку инновационной деятельности и создание новых передовых технологий. Однако решение этой задачи в значительной степени затруднено недостатками существующих подходов к проблеме инженерии знаний как одного из ключевых этапов построения ИИС. В первую очередь это обусловлено тем, что принятая за основу методология создания баз знаний (БЗ) на основе инженерии знаний путем обобщения только опыта экспертов предметных областей показала свою низкую эффективность в разработке реальных приложений. Учитывая, что к настоящему времени существуют огромные массивы текстовой информации, охватывающие все возможные предметные области и представленные в электронном виде, Текст можно рассматривать в качестве наиболее полного и универсального источника знаний для формирования БЗ ИИС.
Указанные положения определяют высокую актуальность задачи инженерии знаний на основе автоматической обработки текстовых документов на естественном языке (ЕЯ), включая их лингвистический, в том числе, и семантический анализ. Извлекаемые автоматически из текстовых документов знания являются важнейшим ресурсом поддержки принятия решений, осуществляемого, прежде всего, самим пользователем, поэтому необходима некоторая базовая модель представления знаний, не ориентированная на конкретные механизмы вывода и обеспечивающая ему эффективный, например, ЕЯ-доступ к распознаваемым знаниям. В силу вытекающей из указанного особой роли ЕЯ, развитый лингвистический процессор (ЛП) становится основным ресурсом эффективной автоматизации инженерии знаний и доступа к ним. Учитывая особенности поставленной задачи, к нему должны быть предъявлены очень высокие требования по качеству и скорости требуемой обработки ЕЯ, а в основу его реализации положена методология использования проблемно-ориентированных языков, согласно которой эксперты по языку с помощью описательных возможностей определенных нотаций формализуют правила его обработки.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Связь работы с крупными научными программами (проектами) и темами
Тема диссертации соответствует приоритетным направлениям «методы математического и компьютерного моделирования, компьютерные технологии и интеллектуальные системы поддержки принятия решений» согласно пункту 5.1 перечня приоритетных направлений научных исследований Республики Беларусь на 2011-2015 годы (постановление Совета Министров Республики Беларусь от 19 апреля 2010 г. № 585).
Диссертационное исследование выполнялось на кафедре информационных систем управления факультета прикладной математики и информатики БГУ в соответствии с: (1) научно-исследовательскими программами Белорусского государственного университета: «Разработать общие принципы построения интеллектуальных информационных систем, математических моделей, методов, информационно-компьютерных технологий для систем принятия решений и распознавания образов», задание программы НИР БГУ на 2006-2010 г.г.; № госрегистрации 20022118; «Разработать теоретические основы и технологии построения информационных систем управления с приложением в интеллектуальном анализе данных», задание программы НИР БГУ на 2011-2015 г.г.; (2) научно-технической программой Союзного государства «Развитие и внедрение в государствах-участниках Союзного государства наукоемких компьютерных технологий на базе мультипроцессорных вычислительных систем» ("Триада"). Пр. 4. «Исследование и разработка параллельных алгоритмов анализа больших объемов текстовой информации из глобальной сети и алгоритмов принятия решений на основе когнитивных методов». Пр. 4.1. «Разработать и внедрить интеллектуальный информационно-поисковый комплекс анализа полнотекстовых русскоязычных информационных ресурсов с целью создания и использования персональных и корпоративных баз знаний» на 2005-2008 г.г., № госрегистрации 200666; (3) программой научных исследований отдела разработки средств интеллектуализации информационных систем ИП "Инвеншион Машин".
Цель и задачи исследования
Целью диссертационной работы является разработка принципов, методов, алгоритмов и программных средств автоматической обработки текстовых документов и запросов пользователя в задаче автоматизации инженерии знаний и доступа к ним.
Для достижения поставленной цели необходимо решить следующие основные задачи:
1. Разработать концепцию автоматизации инженерии знаний и доступа к ним на основе автоматической обработки естественного языка и построить требуемый для ее реализации лингвистический процессор.
2. Разработать нотации правил для формального описания лингвистических правил анализа, а также преобразований лингвистических компонентов и их отношений и эффективные по трудоемкости алгоритмы их интерпретации.
3. Построить технологию создания и тестирования лингвистических ресурсов автоматического распознавания в текстовых документах знаний основных типов.
4. Разработать концепцию автоматического распознавания в текстовых документах атрибутивных знаний и доступа к ним, а также классификацию основных типов этих знаний.
5. Разработать алгоритмы семантического тегирования текстовых документов и естественно-языковых запросов, а также алгоритм поиска атрибутивных знаний по этим запросам.
6. Разработать промышленную многоязычную систему автоматизации инженерии знаний и доступа к ним, включая ее лингвистическое, алгоритмическое и программное обеспечение.
Объектом исследования являются процессы распознавания знаний, объективированных в текстовых документах, а также информационной потребности пользователя, выражаемой в естественно-языковых запросах.
Предметом исследования являются методы, алгоритмы, лингвистические и программные средства инженерии знаний и доступа к ним на основе автоматической обработки текстовых документов и запросов пользователя.
Положения, выносимые на защиту
1. Системы нотаций P2P и OA для формального описания преобразований лингвистических компонентов и их отношений, основанные на расширенных регулярных выражениях WRE, и эффективные по трудоемкости алгоритмы их интерпретации, универсальные по отношению к языкам система шаблонов «ProSAO2::SAO», основанная на учете различных способов выражения предикативности, а также признаков, диагностирующих наличие и позицию субъекта и объекта, и система шаблонов «ProSAO2::Cause-Effect», основанная на анализе определенных лексических, грамматических и семантических средств ЕЯ, что в совокупности с построенной эффективной по трудоемкости и качеству выходных результатов и независимой от ЕЯ и уровня его анализа технологией создания и тестирования лингвистических ресурсов обеспечило разработку лингвистического процессора автоматического распознавания в текстовых документах знаний основных типов с показателями, превосходящими похожие по решаемым задачам известные системы.
2. Классификация основных типов атрибутивных знаний, которая по сравнению с существующими является наиболее полной и учитывает особенности инновационных задач и возможность сведения различных запросов пользователя в общий класс выражаемой в них информационной потребности, а также принципиально новая концепция решения задачи автоматического распознавания в текстовых документах атрибутивных знаний и доступа к ним, состоящая в ее сведении к вопросно-ответной функциональности с ЕЯ-интерфейсом пользователя, реализуемой на основе разработанного метода семантического тегирования текстовых документов и естественно-языковых запросов.
3. Алгоритм семантического тегирования текстовых документов, реализуемый инструментальными средствами лингвистического процессора и средствами разработанной системы распознающих шаблонов «ProSAO2::QA» с выходной структурой, включающей тип атрибутивного знаний, его фокус и ответ на потенциальный вопрос данного типа, алгоритм семантического тегирования ЕЯ-запросов с выходным отношением QuestionPattern, реализуемый инструментальными средствами лингвистического процессора и построенными процедурами распознавания классов информационной потребности и их фокусов, распознавания лексической и синтаксической синонимии и семантических ролей отдельных компонентов базовых семантических отношений, и алгоритм поиска атрибутивных знаний, основанный на сопоставлении получаемых процедурами семантического тегирования индексов текстовых документов и ЕЯ-запросов с учетом их структурного соответствия, эквивалентности семантических отношений, а также классов информационной потребности и типов атрибутивных знаний.
4. Промышленная многоязычная система автоматизации инженерии знаний и доступа к ним Goldfire SE, включая ее лингвистическое и универсальное по отношению к поддерживаемым ЕЯ алгоритмическое и программное обеспечение, которая впервые обеспечила эффективное автоматическое распознавание и представление с помощью семантических индексов в текстовых документах знаний основных трех типов (объектов, фактов и правил/закономерностей) и атрибутивных знаний, а также ЕЯ-доступ к ним. В силу использования полученных концептуальных, алгоритмических и технологических решений система Goldfire SE обладает высокими качественными и техническими характеристиками, превосходящими показатели систем с функциональностью, характерной некоторым из входящих в ее состав модулей.
Личный вклад соискателя
Все основные результаты и положения, выносимые на защиту, получены автором самостоятельно. Соавтором совместных публикаций является научный руководитель, который принимал участие в выборе направления исследований, постановке задач, обсуждении теоретических и практических результатов, полученных автором.
Апробация результатов диссертации
Основные результаты диссертационной работы докладывались и обсуждались на 1-й Международной конференции «Информационные системы и технологии IST'2002» (Минск, 2002), The 7-th International Conference on Pattern Recognition and Information Processing PRIP'03 (Minsk, 2003 г.), 6-ой Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы - 2005» (п. Дивноморское, Россия, 2005 г.), 63-й научной конференции студентов и аспирантов Белгосуниверситета (Минск, 2006), Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы-2006» (п. Кацивели, Украина, 2006 г.), 3-ей Международной конференции «Информационные системы и технологии» IST'2006 (Минск, 2006 г.), 8-ой Международной научно-технической конференции «Искусственный интеллект. Интеллектуальные системы» (п. Дивноморское, Россия, 2007 г.), Международном конгрессе по информатике «Информационные системы и технологии CSIST'2011» (Минск, 2011).
Опубликованность результатов диссертации
Основные результаты диссертации опубликованы в 20 научных работах, из них: 5 статей (общим объемом в 2,3 авторского листа) в научных журналах, включенных в Перечень научных изданий, утвержденный Высшей аттестационной комиссией, 3 статьи в сборниках научных трудов, 8 статей в сборниках материалов научных конференций. Оформлено 4 заявки на патент в патентный офис США.
Структура и объем диссертации
Диссертация состоит из введения, общей характеристики работы, четырех глав, заключения, библиографического списка и одного приложения. Первая глава содержит аналитический обзор литературы по теме диссертации и описание объекта и методов исследования. Основные результаты приводятся во второй, третьей и четвертой главах. Приложение содержит 3 акта о внедрении результатов диссертационной работы. Полный объем диссертации составляет 136 страниц, в том числе 6 рисунков занимают 4 страницы, 34 таблицы - 17 страниц, 1 приложение - 5 страниц. Библиографический список состоит из 143 наименований, включая 20 собственных публикаций соискателя.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
В первой главе исследуется роль ЕЯ в задаче автоматизации инженерии знаний и доступа к ним. Выделены знания основных, классических, типов (объекты, факты и правила/закономерности), а также свойства их отдельных компонентов в виде атрибутивных знаний. Отмечается, что традиционный подход к инженерии знаний, основанный на взаимодействии инженера по знаниям и эксперта, обладает целым рядом недостатков в плане полноты и достоверности создаваемых баз знаний, а также длительности и трудоемкости самого процесса. Обоснована актуальность автоматического распознавания и извлечения знаний из Текста. Показана необходимость разработки, в отличие от известных моделей представления знаний, некоторой базовой, не ориентированной на конкретные механизмы вывода, модели, с одной стороны, обеспечивающей пользователю эффективный, например, ЕЯ-доступ к распознаваемым в тексте знаниям, а с другой - способной быть при необходимости трансформированной в любую из известных моделей. В качестве такой модели может выступить сам Текст в совокупности с получаемым для него с помощью развитого лингвистического процессора семантическим индексом, включающим метки (теги), отражающие результаты его лингвистического анализа, а также распознавания в нем знаний основных типов и атрибутивных знаний в соответствии с заданной их классификацией, в основу которой предложено положить классификацию запросов пользователя. Само же решение задачи автоматического распознавания в текстовых документов атрибутивных знаний и эффективного доступа к ним может быть сведено к так называемой вопросно-ответной функциональности с ЕЯ-интерфейсом пользователя, реализуемой на основе метода семантического тегирования текстовых документов и ЕЯ-запросов.
Показано, что в основу эффективного решения задачи такого тегирования может быть положен один из лучших на настоящее время ЛП промышленного типа ProSAO, на выходе которого из анализируемого текста в форме так называемых отношений извлекаются наиболее значимые синтаксические структуры: отношения «r__SimpleNounPhrase» (простая именная группа), «r__VerbPhrase» (предикация главных членов предложения, глагольная группа), «r__NounPhrase_additional» (именная группа, распространенная различными оборотами) и «r__ComplexSentence» (сложноподчиненное предложение). Результаты всех этих этапов обработки текста фактически и образуют его лингвистический индекс. Важно, что используемая в ЛП ProSAO нотация так называемых расширенных регулярных выражений WRE для описания требуемых лингвистических правил может быть взята за основу аналогичной нотации в целях распознавания знаний основных типов и атрибутивных знаний, а также ЕЯ-доступа к ним.
Вторая глава посвящена рассмотрению круга вопросов, связанных с разработкой лингвистического процессора задачи автоматизации инженерии знаний и доступа к ним (ЛП задачи).
Дело в том, что базовый ЛП ProSAO в пределах своей функциональности оперирует в основном "условной" частью используемых лингвистических моделей (правил, шаблонов) анализа текста, в то время как распознавание знаний основных типов основывается на лингвистических правилах со значительной нагрузкой и на поле «ДЕЙСТВИЕ». Данные действия могут представлять собой, во-первых, различные преобразования лингвистических компонентов, например, преобразование в пределах компонента Action отношения «r__VerbPhrase» (приведение Action к каноническому виду): «have been evaporated» «evaporate». Во-вторых, они могут касаться анализа и преобразования семантических отношений (например, преобразование эквивалентных по смыслу конструкций «water is heated by fire» и «fire heats water», представленных в виде отношения «r__VerbPhrase», к общему семантическому отношению), классификации семантических отношений и т.д.
В качестве решения задачи формального описания таких действий в первом случае предложена система нотаций P2P (Phrase-To-Phrase), реализованная на основе расширенных регулярных выражений WRE, а во втором - система нотаций OA (Open Architecture).
В нотации P2P преобразований лингвистических компонентов правила имеют вид «УСЛОВИЕi --> ПРЕОБРАЗОВАНИЕi », где в качестве УСЛОВИЯi записывается расширенное регулярное выражение WRE, а ПРЕОБРАЗОВАНИЕi представляет собой выражение, включающее различные бинарные и унарные операторы преобразования операндов.
Нотация OA преобразований лингвистических отношений позволяет описывать многостадийные системы правил, в которых входные отношения могут трансформироваться в промежуточные или выходные отношения на основе правил, имеющих следующий вид:
Rule Имя_правила ( Тип_входного_отношения ) {
Condition {
Вх_компонентi { Выражение WREi }
…
} Result ( Тип_выходного_отношения ) {
Вых_компонентi = { Преобразование P2Pi }
…
} Result ( Тип_выходного_отношения ) {
…
} … ElseCondition {
…
} Result ( Тип_выходного_отношения ) {
…
} … ElseResult ( Тип_выходного_отношения ) {
…
}
},
где выражения WREi в секциях Condition и ElseCondition задают условия на компоненты входного отношения, в случае выполнения которых на выходе правила создается новое отношение указанного в соответствующей секции Result типа с содержанием компонентов, получаемым в результате выполнения соответствующего преобразования P2P, в качестве операндов которых могут выступать компоненты входного отношения или их фрагменты. Разработаны алгоритмы интерпретации правил в нотациях P2P и OA, приводятся результаты оценки их эффективности. Учитывая, что основным лингвистическим ресурсом решения поставленной задачи являются формулируемые экспертом лингвистические правила, предложена эффективная технология разработки и тестирования систем распознающих шаблонов.
С использованием нотации OA в составе ЛП задачи разработаны универсальные по отношению к языкам системы шаблонов «ProSAO2::SAO» автоматического распознавания в текстовых документах знаний типа Субъект-Акция-Объект (фактов), которая основана на учете различных способов выражения предикативности и признаков, диагностирующих наличие и позицию субъекта и объекта, а также «ProSAO2::Cause-Effect» для автоматического распознавания в текстовых документах знаний типа Причина-Следствие (правил, отображающих закономерности внешнего мира/предметной области), которая основана на анализе определенных лексических, грамматических и семантических средств ЕЯ.
Отношение Субъект-Акция-Объект (SAO) содержит 7 компонентов (3 основных: Subject, Action и Object, а также 4 атрибутивных: Adjective, Preposition, IndObject и Adverbial) и является средством унификации фактов, которые могут быть представлены различными синтаксическими конструкциями, соответствующими, однако, равным либо близким смысловым содержаниям. Так, например, из предложений «Fire heats water.», «Water is heated by fire.», «Fire is able to heat water.», «Using of fire allows to heat water.», «Heating of water is accomplished with help of fire.» и т. п. система шаблонов «ProSAO2::SAO» извлекает идентичные отношения SAO следующего вида:
SAO
Subject:fire_NN
Action:heat_VB
Object:water_NN
Отношение Причина-Следствие (Cause-Effect) содержит 2 основных компонента Cause и Effect, что соответствует представлению знаний уровня правил/закономерностей, которые можно представить в виде {SAOi} > {SAOj}, где множество {SAOi} представляет причину, множество {SAOj} - следствие, а знак «>» - бинарное отношение следования, выражаемое в тексте лексическими, грамматическими и семантическими средствами ЕЯ. Источником извлекаемых причинно-следственных отношений могут являться как отдельные отношения SAO, полученные модулем «ProSAO2::SAO» ЛП задачи, так и наборы из двух и более отношений SAO, извлекаемых из сложноподчиненного предложения. Так, например, извлекаемые из предложения «Two patients died because acetone exceeded the tolerable concentration in the blood.» отношения SAO формируют на входе модуля «ProSAO2::Cause-Effect» промежуточное отношение LinkedSAOs, которое правилами нотации OA преобразуется в соответствующее отношение Cause-Effect:
Построенные в соответствии с системами шаблонов «ProSAO2::SAO» и «ProSAO2::Cause-Effect» процедурные модули обеспечивают точность и полноту автоматического распознавания в текстовых документах фактов и правил с показателями, превосходящими похожие по решаемым задачам известные системы, и в совокупности с ЛП ProSAO составляют, таким образом, ЛП задачи.
В третьей главе рассмотрены наиболее важные аспекты эффективного решения задачи автоматического распознавания атрибутивных знаний в текстовых документах и доступа к ним с помощью ЕЯ-запросов.
На основе анализа выборки 60,000 уникальных ЕЯ-запросов пользователей системы автоматизации инженерии знаний и решения инновационных задач Goldfire разработана классификация основных типов атрибутивных знаний, в которой, в частности, учитывается возможность сведения различных запросов пользователя в общий класс выражаемой в них информационной потребности. Так, например, запросы «what is the average pressure in combustion chamber?» и «what is the acceptable vibration amplitude of drill?» рассматриваются в качестве принадлежащих одному классу «QT_ParameterValue», соответствующему атрибутивным знаниям о значениях различных физических параметров. Однако, для отдельных параметров, таких как «size», «length», «width», «thickness», «depth», «speed» и т.д. такое обобщение является чрезмерным в силу того, что запросы, направленные на извлечение знаний о значениях данных параметров, могут не содержать в явном виде их имен (например «how big is …», «how long is …», «how wide is …» и т.д.), при этом обязательным является упоминание в запросе самого объекта, "носителя" параметра. В силу этого были введены специальные типы атрибутивных знаний QT_Size, QT_Length, QT_Width и т.д., соответствующие атрибутивным знаниям о значениях конкретных параметров самих объектов. Полученная классификация содержит перечень из 44 основных классов информационной потребности, которые соответствуют наиболее востребованным типам атрибутивных знаний.
Сформулирована принципиально новая концепция решения поставленной задачи, которая состоит в автоматическом распознавании атрибутивных знаний еще на этапе лингвистического, в том числе и семантического, анализа текстовых документов и их фиксировании в виде специального индекса, ориентированного на предварительную классификацию указанного типа знаний и ЕЯ-интерфейс пользователя.
В качестве основного механизма автоматического распознавания атрибутивных знаний предложена разработанная на основе нотации OA система шаблонов «ProSAO2::QA», входными данными для правил которой являются отношения, соответствующие трем основным типам знаний, а именно: объектам - синтаксическим отношениям «r__SimpleNounPhrase», извлекаемым базовым ЛП ProSAO, фактам - семантическим отношениям SAO, извлекаемым модулем «ProSAO2::SAO», и правилам - семантическим отношениям Cause-Effect, извлекаемым модулем «ProSAO2::Cause-Effect». Выходное отношение QA (таблица 1) определяет единичный элемент атрибутивного знания, извлекаемого из предложения текстового документа в форме короткого ответа Answer на потенциальный вопрос о "фокусном" слове (словах) Focus, соответствующий классу информационной потребности QType.
Таблица 1 - Структура семантического отношения QA
Название компонента |
Определение |
|
QType |
Тип атрибутивного знания. |
|
Focus |
Одно или несколько "фокусных" слов из предложения документа, знания о которых извлечены в виде данного отношения. |
|
Answer |
Атрибутивное знание типа QType о целевом слове (словах) Focus в форме ответа на потенциальный вопрос данного класса о целевом слове. |
Так, например, предложение «A giraffe's tongue is 18 to 20 inches long and blue-black.» содержит ответы на следующие потенциальные вопросы: «what is the length of giraffe's tongue?» -- класс информационной потребности «QT_Length»; «what color does giraffe's tongue have?» -- класс информационной потребности «QT_Color»; «which tongue is blue-black?» -- класс информационной потребности «QT_Instantiation». Соответственно, при обработке данного предложения, система шаблонов «ProSAO2::QA» фиксирует следующие отношения QA:
Данная процедура семантического тегирования текста на основе автоматического распознавания атрибутивных знаний в виде отношений QA используется для построения семантического индекса текстовых документов в целях обеспечения доступа к извлекаемым знаниям посредством ЕЯ-интерфейса. Семантический индекс представляет собой множество поисковых образов документов (ПОД) и включает следующие компоненты: таблица обратного индекса слов «WordIndex», содержащая перечень слов, извлеченных из документа на этапе его предварительной индексации, а также их метки, вычисляемые по результатам семантического тегирования документа и извлечения семантических ролей; таблица ответов «AnswerIndex», содержащая перечень ответов из отношений QA, извлекаемых на этапе семантического тегирования документов; таблица документов «DocumentIndex», содержащая индекс гиперссылок на каждый документ, обработанный на этапе предварительной индексации; таблица предложений «SentenceIndex», содержащая индекс исходных предложений.
Наиболее важными условиями для обеспечения высоких качественных показателей поиска атрибутивных знаний в вопросно-ответной системе является, во-первых, эквивалентность семантических связей слов в запросе и в искомых документах, и, во-вторых, соответствие класса информационной потребности, выраженной в запросе, типу атрибутивного знания, которое содержится в искомом предложении документа. Разработана требуемая для обеспечения указанных условий процедура обработки ЕЯ-запроса, которая заключается в построении его поискового образа (ПОЗ), представленного в виде набора слов и их меток, задающих критерии отбора релевантных результатов поиска (таблица 2).
Процедура построения ПОЗ включает следующие основные этапы:
1. Разбор текста запроса базовым ЛП ProSAO с целью распознавания границ предложений запроса, границ и лексико-грамматических классов слов запроса, а также извлечения семантико-синтаксических отношений.
2. Извлечение семантических отношений SAO.
3. Распознавание с помощью правил в нотации OA классов информационной потребности запроса, соответствующих типам атрибутивных знаний, а также набора "фокусных" слов.
4. Перефразирование отношений «r__SimpleNounPhrase» и SAO, извлеченных из запроса, путем синтеза эквивалентных по смыслу альтернативных отношений.
5. Распознавание семантических ролей слов указанных отношений.
6. Расширение запроса синонимами для искомых слов.
7. Формирование ПОЗ, в виде набора информативных слов запроса и их меток.
Так, например, для ЕЯ-запроса «what is the frequency of drill vibration?» указанной процедурой производится построение следующего поискового образа (таблица 3).
Таблица 2 - Метки слов поискового образа запроса
Метка слова |
Описание метки |
|
QWORD |
Лемма слова ("каноническая" форма искомого слова). |
|
QCONJ_NUM |
Номер конъюнкта, которому принадлежит слово запроса. |
|
QSENT_NUM |
Относительный номер предложения, которому принадлежит слово в запросе. |
|
QREL_NUM |
Относительный номер отношения r__SimpleNounPhrase или SAO, которому принадлежит слово в запросе. |
|
QSYNONYMS |
Набор синонимов слова QWORD. |
|
QSEM_ROLE |
"Семантическая роль" искомого слова. |
|
QQUEST_TYPE |
Тип запрашиваемого атрибутивного знания (заполняется только для "фокусных" слов запроса). |
|
QANSWER_NUM |
Относительный номер искомого ответа (заполняется только для "фокусных" слов запроса). |
Таблица 3 - ПОЗ запроса «what is the frequency of drill vibration?»
Метки слов запроса |
||||||||
QWORD |
QCONJ_NUM |
QSENT_NUM |
QREL_NUM |
QSYNONYMS |
QSEM_ROLE |
QQUEST_TYPE |
QANSW_NUM |
|
DRILL |
1 |
1 |
1 |
AUGER |
NGAttr |
|||
VIBRATION |
1 |
1 |
1 |
OSCILLATION |
NGMain |
QT_Frequency |
1 |
|
DRILL |
2 |
2 |
2 |
AUGER |
SubjMain |
|||
VIBRATE |
2 |
2 |
2 |
OSCILLATE, DITHER |
ActPos |
QT_Frequency |
2 |
|
VIBRATE |
3 |
3 |
3 |
OSCILLATE, DITHER |
ActPos |
QT_Frequency |
3 |
|
DRILL |
3 |
3 |
3 |
AUGER |
ObjMain |
Здесь ПОЗ содержит 6 слов, а также 8 синонимов для них, образующих 3 альтернативных искомых отношения: именную группу «drill vibration» и два неполных отношения SAO «drill-vibrates» и «vibrate-drill», в каждом из которых определено фокусное слово с назначенным для него типом атрибутивного знания QT_Frequency, соответствующим информационной потребности «значения частоты». Соответствие семантических связей слов запроса и искомого документа в пределах одного отношения обеспечивается использованием в ПОЗ метки QSEM_ROLE, задающего условие принадлежности слова определенному компоненту семантического отношения, а также его роли в этом компоненте.
Построен эффективный алгоритм поиска атрибутивных знаний, обеспечивающий структурное соответствие указанных ПОЗ и ПОД, в том числе, эквивалентность семантических отношений, а также классов информационной потребности и типов атрибутивных знаний. Например, по ЕЯ-запросу «what is the frequency of drill vibration?» будет получен следующий результат (таблица 4).
Таблица 4 - Результаты поиска по запросу «what is the frequency of drill vibration?»
Ответ |
Гиперссылка на исходный документ и цитата из документа с разметкой слов запроса и ответа |
|
180 cycles per minute |
[EP-1411207 B1] For example, the sonic drill described in commonly owned Application No. 10/083,206 for the Sonic Drill Head may vibrate at 180 cycles per minute with a total amplitude of travel of .0375 inches. |
|
20 Khz |
[US-5456735] The rotary ultrasonic machining is ..., except that the rotating core drill is vibrated at an ultrasonic frequency of 20 Khz or so. |
|
approximately 40 KHz |
[US-6190392 B1] As the ultrasonic power is applied to the auger head 82, the auger head 82 vibrates at approximately 40 KHz to heat and cause the cement plug 118 to become molten at its place of contact with the auger head 82. |
|
35 to 40 Hz |
[GB-2092938 A] Thus with a drill of vibration frequency of 35 to 40 Hz, a natural frequency of about 10 Hz would be suitable for the damping assembly. |
В четвертой главе представлены наиболее важные результаты практической реализации полученных теоретических решений. Разработана структурно-функциональная схема промышленной многоязычной системы автоматизации инженерии знаний и доступа к ним Goldfire SE, ее лингвистическое и универсальное по отношению к поддерживаемым ЕЯ алгоритмическое и программное обеспечение.
В основу разработанной системы положена процедура семантического тегирования текстовых документов (рисунок 1) и ЕЯ-запросов. Построена ЛБЗ систем распознающих шаблонов «ProSAO2::SAO», «ProSAO2::Cause-Effect», «ProSAO2::QA» и модуля интерпретации запросов, которая в общей сложности включает, например, для английского языка 635 правил в нотации OA и около 120 словарных списков. Получены оценки качественных характеристик семантического тегирования на основе разработанных аннотированных корпусов отношений SAO, Cause-Effect и QA, а именно показатели точности (P) и полноты (R) извлечения этих отношений для каждого из поддерживаемых языков (таблица 5).
Произведен сравнительный анализ качества вопросно-ответной функциональности системы Goldfire SE по отношению к известным информационно-поисковым и вопросно-ответным системам Google, Hakia и Kngine (таблица 6) на основе экспертной оценки результатов поиска по 25 тестируемым запросам. Общая оценка пертинентности рассматриваемых систем вычислена по формуле
Рисунок 1 - Структурно-функциональная схема модуля индексации документов
Таблица 5 - Данные о качестве семантического тегирования
Язык |
SAO |
Cause-Effect |
QA |
||||
P |
R |
P |
R |
P |
R |
||
Английский |
0,81 |
0,80 |
0,76 |
0,71 |
0,76 |
0,65 |
|
Французский |
0,78 |
0,77 |
0,74 |
0,68 |
0,72 |
0,63 |
|
Немецкий |
0,74 |
0,7 |
0,7 |
0,66 |
0,73 |
0,65 |
|
Японский |
0,75 |
0,71 |
0,68 |
0,67 |
0,7 |
0,61 |
Таблица 6 - Данные сравнительного анализа поисковых систем
Тестируемая система |
Goldfire |
|
Hakia |
Kngine |
|
Общая оценка пертинентности результатов поиска (P) |
65,4 % |
38,4 % |
34,8 % |
32,2 % |
где n = 25 - количество запросов в выборке, p(Qi) - среднее арифметическое оценок всех рассмотренных результатов по запросу Qi, полученных от экспертов, pmax = 3 - максимальная возможная оценка пертинентности по запросу.
Разработана универсальная по отношению к задачам автоматической обработки текста технология комплексного тестирования системы Goldfire SE в целом и ее отдельных компонентов, обеспечивающая эффективность системы при создании ее первой и последующих версий и включающая процедуры оценки качественных характеристик ЛП задачи на основе аннотированного корпуса, тестирования устойчивости системы правил на основе тестовых наборов, регрессионного тестирования лингвистического процессора, а также тестирования технических характеристик системы.
Многоязычная система автоматизации инженерии знаний и доступа к ним Goldfire SE внедрена в качестве базовой в составе известной системы автоматизации инженерии и управления знаниями Goldfire, используемой для решения инновационных задач многими крупнейшими компаниями мира.
ЗАКЛЮЧЕНИЕ
- программный автоматический алгоритм запрос
Основные научные результаты диссертации
1. Разработаны основанные на расширенных регулярных выражениях WRE системы нотаций P2P и OA для формального описания преобразований лингвистических компонентов и их отношений и эффективные по трудоемкости алгоритмы их интерпретации, универсальные по отношению к языкам система шаблонов «ProSAO2::SAO», основанная на учете различных способов выражения предикативности, а также признаков, диагностирующих наличие и позицию субъекта и объекта, и система шаблонов «ProSAO2::Cause-Effect», основанная на анализе определенных лексических, грамматических и семантических средств ЕЯ, что в совокупности с построенной эффективной по трудоемкости и качеству выходных результатов и независимой от ЕЯ и уровня его анализа технологией создания и тестирования лингвистических ресурсов обеспечило разработку лингвистического процессора автоматического распознавания в текстовых документах знаний основных типов с показателями, превосходящими похожие по решаемым задачам известные системы [5, 6, 9, 10, 17].
2. Разработана классификация основных типов атрибутивных знаний, которая по сравнению с существующими является наиболее полной и учитывает особенности инновационных задач и возможность сведения различных запросов пользователя в общий класс выражаемой в них информационной потребности, и сформулирована принципиально новая концепция решения задачи автоматического распознавания в текстовых документах атрибутивных знаний и доступа к ним, состоящая в ее сведении к вопросно-ответной функциональности с ЕЯ-интерфейсом пользователя, реализуемой на основе разработанного метода семантического тегирования текстовых документов и ЕЯ-запросов [1, 15, 16].
3. Построены алгоритм семантического тегирования текстовых документов, реализуемый инструментальными средствами ЛП и средствами разработанной системы распознающих шаблонов «ProSAO2::QA» с выходной структурой, включающей тип атрибутивного знаний, его фокус и ответ на потенциальный вопрос данного типа, алгоритм семантического тегирования ЕЯ-запросов с выходным отношением QuestionPattern, реализуемый инструментальными средствами ЛП и построенными процедурами распознавания классов информационной потребности и их фокусов, распознавания лексической и синтаксической синонимии и семантических ролей отдельных компонентов базовых семантических отношений, и алгоритм поиска атрибутивных знаний, основанный на сопоставлении получаемых процедурами семантического тегирования индексов текстовых документов и ЕЯ-запросов с учетом их структурного соответствия, эквивалентности семантических отношений, а также классов информационной потребности и типов атрибутивных знаний [4, 14, 15, 18, 19, 20].
4. Разработана промышленная многоязычная система автоматизации инженерии знаний и доступа к ним Goldfire SE, включая ее лингвистическое и универсальное по отношению к поддерживаемым ЕЯ алгоритмическое и программное обеспечение, которая впервые обеспечила эффективное автоматическое распознавание и представление с помощью семантических индексов в текстовых документах знаний основных трех типов (объектов, фактов и правил/закономерностей) и атрибутивных знаний, а также ЕЯ-доступ к ним. Осуществлено внедрение Goldfire SE, которая в силу использования полученных концептуальных, алгоритмических и технологических решений обладает высокими качественными и техническими характеристиками, превосходящими показатели систем с функциональностью, характерной некоторым из модулей Goldfire SE [2, 3, 7, 8, 11, 12, 13].
Рекомендации по практическому использованию результатов
Разработанные технологии, алгоритмы, лингвистическое обеспечение, отдельные модули и система Goldfire SE в целом могут быть использованы при решении инновационных задач, задач информационного поиска и инженерии знаний, при разработке различных информационных систем, в той или иной степени осуществляющих обработку ЕЯ и речи, а также для повышения эффективности уже существующих систем указанного типа. Кроме того, они могут использоваться в учебном процессе в высших учебных заведениях, в которых ведется подготовка специалистов технического профиля, а также в области современных информационных технологий и компьютерной лингвистики.
Система Goldfire SE внедрена в качестве базовой в составе известной системы автоматизации инженерии и управления знаниями Goldfire, которая используется при решении инновационных задач многими крупнейшими компаниями мира.
СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ
Статьи в научных журналах
1. Постаногов, Д.Ю. Автоматическая классификация документов с использованием семантического процессора / Д.Ю. Постаногов // Искусственный интеллект. IПШI МОН i НАН Украiни "Наука i освiта". - 2005. - № 4. - С. 627-633.
2. Постаногов, Д.Ю. К вопросу многоязычности систем инженерии знаний и их приложений / Д.Ю. Постаногов // Искусственный интеллект. IПШI МОН i НАН Украiни "Наука i освiта". - 2006. - № 3. - С. 474-479.
3. Постаногов, Д.Ю. Система семантического поиска в задаче информационной поддержки инновационной деятельности / Д.Ю. Постаногов // Информатика. ОИПИ НАН Беларуси. - 2007. - № 2(14). - С. 35-44.
4. Постаногов, Д.Ю. Разработка вопросно-ответной системы на основе развитых средств лингвистического анализа текста / Д.Ю. Постаногов // Искусственный интеллект. IПШI МОН i НАН Украiни "Наука i освiта". - 2007. - № 4. - С. 120-129.
5. Постаногов, Д.Ю. Распознающие шаблоны на основе расширенных регулярных выражений в задачах автоматического анализа текста / Д.Ю. Постаногов // Вестн. Брест. гос. техн. ун-та. Физика, математика, информатика. - 2007. - № 5. - С. 18-21.
Статьи в сборниках научных трудов
6. Постаногов, Д.Ю. Оптимизация обработки данных в условиях больших объемов правил / Д.Ю. Постаногов // Научные труды молодых ученых, аспирантов, студентов. В трех частях. / Белорусский гос. ун-т. - Минск, 2002. - Ч. 3. - С. 119-123.
7. Постаногов, Д.Ю. Кластеризация документов и построение тематических таксономий с использованием статистики совместной встречаемости терминов / Д.Ю. Постаногов // Актуальные проблемы компьютерной лингвистики: сб. научн. статей / Минск. гос. лингв. ун-т; ред.: А.В. Зубов [и др.]. - Минск, 2005. - С. 263-272.
8. Постаногов, Д.Ю. Функциональность машинного перевода в многоязычных системах инженерии знаний и доступа к ним / Д.Ю. Постаногов, И.В. Совпель // Актуальные проблемы теории и практики перевода: сб. научн. статей / Минск. гос. лингв. ун-т; редкол.: Т.П. Карпилович [и др.]. - Минск: МГЛУ, 2010. - С. 32-40.
Статьи в материалах научных конференций
9. Постаногов, Д.Ю. Разработка эффективных алгоритмов автоматического анализа текста на основе расширенных регулярных выражений / Д.Ю. Постаногов // Информационные системы и технологии: материалы 1-ой Междунар. конф., Минск, 5-8 ноября 2002 г.: в 2 ч. / Бел. гос. ун-т, НАН Беларуси, Ассоц. компаний информационных технологий; редкол.: А.Н. Курбацкий [и др.]. - Мн., 2002. - Ч. 1. - С. 171-175.
10. Postanogov, D. Effective Implementation of Word-based Regular Expressions Notation In Natural Language Processing / D. Postanogov // Pattern Recognition and Information Processing: proceedings of the Seventh International Conf., Minsk, 21-23 May 2003, in 2 vol. / Belarusian State University, Tech. Univ. of Szczecin; ed.: V. Krasnoproshin [et al.]. - Minsk: United Institute of Informatics Problems, 2003. - Vol. 1. - P. 218-222.
11. Постаногов, Д.Ю. Автоматическая классификация документов с использованием семантического процессора / Д.Ю. Постаногов // Интеллектуальные и многопроцессорные системы: материалы Междунар. науч.-техн. конф., п. Дивноморское, 26 сентября - 1 октября 2005 г. / Мин. обр-я и науки РФ, Мин. обр-я и науки Украины, НАН РБ; ред.: В.О. Бронзов. - Таганрог: ТРТУ, 2005. - Т. 3. - С. 316-320.
12. Постаногов, Д.Ю. Онтология как средство управления знаниями в условиях многоязычности // Д.Ю. Постаногов // Сборник работ 63-й научной конференции студентов и аспирантов Белгосуниверситета, Минск, 23-26 мая 2005 г.: в 3 ч. / Бел. гос. университет. - Мн: БГУ, 2006. - Ч. 2. - С. 123-126.
13. Постаногов, Д.Ю. К вопросу многоязычности систем инженерии знаний и их приложений / Д.Ю. Постаногов, И.В. Совпель // Искусственный интеллект. Интеллектуальные и многопроцессорные системы: материалы Междунар. конф., п. Кацивели, 25-30 сентября 2006 г. / Мин. обр-я и науки РФ, Мин. обр-я и науки Украины, НАН РБ; ред.: В.О. Бронзов. - Таганрог: ТРТУ, 2006. - Т. 2. - С. 315-320.
14. Постаногов, Д.Ю. Система информационного поиска с использованием семантического процессора / Д.Ю. Постаногов // Информационные системы и технологии: материалы 3-ей Междунар. конф., Минск, 1-3 ноября 2006 г.: в 2 ч. / Бел. гос. университет, НАН Беларуси, Бел. гос. университет информатики и радиоэлектроники, Инфорпарк, Акад-я упр-я при Президенте Республики Беларусь; редкол.: А.Н. Курбацкий [и др.]. - Мн., 2006. - Ч. 2. - С. 59-64.
15. Постаногов Д.Ю. Классификация основных типов запросов пользователя в системе информационной поддержки инновационной деятельности / Д.Ю. Постаногов // Международный конгресс по информатике: информационные системы и технологии: материалы междунар. науч. конгресса, Минск, 31 октября - 3 ноября 2011 г.: в 2 ч. / Бел. гос. университет, ОИПИ НАН Беларуси, НТА «Инфорпарк»; редкол.: С. В. Абламейко [и др.] - Минск: БГУ, 2011. - Ч. 1. - С. 221-226.
Патентные заявки
16. Semantic Processor for Recognition of Cause-Effect Relations in Natural Language Documents: US Patent Appl. 20060041424 / J. Todhunter, I. Sovpel, Dz. Pastanohau, A. Vorontsov; Invention Machine Corp. - Serial no. 258250; Series code 11; Filed 24.10.2005.
17. Semantic Processor for Recognition of Whole-Part Relations in Natural Language Documents: US Patent Appl. 20070156393 / J. Todhunter, I. Sovpel, Dz. Pastanohau, A. Vorontsov, A. Vertel; Invention Machine Corp. - Serial no. 686660; Series code 11; Filed 15.03.2007.
18. System and Method for Automatic Semantic Labeling of Natural Language Texts: US Patent Appl. 20100235165 / J. Todhunter, I. Sovpel, Dz. Pastanohau; Invention Machine Corp. - Serial no. 723472; Series code 12; Filed 12.03.2010.
Размещено на Allbest.ru
...Подобные документы
Использование информационных технологий в учебном процессе. Тестирование как средство контроля знаний. Разработка компьютерной системы тестирования знаний. Описание языка программирования. Вредные факторы воздействия компьютера на здоровье человека.
дипломная работа [562,2 K], добавлен 06.06.2014Функции и виды текстовых редакторов. Состав типовой формы документа, его обработка с помощью МS Word. Особенности создания таблиц, форм и макросов. Формирование и заполнение ведомости начисления за услуги предоставления доступа к сети Интернет за месяц.
контрольная работа [871,2 K], добавлен 27.04.2013Создание сетевой системы тестирования с целью автоматизации процесса контроля знаний, оценивания результатов и создания тестовых заданий. Файлы проекта и их назначение. Описание алгоритмов и модулей программы. Работа с сетью, руководство пользователя.
контрольная работа [928,3 K], добавлен 23.12.2012Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел
курсовая работа [29,2 K], добавлен 09.02.2011История развития программирования от 50-х годов ХХ века до сегодняшних дней. Характеристика понятия и основных задач программной инженерии как отрасли компьютерной науки. Ядро профессиональных знаний SWEBOK. Свод знаний по управлению проектами PMI PMBOK.
презентация [86,8 K], добавлен 14.08.2013Проблема представления знаний. Представление декларативных знаний как данных, наделенных семантикой. Представление процедурных знаний как отношений между элементами модели, в том числе в виде процедур и функций. Представление правил обработки фактов.
курсовая работа [33,1 K], добавлен 21.07.2012Исследование методов автоматического проектирования нечетких систем управления (НСУ). Методы автоматической настройки семантики лингвистических переменных. Искусственные нейронные сети, генетические алгоритмы. Коэволюционный алгоритм для формирования НСУ.
дипломная работа [2,3 M], добавлен 02.06.2011Разработка программы обработки числовых последовательностей с кодом на языке Pascal. Функции ввода пользователем с клавиатуры последовательности целых чисел. Алгоритмы разработанных процедур и функций. Инструкция пользователя, листинг программы.
курсовая работа [677,7 K], добавлен 13.07.2010Основы биометрической идентификации. Возможность использования нейросетей для построения системы распознавания речи. Разработка программного обеспечения для защиты от несанкционированного доступа на основе спектрального анализа голоса пользователя.
дипломная работа [2,8 M], добавлен 10.11.2013Классификация и характеристика сетей доступа. Технология сетей коллективного доступа. Выбор технологии широкополосного доступа. Факторы, влияющие на параметры качества ADSL. Способы конфигурации абонентского доступа. Основные компоненты DSL соединения.
дипломная работа [1,6 M], добавлен 26.09.2014Автоматизированная обработка информации: понятия и технология. Организация размещения, обработки, поиска, хранения и передачи информации. Защита информации от несанкционированного доступа. Антивирусные средства защиты информации. Сетевые технологии.
методичка [28,8 K], добавлен 14.01.2009Разработка программы проверки знаний для тестирования студентов по программированию с кодом на языке Delphi. Проектирование визуального интерфейса и словесный алгоритм работы программы. Алгоритмы разработанных процедур и функций, инструкция пользователя.
курсовая работа [506,5 K], добавлен 21.02.2011Программные системы искусственного интеллекта, экспертные системы как их разновидность. Автоматизированное формирование баз знаний в формате CLIPS на основе анализа баз данных СУБД Cache. Программные средства и технологии. Описание программной системы.
дипломная работа [5,1 M], добавлен 25.05.2012Организация проверки результатов обучения и оценки знаний, использование систем тестирования, основные требования к ним. Создание современной модели WEB-сервиса тестирования знаний; программная реализация; защита от копирования информации и списывания.
курсовая работа [24,1 K], добавлен 11.05.2012Обзор средств разработки и технологий: особенности языка программирования Visual Basic и подсистемы WIN32 API. Методы, приемы решения задачи автоматического размещения текстовых надписей на рисунке. Механизм создания полигонального объекта. Код программы.
курсовая работа [231,0 K], добавлен 28.08.2012Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.
курсовая работа [2,1 M], добавлен 20.09.2014Классы и группы моделей представления знаний. Состав продукционной системы. Классификация моделей представления знаний. Программные средства для реализации семантических сетей. Участок сети причинно-следственных связей. Достоинства продукционной модели.
презентация [380,4 K], добавлен 14.08.2013Выбор инструментальной среды разработки программного обеспечения системы. Алгоритм создания теста и ввода его исходных данных. Анализ экономической эффективности применения программного обеспечения "Тестирования знаний обучающихся программированию".
дипломная работа [3,2 M], добавлен 11.09.2014База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.
презентация [51,3 K], добавлен 17.10.2013Линейное и структурное представление мультимедиа информации. Средства создания и обработки изображения. Средства обработки 2D-графики и анимации. Средства создания и обработки звука, презентаций, гипермедиа-ресурсов и других мультимедиа-продуктов.
курсовая работа [9,0 M], добавлен 23.01.2011