Экспериментальные исследования денотативной модели понимания в приложениях автоматического реферирования текста
Исследование компьютерного представления структуры предметной области при его использовании в системе автоматического реферирования. Методика денотативного анализа текста А. Новикова. Создание вычислительной модели для автоматического построения графов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 27.07.2017 |
Размер файла | 1,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Экспериментальные исследования денотативной модели понимания в приложениях автоматического реферирования текста
Н.А. Герте, Д.С. Курушин
Аннотация
В статье рассматривается экспериментальное исследование компьютерного представления структуры предметной области, которая может быть использована в системе автоматического реферирования. В качестве теоретической основы исследования была выбрана психолингвистическая теория А.И. Новикова и разработанная им методика денотативного анализа текста, позволяющая эксплицировать в виде графа структуру как отдельного текста, так и определенной предметной области. Использование данной методики позволило авторам создать вычислительную модель для автоматического построения графов, отражающих содержание вводимых в машину текстов.
Работа выполняется при поддержке РФФИ, проект №14-07-00671.
Ключевые слова: денотат, вычислительный эксперимент, реферирование, понимание, инфологическая модель, понимание текста, смысловое свертывание.
Постановка проблемы и предлагаемое решение
Создание системы автоматизированного реферирования не является новой задачей [1, 2], но до сих пор она остается нерешенной. «Неразрешимость» этой задачи связана с тем, что для ее решения требуется найти способ формализации не внешней (языковой) формы текста, а внутренней (содержательной) [3, 4]. Это, в свою очередь, требует создания модели понимания, применимой в человеко-машинной коммуникации.
Представляется, что в качестве такой модели может быть использована модель содержания текста, представленная иконически в виде денотатного графа, отражающего иерархическую систему денотатов и их отношений, что соответствует модели фрагмента реальной предметной ситуации. Методика построения такого графа, в котором «вершинам соответствуют имена денотатов, полученные в результате содержательного анализа текста и применения необходимых знаний о данном фрагменте действительности, а ребрам -- предметные отношения между этими денотатами» была разработана в отечественной лингвистике А.И. Новиковым [5, с.131].
В рамках выполнения работ по созданию системы автоматизированного реферативного перевода авторами были разработаны метод, модель и алгоритм построения денотативной модели текста на основе его внешней формы [6, 7, 8] и, имеющейся в распоряжении системы, модели предметной области [9]. Инфологическая модель представления показана на рис. 1.
Рис. 1. - Диаграмма «сущность-связь» (фрагмент)
Можно видеть, что модель основного содержания представлена т. н. «денотатными парами» - цепочками «денотат -- отношение -- денотат». Отношение в этом случае представлено в виде связи с арностью n:m, что отражает тот факт, что в реальном мире так или иначе все понятия как-то связаны друг с другом (напр.: «рыба сидела на дереве»), однако значимость разных связей для понимания текста и их вероятность встречи в конкретном тексте разная. Также имеется атрибут «направление», позволяющий одновременно закодировать такие отношения как «студенты учатся у преподавателей» и «преподаватели учатся у студентов». Оба утверждения истинны, но для описания, скажем структуры вуза большее значение имеет первый вариант. При анализе текстов именно он должен получить больший вес и вероятность.
Понятие «словосочетание» в данной модели отличается от общепринятого в лингвистике тем, что может содержать и одно слово. Это сделано для универсальности алгоритма обработки входного текста.
Словарь нужен для установления неявных связей между понятиями алгоритмическим путем (за счет нечеткого сравнения словарных статей), а также для возможности расширения текста реферата дополнительными сведениями из него.
Предметная область имеет доменную структуру [10, 11], что позволяет указывать разную вероятность вхождения того или иного понятия в текст в зависимости от контекста. Также в ряде случаев это позволяет разрешать лингвистические неопределенности, свойственные тексту на естественном языке.
Результат разбора текста сохраняется в сущностях «Предложение», «Член предложения» и т. д., что позволяет привязать распознанные денотатные пары к предложениям текста.
Экспериментальные исследования
Эксперименты по обработке текста проводились на базе работы [3], в которой содержатся рефераты научно-технических текстов по тематике «жидкие кристаллы» а также денотатные графы, построенные по ним авторами этой работы. Также в работе представлен т. н. «эталонный граф» (Г0), который можно считать денотативной моделью предметной области. Граф построен при участии экспертов в области физики жидких кристаллов.
В таблице 1 приведено краткое содержание эталонного графа, составленного авторами статьи на базе графа из [3]. Вес проставлен (отсутствовал в Г0) авторами настоящей статьи.
Структура представлена в формате JSON, что позволило ее обрабатывать системой автореферирования, и загружена в программу. Также, для сравнения была построена визуализация Г0 при помощи системы GraphViz [12] (см. рис. 2).
Рис. 2. - Эталонный граф Г0
Текст реферата, предложенный системе для анализа представлен на рис. 3. (входной формат системы, JSON).
Рис. 3. - Текст реферата Т1
Таблица № 1
Описание предметной области в форме денотатных пар
Денотат |
Отношение |
Денотат |
Вес |
|
кристалл |
быть |
жидкий |
0,10 |
|
кристалл |
представлять |
капля |
0,10 |
|
капля |
находиться |
подложка |
0,20 |
|
подложка |
быть |
стеклянный |
0,80 |
|
капля |
состоять |
слой |
0,80 |
|
слой |
быть |
молекулярный |
0,80 |
|
капля |
характеризоваться |
состояние |
0,70 |
|
состояние |
быть |
нематик |
0,50 |
|
состояние |
быть |
холестерик |
0,50 |
|
холестерик |
иметь |
структура |
0,80 |
|
структура |
быть |
спиральный |
0,80 |
|
структура |
характеризоваться |
шаг |
0,90 |
|
шаг |
зависеть |
индукция |
0,60 |
|
индукция |
быть |
магнитный |
0,90 |
компьютерный реферирование графа денотивный
В результате анализа текста T1 система построила денотатный граф Г1, представленный на рис. 4.
Несложно заметить, что Г1 практически идентичен Г0. Это происходит потому, что текст Т1 составлен из ядерных предложений, идентичных денотатным парам, представленным в таблице 1.
Рис. 4. - Граф Г1, построенный системой по тексту Т1
Более интересные результаты получаются при предъявлении системе текста, в котором имеются отношения, ей неизвестные. Так, например, текст энциклопедического характера Т2 (см. рис. 5) был проанализирован с явными ошибками (см. рис.6).
Рис. 5. - Текст реферата Т2
Рис. 6. Граф Г2, построенный по тексту Т2
Основные ошибки, которые можно выделить это:
1) инверсия отношения (анизотропия -- обладать -- кристалл),
2) «непонимание» оборота «в свою очередь».
Для коррекции возникших ошибок дополним эталонный граф следующими денотатными парами (таблица 2).
Таблица № 2
Дополнения к предметной области
Денотат |
Отношение |
Денотат |
Вес |
|
кристалл |
обладать |
анизотропия |
0,5 |
|
нематик |
подразделяться |
холестерик |
0,5 |
|
нематик |
подразделяться |
нематик |
0,2 |
Рис. 7. - Граф Г2-а по тексту Т2
Как можно видеть (рис. 7), инверсия отношения частично исчезла, утверждение «кристалл -- обладать -- анизотропией» «пересилило» неправильную интерпретацию грамматической структуры, оборот «в свою очередь» не стал «понятнее» системе, но стал оказывать меньшее влияние на результат (выделен овалом авторами, для наглядности). Можно отметить еще одну ошибку (имеется как в Г2, так и в Г2-а) системы - выделение денотата «исполняющий». Это явление вызвано не вполне корректной работой библиотечного ПО, используемого для получения лингвистических характеристик слов и предложений текста.
Рис. 8. - Граф Г2-б по тексту Т2
Далее, в предметную область были внесены следующие утверждения (в виде денотатных пар): «текучесть -- есть -- свойство -- жидкости» и «анизотропия -- есть -- свойство -- свойство -- жидкости». Это, как видно из графа Г2-б (рис. 8) привело к исчезновению инвертированных отношений. «Непонятный» системе оборот «в свою очередь» был исключен из текста.
Выводы
В результате экспериментов установлено, что от того, насколько полно описана предметная область зависит результат интерпретации текста. Также наглядно показано, что когда система не имеет опоры на «знания» о предметной области, она пытается извлекать денотатные пары из грамматической структуры текста, что приводит к ошибочному пониманию текста. Тем не менее полученные рефераты отражают содержание исходного текста (в графовой форме).
В дальнейшем необходимо дополнить систему подсистемами распознавания устоявшихся речевых оборотов типа «в свою очередь», «таким образом» и т.п., которые не влияют на содержание текста. Дальнейшее развитие представленной модели позволит улучшить алгоритмы классификации [13] и индексации документов.
Литература
1. Och F.J., Tillmann C., Ney H. Improved Alignment Models for Statistical Machine Translation. URL: ai.mit.edu/courses/6.891-nlp/ASSIGNMENT1/t1.4.pdf (accessed 02/10/2015).
2. Шепелев А.Н., Букатов А.А., Пыхалов А.В., Березовский А.Н. Анализ подходов и средств обработки сервисных журналов // Инженерный вестник Дона. 2013. №4. URL: ivdon.ru/ru/magazine/archive/n4y2013/1966.
3. Новиков А.И., Нестерова Н.М. Реферативный перевод научно-технических текстов. M.: Академия наук СССР, Институт Языкознания, 1991. 147 с.
4. Жинкин Н.И. Речь как проводник информации. М.: Наука, 1982. 156 с.
5. Новиков А.И. Семантика текста и ее формализация. М.: Наука, 1983. 214 c.
6. Герте Н.А., Нестерова Н.М. Реферирование как способ извлечения и представления основного содержания текста // Вестник Пермского университета. Российская и зарубежная филология. 2013. №4/24. С. 127-132.
7. Герте Н.А. «Эквивалентность» и «адекватность» в реферативном переводе в свете скопос-теории // Межкультурная - интракультурная коммуникация: теория и практика обучения и перевода: материалы III Международной научно-методической конференции. Уфа: РИЦ БашГУ, 2014. С. 109-114.
8. Герте Н.А., Курушин Д.С., Нестерова Н.М. Свертывание информации в процессе реферирования: методы и возможные пути формализации // Вестник ПНИПУ. Проблемы языкознания и педагогики. 2013. №7(49). С. 188-196.
9. Курушин Д.С., Нестерова Н.М., Овчинникова И.Г. О возможном подходе к созданию системы автоматического реферирования // Вопросы психолингвистики. 2014. №2(20). С. 123-127.
10. Файзрахманов Р.А., Файзрахманов Р.Р., Долгова Е.В. Моделирование представления информации в задачах автоматической обработки веб-страниц и извлечения веб-информации // Вестник Ижевского государственного технического университета. 2011. № 2. С. 176-178.
11. Долгова Е.В., Файзрахманов Р.А. Выбор модели технической системы на основе технологии распознавания // Приборы и системы. 2005. № 9. С. 68-70.
12. Graphviz - Graph Visualization Software. URL: graphviz.org (accessed 02/10/2015).
13. Киселёв Ю.А. Перспективы использования жанровой классификации Веб документов в поисковых системах // Инженерный вестник Дона. 2012. №4. URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1425.
Размещено на Allbest.ru
...Подобные документы
Теория автоматического управления как наука, предмет и методика ее изучения. Классификация систем автоматического управления по различным признакам, их математические модели. Дифференциальные уравнения систем автоматического управления, их решения.
контрольная работа [104,1 K], добавлен 06.08.2009Решение проблемы автоматического упрощения текста на лексическом уровне: способы, методы, приложения и инструменты. Задача автоматической адаптации текста для изучающих иностранный язык. Выбор средств разработки, создание словарей замен и языковой модели.
дипломная работа [117,3 K], добавлен 28.08.2016Исследование системы автоматического управления при помощи программного обеспечения MATLAB и пакета Simulink. Изучение замкнутой системы согласно критериям устойчивости Гурвица, Михайлова и Найквиста. Реализация модели "жесткого" спутника Земли.
методичка [911,6 K], добавлен 10.10.2010Статический регулятор в системе автоматического регулирования технологическим процессом. S-модель статического регулятора в замкнутой системе автоматического управления. Окно для визуализации графиков моделируемых процессов. Вкладка general, data history.
контрольная работа [1,2 M], добавлен 07.07.2013Динамические характеристики типовых звеньев и их соединений, анализ устойчивости систем автоматического управления. Структурные схемы преобразованной САУ, качество процессов управления и коррекции. Анализ нелинейной системы автоматического управления.
лабораторная работа [681,9 K], добавлен 17.04.2010Исследование основных требований, предъявляемых к инфологической модели. Методы представления предметной области. Инфологическое описание предметной области. Модель "сущность-связь". Типы бинарных связей. Отражение объектов в информационной системе.
презентация [397,3 K], добавлен 29.09.2013Поведение идентификации термического объекта исследования, компьютерного моделирования объекта по полученной математической модели. Расчет переходных характеристик замкнутой системы автоматического управления, а также анализ ее устойчивости и качества.
дипломная работа [1,8 M], добавлен 17.09.2011Описание предметной области "Магазин по продаже компьютерных комплектующих". Построение ER и реляционной модели данных, сущности и связи. Создание ER и реляционной модели данных, запросов, представлений, хранимых процедур для предметной области.
курсовая работа [32,2 K], добавлен 15.06.2014Исследование вертикальных проекций яркости и размаха яркости. Программная реализация алгоритма автоматического анализа цифровых изображений номерных знаков с целью сегментации цифробуквенных символов. Разработка графического пользовательского интерфейса.
дипломная работа [1,5 M], добавлен 12.04.2013Схемотехнический синтез системы автоматического управления. Анализ заданной системы автоматического управления, оценка ее эффективности и функциональности, описание устройства и работы каждого элемента. Расчет характеристик системы путем моделирования.
курсовая работа [3,4 M], добавлен 21.11.2012Построение инфологической модели предметной области методом ER- диаграммы. Создание отношений БД с помощью языка SQL. Заполнение базы данных. Создание запросов к базе данных компьютерного клуба. Создание отчета с помощью Microsoft Word и Microsoft Excel.
курсовая работа [50,0 K], добавлен 26.02.2009Разработка системы автоматического конвертирования исходного текста программ для станков с ЧПУ. Обоснование целесообразности создания такой системы. Критерии экономической эффективности ее функционирования. Оценка безопасности и экологичности проекта.
дипломная работа [2,1 M], добавлен 23.06.2008Состав пакета MS Office и создание списков. Оформление маркированных и многоуровневых списков. Создание баз данных в Microsoft Exсel и Access, межтабличных связей для автоматического формирования ведомости остатков вкладов с начисленными процентами.
курсовая работа [323,9 K], добавлен 25.04.2013Получение дискретной передаточной функции и создание модели импульсной системы автоматического управления. Билинейное преобразование и определение граничного коэффициента. Влияние периода квантования. Синтез и анализ главных параметров регулятора.
курсовая работа [951,2 K], добавлен 11.06.2015Обзор методов составления математических моделей систем автоматического управления. Математические модели системы в векторно-матричной форме записи. Моделирование в пакете программы Simulink. Оценка устойчивости системы, рекомендации по ее применению.
курсовая работа [514,5 K], добавлен 10.11.2011Моделирование имитационной модели системы управления, состоящей из ПИ-регулятора и инерционного объекта второго порядка. Прогон и оптимизация модели на системе имитационного моделирования ИМОДС. Оценка параметров системы до и после оптимизации.
курсовая работа [1,3 M], добавлен 17.02.2013Исследование методов автоматического проектирования нечетких систем управления (НСУ). Методы автоматической настройки семантики лингвистических переменных. Искусственные нейронные сети, генетические алгоритмы. Коэволюционный алгоритм для формирования НСУ.
дипломная работа [2,3 M], добавлен 02.06.2011Технические требования к системе автоматического регулирования: допустимые ошибки в установившихся режимах. Выбор измерительно-преобразовательных элементов, диапазон измерения, условия работы, инерционность. Монтаж датчиков, маркировка труб и кабелей.
дипломная работа [2,7 M], добавлен 19.01.2017Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.
реферат [19,0 K], добавлен 02.11.2008Теория автоматического управления - совокупность целесообразных действий, направленных на достижение поставленных целей. Объект управления - техническое устройство, в котором протекает управляемый процесс. Алгебраические критерии устойчивости Гурвица.
курсовая работа [338,1 K], добавлен 03.10.2008