Построение модели извлечения информации из технических текстов

Лингвистические особенности организации ФИС (формулы изобретения на способ). Возможности переиспользования интерфейса системы автоматического синтеза формулы изобретения для определения запроса к системе автоматического поиска патентных текстов.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык русский
Дата добавления 30.04.2018
Размер файла 72,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

1. Коэффициент сходства головных существительных Head определяется:

а) Для названий химических соединений (помечаются при анализе супертэгом ~F): название разбивается на уровневые последовательности, каждая из которых состоит из элементарных корней (соответствующих названиям химических групп) и указателей на другие уровни (большие латинские буквы). Самый крайний справа из элементарных корней признается головным словом для уровневой последовательности. Например, название соединения 2-[2-[4-(4-nitorbenzyloxy)phenyl]ethyl]isothioureamethanesulfonate включает 4 уровневые последовательности (головное слово подчеркнуто):

A = 2-B-isothioureamethanesulfonate

B = 2-C-ethyl

C = 4-D-phenyl

D = 4-nitorbenzyloxy

Каждая уровневая последовательность термина запроса сравнивается с каждой уровневой последовательностью термина документа. Далее по коэффициентам сходства определяется наилучшее соответствие уровневых последовательностей запроса и документа друг другу. Коэффициент сходства для уровневых последовательностей определяется как отношение числа элементарных корней, совпадающих в двух последовательностях, к общему числу корней в них.

б) Для остальных существительных: используется тезаурус. Сходство определяется как отношение номера уровня в иерархии для понятия, являющегося ближайшим общим предком для двух понятий, репрезентируемых сравниваемыми терминами запроса и документа, к большему из двух номеров уровней сравниваемых понятий. Например, для понятий, представляемых терминами polypeptide (уровень 5) и complement (уровень 4), первым общим предком в тезаурусной иерархии является понятие combination (уровень 2). Тогда коэффициент сходства двух терминов равен 2/5.

2. Коэффициент сходства остальной лексики Lex: в ИГ выделяется три группы характеристик, представленных отдельными зонами: а) количественные (выражены числительными или диапазоном значений); б) функциональные (выражены пассивным причастием); в) атрибутивные (остальные характеристики). Сравнение количественных характеристик включает определение, насколько диапазон значений в ИГ запроса включается в диапазон значений ИГ документа. Функциональные характеристики не оцениваются. Сходство атрибутивных характеристик определяется как доля общих элементов для ИГ запроса и документа. Коэффициент сходства Lex вычисляется как взвешенная сумма оценок сходства ИГ по указанным параметрам.

3. Коэффициент сходства валентностей аргументных выражений SemR: список валентностей разбит на две группы main (Субъект, Объект, Косвенный объект) и aux (остальные валентности). В зависимости от принадлежности аргументов запроса и документа к одной/разным группам коэффициент SemR принимает одно из списка произвольно заданных значений.

Коэффициент Termj для аргументов-ИГ вычисляется как взвешенная сумма трех описанных коэффициентов. Аргумент документа, получивший при сравнении с текущим аргументом запроса максимальное значение коэффициента Termj, соотносится с последним, причем соответствующее значение Termj характеризует степень их сходства.

Коэффициент сходства аргументного состава Term двух предикатных конструкций в целом определяется как взвешенная сумма значений Termj для каждого аргумента рассматриваемой предикатной конструкции запроса.

Отбор одного из кандидатов для запроса на уровне предикатно-аргументной конструкции осуществляется на основании значения коэффициента PredCt, который вычисляется как , где k - количество всех кандидатов (предикатно-аргументных конструкций документа) для данной предикатно-аргументной конструкции запроса. Если максимальное из произведений ниже заданного порогового значения, PredCt принимает значение 0.

Сопоставление компонентных зон запроса и документа осуществляется на основании значения коэффициента PredZonej, который определяется как взвешенная сумма значений коэффициентов PredCt, найденных для всех предикатных конструкций рассматриваемой компонентной зоны запроса. Компонентная зона-кандидат документа с максимальным значением коэффициента PredZonej ставится в соответствие рассматриваемой компонентной зоне запроса, причем соответствующее значение PredZonej характеризует степень сходства двух зон.

Сопоставление на уровне запроса/документа в целом может осуществляться следующими способами: 1) степень сходства документа и запроса Similpurp равна значению PredZone1, соответствующего цели способа; 2) степень сходства документа и запроса Similmax равна максимальному из значений PredZonej, соответствующих компонентам способа; 3) степень сходства документа и запроса Similtotal определяется как обобщенный коэффициент, учитывающий: а) значения коэффициентов сходства всех компонентных зон, и б) соответствие указанной последовательности выполнений действий-компонентов способа в запросе и документе.

IV. Модуль выдачи информации представляет собой интерфейс, который предлагает пользователю ранжированный список ссылок на патентные документы, отсортированный в соответствии с рангом на основании значений одного из коэффициентов сходства на уровне запроса/документа (Similpurp, Similmax или Similtotal).

Предложенные правила сопоставления структурированных представлений запроса и документа дают возможность создать автоматическое приложение, осуществляющее извлечение текстов формул изобретений из патентных БД на основании глубокого лингвистического анализа и учета особенностей естественного языка. Такая система должна характеризоваться более тонким механизмом обработки реализации смыслов в языке и обладать, очевидно, большей семантической силой, чем любая система, использующая искусственный информационный язык.

Разработанная модель извлечения информации допускает дальнейшее развитие и может быть использована в направлении решения задач автоматизации патентных исследований, ключевым звеном которой является формальное выделение признаков изобретения. При доработке модели на основании процедуры сопоставления образов документа и запроса возможно автоматизировать анализ патентоспособности и патентной чистоты нового изобретения.

Основные положения диссертационного исследования отражены в следующих публикациях

1. Бабина, О.И. Частотные характеристики семантических классов предикатов, встречающихся в формулах изобретения патентов на метод в фармакологии / О.И. Бабина // Международная научно-практическая конференция «Теория и методика преподавания языков в вузе»: Тезисы докладов / под ред. Е.Н. Ярославовой. (Челябинск, 15-17 декабря 2003 г). - Челябинск: Изд-во ЮУрГУ, 2003. - С. 141-142.

2. Бабина, О.И. Предикатная лексика формул изобретения патентов на метод / О.И. Бабина // Фундаментальные и прикладные исследования в системе образования: Материалы 2-й Международной научно-практической конференции / отв. ред. Н.Н. Болдырев. (Тамбов, 28 марта 2004 г). - Тамбов: Изд-во ТГУ им. Г.Р. Державина, 2004. - Ч. 4. - С. 62-65.

3. Бабина, О.И. Специфика процедуры автоматического анализа текстов патентов на метод / О.И. Бабина // Объединенный научный журнал. №33 (125). Декабрь 2004. - С. 62-66.

4. Бабина, О.И. Грамматические характеристики предикатов формулы изобретения патентов на метод / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУрГУ, 2004. - №1. - С. 8-12.

5. Sheremetyeva, S. Meaning-Text theory for textual input analysis and proofing in a generation system / S. Sheremetyeva, O. Babina // Восток - Запад: Вторая международная конференция по модели «Смысл Текст» / отв. ред. Ю.Д. Апресян, Л.Л. Иомдин. (Москва, 23-25 июня 2005 г). - М.: Языки славянской культуры, 2005. - С. 458-466.

6. Бабина, О.И. Семантическое сопоставление образов запроса и документа при автоматическом документальном поиске / О.И. Бабина // Наука и образование. IV международная научная конференция: Материалы конференции. (Белово, 2-3 марта 2006 г). - Кемерово: Изд-во КемГУ, 2006.

7. Бабина, О.И. Автоматический отбор релевантной информации из информационного массива патентных текстов / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУрГУ, 2006. - №2. - С. 67-72.

Размещено на Allbest.ru

...

Подобные документы

  • Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.

    реферат [19,0 K], добавлен 02.11.2008

  • Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.

    курсовая работа [727,0 K], добавлен 12.01.2014

  • Разработка алгоритма автоматического создания отзывов на русском языке с использованием лексико-синтаксических шаблонов. Процесс создания текста при помощи цепей Маркова. Принцип работы Томита-парсера. Применение автоматических генераторов текстов.

    курсовая работа [150,6 K], добавлен 27.09.2016

  • Появление технических систем автоматического распознавания. Человек как элемент или звено сложных автоматических систем. Возможности автоматических распознающих устройств. Этапы создания системы распознавания образов. Процессы измерения и кодирования.

    презентация [523,7 K], добавлен 14.08.2013

  • Математический набор. Запуск Equation Editor. Построение образца формулы. Создание кубического корня. Вставка формулы в подкоренное выражение. Построение формулы в знаменателе. Текстовые эффекты. Печать документов.

    лабораторная работа [320,9 K], добавлен 10.03.2007

  • Логика высказываний и предикатов. Построение таблицы истинности для логической формулы. Обоснование выбора структур данных. Описание алгоритма решения задачи. Описание пользовательского интерфейса. Окно командной строки, для ввода логической формулы.

    курсовая работа [437,7 K], добавлен 10.04.2017

  • Теория автоматического управления как наука, предмет и методика ее изучения. Классификация систем автоматического управления по различным признакам, их математические модели. Дифференциальные уравнения систем автоматического управления, их решения.

    контрольная работа [104,1 K], добавлен 06.08.2009

  • Проект экспериментального программного комплекса индексирования и поиска неструктурированной текстовой информации в многоязычной среде, состоящего из математических моделей, алгоритмов и программных средств. Исследование характеристик его эффективности.

    автореферат [296,5 K], добавлен 31.01.2012

  • Методика составления типовых звеньев, этапы расчета передаточных функций элементов. Определение устойчивости системы, критерии оценки данного показателя. Проведения синтеза системы автоматического регулирования при получении дополнительных условий.

    курсовая работа [54,1 K], добавлен 10.01.2015

  • Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.

    дипломная работа [1,7 M], добавлен 18.03.2012

  • Преимущества Delphi по сравнению с аналогичными программными продуктами. Особенности разработки системы автоматического заполнения анкеты в формате MS Word. Разработка программного обеспечения. Процедуры пользовательского интерфейса. Листинг программы.

    курсовая работа [465,1 K], добавлен 22.01.2014

  • Исследование системы автоматического управления при помощи программного обеспечения MATLAB и пакета Simulink. Изучение замкнутой системы согласно критериям устойчивости Гурвица, Михайлова и Найквиста. Реализация модели "жесткого" спутника Земли.

    методичка [911,6 K], добавлен 10.10.2010

  • Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

    дипломная работа [1,1 M], добавлен 21.09.2016

  • Понятие и назначение статистической характеристики системы автоматического управления. Динамические характеристики системы в неустановившемся режиме, порядок их определения и вычисления методом разложения. Преимущества логарифмических характеристик.

    реферат [90,9 K], добавлен 10.08.2009

  • Схемотехнический синтез системы автоматического управления. Анализ заданной системы автоматического управления, оценка ее эффективности и функциональности, описание устройства и работы каждого элемента. Расчет характеристик системы путем моделирования.

    курсовая работа [3,4 M], добавлен 21.11.2012

  • Изучение и проектирование автоматического интерфейса ввода-вывода, состоящего из канала измерения в указанных пределах и канала управления напряжением в определенном диапазоне с максимальной приведенной погрешностью и ограниченным временем измерения.

    контрольная работа [93,1 K], добавлен 31.08.2010

  • Возможности извлечения информации из баз данных. Программы для создания и обработки базы данных и создания пользовательского интерфейса. Обоснование выбора программных средств для реализации. Создание базы данных, интерфейса и базы данных к интерфейсу.

    курсовая работа [2,9 M], добавлен 24.03.2023

  • Использование программного обеспечения MatLab для выполнения математических расчетов в области линейной алгебры, теории информации и обработки сигналов, автоматического и автоматизированного управления. Возможности стандартного интерфейса программы.

    курсовая работа [178,7 K], добавлен 08.08.2011

  • Характеристика информации. Перевод числа из двоичной системы в десятичную, шестнадцатеричную и восьмеричную. Способы оценки количества информации. Технические средства обработки информации. Принцип работы, история изобретения струйного принтера.

    контрольная работа [1016,6 K], добавлен 22.10.2012

  • Динамические характеристики типовых звеньев и их соединений, анализ устойчивости систем автоматического управления. Структурные схемы преобразованной САУ, качество процессов управления и коррекции. Анализ нелинейной системы автоматического управления.

    лабораторная работа [681,9 K], добавлен 17.04.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.