Лексико-синтаксические шаблоны для автоматического анализа научно-технических текстов

Рассмотрение лексико-фразеологических и дискурсивных особенностей текстов научно-технического стиля, которые следует учитывать при разработке процедур автоматической обработки текстов. Описание элементов и языка записи шаблонов, методики их разработки.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 16.01.2018
Размер файла 28,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Лексико-синтаксические шаблоны для автоматического анализа научно-технических текстов

Е.И. Большакова11 119992, Москва, ГСП-2, Ленинские горы, МГУ им. М. В. Ломоносова, Факультет ВМиК, bolsh@cs.msu.su, Н.Э. Васильева22 119992, Москва, ГСП-2, Ленинские горы, МГУ им. М. В. Ломоносова, Факультет ВМиК, nvasil@list.ru, С.С. Морозов33 119992, Москва, ГСП-2, Ленинские горы, МГУ им. М. В. Ломоносова, Факультет ВМиК, sergej_morozov@rambler.ru

Рассматриваются лексико-фразеологические и дискурсивные особенности текстов научно-технического стиля, которые следует учесть при разработке процедур автоматической обработки текстов. Характеризуются разрабатываемые словарные средства, отражающие указанные особенности: компьютерный словарь общенаучной речи и лексико-синтаксические шаблоны типичных фраз. Кратко описываются составные элементы и язык записи шаблонов, а также методика их разработки.

научный лексический текст автоматический

Введение

Одним из наиболее своеобразных функциональных стилей речи является научный стиль, представленный в текстах из различных научно-технических областей естественных и точных наук. Научную прозу отличает не только ее высокая стандартизированность и насыщенность специальными терминами, но и особый формально-логический способ изложения материала. Типичное научное изложение представляет собой рассуждение, призванное описать и обосновать результаты проведенного научного исследования. Шаги рассуждения обычно указываются автором текста при помощи общенаучных слов и выражений (слов-организаторов научной мысли): далее мы докажем, из вышесказанного следует, в заключение, по причине того, что и т.п. Такие слова и выражения называются также дискурсивными (речевыми) маркерами, поскольку они помечают дискурсивные операции и относятся к дискурсивному уровню текста. Из общенаучных слов строятся типичные выражения-клише научной прозы: как показало проведенное исследование, всесторонний анализ проблемы приводит к выводу и т.п.

Лексико-фразеологические и дискурсивные особенности текстов научно-технического стиля взаимосвязаны и носят системный характер, и они должны быть всесторонне учтены при разработке процедур, автоматизирующих отдельные интеллектуальные операции над текстом. Для выявления этих особенностей были изучены общенаучная фразеология и дискурсивная организация научных текстов разных жанров (статьи, монографии, аннотации, справочники) из разных предметных областей; преимущественно рассматривались научные статьи, как относящиеся к «ядру» функционального стиля.

Выявленные особенности легли в основу рабочей гипотезы, согласно которой процедура автоматического распознавания общей дискурсивной структуры научного текста и примененных в нем операций научного мышления (по сути - поверхностного его понимания) может быть построена на основе частичного синтаксического анализа текста и лексикона общенаучных слов и выражений, без использования полного синтаксического разбора предложений. В работе [Севбо, 1989] аналогичная идея выдвигалась и обсуждалась применительно к текстам любого стиля, но не была воплощена в работающей системе.

В ходе наших исследований была начата разработка словарных средств, отображающих специфику именно научной прозы: компьютерного словаря общенаучных слов и выражений и специальных лексико-синтаксических шаблонов, описывающих характерные конструкции научно-технических текстов [Большакова и др., 2004; Васильева, 2004]. Были определены составные элементы лексико-синтаксических шаблонов, язык их записи и методика создания набора шаблонов, на основе который был разработан первоначальный набор шаблонов для описания характерных конструкций определения новых терминов. Данные лексико-синтаксические шаблоны подобны тем, что предложены в работе [Hearst, 1998], но используются для других целей: на набор лексико-синтаксических шаблонов опирается разрабатываемая нами процедура распознавания дискурсивной структуры научного текста.

К числу прикладных задач, для решения которых требуются разрабатываемые процедуры и словарные средства, относятся:

Литературно-научное редактирование и обучение научно-техническому литераторству;

Реферирование и аннотирование научно-технических текстов;

Извлечение знаний из научных текстов, в том числе - определений новых понятий;

Структуризация научно-технических текстов для быстрого внутритекстового поиска.

1. Научный дискурс и общенаучный лексикон

Основная цель научного произведения - сообщение о результатах проведенного исследования и объяснение способа их получения, формулировка новых идей и их обоснование. Соответственно, научный дискурс представляет собой логически взаимосвязанную последовательность речевых (дискурсивных) действий, соответствующих операциям научного мышления [Митрофанова, 1973; Николаев,  1998; Рябцева, 1992]. К типичным операциям относится обоснование вывода, выдвижение гипотезы, введение термина и понятия, приведение фактов и доказательств, подведение итогов и др. Как правило, эти операции более или менее явно помечаются общенаучными словами и выражениями, образующими общенаучный лексикон.

Наиболее явными маркерами мыслительных операций служат так называемые ментальные перформативные высказывания (например: ниже рассмотрим, особо подчеркнем), которые обычно квалифицируют применяемую операцию. В работе [Рябцева, 1992] описаны виды перформативных высказываний, опирающиеся на широкий круг ментальных перформативных глаголов (опишем, предположим, заметим и т.п.):

канонические, с глаголом в 1 лице множественного числа (мы покажем);

«установочные», с модальным или оценочным словом (необходимо/нетрудно заметить);

в форме деепричастия или деепричастного оборота (резюмируя вышесказанное);

в безличной форме (представляется, что…).

В научных текстах встречаются также дескриптивные (косвенные) варианты ментальных перформативов, используемые либо для перифразирования (эти данные приводятся в таблице 3 вместо канонического мы приводим эти данные в таблице 3), либо для установления связей между высказываниями текста (далее кратко изложен).

Кроме перформативов используются также маркеры очередности (во-первых, наконец и др.); коннекторы - союзы и союзные слова (однако, благодаря тому, что и т.п.); слова-оценки (возможно, по-видимому и т.п.), часто встречающиеся и в текстах других стилей [Севбо, 1989].

Все указанные виды дискурсивных маркеров имеют ярко выраженный метатекстовый характер [Вежбицка, 1978], большинство из них функционируют в тексте как метатекстовые операторы, предполагающие в своем составе сентенциальный или атрибутивный аргумент: подчеркивается, что S, рассмотрим N).

К общенаучному лексикону относятся абстрактные существительные, называющие аппарат научно-познавательной деятельности (вопрос, проблема, понятие, анализ, процедура, схема и др.). Эти существительные называются общенаучными переменными [Севбо, 1989], поскольку имеют обязательную атрибутивную валентность (проблема N, понятие N). Хотя они не используются в метатекстовой функции, они играют важную роль в структуризации научной информации. Общенаучные переменные обычно употребляются в научных текстах с перформативными глаголами (ввести понятие, подвергнуть анализу) [Словарь, 1973].

Таким образом, общенаучный лексикон охватывает широкий круг семантически и грамматически разнородных слов и выражений общенаучной речи. Важно, что он не зависит от конкретной предметной области и сравнительно немногочисленен. Заметим, что лексикон состоит из общеупотребительных слов, поэтому их метатекстовая функция в конкретном предложении текста (т.е. выполняют ли они роль дискурсивного маркера) в общем случае может быть установлена только в результате исследования контекста их употребления.

2. Словарные средства анализа научно-технических текстов

Для анализа научно-технических документов предлагается использовать, кроме традиционных терминологического и морфологического словарей, следующие словарные средства, отображающие специфику научной прозы:

Словарь общенаучных слов и выражений;

Лексико-синтаксические шаблоны типичных фраз научной речи.

При построении словаря общенаучных слов и выражений была проведена функционально-семантическая классификация собранных единиц. Выражения были разбиты на группы исключительно по их смыслу и функции в тексте, без учета их грамматической формы и синтаксических характеристик.

В итоге получилось 53 группы, каждая из которых является классом слабой эквивалентности и включает в общем случае несколько семантически близких выражений разной грамматической природы. Каждой группе приписана соответствующая операция научного дискурса; эти операции частично приведены в таблице 1.

Для каждой единицы словаря общенаучной речи указывается ее классификационная группа (дискурсивная операция); для словосочетаний описываются их синтаксические характеристики (разрывность/ неразрывность и др.).

Для распознавания в тексте словарного словосочетания необходима информация о семантико-синтаксических валентностях составляющих его слов. Такую информацию можно представить в виде лексико-синтаксического шаблона, который фиксирует лексемы и их грамматическую форму, а также задает синтаксические условия заполнения своих пустых мест (валентностей). Кроме того, в виде шаблонов удобно представлять клишированные конструкции научной речи, составленные из нескольких словарных единиц и имеющие фиксированную синтаксическую структуру. К числу таких конструкций относятся определения новых терминов, состоящие из одного предложения, например, фраза «…значение, которое используется для расширения первоначального набора, мы будем называть существенным значением…». Указанная конструкция схематически может быть описана как

NGACC [«мы»] «будем называть»TINS,

где «мы» и «будем называть» ? совместно встречающиеся лексемы, причем слово «мы» может отсутствовать; TINS - определяемый термин, выраженный согласованной именной группой, главное слово которой имеет форму творительного падежа; NGACC - определение или объяснение авторского термина, выраженное согласованной именной группой (возможно, расширенной придаточным предложением), главное слово которой имеет форму винительного падежа.

Таблица 1. Операции научного дискурса

Операции

Примеры слов и выражений

Описание и констатация

укажем, что; характеризуя

Конкретизация и уточнение

в частности; в дополнение к

Причинно-следственные связи

по этой причине; следовательно

Актуализация темы

перейдем к; рассмотрим

Выделение информации

особо подчеркнем;
необходимо отметить

Предположения и допущения

предположим/допустим, что

Определения

будем называть; по определению

Сравнение и противопоставление

с одной стороны; в отличие от; по сравнению с

Иллюстрация и приведение примеров

к примеру; например

Обобщение и резюмирование

суммируя вышесказанное;

в общем

Упорядочивание и перечисление

во-первых; наконец

Помета общенаучной переменной

идея, модель, результат

Выражение мнения и оценивание

целесообразно считать;
по-видимому

Представленная в словаре общенаучной речи и наборе шаблонов семантико-синтаксическая информация позволяет производить содержательный анализ научно-технических текстов - распознавание примененных дискурсивных маркеров и операций научного дискурса.

3. Разработка лексико-синтаксических шаблонов

Проблема, возникающая при разработке шаблонов конструкций, заключается в определении контекстов, однозначно сигнализирующих дискурсивный (метатекстовый) характер употребляемых слов и словосочетаний. Для ее решения необходимо проводить исследование контекстов употреблений конструкций.

Такое исследование было проведено для контекстов конструкций, определяющих новые термины. Вручную было просмотрено около 50 научно-технических текстов, и из них были выделены те фразы, которые использовались при определении или пояснении нового термина. После их предварительного анализа было получено первоначальное множество лексем, входящих в конструкции определений, что позволило в дальнейшем частично автоматизировать процесс поиска новых конструкций и контекстов.

Так как количество разных контекстов было велико, контексты для каждой фиксированной лексемы (или для двух-трех совместно встречающихся лексем) были рассмотрены по отдельности, что позволило выявить соответствующие синтаксические конструкции, которые затем были формализованы в виде лексико-синтаксических шаблонов.

В состав шаблонов входят следующие элементы:

Литералы, т.е. конкретные лексемы из словаря общенаучной речи («определим», «будем называть» и др.), а также сокращения («т.н.») и знаки препинания. Литеральные элементы заключаются в кавычки.

Символьные обозначения слов определенной части речи и грамматической формы, которые могут заполнять свободные места (слоты) шаблона; например, N - существительное, V - глагол, P - предлог, Pa - причастие.

Символьные обозначения определенных грамматических конструкций, например, Ng - именная группа, T - определяемый термин, выраженный именной группой (простой или расширенной).

Условия, уточняющие грамматические характеристики рассмотренных элементов и записываемые в угловых скобках, например: <Ng.number=V.number> означает, что число группы Ng и глагола V совпадают, а условие <person=3> фиксирует употребление третьего лица.

При записи условий используются символьные обозначения грамматических характеристик: времени (tense), числа (number), лица (person), рода (gender), падежа (case) и конкретных падежей (например, nom - именительный, ins - творительный).

К примеру, шаблон

Ng «,» Pa<«названный»> T<:case=ins>

<Ng.case=Pa.case

Ng.gender=Pa.gender

Ng.number=Pa.number=T.number>

описывает случаи вида «По результатам генерации форм, слова были разбиты на группы, названные профилями» (в этом примере подчеркнута фиксированная шаблоном лексема). В то же время, фраза «...устойчивого выражения, названного в заголовке, в левой (объясняемой) части словарной статьи» не вводит новый термин и не удовлетворяет шаблону, т.к. после причастия «названный» не стоит конструкция, имеющая требуемые в шаблоне характеристики.

Разработанными к настоящему моменту шаблонами покрывается примерно 60-70% процентов определений терминов, встречающихся в научных текстах. Важно, что добавляя новые шаблоны, учитывающие все более сложные конструкции и контексты, можно постепенно наращивать мощность процедуры распознавания в тексте операций научного дискурса.

4. Применение шаблонов для автоматического анализа текста

Процедура автоматического анализа текста, последовательно обрабатывающая его предложения и использующая описанные выше словарные средства, включает среди прочих следующие шаги:

Выделение слов и словосочетаний общенаучной лексики. Например, во фрагменте «Таким образом, актуальной является задача разработки…» будут распознаны следующие общенаучные словосочетания: таким образом, являться актуальной задачей.

Наложение лексико-семантических шаблонов и распознавание дискурсивных маркеров. Если в предложении встретилось слово, являющееся литералом некоторого шаблона, то происходит сопоставление предложения с этим шаблоном, при этом проверяются синтаксические условия для заполняемых мест шаблона. В случае успешного сопоставления происходит заполнение слотов шаблона (что фактически означает извлечение из анализируемого предложения языковых конструкций).

При этом полный синтаксический разбор предложений не производится; в то же время при необходимости осуществляется проверка согласования и управления слов (например, согласование составляющих слов в употребленных словарных выражениях).

Рассмотрим шаблон:

«под» T<:case=ins> V<«пониматься»:tense=pres person=3>

Ng<:case=nom> <T.number=V.number>

Он описывает случаи вида

«Под графемной конструкцией понимается графическая форма, построенная из базисных, проблемно-ориентированных и/или графических конструкций» и

«Под данными при такой формализации понимаются последовательности символов (слова, предложения) в некоторых алфавитах».

В результате успешного сопоставления вышеописанного шаблона с первым из приведенных определений будет выделен новый термин графемная конструкция и определяющая его конструкция - см. Рисунок 1.

Размещено на http://www.allbest.ru/

Рисунок 1. Схема применения шаблона

При сопоставлении шаблона со вторым из приведенных определений будет учтено, что в качестве заполнителя его слота T может быть взята расширенная именная группа (т.е. простая именная группа, за которой следует предложная именная группа, играющая роль обстоятельства), и в результате сопоставления будет правильно выделен новый термин данные и определяющая его конструкция.

Заключение

Описаны основные особенности дискурса и лексикона научно-технических текстов, учет которых позволяет организовать их содержательный анализ без глубокого синтактико-семантического разбора предложений текста. Охарактеризованы разрабатываемые для этого словарные средства - словарь общенаучной речи и лексико-синтаксические шаблоны характерных фраз. Кратко описаны составные элементы шаблонов, язык их записи, а также методика их построения, базирующаяся на анализе контекстов. Все это дает возможность приступить к реализации процедуры распознавания дискурсивной структуры научно-технических текстов.

Список литературы

[Большакова и др., 2004] Большакова Е.И., Баева Н.В., Васильева Н.Э. Структурирование и извлечение знаний, представленных в научных текстах // Девятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2004. Труды конференции в 3-х томах. Т. 2. М.: Физматлит, 2004.

[Васильева, 2004] Васильева Н.Э. Шаблоны употреблений терминов и их использование при автоматической обработке научно-технических текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог `2004 / Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П.Селегея. М.: Наука, 2004.

[Вежбицка, 1978] Вежбицка А. Метатекст в тексте // Новое в зарубежной лингвистике. Вып. VIII. М.: Прогресс, 1978.

[Митрофанова, 1973] Митрофанова О.Д. Язык научно-технической литературы. - М.: Изд-во МГУ, 1973.

[Николаев , 1998] Николаев A.M. Описание семантики научного текста с позиций теории речевых актов (на материале рецензии на научно-техническую работу) // НТИ. Сер. 2. 1998, № 7.

[Рябцева, 1992] Рябцева Н.К. Ментальные перформативы в научном дискурсе // Вопросы языкознания. 1992, № 4.

[Севбо, 1989] Севбо И.П. Сквозной анализ как шаг к структурированию текста // НТИ. Сер. 2. 1989, № 2.

[Словарь, 1973] Словарь глагольно-именных словосочетаний общенаучной речи. - М., Наука, 1973.

[Hearst, 1998] Hearst, M.A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998.

Размещено на Allbest.ru

...

Подобные документы

  • Разработка алгоритма автоматического создания отзывов на русском языке с использованием лексико-синтаксических шаблонов. Процесс создания текста при помощи цепей Маркова. Принцип работы Томита-парсера. Применение автоматических генераторов текстов.

    курсовая работа [150,6 K], добавлен 27.09.2016

  • Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.

    дипломная работа [3,0 M], добавлен 06.03.2012

  • Появление искусственных систем, способных воспринимать и понимать человеческую речь. Автоматическая обработка естественного языка. Анализ, синтез текстов. Системы автоматического синтеза. Проблема понимания, оживление текстов. Модели коммуникации.

    реферат [19,0 K], добавлен 02.11.2008

  • Корпус текстов школьников в контексте корпусной лингвистики, его содержание и пополнение. Пунктуационная разметка текстов, классификация ошибок. Использование языка разметки TEI для кодировки пунктуации. Обработка корпуса с помощью программы Интерробанг.

    дипломная работа [1,9 M], добавлен 08.11.2015

  • Тезаурус для автоматического концептуального индексирования как особый вид тезауруса. Подходы к описанию отношений при разработке онтологий. Родовидовое отношение выше-ниже. Семантическое смещение. Формальная онтология. Сравнение поисковых механизмов.

    презентация [721,9 K], добавлен 19.10.2013

  • Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.

    курсовая работа [727,0 K], добавлен 12.01.2014

  • Инструменты анализа академического стиля английского языка. Проектирование архитектуры портала для анализа и оценки стиля научных публикаций на основе методов корпусной лингвистики. Моделирование жизненного цикла системы и взаимодействия её компонентов.

    дипломная работа [2,4 M], добавлен 27.08.2017

  • Компьютерная программа как последовательность инструкций, предназначенная для исполнения устройством управления вычислительной машины. Анализ стандартов перевода текстов компьютерных игр. Рассмотрение особенностей ИТ-перевода, примеры грубейших ошибок.

    реферат [65,5 K], добавлен 29.01.2013

  • Разработка программного продукта для психолингвистического анализа текстов. Предметная область, основные требования. Анализ рабочих процессов отдела рекламно-выставочной и издательской деятельности. Оценка эффективности проекта и стоимости владения.

    дипломная работа [3,1 M], добавлен 12.10.2015

  • Постановка и актуальность задачи написания программы для перевода текстов с транслита. Метод ее решения, входные и выходные данные. Список процедур и функций выполняемые программой. Ее структура: главная форма, форма "О программе" и "Редактор алфавита".

    курсовая работа [259,8 K], добавлен 26.03.2009

  • Процесс формирования требований к разработке информационной системы на основе анализа всей проектной документации. Программная реализация лексико-грамматических шаблонов и условий для извлечения концептов требований. Описание архитектуры решения.

    дипломная работа [3,1 M], добавлен 14.08.2016

  • Использование комплекта диакритических знаков и букв для набора текстов на европейских языках. Обозначение времени, знаков валют. Британские и американские особенности английского языка. Правила французской, испанской, итальянской и немецкой типографики.

    контрольная работа [216,2 K], добавлен 06.01.2015

  • Особенности графической среды разработки и Visual C++. Разработка проекта с использованием функций библиотеки MFC для удаления комментариев из текстов программ, автоматического выбора языка, на котором написана утилита и сохранения результата в файл.

    курсовая работа [22,7 K], добавлен 07.11.2010

  • Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.

    дипломная работа [1,7 M], добавлен 18.03.2012

  • Понятие синтаксического анализа. Программный продукт для обработки данных строкового типа. Построение сканера текстов с использованием утилиты flex, синтаксического анализатора с помощью утилиты bison. Грамматика языка программирования обработки строк.

    курсовая работа [261,7 K], добавлен 29.10.2012

  • Решение проблемы автоматического упрощения текста на лексическом уровне: способы, методы, приложения и инструменты. Задача автоматической адаптации текста для изучающих иностранный язык. Выбор средств разработки, создание словарей замен и языковой модели.

    дипломная работа [117,3 K], добавлен 28.08.2016

  • Методы машинного обучения в задачах рубрикации, положительные и отрицательные примеры. Отсечение по центрам тяжести и ближайшим соседям. Оптимальный линейный сепаратор Support Vector Machines. Особенности применения тезауруса. Расчет веса конъюнкции.

    лекция [405,0 K], добавлен 01.09.2013

  • Задача обработки естественного языка при помощи ЭВМ с каждым днем становится все актуальней и актуальней. Развитие научно-технического прогресса во всем мире привело к тому, что объем новой информации постоянно растет с увеличивающейся скоростью.

    реферат [13,0 K], добавлен 26.11.2004

  • Краткая характеристика встроенного языка. Формат исходных текстов программных модулей. Комментарии, формат операторов, зарезервированные слова. Структура программного модуля. Базовые типы данных, правила их преобразования. Оператор объявления переменных.

    реферат [30,3 K], добавлен 23.01.2011

  • Основные типы шаблонов проектирования. Типы связей, которые могут применяться при объектно-ориентированном программировании. Обзор и реализация порождающих, структурных и поведенческих шаблонов проектирования. Шаблоны "Command", "Front Controller".

    курсовая работа [3,1 M], добавлен 01.06.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.