Алгоритм автоматической генерации списка лемм и словоформ для предметной области фундаментального и прикладного речеведения

Леммы как ключевые формы слов с указанием основы. Рассмотрение проблем обработки и составления алгоритма, в ходе которого генерируется совокупность словоформ для слов, отсутствующих в словаре. Знакомство с основными подходами к морфологическому анализу.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 28.08.2018
Размер файла 281,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Алгоритм автоматической генерации списка лемм и словоформ для предметной области фундаментального и прикладного речеведения

В статье рассматривается проблема обработки недетерминированных слов и составление алгоритма, в ходе которого генерируется совокупность словоформ для слов, отсутствующих в словаре. Описываемый алгоритм рассматривается применительно к русскому языку. Анализируются современные подходы к морфологическому анализу, а также достоинства и недостатки современных инструментов морфологической разметки текстов на русском языке.

Существующие решения в области семантического анализа достаточно эффективны при их использовании в хорошо формализованных предметных областях, то есть в случае наличия исчерпывающих словарей. Однако в случае, когда модуль семантического анализа сталкивается с недетерминированной лексикой, например, неологизмами или заимствованиями, качество результатов заметно снижается. Описанный в работе алгоритм лемматизации положен в основу подсистемы предредактирования в перспективном модуле семантического анализа, разрабатываемого на кафедре прикладной и экспериментальной лингвистики Московского государственного лингвистического университета.

Системы машинного перевода (далее - СМП) начали создаваться в 1960-х гг., однако большинство проблем, с которыми сталкивались их разработчики, так и не были решены. К основным проблемам машинного перевода относится нехватка достаточного количества словарей, обработка идиом, грамматическая и семантическая неоднозначность, проблемы определения интерлингвы. Основной трудностью при разработке релевантной системы является возможность адаптации СМП к особенностям предметной области [14, с. 161].

В настоящее время на кафедре прикладной и экспериментальной лингвистики Московского государственного лингвистического университета под руководством д-ра филол. наук, проф. Р.К. Потаповой проводятся исследования, направленные на разработку алгоритма автоматического определения значений слов с настройкой на предметную область (далее - ПО) фундаментального и прикладного речеведения. Основными проблемами лексического пласта вышеуказанной ПО является наличие омонимов и полисемов вследствие заимствования терминов из других предметных областей, а также большое количество неологизмов, что приводит к трудностям при обработке тематических текстов методами, основанными на словарях.

В целях формального описания предметной области необходимо сформировать список базовых форм и соответствующих им словоформ. Построение лемматизатора для вышеуказанной предметной области позволяет решить ряд проблем, связанных с обработкой и тэгированием объемных текстовых массивов, в частности, проблемы сортировки и систематизации текстовых массивов, сегментации текстов, общелингвистического поверхностного анализа, или аннотирования, текстов, внутренней разметки (расстановка морфологических, синтаксических и семантических обозначений) [11, с. 95].

Современные подходы к морфологическому анализу. В современных модулях морфологического анализа принято выделять два подхода к организации словарей лексики языка: лемматизация и стемминг. Лемматизацией называют подход, при котором в главном словаре анализатора хранятся леммы - основные формы слов с указанием основы. Ему противопоставляется стемминг - подход без использования словаря основ. В стемминге есть только правила обрабатывания суффиксов и небольшие словари исключений [9, с. 21]. Стемминг используется в тех случаях, когда морфология не важна.

Оба метода имеют свои достоинства и недостатки. Для стеммингового метода характерна высокая скорость анализа за счет упрощения алгоритма и уменьшения объема выдаваемой информации; при отсутствии словаря основ по факту становится доступной морфологическая база неограниченного объема, настраиваемая непосредственно на имеющийся текст, что является практичным при создании информационно-поисковых систем с нефиксированной лексикой. Однако стемминговый метод характеризуется невысокой точностью, невозможностью морфологического синтеза на базе без основ, возможностью порождения одинаковых стемов для различных слов («люб» для «люб-овь» и «люб-ить»), смешением различных понятий (к «люб-ить» будет отнесен глагол «люб-оваться»). Также стемминговый метод не справляется с обработкой чередования гласных (для слова «идти» стемы «ид», «шл», «ше») [4,с. 119]

Лемматизаторы, напротив, характеризуются высокой точностью выдаваемых результатов. Наряду с этим они справляются с супплетивизмом и чередованием. К минусам лемматизаторов относится то, что совокупность словоформ, полученных в результате их работы, занимает больше памяти относительно данных, хранимых при обработке стемминговыми методами. В то же время с учетом современного уровня развития вычислительных мощностей этой разницей можно пренебречь. Помимо этого, лемматизаторы не справляются с такими проблемами, как омонимия и полисемия, однако в пределах единой предметной области данный недостаток не является критичным. Так, из-за распространения в русском языке таких явлений, как супплетивизм и чередования [9, с. 21], наиболее оптимальным для его обработки будет использование лемматизатора.

Предморфологический анализ. Первым шагом для разработки лемматизатора является сбор корпуса по фундаментальному и прикладному речеведению. На этом этапе был сформирован неаннотированный корпус лингвистических текстов общим объемом 144 тыс. слов. В корпус вошли статьи из журналов «Вестник Московского государственного лингвистического университета» [5], журнал «Речевые технологии» [7], сборник «Компьютерная лингвистика и интеллектуальные технологии» [6], а также книга Р.К. Потаповой «Речь: коммуникация, информация, кибернетика» [12]. Статьи были собраны произвольно с 2010 по 2016 гг.

Далее необходимо было отобрать словник для специализированного терминологического словаря. Критерием для включения специальной лексики в собираемый словник являлся факт отсутствия слова в списке лемм и словоформ для русского языка. Был написан сценарий на языке программирования Perl [18], который в автоматическом режиме отсеивал из собранного корпуса термины, уже имеющиеся в вышеуказанном списке (рис. 1). Каждая словоформа анализируемого текста последовательно сравнивалась со словоформой из перечня словоформ русского языка. Совпавшие словоформы исключались из текста, остальные выводились в файл, который обрабатывался специалистом вручную. Так был сформирован базис для словника терминологических единиц в вышеуказанной области, который впоследствии может быть дополнен терминами из других текстов и статей в зависимости от анализируемой предметной области.

Общий список выделенных специализированных терминов составил 739 слов. Список лемм и словоформ русского языка был взят из источника [2].

Рис. 1. Отрывок из книги Р.К. Потаповой «Речь: коммуникация, информация, кибернетика» после обработки

Частеречная разметка. На следующем этапе необходимо было определить, к каким частям речи относятся слова из полученного списка словоформ. Перед проведением второго этапа были рассмотрены основные проблемы, связанные с морфологическим анализом, а также были апробированы некоторые инструменты, позволяющие производить частеречную разметку в автоматическом режиме:

phpmorphy - представляет собой морфологический анализатор для русского языка, написанный на скриптовом языке РНР, на данном этапе поддерживает и перечень других языков. Существует возможность анализа неизвестных языков со словарями ispell (рис. 2) и АОТ (рис. 3). Анализатор позволяет решать задачи лемматизации, получения грамматической информации для слова, а также изменять форму слова с заданными параметрами. В его основу был положен проект АОТ [1], в частности

1) алгоритм и базовые словари;

Рис. 2. Результат анализа словоформ со словарем ispell

Рис. 3. Результат анализа словоформ со словарем АОТ

2) pymorphy2 - представляет собой морфологический анализатор, написанный на высокоуровневом языке программирования Python. В перечень его возможностей входят: приведение словак форме леммы, составление грамматической информации о слове и создание нужной формы слова. Для анализа используется словарь ОрепСогрога [10], а для слов, не входящих в состав словарей, строятся гипотезы [8]. Результат обработки вышеуказанного фрагмента текста представлен на рис. 4;

Рис. 4. Результат работы анализатора pymorphy2

3) mystem - также является морфологическим анализатором русского языка. Разработчики позиционируют его как парсер, частично снимающий морфологическую неоднозначность.

В основе анализатора лежат словари, а также возможность формирования гипотезы о неизвестных словах. Технология имеет закрытый исходный код, но обладает хорошей доступностью для некоторых языков программирования высокого уровня [13].

Рис. 5. Результаты работы морфологического анализатора mystem

Основные проблемы частеречных теггеров:

1) языкозависимость - большинство коммерческих анализаторов работают лишь с английским языком (в частности, NLTK);

2) отсутствие алгоритма анализа недетерминированных слов;

3) отсутствие правил на анализ слов с дефисом;

4) невозможность корректного анализа аббревиатур.

В результате проведенных исследований было установлено, что анализатор mystem выдает результат с наименьшим количеством ошибок и погрешностей, поэтому было принято решение о его использовании.

Таким образом, на данном этапе были выявлены части речи выделенных на предыдущем этапе слов, а также их основная форма.

Генерация списка лемм и словоформ. Наследующем этапе был использован стеммер Snowball [17], переписанный под выделение псевдоокончаний анализируемых слов (к примеру, у термина «кросскорреляция» было выделено псевдоокончание «-ЦИЯ»), Фрагмент доработки отображен на рис. 6.

ЕЭ|

1

Atray

г

(

3

L0J ->

А

[219] а

5

[301] => вший

6

[303] => е

1

(307) => смо-з

&

[ЗОЄ] => еыый

9

ГЗХ01 и

10

[320] => ire

11

[335] => we

12

[394] => ий

13

[483] => іш

Рис. 6. Фрагмент результата работы стеммера Портера после доработки программы

Рис. 7. Результат работы лемматизатора

После этого были сформированы правила для формирования списка лемм и словоформ для русского языка, которые были применены к псевдоосновам слов, выделенным на предыдущем этапе (например, с термином «кросскорреляция»: псевдооснова «кросскорреля-» и псевдоокончание «-ЦНЯ»), Для терминов этого типа были выделены окончания, которые при добавлении к псевдооснове образовывали словоформы исходного термина: псевдооснова + -ция, -ции, -цию, -цией и т. д.

Результат работы программы отображен на рис. 7 (слова с нулевым псевдоокончанием дописывались вручную).

слово алгоритм морфологический

Выводы

В данной статье был рассмотрен алгоритм для решения задачи автоматической генерации списка лемм и словоформ для отсутствующих в заранее заданном словаре слов по предметной области фундаментального и прикладного речеведения. Данный алгоритм может быть настроен на любую предметную область с учетом ее специфики и особенностей входящей в нее лексики. В ходе разработки алгоритма был выявлен принцип формирования словника для предметной области, были проанализированы некоторые инструменты морфологического анализа, выявлены проблемы, связанные с частеречным тэгированием, разработан способ автоматической генерации словоформ по лемме. Планируется разработка алгоритма для обработки слов с нулевым псевдоокончанием.

Литература

1.Автоматическая обработка текста [Электронный ресурс].

2.Архивы форума «Говорим по-русски» [Электронный ресурс].

3.Библиотека морфологического анализа phpMorphy [Электронный ресурс]. - Режим доступа : http://phpmorphy. sourceforge.net/dokuwiki/.

4.Большакова Е.И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : [учеб, пособие] / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова,- М. : МИЭМ, 2011,- 272 с.

5.Вестник МГЛУ [Электронный ресурс].

6.Журнал «Компьютерная лингвистика и информационные технологии» [Электронный ресурс]. - Режим доступа : http://www.dialog-21.ru/digest/.

7.Журнал «Речевые технологии» [Электронный ресурс].

8.Морфологический анализатор phpmorphy2.

9.Николаев И.С. Прикладная и компьютерная лингвистика I И.С. Николаев, О.В. Митренина, Т.М. Ландо. - М. : ЛЕНАНД, 2016.-320 с.

10.Открытый корпус [Электронный ресурс].

Размещено на Allbest.ru

...

Подобные документы

  • Работа с текстом, повторение правил пунктуации и грамматики русского языка. Порядок определения и доказательства частеречной принадлежности слов. Морфологический анализ данных словоформ. Анализ и доказательство частеречной омонимии исследуемых слов.

    контрольная работа [12,1 K], добавлен 13.05.2010

  • Морфологический анализ словоформ по количеству компонентов, степени лексической спаянности компонентов, морфологической природе стержневого компонента. Части речи, которой выражен стержневой и зависимый компоненты. Способы выражения связи в предложении.

    контрольная работа [33,1 K], добавлен 22.02.2011

  • Декларативные методы машинной морфологии. Создание базы данных английских словоформ, содержащей полную морфологическую информацию каждой формы. Описание функциональных возможностей системы и взаимодействия ее модулей. Формат входных и выходных данных.

    курсовая работа [346,8 K], добавлен 13.05.2015

  • Рассмотрение особенностей лексикографического описания значения слов в "Толковом словаре современного русского языка". Характер языкового изменения века - использование как традиционных, так и ранее находящихся на периферии моделей образования слов.

    реферат [32,5 K], добавлен 20.03.2011

  • Понятие исконно русской лексики, причины заимствования из других языков. Появление слов–интернационализмов, слов-калек, слов-экзотизмов и варваризмов. Приспособление иностранных слов к русским графическим и языковым нормам, орфоэпические нормы.

    реферат [27,6 K], добавлен 25.10.2010

  • Сучасні слов'янські народи та їхня етнічна спорідненість. Етнічна близькість слов'ян. Класифікація слов'янських мов. Походження і розвиток мови. Мови класифікують за генеалогічними зв'язками, типом організації і суспільним статусом, поширеністю.

    лекция [49,5 K], добавлен 17.12.2008

  • Определение слов с ударением на втором слоге. Формы настоящего и прошедшего времени единственного числа от глаголов. Определение слов с твердыми согласными перед е. Ошибки, вызванные нарушением лексической сочетаемости слов, и порядок их исправления.

    практическая работа [10,1 K], добавлен 25.08.2011

  • Проблема правильного и уместного употребления слов. Единицы языка как ячейки семантики. Морфемы полнозначных слов. Типы семантических отношений. Возможность соединения слов по смыслу в зависимости от реальной сочетаемости соответствующих понятий.

    курсовая работа [40,2 K], добавлен 02.01.2017

  • Историческое влияние экономических, политических и культурных контактов с другими странами на внедрение в русский язык иноязычных слов. Заимствование и освоение новых слов благодаря средствам массовой информации. Примеры происхождения некоторых слов.

    реферат [20,2 K], добавлен 02.04.2010

  • Определение стиля текста, его стилистический анализ. Расстановка ударений и определение значения слов в тексте, подбор прилагательных к словам в словосочетаниях. Составление списка слов, используемых в профессиональной речи, и подбор к ним синонимов.

    контрольная работа [19,1 K], добавлен 16.10.2010

  • Этимология как наука, которая объясняет происхождение слов, ее предмет и методы исследования, современные достижения и тенденции. Этапы объяснения написания слов через его первоначальный смысл. Принципы и правила работы с этимологическими словарями.

    презентация [606,4 K], добавлен 12.10.2013

  • Газетнo-публицистический cтиль кaк система пропаганды и агитации. Осoбенность ключевых слов в немецком политическом языке. Использование политического дискурса в коммуникации. Пoлитический диcкурс как сфера функционирования ключевых слов политики.

    дипломная работа [45,4 K], добавлен 06.08.2017

  • Определение значения ряда слов. Лексические единицы, характерные для речи представителей определенной профессии. История риторики как филологической науки. Ораторы, внесшие вклад в развитие красноречия в Древней Греции и Древнем Риме. Правописание слов.

    тест [16,2 K], добавлен 14.07.2015

  • Стилистическая классификация заимствованных слов. Стилистически не оправданное употребление заимствованных слов. Лексика, имеющая ограниченную сферу распространения. Термины как слова, заимствованные из других языков. Канцеляризмы и речевые штампы.

    реферат [33,6 K], добавлен 09.11.2007

  • Под влиянием исторических, политических и экономических факторов англицизмы широко распространены в нашем языке. В обществе используется большое количество заимствованных слов, сленга, жаргонизмов. Однако возможно обходиться без заимствованных слов.

    научная работа [56,8 K], добавлен 18.12.2008

  • Происхождение, написание и значение в языке иностранных слов. Причины заимствования слов. Типы иноязычных слов: освоенные слова, интернационализмы, экзотизмы, варваризмы. Способы появления словообразовательных калек. Тематические группы заимствований.

    презентация [13,9 K], добавлен 21.02.2014

  • Основные группы исконных русских слов, объединенных по своему происхождению. Причины проникновения иноязычных слов в лексику русского языка. Заимствование слов старославянского и неславянского происхождения, примеры их использования в современной речи.

    доклад [33,0 K], добавлен 18.12.2011

  • Основные аспекты, функции порядка слов в немецком языке. Средства и подходы к обучению. Учет возрастных и психолингвистических особенностей обучающихся на средней ступени. Анализ возможных трудностей и методические рекомендации по обучению порядку слов.

    дипломная работа [3,1 M], добавлен 21.01.2017

  • Природа возникновения и этимология некоторых слов русского языка. История заимствования слов и выражений из других культур и языков. Структура фразеологизма как устойчивого, лексически неделимого словосочетания. История жизни некоторых фразеологизмов.

    реферат [55,7 K], добавлен 07.12.2013

  • Выполнение заданий по пунктуации и орфографии русского языка. Расстановка ударения и повторение транскрипции слов. Значение и смысл фразеологизмов. Повторение падежей, лексическое значение слов. Специфика составления заявления, резюме и доверенности.

    контрольная работа [18,0 K], добавлен 10.02.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.