Алгоритм автоматической генерации списка лемм и словоформ для предметной области фундаментального и прикладного речеведения
Леммы как ключевые формы слов с указанием основы. Рассмотрение проблем обработки и составления алгоритма, в ходе которого генерируется совокупность словоформ для слов, отсутствующих в словаре. Знакомство с основными подходами к морфологическому анализу.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 28.08.2018 |
Размер файла | 281,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Алгоритм автоматической генерации списка лемм и словоформ для предметной области фундаментального и прикладного речеведения
В статье рассматривается проблема обработки недетерминированных слов и составление алгоритма, в ходе которого генерируется совокупность словоформ для слов, отсутствующих в словаре. Описываемый алгоритм рассматривается применительно к русскому языку. Анализируются современные подходы к морфологическому анализу, а также достоинства и недостатки современных инструментов морфологической разметки текстов на русском языке.
Существующие решения в области семантического анализа достаточно эффективны при их использовании в хорошо формализованных предметных областях, то есть в случае наличия исчерпывающих словарей. Однако в случае, когда модуль семантического анализа сталкивается с недетерминированной лексикой, например, неологизмами или заимствованиями, качество результатов заметно снижается. Описанный в работе алгоритм лемматизации положен в основу подсистемы предредактирования в перспективном модуле семантического анализа, разрабатываемого на кафедре прикладной и экспериментальной лингвистики Московского государственного лингвистического университета.
Системы машинного перевода (далее - СМП) начали создаваться в 1960-х гг., однако большинство проблем, с которыми сталкивались их разработчики, так и не были решены. К основным проблемам машинного перевода относится нехватка достаточного количества словарей, обработка идиом, грамматическая и семантическая неоднозначность, проблемы определения интерлингвы. Основной трудностью при разработке релевантной системы является возможность адаптации СМП к особенностям предметной области [14, с. 161].
В настоящее время на кафедре прикладной и экспериментальной лингвистики Московского государственного лингвистического университета под руководством д-ра филол. наук, проф. Р.К. Потаповой проводятся исследования, направленные на разработку алгоритма автоматического определения значений слов с настройкой на предметную область (далее - ПО) фундаментального и прикладного речеведения. Основными проблемами лексического пласта вышеуказанной ПО является наличие омонимов и полисемов вследствие заимствования терминов из других предметных областей, а также большое количество неологизмов, что приводит к трудностям при обработке тематических текстов методами, основанными на словарях.
В целях формального описания предметной области необходимо сформировать список базовых форм и соответствующих им словоформ. Построение лемматизатора для вышеуказанной предметной области позволяет решить ряд проблем, связанных с обработкой и тэгированием объемных текстовых массивов, в частности, проблемы сортировки и систематизации текстовых массивов, сегментации текстов, общелингвистического поверхностного анализа, или аннотирования, текстов, внутренней разметки (расстановка морфологических, синтаксических и семантических обозначений) [11, с. 95].
Современные подходы к морфологическому анализу. В современных модулях морфологического анализа принято выделять два подхода к организации словарей лексики языка: лемматизация и стемминг. Лемматизацией называют подход, при котором в главном словаре анализатора хранятся леммы - основные формы слов с указанием основы. Ему противопоставляется стемминг - подход без использования словаря основ. В стемминге есть только правила обрабатывания суффиксов и небольшие словари исключений [9, с. 21]. Стемминг используется в тех случаях, когда морфология не важна.
Оба метода имеют свои достоинства и недостатки. Для стеммингового метода характерна высокая скорость анализа за счет упрощения алгоритма и уменьшения объема выдаваемой информации; при отсутствии словаря основ по факту становится доступной морфологическая база неограниченного объема, настраиваемая непосредственно на имеющийся текст, что является практичным при создании информационно-поисковых систем с нефиксированной лексикой. Однако стемминговый метод характеризуется невысокой точностью, невозможностью морфологического синтеза на базе без основ, возможностью порождения одинаковых стемов для различных слов («люб» для «люб-овь» и «люб-ить»), смешением различных понятий (к «люб-ить» будет отнесен глагол «люб-оваться»). Также стемминговый метод не справляется с обработкой чередования гласных (для слова «идти» стемы «ид», «шл», «ше») [4,с. 119]
Лемматизаторы, напротив, характеризуются высокой точностью выдаваемых результатов. Наряду с этим они справляются с супплетивизмом и чередованием. К минусам лемматизаторов относится то, что совокупность словоформ, полученных в результате их работы, занимает больше памяти относительно данных, хранимых при обработке стемминговыми методами. В то же время с учетом современного уровня развития вычислительных мощностей этой разницей можно пренебречь. Помимо этого, лемматизаторы не справляются с такими проблемами, как омонимия и полисемия, однако в пределах единой предметной области данный недостаток не является критичным. Так, из-за распространения в русском языке таких явлений, как супплетивизм и чередования [9, с. 21], наиболее оптимальным для его обработки будет использование лемматизатора.
Предморфологический анализ. Первым шагом для разработки лемматизатора является сбор корпуса по фундаментальному и прикладному речеведению. На этом этапе был сформирован неаннотированный корпус лингвистических текстов общим объемом 144 тыс. слов. В корпус вошли статьи из журналов «Вестник Московского государственного лингвистического университета» [5], журнал «Речевые технологии» [7], сборник «Компьютерная лингвистика и интеллектуальные технологии» [6], а также книга Р.К. Потаповой «Речь: коммуникация, информация, кибернетика» [12]. Статьи были собраны произвольно с 2010 по 2016 гг.
Далее необходимо было отобрать словник для специализированного терминологического словаря. Критерием для включения специальной лексики в собираемый словник являлся факт отсутствия слова в списке лемм и словоформ для русского языка. Был написан сценарий на языке программирования Perl [18], который в автоматическом режиме отсеивал из собранного корпуса термины, уже имеющиеся в вышеуказанном списке (рис. 1). Каждая словоформа анализируемого текста последовательно сравнивалась со словоформой из перечня словоформ русского языка. Совпавшие словоформы исключались из текста, остальные выводились в файл, который обрабатывался специалистом вручную. Так был сформирован базис для словника терминологических единиц в вышеуказанной области, который впоследствии может быть дополнен терминами из других текстов и статей в зависимости от анализируемой предметной области.
Общий список выделенных специализированных терминов составил 739 слов. Список лемм и словоформ русского языка был взят из источника [2].
Рис. 1. Отрывок из книги Р.К. Потаповой «Речь: коммуникация, информация, кибернетика» после обработки
Частеречная разметка. На следующем этапе необходимо было определить, к каким частям речи относятся слова из полученного списка словоформ. Перед проведением второго этапа были рассмотрены основные проблемы, связанные с морфологическим анализом, а также были апробированы некоторые инструменты, позволяющие производить частеречную разметку в автоматическом режиме:
phpmorphy - представляет собой морфологический анализатор для русского языка, написанный на скриптовом языке РНР, на данном этапе поддерживает и перечень других языков. Существует возможность анализа неизвестных языков со словарями ispell (рис. 2) и АОТ (рис. 3). Анализатор позволяет решать задачи лемматизации, получения грамматической информации для слова, а также изменять форму слова с заданными параметрами. В его основу был положен проект АОТ [1], в частности
1) алгоритм и базовые словари;
Рис. 2. Результат анализа словоформ со словарем ispell
Рис. 3. Результат анализа словоформ со словарем АОТ
2) pymorphy2 - представляет собой морфологический анализатор, написанный на высокоуровневом языке программирования Python. В перечень его возможностей входят: приведение словак форме леммы, составление грамматической информации о слове и создание нужной формы слова. Для анализа используется словарь ОрепСогрога [10], а для слов, не входящих в состав словарей, строятся гипотезы [8]. Результат обработки вышеуказанного фрагмента текста представлен на рис. 4;
Рис. 4. Результат работы анализатора pymorphy2
3) mystem - также является морфологическим анализатором русского языка. Разработчики позиционируют его как парсер, частично снимающий морфологическую неоднозначность.
В основе анализатора лежат словари, а также возможность формирования гипотезы о неизвестных словах. Технология имеет закрытый исходный код, но обладает хорошей доступностью для некоторых языков программирования высокого уровня [13].
Рис. 5. Результаты работы морфологического анализатора mystem
Основные проблемы частеречных теггеров:
1) языкозависимость - большинство коммерческих анализаторов работают лишь с английским языком (в частности, NLTK);
2) отсутствие алгоритма анализа недетерминированных слов;
3) отсутствие правил на анализ слов с дефисом;
4) невозможность корректного анализа аббревиатур.
В результате проведенных исследований было установлено, что анализатор mystem выдает результат с наименьшим количеством ошибок и погрешностей, поэтому было принято решение о его использовании.
Таким образом, на данном этапе были выявлены части речи выделенных на предыдущем этапе слов, а также их основная форма.
Генерация списка лемм и словоформ. Наследующем этапе был использован стеммер Snowball [17], переписанный под выделение псевдоокончаний анализируемых слов (к примеру, у термина «кросскорреляция» было выделено псевдоокончание «-ЦИЯ»), Фрагмент доработки отображен на рис. 6.
ЕЭ| |
||
1 |
Atray |
|
г |
( |
|
3 |
L0J -> |
|
А |
[219] а |
|
5 |
[301] => вший |
|
6 |
[303] => е |
|
1 |
(307) => смо-з |
|
& |
[ЗОЄ] => еыый |
|
9 |
ГЗХ01 и |
|
10 |
[320] => ire |
|
11 |
[335] => we |
|
12 |
[394] => ий |
|
13 |
[483] => іш |
Рис. 6. Фрагмент результата работы стеммера Портера после доработки программы
Рис. 7. Результат работы лемматизатора
После этого были сформированы правила для формирования списка лемм и словоформ для русского языка, которые были применены к псевдоосновам слов, выделенным на предыдущем этапе (например, с термином «кросскорреляция»: псевдооснова «кросскорреля-» и псевдоокончание «-ЦНЯ»), Для терминов этого типа были выделены окончания, которые при добавлении к псевдооснове образовывали словоформы исходного термина: псевдооснова + -ция, -ции, -цию, -цией и т. д.
Результат работы программы отображен на рис. 7 (слова с нулевым псевдоокончанием дописывались вручную).
слово алгоритм морфологический
Выводы
В данной статье был рассмотрен алгоритм для решения задачи автоматической генерации списка лемм и словоформ для отсутствующих в заранее заданном словаре слов по предметной области фундаментального и прикладного речеведения. Данный алгоритм может быть настроен на любую предметную область с учетом ее специфики и особенностей входящей в нее лексики. В ходе разработки алгоритма был выявлен принцип формирования словника для предметной области, были проанализированы некоторые инструменты морфологического анализа, выявлены проблемы, связанные с частеречным тэгированием, разработан способ автоматической генерации словоформ по лемме. Планируется разработка алгоритма для обработки слов с нулевым псевдоокончанием.
Литература
1.Автоматическая обработка текста [Электронный ресурс].
2.Архивы форума «Говорим по-русски» [Электронный ресурс].
3.Библиотека морфологического анализа phpMorphy [Электронный ресурс]. - Режим доступа : http://phpmorphy. sourceforge.net/dokuwiki/.
4.Большакова Е.И. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : [учеб, пособие] / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова,- М. : МИЭМ, 2011,- 272 с.
5.Вестник МГЛУ [Электронный ресурс].
6.Журнал «Компьютерная лингвистика и информационные технологии» [Электронный ресурс]. - Режим доступа : http://www.dialog-21.ru/digest/.
7.Журнал «Речевые технологии» [Электронный ресурс].
8.Морфологический анализатор phpmorphy2.
9.Николаев И.С. Прикладная и компьютерная лингвистика I И.С. Николаев, О.В. Митренина, Т.М. Ландо. - М. : ЛЕНАНД, 2016.-320 с.
10.Открытый корпус [Электронный ресурс].
Размещено на Allbest.ru
...Подобные документы
Работа с текстом, повторение правил пунктуации и грамматики русского языка. Порядок определения и доказательства частеречной принадлежности слов. Морфологический анализ данных словоформ. Анализ и доказательство частеречной омонимии исследуемых слов.
контрольная работа [12,1 K], добавлен 13.05.2010Морфологический анализ словоформ по количеству компонентов, степени лексической спаянности компонентов, морфологической природе стержневого компонента. Части речи, которой выражен стержневой и зависимый компоненты. Способы выражения связи в предложении.
контрольная работа [33,1 K], добавлен 22.02.2011Декларативные методы машинной морфологии. Создание базы данных английских словоформ, содержащей полную морфологическую информацию каждой формы. Описание функциональных возможностей системы и взаимодействия ее модулей. Формат входных и выходных данных.
курсовая работа [346,8 K], добавлен 13.05.2015Рассмотрение особенностей лексикографического описания значения слов в "Толковом словаре современного русского языка". Характер языкового изменения века - использование как традиционных, так и ранее находящихся на периферии моделей образования слов.
реферат [32,5 K], добавлен 20.03.2011Понятие исконно русской лексики, причины заимствования из других языков. Появление слов–интернационализмов, слов-калек, слов-экзотизмов и варваризмов. Приспособление иностранных слов к русским графическим и языковым нормам, орфоэпические нормы.
реферат [27,6 K], добавлен 25.10.2010Сучасні слов'янські народи та їхня етнічна спорідненість. Етнічна близькість слов'ян. Класифікація слов'янських мов. Походження і розвиток мови. Мови класифікують за генеалогічними зв'язками, типом організації і суспільним статусом, поширеністю.
лекция [49,5 K], добавлен 17.12.2008Определение слов с ударением на втором слоге. Формы настоящего и прошедшего времени единственного числа от глаголов. Определение слов с твердыми согласными перед е. Ошибки, вызванные нарушением лексической сочетаемости слов, и порядок их исправления.
практическая работа [10,1 K], добавлен 25.08.2011Проблема правильного и уместного употребления слов. Единицы языка как ячейки семантики. Морфемы полнозначных слов. Типы семантических отношений. Возможность соединения слов по смыслу в зависимости от реальной сочетаемости соответствующих понятий.
курсовая работа [40,2 K], добавлен 02.01.2017Историческое влияние экономических, политических и культурных контактов с другими странами на внедрение в русский язык иноязычных слов. Заимствование и освоение новых слов благодаря средствам массовой информации. Примеры происхождения некоторых слов.
реферат [20,2 K], добавлен 02.04.2010Определение стиля текста, его стилистический анализ. Расстановка ударений и определение значения слов в тексте, подбор прилагательных к словам в словосочетаниях. Составление списка слов, используемых в профессиональной речи, и подбор к ним синонимов.
контрольная работа [19,1 K], добавлен 16.10.2010Этимология как наука, которая объясняет происхождение слов, ее предмет и методы исследования, современные достижения и тенденции. Этапы объяснения написания слов через его первоначальный смысл. Принципы и правила работы с этимологическими словарями.
презентация [606,4 K], добавлен 12.10.2013Газетнo-публицистический cтиль кaк система пропаганды и агитации. Осoбенность ключевых слов в немецком политическом языке. Использование политического дискурса в коммуникации. Пoлитический диcкурс как сфера функционирования ключевых слов политики.
дипломная работа [45,4 K], добавлен 06.08.2017Определение значения ряда слов. Лексические единицы, характерные для речи представителей определенной профессии. История риторики как филологической науки. Ораторы, внесшие вклад в развитие красноречия в Древней Греции и Древнем Риме. Правописание слов.
тест [16,2 K], добавлен 14.07.2015Стилистическая классификация заимствованных слов. Стилистически не оправданное употребление заимствованных слов. Лексика, имеющая ограниченную сферу распространения. Термины как слова, заимствованные из других языков. Канцеляризмы и речевые штампы.
реферат [33,6 K], добавлен 09.11.2007Под влиянием исторических, политических и экономических факторов англицизмы широко распространены в нашем языке. В обществе используется большое количество заимствованных слов, сленга, жаргонизмов. Однако возможно обходиться без заимствованных слов.
научная работа [56,8 K], добавлен 18.12.2008Происхождение, написание и значение в языке иностранных слов. Причины заимствования слов. Типы иноязычных слов: освоенные слова, интернационализмы, экзотизмы, варваризмы. Способы появления словообразовательных калек. Тематические группы заимствований.
презентация [13,9 K], добавлен 21.02.2014Основные группы исконных русских слов, объединенных по своему происхождению. Причины проникновения иноязычных слов в лексику русского языка. Заимствование слов старославянского и неславянского происхождения, примеры их использования в современной речи.
доклад [33,0 K], добавлен 18.12.2011Основные аспекты, функции порядка слов в немецком языке. Средства и подходы к обучению. Учет возрастных и психолингвистических особенностей обучающихся на средней ступени. Анализ возможных трудностей и методические рекомендации по обучению порядку слов.
дипломная работа [3,1 M], добавлен 21.01.2017Природа возникновения и этимология некоторых слов русского языка. История заимствования слов и выражений из других культур и языков. Структура фразеологизма как устойчивого, лексически неделимого словосочетания. История жизни некоторых фразеологизмов.
реферат [55,7 K], добавлен 07.12.2013Выполнение заданий по пунктуации и орфографии русского языка. Расстановка ударения и повторение транскрипции слов. Значение и смысл фразеологизмов. Повторение падежей, лексическое значение слов. Специфика составления заявления, резюме и доверенности.
контрольная работа [18,0 K], добавлен 10.02.2012