Автоматическое определение ударения с помощью различных методов анализа слова

Анализ закономерностей русского языка с точки зрения применимости в сфере автоматической расстановки ударений. Ознакомление с фонетическими правилами и их связью с орфографическими ошибками. Изучение морфем, которые указывают на поведение ударения.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 28.12.2015
Размер файла 84,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Суффиксы, представляющие доминантные правоударные и левоударные классы (>D и <D), у прилагательных отсутствуют. К недоминантному самоударному классу (v) относятся суффиксы: -енек/-онек (стро?гонек, тяже?ленек, но тяжелёхонек, радёханек), -ок- (глубо?кий) и -овн- (духо?вный). К недоминантному правоударному классу (>) относятся сочетание -о?вск-ой (шу?товской). Суффиксы последних двух классов были включены, поскольку не соединяются с сильными основами, а следовательно поведение ударения в таких словах однотипно.

Недоминантный левоударный класс (<) включает в себя следующие суффиксы: -ск-/-еск- (же?нский, оте?ческий), -еньк-/-оньк- (моло?денький, ти?хонький), -л- (хри?плый), -шн- (вчера?шний), -чат- (бреве?нчатый). Также в этот класс входят показатели компаратива , -ше (моло?же, ста?рше).

2.1.4 Поведение ударения в других частей речи

Ударение числительных представлено тремя акцентными типами:

1. Акцентный тип a: ударение неподвижно на одном и том же слоге основы;

2. Акцентный тип b: ударение неподвижно на флексии;

3. Акцентный тип b1: ударение на основе в именительном падеже, на флексии - в косвенных падежах.

Поскольку числительных сравнительно немного, для каждого акцентного типа составлены отдельные списки. Так, числительные одиннадцать и четырнадцать принадлежат к типу а, числительные двенадцать, тринадцать и далее, вплоть до девятнадцать (исключая четырнадцать) - к типу b, а двадцать и тридцать принадлежат к типу b1. Однако не все числительные могут быть включены в эту схему: существует особая группа числительных с нерегулярными акцентными характеристиками (ср., пятьдеся?т и пяти?десяти, полтора? и полу?тора, две?сти и двумя?стами, пятьсо?т и пятиста?м).

Ударение в наречиях чаще всего не поддается анализу и его необходимо просто запоминать (в таких словах, как вчера?, за?втра). Большинство наречий, образованных от других частей речи, сохраняют ударение производящих словоформ (легко?, ва?жно, по-ру?сски, снача?ла). Помимо этого, многие наречия могут иметь различное ударение в зависимости от значения ударения (постричься на?голо, но шашки наголо?). Однако в ряде случаев была выявлена взаимосвязь наличия и отсутствия между морфемами и ударением (анализ поведения ударения в морфемах проводился на основе «Русской грамматики»). Так, всегда ударными суффиксами являются: -ком/-ико?м (пешко?м, босико?м), -мя (лежмя?), -овато (позднова?то), -ёхонько/-ёшенько (ранёхонько и ранёшенько). Кроме того всегда ударны наречные образования с -ым (давны?м-давно), а также некоторые суффиксы в определенных морфемных комплексах: -еньку/-оньку (в словах с приставкой по-; потихоньку?), (в словах с приставкой в-; вблизи?), (в словах с приставкой на-; наравне?), -ую (в словах с приставкой на-; напряму?ю), -ом (в словах с приставкой в-; в-четверо?м) и -ах/-ях (в словах с приставкой в-; второпя?х). Суффикс в морфемных комплексах может быть также безударным: (в словах с приставкой по-; понапра?сну, по?пусту). Префиксы во- (вовну?трь), по- (в словах с суффиксом или -ому; по-ру?сски, по-мужски?, по-гуси?ному, по-ино?му), (в словах с суффиксом ; кни?зу), -из/-ис (в словах с суффиксом -а/-я; иззе?лена, исси?ня) всегда выступают безударными, тогда как префикс -сыз (в словах с суффиксом ; сы?знова) в таких конструкциях ударен всегда.

Местоимения могут быть охарактеризованы ударным префиксом -не (не?кто, не?где) и безударным префиксом ни- (никто?, нигде?). Кроме того, в префиксе кое-/кой- и постфиксах -либо и -нибудь возможно побочное ударение на префиксе (ко?е-где, какой-ли?бо, чей-нибу?дь).

В частицах и междометиях возможны лишь безударные суффиксы -очко/-очки (спаси?бочки), -ушки/-нюшки/-унюшки (не?тушки, ба?юшки, баю?нюшки, охохо?шеньки), -оньки (спаси?боньки), -охоньки/-ошеньки (ничего?шеньки).

2.1.5 Пример реализации алгоритма автоматической расстановки ударений, использующий морфемные характеристики слова

На данный момент большинство исследований в области автоматической расстановки ударений было совершено в области систем синтеза речи («VitalVoice», «Acapela», «Vocalizer» и др.). Данные системы преобразовывают текстовую информацию в аудиальную, эмулируя человеческий голос, и неудивительно, что задача расстановки ударений в них ставится наравне с задачами правильного произнесения слов и построения интонационной структуры предложения. Тем не менее, большинство синтезаторов речи решает проблему расстановки ударений методом извлечения нужных ударений из словарей или специализированных баз данных, где для каждого слова заранее указаны все его формы, а также акцентная парадигма для этих форм. В пример можно привести систему «VitalVoice», которая расширила и адаптировала под свои нужды словарь Aot.ru, из которого она и получала информацию об ударениях в слове. Использование словарей в общем случае понятно и объяснимо: намного проще основываться на разработках уже сделанных, нежели писать заново свой собственный словарь или разрабатывать алгоритм расстановки ударений. Тем не менее, решение подходит только в случае слов, занесенных в словарь. Закономерно возникает вопрос: что же делать с формами, в словарях или специальных базах отсутствующими? Значительная часть синтезаторов речи пошла по простому пути: они используют формулу, ставящую ударение по правилу (n+1)/2, где n - это количество слогов слова. Таким образом, в словах с нечетным количеством слогов ударение всегда падает ровно на середину слова, а в случае слов с четным количеством слогов - практически на середину, но ближе к началу слова. Единственной системой, отошедшей от данного правила, оказалась вышеупомянутая система синтеза речи «VitalVoice», созданная ООО «Центр речевых технологий» в сотрудничестве с кафедрой фонетики СПбГУ. В системе был использован собственный, усовершенствованный алгоритм расстановки ударений. Алгоритм анализирует непосредственно структуру слова и его окружения и на основе этого принимает решение, на какой из слогов падает ударение. В основу системы лег алгоритм другого синтезатора речи «Оратор», разработанный в 2003 году Петром Головиным.

Итак, для решения проблемы расстановки ударений в словах (особенно в сложных словах), незанесенных в словари, был разработан улучшенный алгоритм, включающий в себя такие шаги:

1. Анализ начального сегмента слова для выделения стандартных префиксов, на которые ударение никогда не падает;

2. Анализ конечного сегмента слова для нахождения суффиксов, притягивающих на себя ударения (-ованн-, -ёнок- и пр.), а также суффиксов, всегда выступающих в роли безударных (-щик-, -ыва- и пр.);

3. Анализ вторых частей сложных слов, которые всегда находятся в безударной позиции (-способный, -видный), а также стандартных окончаний неизменяемых слов, также всегда являющихся безударными (например, -швили, -адзе в грузинских фамилиях);

4. Для случаев, когда ударение не было найдено, ударение ставится на последнем слоге основы, поскольку было обнаружено, что в большинстве (именных) начальных форм ударение падает на последний слог основы, то есть перед словоизменительным окончанием. К примеру, большинство слов, оканчивающихся на в 70% случаев имеют ударение на предпоследний слог, а слова, оканчивающиеся на ряд согласных звуков имеют ударение на последний слог.

Помимо морфемного анализа слова в системе синтеза речи «VitalVoice» предусмотрено решение проблемы выбора ударения в омонимичных словоформах, которое реализуется с помощью рассмотрения грамматических параметров слова в левом и правом контексте относительно текущего. Так, при возможных случаях омонимии между разными частями речи в левом и правом контексте слова ищутся единицы, которые согласуются с этим словом. К примеру, в словосочетании простой ответ [пример из (Хомицкевич, Рыбин, Таланов, Опарин 2008)] существительное ответ согласуется с прилагательным, а значит, простой в данном случае является прилагательным (в отличие от его употребления в словосочетании простой вагонов). Для решения проблемы омонимии внутри одной и той же части речи (замок, ключ) используется система анализа дальнего контекста, которая определяет нужное значение слова в зависимости от других слов, находящихся в том же предложении и семантически с ним связанных. К примеру, для определения значения слова стоит данный алгоритм ищет в предложении значения денежных единиц (рубль, копейка). При нахождении таких единиц наиболее вероятным признается вариант сто?ит.

Данная работа во многом схожа с алгоритмом синтезатора «VitalVoice». В ней, также как и в вышеупомянутой системе, введен морфологический анализ структуры слова с последующей целью распознавания морфем, притягивающих ударение (т.н. аутоакцентных морфем), морфем, на которые ударение никогда не падает, а также пре- и постакцентных морфем (которые указывают на то, где именно относительно данной морфемы находится ударение). Кроме того, вслед за системой «VitalVoice» было введено распознавание начальных и конечных сегментов слова сложных слов.

К сожалению, на сегодняшний день все известные алгоритмы автоматической расстановки ударений в словах распространены лишь в сфере синтеза речи. Словари по-прежнему заполняются вручную, что подразумевает огромный труд авторов в области поиска неологизмов, постепенно входящих язык, а также в составлении самих этих словарей. Очевидно, что программа, написанная в ходе данной дипломной работы, может стать подспорьем и для орфоэпических словарей: тот факт, что она использует большие объемы реальных употреблений тех или иных словоформ в тексте, дает возможность наблюдать поведение ударения на текущий момент времени. Напомним, что поведение ударения в текстах возможно определить на основе ошибочно написанных гласных в слове, в соответствии со сводом фонетических правил, которые могли привести к подобным ошибкам написания.

2.2 Фонетические правила и их связь с орфографическими ошибками

Акцентно-ритмическая структура слова - это сложное образование, представляющее из себя совокупность таких характеристик, как число слогов и место ударения. Каждое слово имеет свою ритмическую схему, согласно которой один из слогов фонетически выделен по отношению к другим. Такое выделение обусловлено ударностью данного слова. Стоит добавить, что термин «слово» в традиционном понимании и в фонетическом разнятся. Фонетическое слово - это «самостоятельное слово с примыкающими к нему безударными служебными словами» [Аванесов 1958]. Таким образом, большинство предлогов, частиц и союзов не могут являться ударными и могут быть рассмотрены лишь при употреблении их с самостоятельными словами. Тем не менее, как уже упоминалось выше (см. разделы 2.2 и 3.1.1), в ряде случаев ударение может падать и на ряд предлогов (в таких сочетаниях, как за? руку, по?д гору).

Для русского языка существуют особые фонетические правила, связанные с ударными и безударными слогами. Для начала следует отметить, что ударение в русском языке качественно-количественное (то есть, основными характеристиками ударной гласной является ее длительность и тембр). Фактически это означает, что ударный слог отличается от всех прочих большей длительностью и отсутствием редукции (ослабления звучания гласных звуков). Реализация гласных звуков во всех остальных слогах зависит от их позиции относительно ударного слога. Так, чем дальше от ударного слога находится гласная, тем большей редукции она подвергается. В первом предударном слоге гласные практически не претерпевают качественных изменений, соответственно, их произнесение наиболее приближено к звучанию их ударных реализаций. Исключением из данного правила является звук [а] после мягких согласных (вяза?ть), где этот звук реализуется как [и], а также звук [е] после твердых согласных приближается по звучанию к звуку [ы] после мягких согласных (берёза). Гласные, находящиеся в неприкрытых слогах, а также в абсолютном начале или абсолютном конце слова, претерпевают качественную редукцию первой степени. Так, звук [о] теряет свою лабиализованность и начинает звучать так же, как звук [а] (вода?, спаси?бо), а остальные звуки приближаются по своему звучанию к ударным. Наконец, звуки [у] и [ы] (после твердых согласных) вне зависимости от положения в слове никогда не подвергаются качественной редукции (рука?, дымо?к).

Ошибки в написании слова нередко возникают вследствие незнания или пренебрежения людьми правилами русского языка. В данной работе исследуются орфографические ошибки, или, говоря более конкретно, графические ошибки фонологического вида в варьирующихся фонемах в сигнификативно-слабых позициях. Такие ошибки «совершаются в слабой позиции фонемы, позиции нейтрализации» [Парубченко 2003].

В процессе написания происходит перевод звучащей речи в письменную, причем «процесс записи звучащей речи складывается из двух этапов: перевод звучащей речи в фонемную транскрипцию и затем переход от фонемной транскрипции к буквенной записи» [Кузьмина 1981: 12]. Однако у людей, совершающих графические ошибки фонологического вида, ни один из этапов не выполняется: они напрямую отождествляют звуки с конкретными реализациями этих звуков на письме. Именно эти механизмы объясняют связь фонетических правил, связанных с качественным изменением гласных, с графическими ошибками фонологического типа. Таким образом, становится возможным определить ударный слог в слове, исходя из совокупности найденных ошибок написания данного слова.

Для каждого из гласных звуков были рассмотрены его реализации на письме в разных позициях, на основе этого исследования был составлен подробный список возможных ошибок. Ниже представлен список возможных ошибок в гласной, полученный в процессе исследования, приводятся только возможные ошибочные реализации букв (так, для гласного и в словах типа миндаль будет указана лишь реализация с помощью буквы е; мендаль*):

1. Звук [а].

Звук [а] при употреблениях в слабых позициях подвергается качественной редукции, причем точно такой же редукции подвергается и звук [о]. Следовательно, была выдвинута гипотеза о том, что звук [а] на письме может быть реализован буквой о. Гипотеза подтвердилась: в начальных открытых слогах и после твердых согласных звук действительно встречался с использованием буквы о (ср., арбалет и орбалет*, народ и нород*). Однако после твердых согласных ж, ш и ц (выделяемых в отдельный класс) встречаются варианты написания с помощью букв е, и, ы (ср., жалеть, желеть*, жилеть* и жылеть*). После мягких согласных звук [а] был встречен в реализациях с буквами е и и (ср., Рязань, Резань* и Ризань*; часы, чесы* и чисы*). В конце слова встречается только реализация в виде буквы а (вьюга).

2. Звук [о].

Как уже говорилось в предыдущем пункте, звук [о] в слабой позиции реализуется так же, как и звук [а]. Употребления слов с данным звуком, реализованным в качестве буквы а, встретились в начальном и конечном открытых слогах, а также после твердых согласных (ср. облака и аблака*, пожар и пажар*, долго и долга*). После твердых согласных ж, ш и ц звук [о] выражается также, как и звук [а], но добавляется еще реализация с помощью буквы а (ср., шоссе, шессе*, шиссе*, шассе* и шыссе*). В случаях употребления после мягких согласных звук может быть выражен только буквой ё (всегда ударной). После мягких согласных ч и щ звук [о] должен реализовывается исключительно буквой о.

3. Звук [и].

В начальном и конечном открытых слогах выражается только буквой и (игра, ставни). После твердых согласных ж, ш и ц может быть реализован буквами ы и е (ср., цилиндр, цылиндр*, целиндр*). После мягких согласных звук [и] может быть выражен буквой е (ср., зима и зема*).

4. Звук [ы].

Звук не может находиться в открытом начальном слоге, а в конечном открытом слоге всегда выражается буквой ы (латы). После твердых согласных звук может быть выражен буквой э (ср., дыбы, дэбы*). После твердых согласных ж, ш или ц может реализовываться буквами е и и (ср., цыган, цеган*, циган*). После мягких согласных звук не употребляется.

5. Звук [э] после мягких согласных.

В начальном открытом слоге, а также после мягких гласных возможно чередование правильного варианта с буквой и (ср., енот и инот*, зима и зема*), в конечном открытом слоге выражается только буквой е (в зале). После твердых ж, ш и ц может реализовываться буквами и и ы (ср., жены, жины* и жыны*).

6. Звук [э] после твердых согласных.

Может употребляться в начальном открытом слоге и после твердых согласных ж, ш и ц, в обоих случаях звук реализуется буквами ы, е и и (ср., этаж, ытаж*, етаж* и итаж*; межэтнический, межытнический*, межетнический* и межитнический*).

Ниже представлена таблица, иллюстрирующая изложенные характеристики. Для удобства чтения и для разграничения некоторых случаев употребления в первом столбце указаны не звуки, а буквы. Буква ё не рассматривалась, поскольку невозможно найти примеры, где она выступает в слабой позиции.

Таблица 2. Примеры слов и их ошибочных написаний в зависимости от позиции

Начало слова

После тв. согл.

После ж, ш и ц

После мягк. согл.

После ч и щ

Конец слова

а

арбале?т

вали?дность

жале?ть

-

часы??

ска?зка

орбале?т

воли??дность

желе?ть, жиле?ть, жыле?ть

-

чесы?, чисы?

-

я

япо?нец

-

-

гряда?

-

ба??сня

епо?нец, ипо?нец

-

-

греда?, грида?

-

-

о

окно?

пора?

жонгли?ровать

-

шоссе?

до??лго

акно?

пара?

жангли?ровать

-

шессе?, шиссе??, шассе?, шыссе??

до?лга

ы

-

дыбы?

-

-

цыга?н

ку??ры

-

дэбы?

-

-

цега??н, циган

-

и

икра?

-

цили?ндр

зима?

чистю?ля

де??ти

-

-

цыли?ндр, цели?ндр

зема?

честю?ля

-

э

экра?н

-

межэтни?ческий

-

-

ало?э

ыкра?н, екра?н, икра?н

-

межытни?ческий, межетни?ческий, межитни?ческий

-

-

-

е

евре?й

-

жены?

весна?

чека?

в за?ле

ивре?й

-

жыны?, жины?

висна?

чика?

-

у

умо?ра

тупи?к

жура?вль

-

чужо?й

му?жу

ю

юла?

-

жюри?

ключи?

-

ме?ряю

Кроме уже представленных характеристик, необходимо упомянуть про случаи написания гласной э на концах слов. У большей части таких слов существует аналог с буквой е в конечном открытом слоге (алое и алоэ). Тем не менее, такие вариации написания не рассматривались, поскольку допустимыми являются оба варианта.

3. Архитектура программного обеспечения

В качестве основного материала для обработки используются корпуса блогов. Такое решение в выборе материалов для исследования мотивировано отсутствием литературной правки в подобных текстах, из чего следует, что можно проследить взаимосвязь между фонетическими правилами русского языка и орфографическими ошибками в гласных и на основе этого расставить ударения. Используются следующие корпуса блогов:

1. Корпус блогов ресурса «LiveInternet»;

2. Корпус блогов ресурса «Blogspot»;

3. Корпус блогов ресурса «Livejournal».

Помимо основных материалов исследования используется вспомогательные материалы, использующиеся для разбора сложных случаев, не давших однозначного результата в ходе определения места ударения с помощью орфографических ошибок. Все вспомогательные материалы связаны с морфемами, указывающими на ударение. Во-первых, используются словари морфем, характерных для той или иной части речи. Морфемы в них задаются с помощью регулярных выражений, причем для каждой морфемы также прописан ее тип (согласно классификации А. А. Зализняка). Во-вторых, используются словари с частями сложных слов, которые позволяют однозначно определить поведение ударения в слове.

Данные подвергаются обработке поэтапно. Так, на этапе обработки текста производится предварительная очистка текста, а также составляется массив всех встретившихся в тексте словоформ, частотный словарь и словарь с грамматическими характеристиками, полученными в результате обработки данных морфологическим анализатором MyStem. Кроме того, отсеиваются словоформы, в которых ударение возможно определить однозначно уже на этом этапе. На следующем этапе происходит формирование ключей: для каждой словоформы составляются ключи, на основе которых словоформы объединяются в отдельные группы с общим ключом. Именно на этом стадии применяется список возможных реализаций на письме для той или иной буквы. Использование этого списка позволяет внутри каждой группы словоформ определить, являются ли они реализациями одного и того же слова или же относятся к разным словам. Обработка составленных словарей ключей продолжается на этапе обработки слов с несколькими возможными ударениями. Этот этап ориентирован преимущественно на работу с морфемами, указывающими на поведение ударения: в нем используются и применяются описанные выше вспомогательные материалы (словари, определяющие поведение ударения в морфемах и частях сложных слов). При этом учитывается и информация, полученная на предшествующих этапах. При сопоставлении морфем, входящих в состав словоформы, со словарем морфем с довольно высокой точностью определяется единственно верное расположение ударения в слове. Далее для полученного словаря производится выбор правильного варианта написания каждой словоформы, который определяет правильно написанную словоформу, используя показатели частотности. В конце работы программы происходит формирование финальных результатов: вся информация суммируется и разбивается на типы, после чего на основе нее формируются файлы с таблицами результатов работы программы.

3.1 Предобработка текста

Поскольку текст поступает в программу в необработанном виде, содержащем в себе лишнюю для нашей задачи информацию, перед началом обработки необходимо убрать из него все лишнее. Первой задачей этого этапа является очистка текста. Из текста изымаются технические пометы, время и дата публикации, союзы и предлоги, на которые никогда не падает ударение, знаки препинания, и прочие данные, не представляющие ценности в рамках исследования. Все прописные буквы слов переводятся в нижний регистр, так как в большинстве случаев употребления прописная буква обозначает лишь начало нового предложения. К тому же нередки случаи написания слова с прописной буквы (или же написания всего слова в верхнем регистре), ставящие себе целью выделить его интонационно. В рамках очистки текста также были отсеяны слова, содержащие в себе символы, не принадлежащие к русскому алфавиту, а также содержащие числа (например, Т-34). Для каждого корпуса блогов очистка текста проводилась по своим правилам, поскольку в каждом из них текст содержал разные технические пометы, встречались разные форматы времени публикации поста и т.д.

После очистки текста формируется массив встретившихся словоформ. Причем при формировании массива сразу происходит анализ количества гласных в слове. Отбираются следующие случаи:

1. односложное слово (в котором содержится всего одна гласная);

2. в слове встречается ё;

3. в одном из мест слова наблюдается растягивание одной из гласных (применяется для эмоциональной окраски; например в словах урааа, дооолго).

Такие случаи сразу отправляются в финальный словарь. Для всех остальных слов происходит анализ полученного массива на предмет частоты той или иной словоформы, по результатам которого формируется частотный словарь, где каждому вхождению соответствует количество его включений в массив словоформ. После формирования частотного словаря массив словоформ записывается в отдельный текстовый файл, который затем отправляется в морфологический анализатор MyStem. Анализатор определяет части речи и грамматические характеристики для каждой из словоформ, которые записываются в словарь грамматических характеристик. Кроме того, для анализа морфемной структуры слова применяется библиотека pymorphy, осуществляющая разбиение слова на его морфемные компоненты.

Таким образом, в конце данного этапа в распоряжении программы имеется массив всех встреченных в текстах словоформ, частотный словарь, словарь грамматических характеристик и словарь морфемной структуры слов. Кроме того, некоторые из слов, в которых можно уже на данном этапе однозначно определить ударение, включаются в финальный словарь (для каждого из вхождений указывается методика, позволившая определить ударение в этом слове).

3.2 Формирование ключей

На данном этапе для каждой из словоформ создается ключ, представляющий из себя аналог этого же слова, в котором все гласные заменены на специальный символ. Так, для слова собака таким ключом будет с*б*к*. Далее на основе созданных ключ-масок слова объединяются в группы: создается словарь, где значениями являются наборы найденных словоформ, соответствующих ключ-маске, а ключом - ключ-маска, в которой специальные символы заменяются наборами гласных, встретившихся на данной позиции. Так, запись словаря для слова собака будет выглядеть так: с(ао)б(а)к(ао) : [cабака, собака, собако]. Напомним, что в значениях будут только те словоформы, которые уже встречались в тексте. Таким образом, для примера выше в текстах должны встретиться все три реализации написания данной словоформы.

При этом очевидно, что внутри ключей могут встретиться не только формы одного и того же слова, написанные с ошибками, но и другие слова. К примеру, ключу кл*ч может соответствовать как слово клич, так и словоформа ключ. Чтобы уменьшить количество подобных совпадений, к словарю применяются правила взаимозаменяемости букв (см. раздел 3.2). Так, значения словаря вида кл(ию)ч: [клич, ключ] после применения правил превратятся в записи словаря вида кл(и)ч: [клич] и кл(ю)ч: [ключ]. Таким образом, применение таких правил способствует разделению словоформ с разным значением.

Однако в ряде случаев даже применение правил не сможет полностью разделить словоформы с разными значениями. Так, к примеру, ключу сл*в* может соответствовать словоформы слово, слова и слива. В таком случае программа сможет отделить словоформу слива от двух остальных. В то же время, слова слово и слова, являющиеся разными словоформами, а не ошибочной и правильной реализациями одной словоформы, программа разделить не сможет, поскольку преобразование буквы о в а на конце слова прописано правилами взаимозаменяемости букв.

Тем не менее, программа сможет дифференцировать словоформы слово и слава, поскольку в таком случае все буквы в слове различаются (а ведь с точки зрения фонетики ударная гласная никогда не подвергается качественному изменению).

Рассмотрим алгоритм работы программы в случае вхождений словоформ слово, слава, слова, слива и слева. Данный алгоритм является сложным случаем и иллюстрирует возможности программы для снятия омонимии.

1. Для каждой из словоформ составляется ключ сл*в*;

2. Словоформы объединяются по ключу:

сл*в*: [слово, слава, слова, слива, слева];

3. Ключ изменяется согласно всем входящим в словоформы гласным:

сл(оаие)в(а): [слово, слава, слова, слива, слева];

4. Применяются правила взаимозаменяемости букв и ряд слов отделяется:

{ сл(ие)ва: [слива, слева], сл(ао)в(ао): [слава, слова, слово] };

5. Поскольку ключ сл(ао)в(ао) не содержит гласной, остающейся неизменной во всех употреблениях, программа производит проверку на то, являются ли все слова полными «противоположностями» друг друга в плане гласных;

6. Из-за словоформы слова, которая может быть как вариантом написания слова слово, так и вариантом написания слава, программа не может однозначно разделить набор словоформ. В таком случае она отправляет эту группу слов в итоговый словарь с пометой о том, что здесь возможна омонимия (подробнее о пометах см. раздел 4.5).

К сожалению, как можно увидеть из алгоритма, программа может распознавать омонимию лишь в ограниченном числе случаев. Так, для набора словоформ типа [слово, слава] омонимия может быть снята, а набор словоформ типа [слово, слава, слова] сразу отправляется в итоговый словарь с пометкой об омонимии. Наконец, наборы типа [слово, слова] или [слева, слива] считаются ошибочным и правильным написанием одной и той же словоформы (поскольку преобразования возможны в рамках правил взаимозаменяемости букв).

3.3 Обработка слов с несколькими возможными ударениями

Таким образом, на предыдущем этапе работы программы был получен словарь, состоящий из объединенных ключами групп схожих словоформ. На следующем этапе работы программа анализирует данный словарь, распределяя слова по категориям в зависимости от количества слогов, в которых встретилась лишь одна гласная (ср. ключи с(ао)б(а)к(ао), с(ао)б(а)к(а), сл(ао)в(ао)). Таким образом, можно выделить три различные категории:

1. Слова, в которых только одна гласная встречается в единственном варианте;

2. Слова, в которых ни одна гласная не встречается в единственном варианте;

3. Остальные слова (несколько гласных имеют различные варианты).

В предыдущем разделе мы уже подробно рассмотрели алгоритм поведения программы в случаях, когда все гласные встречаются в нескольких вариантах. Слова, в которых только одна гласная встретилась в единственном варианте написания, сразу отправляются в итоговый словарь (с указанием о методике позволившей определить ударение; в данном случае это будет помета об орфографических ошибках). Это происходит вследствие того, что наличие только одной такой гласной однозначно указывает на то, что именно на эту гласную падает ударение в слове. Объясняется это тем, что ударный слог никогда качественно не изменяется, а следовательно никогда не имеет разных вариаций написания.

Процесс анализа и обработки слов, имеющих несколько гласных, встречающихся в единичном варианте, нуждается в более детальном рассмотрении. К данной категории принадлежит подавляющее большинство слов. К этим словам последовательно применяются два способа определения точного места ударения. В случае однозначного определения ударной гласной (т.е., когда остается лишь одна гласная, встретившаяся в единичном варианте написания) все последующие способы для слова пропускаются, а слово отправляется в итоговый словарь с пометами о примененных методиках.

Первым способом является рассмотрение акцентных характеристик морфем, встреченных в слове. Из словаря грамматических характеристик, полученного на этапе обработки информации с помощью морфологического анализатора MyStem, берется информация о грамматических характеристиках и части речи, к которой принадлежит слово. В соответствии с частью речи из вспомогательных материалов берутся списки морфем, а также информация об их акцентных характеристиках. В соответствии с данными характеристиками определяется место ударения в слове. К примеру, в случае, если найденная морфема принадлежит к доминантному правоударному классу, то ударение всегда падает либо на слог, находящийся справа от морфемы, либо на саму морфему, если она находится в конце слова. Рассмотрим алгоритм работы программы на основе словоформы циркача для случая, когда в качестве реализации данной словоформы встретилось только данное слово.

1. Извлекается информация о морфемном составе словоформы с помощью библиотеки pymorphy (цирк-ач-а), а также устанавливается часть речи и его грамматические характеристики;

2. С помощью составленных списков определяется, что морфема -ач- принадлежит к доминантному правоударному классу (>D);

3. Проверяется, есть ли гласные звуки правее данной морфемы. Поскольку правее стоит флексия , программа ставит ударение на нее;

4. Набор словоформ с проставленными ударениями (в данном примере включающий только одно слово) передается в итоговый словарь. Вместе с самим набором передается помета, указывающая на влияние акцентной характеристики морфем на выбор при постановке ударения.

Вторым способом является проверка на наличие включений в слово частей сложных слов, позволяющих однозначно определить место ударения. Данный способ осуществляется путем обращения к заранее составленному списку подобных частей.

3.4 Выбор правильного варианта написания

После формирования итогового словаря нерешенной остается задача определения правильно написанной словоформы. В ходе данного этапа эта задача решается с помощью анализа частотности вариантов написания словоформы. Альтернативным вариантом решения такой задачи является определение правильной словоформы с помощью словарей, но подобный подход неприменим в программе в силу изначальной установки на отсутствие обращений к словарям и необходимости анализировать в том числе и неологизмы, которые по понятым причинам могут в словарях отсутствовать.

По этой причине задача решается методом определения варианта написания словоформы с наибольшей частотностью, который признается правильным в случае сильного отрыва от остальных вариантов. Данным этапом заканчивается заполнение итогового словаря.

3.5 Формирование финальных результатов

На этой стадии программа суммирует всю полученную за время работы программы информацию по словоформам, включая правильный вариант написания словоформы, встретившиеся варианты написания словоформы с количеством их вхождений и пометы. Далее словоформы разбиваются на два типа соответственно тому, удалось ли однозначно определить местоположение ударения.

3.6 Результаты работы программы

По результатам своей работы программа формирует два файла формата CSV с таблицами словоформ. Каждый файл соответствует одному из двух возможных типов словоформ по критерию однозначности определения ударения. Структура обоих файлов идентична: в каждом из них для каждой словоформы записывается отдельная таблица. В первом столбце таблицы находится правильная словоформа либо прочерк, если ее не удалось установить. Второй столбец отображает варианты написания словоформы. В третьем столбце для каждого варианта прописывается его частотность. Наконец, четвертый столбец содержит в себе список помет для данной словоформы.

Пометы могут быть следующими:

1. yo - местоположение ударения определено по наличию буквы ё в словоформе;

2. singlesyll - однослоговая словоформа;

3. multiemo - местоположение ударения определено по повторению гласной для выражения эмоционального окраса речи;

4. orphograph - для определения местоположения ударения использовался метод анализа орфографических ошибок;

5. morphemes - для определения местоположения ударения использовался словарь акцентных характеристик морфем;

6. wordparts - для определения местоположения ударения использовался словарь частей сложных слов;

7. omonym - возможная омонимия.

Информация в столбцах таблицы располагается следующим образом. В первом столбце заполняется только первая строка: туда вписывается правильная словоформа либо прочерк, если ее определить не удалось. Во втором и третьем столбце число строк соответствует числу встретившихся вариантов написания словоформы. Каждому варианту из второго столбца соответствует его частотность в третьем. В четвертый же столбец записываются все пометы, по одной на строку.

Таблица 3. Пример финальной таблицы для словоформы собака

собака

собака

457

orphograph

собако

12

сабака

35

4. Анализ результатов работы программы

Как показали результаты статистического анализа выходных данных программы, местоположение ударений было правильно выяснено приблизительно для 65% словоформ. В остальных 35% случаев четкое определение ударной гласной осуществлено не было. Далее приводятся причины возникновения подобных проблем для всех стадий проверки.

Во многих случаях наличие в корпусе слов с графическими ошибками дофонологического типа мешало определению правильной словоформы. В частности, такая ошибка, как написание волчёк* вместо волчок приводила к занесению неправильной словоформы в финальный словарь ударений из-за ошибочного определения ударения по наличию буквы ё. Точно так же неправильные результаты были получены для словоформы чувство, ошибочная форма написания которой (чювство*) была отмечена как отдельная правильная словоформа.

Отсутствие обработки прямых опечаток, таких как слрво* вместо слово, также приводило к появлению в финальном словаре ошибочных словоформ по причине того, что ударение в них считалось однозначно определенным на этапе обработки слов с одним слогом. Такие же проблемы возникали при использовании определения ударения на основе повторения гласной для придачи эмоционального окраса (например, вееер ошибочно включалось в финальный словарь в виде словоформы вер). Программа также не смогла справиться и с естественными утроенными гласными (например, длинношеее и змееед). Впрочем, подобными случаями в силу их исключительной редкости мы решили пренебречь.

Также большое количество ошибок было связано с неспособностью алгоритма обработать случаи омонимии. Так при наличии для ключа-маски сл*в* трех вариантов написания слова, слово и слава, оказалось невозможным определение правильной словоформы. Те же проблемы вызывали омографы, такие как ви?ски и виски?.

В некоторых случаях слов с малой частотностью правильная форма на основе частотности выбиралась неправильно (в основном это случаи, когда общеупотребимое произношение слова отличается от нормы произношения, например, общеупотребимое тво?рог и нормативное творо?г) или не могла быть выбрана (единичные включения)

Были замечены и проблемы с работой библиотеки pymorphy в роли морфемного анализатора. В случае неправильного морфемного разбора слова применение к нему словаря морфем, однозначно указывающих на расположение ударения, не давало ожидаемого результата.

Наконец, возникали проблемы с устойчивыми выражениями, связанными дефисом, такими как туда-сюда или шиворот-навыворот, которые определялись программой как единые слова с одним ударением. Было принято решения отсеивать такие случаи.

Тем не менее, недостатки программы в должной мере были компенсированы ее достоинствами. Способность программы к самостоятельному определению ударения более чем в половине случаев позволяет предположить, что в результате дальнейшего развития алгоритма она может позволить избавиться от работы с объемными словарями ударений. Более того, в отличие от словарей программа в состоянии работать с неологизмами, и при достаточном количестве включений весьма эффективно определять ударения в них.

В отсутствие достаточного количества включений слова в корпус, когда орфографический способ определения местоположения ударения не срабатывает, ситуацию могут спасти остальные способы: с применением словаря морфем и с использованием словаря частей сложных слов.

Помимо всего прочего, данная работа претендует на звание первой реализации использования орфографических ошибок для определения местоположения ударной гласной. Таким образом, одним из достоинств программы является открытие нового направления развития алгоритмов аутоакцентуации.

Заключение

Автоматическая расстановка ударений в русском языке является особо актуальной задачей, поскольку до сих практически не существует программного обеспечения, способного с высокой точностью и без обращения к сторонним ресурсам определить расположение ударения в слове.

В начале исследования было поставлено целью создание программного обеспечения, способного автоматически расставлять ударения в русскоязычных текстах, не подвергнувшихся литературным правкам. Для случаев, когда однозначно определить место ударения не представляется возможным, программа должна была указывать слоги, где ударение находиться не может. Каждая из задач, поставленных в рамках этой цели, была выполнена.

Так, первая задача включала в себя сбор информации о поведении ударения в русском языке, а также о достижениях в области акцентологии (разделе лингвистики о природе, особенностях и функциях ударения). В рамках данной задачи были рассмотрены такие особенности русского ударения, как разноместность и подвижность. Разноместность - это способность ударения падать на любой по счету слог в слове, тогда как подвижность - это способность не закрепляться за каким-то конкретным слогом слова. Так, при словоизменении ударный слог слова может изменяться. Также был произведен обзор поведения ударения в русском языке. Была рассмотрена история и достижения акцентологии, в том числе, понятие литературной нормы и шкалы нормативности (созданной известным акцентологом Н. А. Еськовой), дающей оценку разных форм и ударений с точки зрения их соответствия литературной норме.

Кроме того, была рассмотрена система ударений в древних славянских языках, которая описывалась одним простым правилом, покрывающим всю систему. Впоследствии система языка начала развиваться, начали наблюдаться определенные закономерности (исчезновение ударения на предлогах; перенос ударения с глагольных приставок на суффиксы; появляющаяся способность некоторых суффиксов притягивать ударения во всех случаях употреблений). В ходе исследования было установлено, что русское ударение характеризуется тенденцией к унификации слов с похожим звучанием (одинаковыми по грамматической форме, имеющими один суффикс или даже одинаковые конечные звуки основы).

Вторая задача исследования состояла в нахождении и изучении факторов, которые способны указать на расположения ударения в слове. При реализации данной задачи было выявлено два фактора: акцентная характеристика морфем (по А. А. Зализняку) и орфографические ошибки в текстах, не подвергнувшихся литературной правке.

Согласно классификации А. А. Зализняка, в современном русском языке выделяется три типа акцентных характеристик морфем: самоударные, правоударные и левоударные. Кроме того, такие морфемы могут быть доминантными и недоминантными. Из книги «От праславянской акцентуации к русской» за авторством А. А. Зализняка были отобраны лишь те морфемы, которые могут быть реализованы в рамках данной курсовой работы. Для того чтобы программа по внешнему виду морфемы однозначно определяла ударение в слове, было сформулировано пять ограничений:

1. У суффикса нет отклонений от его акцентного класса, если только эти отклонения не представлены лишь парой примеров;

2. Суффикс не колеблется между двумя классами;

3. Суффикс не содержит омонимию с формами других суффиксов в косвенных падежах;

4. Суффикс выступает в классе лишь в одном из значений;

5. Суффикс не связан с силой базового компонента.

Были подробно рассмотрены списки морфем, характерных для той или иной части речи, относящиеся к разным акцентным классам.

В качестве второго фактора, указывающего на местоположение ударения в слове, были взяты орфографические ошибки (точнее, графические ошибки фонологического вида в варьирующихся фонемах в сигнификативно-слабых позициях). Механизм возникновения таких ошибок очень прост: люди, допускающие орфографические ошибки, напрямую отождествляют звуки с конкретными их реализациями на письме. Именно этим объясняется связь фонетических правил и графических ошибок фонологического вида. Таким образом, было установлено, что качественная редукция, характеризующая практически все случаи употребления безударных гласных, может реализовываться на письме и, соответственно, указывать на безударные гласные слова. Для каждой из гласных были рассмотрены все возможные реализации ее на письме в разных позициях.

Третья задача исследования состояла в построении архитектуры и написании программного обеспечения. Написанная программа включает в себя пять этапов, в каждом из которых материалы подвергаются обработке и анализу. В качестве материала программа использует тексты из блогов, поскольку они содержат орфографические ошибки, благодаря которым становится возможным определение безударных слогов слова. Программа также определяет морфемный состав слова и ищет в его составе морфемы, указывающие на поведения ударения.

Наконец, четвертая задача исследования представляла собой анализ результаты работы программы. В рамках этой задачи была приведена статистика правильных и неправильных результатов, а также рассмотрены случаи, в которых у программы возникали затруднения с определением правильного места ударения, а также случаи, в которых она справлялась с этой задачей.

Таким образом, можно с уверенностью сказать, что данная работа справилась с поставленной целью и с каждой из отдельных задач.

Существует множество возможных перспектив развития программы. Так, например, наравне с классификацией акцентных характеристик А. А. Зализняка при анализе места ударения можно использовать информацию из статей «Русской грамматики», описывающую поведение ударения в словах с каждой конкретной морфемой. Такой подход может значительно улучшить качество данных, поскольку в «Русской грамматике» практически для всех морфем представлен акцентный тип, которому они соответствуют, а также дается информация о продуктивности.

Еще одной потенциальной областью развития программы является поиск сильных и слабых базовых компонентов на основе слов с суффиксами недоминантного типа, для которых ударение было определено однозначно. Так, при слабом базовом компоненте ударение в словах с недоминантным самоударным суффиксом будет находиться на суффиксе, а при сильном - на корне. Таким образом, в процессе работы программы можно будет составить список сильных и слабых базовых компонентов и затем последовательно применить его к словам, в которых найдены недоминантные суффиксы, но определение ударение в которых не было определено.

Кроме того, в будущих разработках можно учесть и графические ошибки дофонологического типа в гласных. Например, к таким ошибкам будет относиться дополнительное обозначение мягкости посредством гласного (чювство*) или взаимозаменяемость букв ё и о, указывающая на нахождение в слогах с такими гласными ударения (бочёнок*, пошол*).

Наконец, можно реализовать распознавание орфографических ошибок в согласных (например, оглушение конечного согласного звука и реализация этого на письме) и опечаток, поскольку ошибки в согласных создают широкий диапазон различных словоформ с редким употреблением.

Литература

1. Брызгунова [1963] -- Е. А. Брызгунова. Практическая фонетика и интонация русского языка. М., 1963.

2. Вольская, Коваль, Опарин, Погарева, Скрелин, Смирнова, Таланов [2005] -- Н. Вольская, А. Коваль, С. Опарин, Е. Погарева, П. Скрелин, Н. Смирнова, А. Таланов. Синтезатор русской речи по тексту нового поколения // Труды международного семинара «Диалог05» по компьютерной лингвистике и ее приложениям (электронный документ). www.diaiog21.ru/Archive/2000/Dialogue%202000-2/25.htm. 2005.

3. Зализняк [1985] -- А. А. Зализняк. От праславянской акцентуации к русской. М., 1985.

4. Зализняк [2014] -- А. А. Зализняк. Из русского ударения (электронный документ). Элементы: популярный сайт о фундаментальной науке. http://elementy.ru/lib/432371. 2014.

5. Кедрова, Потапов, Егоров, Омельянова [2002] -- Г. Е. Кедрова, В. В. Потапов, А. М. Егоров, Е. Б. Омельянова. Русская фонетика (электронный документ). http://fonetica.philol.msu.ru/nn. 2002.

...

Подобные документы

  • Установление понятия и сущности фразового ударения, описание специфики и закономерностей его расстановки в английском предложении. Исследование ритмической структуры английской фразы, а также в рассмотрение связи между ритмом и ударением в предложении.

    курсовая работа [42,5 K], добавлен 24.11.2012

  • Особенности русского словесного ударения. Слабые участки в системе акцентологических норм. Ударения в именах существительных, прилагательных, причастиях и в глаголах. Произносительные нормы русского языка и фонетические законы. Нормы и стили произношения.

    презентация [751,4 K], добавлен 10.04.2017

  • Изучение лексикологической и морфологической функций ударения в русском языке. Анализ особенностей фонетического объединения слов в одно целое. Характеристика акцентных систем: монотонии и политонии. Обзор формирования современного русского произношения.

    контрольная работа [44,2 K], добавлен 21.06.2012

  • Положение русского языка в мире, популяризация русского языка и литературы. Положение ударения в фонетической структуре слова и развитая система словоизменения с помощью окончаний (флексий) и приставок. Лексические заимствования в современном языке.

    творческая работа [13,3 K], добавлен 02.04.2010

  • Правильная расстановка ударений в словах и их варианты, допустимые нормой русского языка. Поиск синонимов к словам. Определение рода существительных, подбор к ним прилагательного или глагола в форме прошедшего времени. Выявление ошибок в предложениях.

    контрольная работа [16,3 K], добавлен 11.03.2014

  • Основные свойства ударения в русских словах: разноместность и подвижность. Особенности постановки ударения в именах существительных (в разных падежах и числах), именах прилагательных, глаголах (в различных формах времени), страдательных причастиях.

    реферат [18,3 K], добавлен 17.02.2013

  • Понятие нормы. Признаки нормативного языка. Источники и характерные черты языковой нормы. Словесное ударение. Основные правила литературного произношения. Верные и неверные ударения в словах. Произношение безударных гласных. Иноязычные слова и выражения.

    контрольная работа [18,0 K], добавлен 05.07.2008

  • Рассмотрение интонации с точки зрения общей фонетики как просодической характеристики языка. Типы русской интонации по Боянусу: низкое падение, высокий подъем, низкий подъем, восходяще-нисходящий тон. Особенности фразового ударения в английском языке.

    курсовая работа [576,7 K], добавлен 20.03.2014

  • Исследование основных понятий орфоэпической нормы. Изучение правил устной речи и произношения. Свойства звуков русского языка, процесс их образования и сочетания. Орфоэпические нормы заимствованных слов. Постановка ударения при образовании форм слова.

    презентация [159,6 K], добавлен 05.02.2014

  • Теоретические аспекты ударения. Базовые англоязычные термины "stress" и "accent". Семантический и ритмический факторы определения места и степени ударения в английском языке. Акцентные типы многосложных слов. Вариативность как объективное свойство языка.

    курсовая работа [40,8 K], добавлен 14.06.2011

  • Особенности русского ударения. Культурноречевые проблемы в морфологии. Согласование сказуемого с подлежащим. Культура официального общения. Особенности оформления различных документов. Структура научного письменного текста и его языковое оформление.

    практическая работа [98,4 K], добавлен 18.10.2012

  • Особенности лексики русского языка с точки зрения активного и пассивного запаса. Активный словарь — лексика и фразеология языка, употребительная в данный период в той или иной речевой сфере. Устаревшие слова и неологизмы, как слова пассивного запаса.

    реферат [33,7 K], добавлен 24.02.2011

  • Понятие и цели рассуждения, место и значение данного типа текста в речи. Орфоэпия как совокупность правил литературного произношения, ее характеристика и назначение. Норма ударения, особенности в русском языке. Тенденции в развитии русского ударения.

    контрольная работа [15,8 K], добавлен 03.01.2011

  • Изучение понятия культуры речи, владения нормами устного и письменного литературного языка. Обзор правил произношения, ударения, словоупотребления, грамматики и стилистики. Анализ использования выразительных средств языка в различных условиях общения.

    реферат [164,9 K], добавлен 10.07.2011

  • Понятия правильность речи и языковая норма. Словообразовательные, морфологические, синтаксические нормы и их виды. Словесное, логическое, эмфатическое ударение. Грамматическая правильность и трудности современного русского произношения и ударения.

    реферат [22,1 K], добавлен 18.08.2014

  • Предмет и виды фонетики. Классификация гласных и согласных звуков. Понятие и типы слога, основной закон слогоделения в русском языке. Особенности русского ударения. Фонетическое членение речевого потока, расстановка фразовых и тактовых ударений.

    контрольная работа [18,6 K], добавлен 20.05.2010

  • Практические навыки освоения норм современного русского языка (поиск синонимов, паронимов, склонение падежей, определение правильности произношения, ударения и построение предложений) с целью повышения уровня речевой культуры русского общества.

    контрольная работа [23,1 K], добавлен 20.02.2010

  • Правильность речи как фундамент языковой культуры. Виды языковых норм, их сущностная характеристика. Словообразовательные, морфологические и синтаксические нормы грамматики. Фонетическая природа русского словесного ударения, его характерные признаки.

    реферат [22,5 K], добавлен 10.12.2014

  • Слова, сходные по звучанию, но имеющие разное значение (паронимы), различия в значении паронимов. Акцентология, особенности и функции ударения. Лексические средства в предложениях, речевые ошибки, связанные с неправильным употреблением языковых единиц.

    контрольная работа [17,7 K], добавлен 23.09.2011

  • Ударение в именах существительных, прилагательных, причастиях и отглагольных прилагательных. Нормативные варианты произношения глаголов, особенности постановки ударения в зависимости от значения слова. Эволюция основных орфоэпических норм русского языка.

    презентация [314,9 K], добавлен 22.10.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.