Главная Коллекция "Revolution" Иностранные языки и языкознание Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык

Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык

Этапы построения модели статистического машинного перевода. Построение фразовой таблицы и создание модели перестановок. Основные варианты сегментации. Принципы работы декодера. Перевод с помощью системы Moses. Оценки переводов по метрике BLEUScore.

Рубрика	Иностранные языки и языкознание
Вид	магистерская работа
Язык	русский
Дата добавления	30.10.2017
Размер файла	468,1 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Санкт-Петербургский государственный университет

Филологический факультет

Кафедра математической лингвистики

Магистерская диссертация

Направление 035700 "Лингвистика"

Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык

Студент: Бань Дмитрий Юрьевич

Научный руководитель

доц., к.ф.н. О.В. Митренина

Санкт-Петербург

2016

Оглавление

Введение
Глава I. Статистический машинный перевод

1.1 Основные принципы
1.2 История SMT
1.3 Основные этапы и компоненты SMT

1.3.1 Выравнивание по словам
1.3.2 Фразовая таблица
1.3.3 Вероятностная модель
1.3.4 Модель перестановок

1.3.5 Языковые модели

1.4 Декодер
1.4.1 Основной алгоритм
1.4.2 Рекомбинация гипотез
1.4.3 Прореживание
1.4.4 Генерация N-лучших списков
1.5 Тюнинг

Глава II. Поиск оптимальной сегментации

2.1 Обзор исследований
2.2 Способы сегментации

2.2.1 Местоимения
2.2.2 Определенный артикль
2.2.3 Предлоги и союзы
2.2.4 Будущее время
2.2.5 'inna

2.3 Диакритики
2.4 Описание эксперимента

2.5 Инструменты
2.6 Эксперименты
2.7 Результаты

Заключение
Список использованной литературы
Приложение 1. Фрагменты тестового корпуса
Приложение 2. Фрагменты фразовых таблиц
Введение
Машинный перевод является динамично развивающейся областью обработки естественного языка, широко представленной на современном рынке информационных технологий. Технологии машинного перевода позволяют получать моментальные переводы значительных объемов текста, тем самым позволяя переводчикам экономить время, а компаниям - сокращать затраты на перевод нужных им текстов.
С помощью машинного перевода в наше время решаются многие задачи, которые раньше требовали значительно большего времени и ресурсов. В качестве примера таких ситуаций можно привести локализации веб-сайтов и программного обеспечения, перевод техической документации, анализ медиапространства интересующих компании регионов, ускорение деловой переписки. Помимо корпоративного сегмента, машинный перевод также широко применяется для личных целей - общения между людьми, перевода интересующих пользователя текстов и изучения иностранных языков.
Кроме непосредственного перевода текстов, машинный перевод применяется также и в ряде смежных областей, связанных с обработкой естественного языка. Например, в последнее время все более пристальное внимание обращает на себя идея сочетать машинный перевод с автоматическим распознаванием и синтезом речи, что в перспективе позволяет решить многие коммуникативные проблемы. Кроме того, важным направлением для занимающихся машинным переводом компаний является его интеграция с автоматическим распознованием текста, предоставляющая возможность перевода текста, размещенного на неэлектронных носителях. В-третьих, машинный перевод можно применять вместе с семантико-синтаксическими парсерами либо инструментами для извлечения мнений для того, чтобы анализировать интересующие компанию документы.
Статистический машинный перевод - один из наиболее популярных видов машинного перевода, наряду с переводом, основанным на правилах и гибридном переводом (сочетающим в себе элементы статистического перевода и перевода, основанного на правилах). Основной идеей статистического машинного перевода является обучение модели с помощью параллельного корпуса на целевом и исходном языке. При этом, такие лингвистические задачи, как установления соответствий между словами двух языков, определение правильно порядка слов в генерируемом тексте и обеспечение его «естественности» с точки зрения носителя решаются алгоритмически.
Важным преимуществом статистического машинного перевода является возможность быстрой разработки решений для пары языков. В самом деле, для обучения модели достаточно иметь параллельный корпус достаточного размера и вычислительные мощности для запуска программного обеспечения. При этом, для разработки систем перевода, основанных на правилах, необходимо потратить достаточно большое количество средств на специалистов, владеющих языками рассматриваемой пары. Кроме того, создание системы, способной генерировать сколько-либо приемлемые тексты на целевом языке, займет большое количество времени из-за сложности и многообразия естественного языка. Вдобавок к этому, сама задача поиска лингвистов, специализирующихся в изучении некоторых языков (либо просто их носителей) часто бывает достаточно затруднительной, если ареал распространения языка далек от физического местоположения занимающейся машинным переводом компании. Статистический машинный перевод избавлен от данных недостатков: благодаря высокой степени автоматизации процесса, разрабатывать системы перевода и, в определенной степени, оценивать получившиеся результаты могут даже специалисты, не владеющие языками выбранной пары. Таким образом, использование статистического машинного перевода позволяет компаниям значительно сокращать издержки на разработку моделей перевода требуемых языковых пар и делает возможным такую разработку в крайне сжатые сроки.
Несмотря на то, что лингвистические задачи в статистическом машинном переводе решаются алгоритмически, у разработчика системы перевода все равно остаютя возможности улучшить качество продукта для выбранной пары языков. Одним из способов добиться этого является предобработка текста на исходном языке. Практическая реализация этой идеи выбирается на основе особенностей рассматриваемых языков. В частности, если в исходном языке существует тенденция включать ряд морфем в состав других слов, а в целевом - записывать их отдельно, то проведение морфологической сегментации способно улучшить поиск соответствий между словами и снизить недостаточность данных, что, в свою очередь, может благоприятно сказаться на переводе. Кроме того, в некоторых языках текст в принципе не делится на слова каким-либо явным образом. Арабскому языку свойственна запись некоторых частей речи слитно с другими словами в качестве клитиков, поэтому при переводе арабских текстов на языки, в которых не наблюдается такой особенности - к примеру, на русский - логичной кажется идея использовать морфологическую сегментацию арабской части треиноровочного корпуса.
Арабский язык является одним из наиболее распространенных в мире. Согласно некоторым оценкам, на нем разговаривает около 295 миллионов человек, что делает его пятым языком мира по численности носителей. Важности этому языку добавляет тот факт, что арабский является государственным языком ряда экономически развитых государств - экспортеров углеводородов и международным экономических центров. Кроме того, многие арабские страны традиционно предоставляют большое количество информационных поводов из-за напряженной внутренней обстановки. При этом, было опубликовано достаточно малое количество исследований о машинном переводе с арабского на русский язык, что обуславливает актуальность данной работы. В частности, работы по изучению различных вариантов предобработки арабского текста для статистического машинного перевода на русский язык практически отсутствуют.
Практическая значимость исследования заключается в том, что его результаты могут помочь улучшить качество статистического машинного перевода с арабского на русский язык. Также, рассмотренные идеи могут применяться в гибридных системах перевода. Кроме того, они могут использоваться в дальнейших исследованиях по арабско-русскому машинному переводу.
Основой целью данной работы является изучение того, как морфологическая сегментация арабского текста влияет на его перевод на русский язык.
В задачи работы входило:

· рассмотреть следующие этапы, необходимые для построения модели статистического машинного перевода:

§ выравнивание по словам параллельного корпуса на исходном и целевом языке,

§ построение фразовой таблицы,

§ создание модели перестановок,

§ обучение языковой модели,

§ работа декодера,

§ тюнинг,

· сформулировать основные варианты сегментации,

· изучить инструменты для осуществления требуемой обработки,

· подготовить систему перевода, в том числе:

§ удалить диакритические знаки в арабском тексте,

§ сегментировать тесксты согласно выбранным схемам,

§ обучить модели перевода с помощью системы Moses,

§ провести тюнинг получившихся моделей,

§ получить оценки переводов по метрике BLEUScore,

· проанализировать результаты.

Материалом для исследований стал корпус лекций платформы TED, доступный и на арабском, и на русском языке. Объем корпуса составлял 117 987 строк. Из данного корпуса были выделены тренировочный, тюнинговый и тестовый корпуса.

Глава I. Статистический машинный перевод

1.1 Основные принципы

Статистический машинный перевод (SMT) - одна из базовых разновидностей машинного перевода наряду с машинным переводом, основанным на правилах (RBMT). Основной особенностью статистического перевода в его классическом виде является то, что в нем не используются разработанные вручную правила перевода между двумя конкретными языками. Вместо этого перевод текста создается на основе обученной ранее модели. Для обучения модели перевода нужны два параллельных корпуса текстов: на исходном и целевом языках. Кроме того, нужно использовать программное обеспечение, позволяющее построить данную модель. Помимо этого, в таких случаях обычно используются параллельные тексты для тюнинга: настройки параметров в модели перевода.

Основной идеей обучения является установление соответствий между токенами в параллельных корпусах. На первом этапе происходит выравнивание корпусов по словам, затем алгоритм высчитывает вероятности соответствий между образованными из токенов фразами обоих текстов. Помимо этого, вычисляются также вероятности перестановок фраз с другими. На этапе тюнинга алгоритм определяет веса различных параметров перевода. Для того, чтобы текст выглядел более естественно, используется также модель языка - корпус текста на целевом языке, позволяющий узнать вероятности фраз в этом языке.

Для тестирования результатов построения модели используются как экспертные, так и автоматические метрики. При экспертной оценке обычно сравниваются переводы двух моделей. Проводить оценку в идеале должен человек, владеющий и исходным, и целевым языком (при этом считается, что важнее хорошее знание целевого языка). Автматические оценки, такие как описанная в работе [Papineni et al. 2002] метрика BLEUScore, предполагают оценку совпадающих униграмм, биграмм, триграмм и квадрограмм, а также, в некоторых методиках, использование списков синонимов (см. [Banerjee, Lavie 2005]). Кроме того, некоторые методики основываются на оценке того, являются ли получившиеся перевода парафразами референтных предложений (см. [Russo-Lassner, Lin, Resnik 2005]).

Рассмотрим подробнее историю статистического машинного перевода и основные этапы, которые включает в себя процесс создания статистической модели.

1.2 История SMT

Изучение статистического машинного перевода началось в конце 1980-х годов в исследовательском центре компании IBM. В то время модели перевода были способны лишь находить соответствия между словами двух языков. При этом, в процессе перевода не учитывалась никакой лингвистической информации. К удивлению многих специалистов, результаты оказались достаточно приемлемыми: смысл почти половины предложений передавался правильно.

Впоследствии, упор был сделан на поиск соответствий между фразами двух параллельных корпусов. Дальнейшие исследования центра IBM в этом направлении привели к последовательным улучшениям результата. Важным шагом в развитии статистического перевода стали использование совместных вероятностей в модели [Marcu, Wong 2002]. Помимо этого, немалую роль в распространении фразового машинного перевода сыграла также модель выравнивания [Och, Ney 2003]. Кроме того, со временем стали применяться языковые модели корпусы текстов на целевом языке, позволяющие сделать текст более правильным грамматически.

В 2007 году была представлена полная система перевода Moses, разработанная [Koehn et al. 2007], покрывавшая все этапы перевода. Данная система стала основным стандартом в мире статистического машинного перевода.

1.3 Основные этапы и компоненты SMT

1.3.1 Выравнивание по словам

Построение фразовой таблицы для машинного перевода обычно начинается с установления соответствий между словами в двух параллельных корпусах. Наиболее популярным иенструментом, используемым, в том числе, в системе Moses, является GIZA++. Данный инструмент является модификацией классических IBM-моделей.

Рисунок 1. Выравнивание по словам

Одним из основных недостатков базовых моделей IBM являлось то, что они позволяли установить соответствие лишь одного английского слова с каждым из слов иностранного языка. GIZA++ решает эти проблемы с помощью определенных изменений в алгоритмах. Так, в данном инструменте производится пословное выравнивание в двух направлениях, на основании которого формируются конечные соответствия. Благодаря этому, можно получить выравнивание высокой точности, если взять пересечение обоих получившихся наборов соответствий. С другой стороны, можно максимизировать полноту, взяв объединение результатов.

1.3.2 Фразовая таблица

Какое-то время доминирующим подходом к статистическому машинному переводу был перевод, основывавшийся на взаимных соответствиях слов. Однако, в со временем этот способ уступил место фразовому переводу. Преимуществами этого нового взгляда на машинный перевод является то, что он позволяет:

- переводить фразы, значение которых может быть неочевидно из состовляющих их слов,

- использовать местный контекст,

- запоминать длинные фразы при наличии достаточного количества данных.

Каждому переводу фразы присваивается вероятность. К примеру, посмотрим таблицу из [Koehn 2009], отражающую возможные переводы на английский немецкой фразы “den Vorschlag” :

статистический машинный перевод

Таблица 1. Вероятности перевода фразы "den Vorschlag"

Перевод	Вероятность ц(e\|f)
the proposal	0.6227
's proposal	0.1068
a proposal	0.0341
the idea	0.0250
this proposal	0.0227
proposal	0.0205
of the proposal	0.0159
the proposals	0.0159
the suggestions	0.0114
the proposed	0.0114
the motion	0.0091
the idea of	0.0091
the proposal ,	0.0068
its proposal	0.0068
it	0.0068
...	...

В этом примере мы можем увидеть:

- лексическую вариативность (proposal и suggestion),

- грамматическую вариативность (proposal и proposals),

- запоминание служебных слов (the и a),

- шум (it).

При этом, нужно заметить, что выделяемые фразы не стоит сводить лишь к лингвистическим фразам (таким, как именная или глагольная группа). Часто информативными являются нелигвистические фразы (к примеру, существительное с последующим предлогом: по существительному можно с высокой долей вероятности предположить, каким будет корректный перевод данного предлога).

Для претворения в жизнь фразового статистического машинного перевода нужно разделить строку с иностранным текстом на фразы, перевести каждую фразу на целевой язык и переставить фразы местами для того, чтобы лучше отражать естественный порядок слов нужного языка.

Соответственно, следующим этапом обучения модели машинного перевода является, как правило, формирование фразовой таблицы. Эта часть работы основывается на полученных ранее соответствиях слов друг другу. В системе Moses используется эвристический метод, описанный в [Och, Ney 2003].

Выравнивание фраз происходит следующим образом: сначала мы находим пересечение двух пословных выравниванй (текста целевого языка по словам исходного и наоборот). Затем добавляем к ним примыкающие по вертикали, горизонтали или диагонали в матрице соответствий соединения. Мы начинаем с верхнего левого угла (первого слова), затем переходим ко второму слову и повоторяем этот процесс итеративно для всего предложения. В конце мы добавляем соединения, не примыкающие к остальным. При этом важным требованием является то, что точки соединений должны входить в объединение пословных выравниваний. Кроме того, добавление каждого соединения должно влечь за собой включение нового слова, не выравненного ранее.

После этого, происходит извлечение пар фраз: соответствующими друг другу мы называем те фразы, в которых все слова одной фразы соответствуют лишь словам другой фразы, и не соответствуют словам за пределами той фразы. Формально это можно выразить следующим образом:

BP(f1J,e1J,A) = { ( fjj+m,eii+n ) }: forall (i',j') in A : j <= j' <= j+m <-> i <= i' <= i+n

Получив все фразы, можно посчитать вероятности перевода каждой из них с помощью относительных частот:

ц(f|e) = count(f,e) /Уf count(f,e)

Отметим, что похожая модель, основанная на расширении пересечения множеств выравниваний в пределах их объединения используется у [Tillmann, 2003].

Кроме того, интерес представляют методы [Venugopal et al. 2003], позволяющие извлекать фразовые пары, которые неочевидны из-за ошибок в выравнивании по словам. Такой эффект достигается за счет учета вероятностей лексического перевода, длинны фраз и иных параметров.

Также стоит упомянуть про подход [Zhang, Vogel 2005], позволяющий получать пары фраз без предварительного пословного выравнивания. Согласно изложенному ими принципу, можно искать соответствия сразу между группами идущях подряд слов.

Вдобавок к этому, при разработке системы статистического машинного переводаможет быть полезно объединять фразовые таблицы, полученные разными способами (см. [Vogel et al. 2003]). Более того, некоторые методы предполагают также рассширение фразовой таблицы за счет включения в нее специально сгенерированных парафразов (см. [Callison-Burch, Koehn, Osborne 2003]).

1.3.3 Вероятностная модель

Согласно правилу Байеса, наилучший перевод ebest для фразы f можно рассчитать следующим образом:

ebest = argmaxe p(e|f) = argmaxe p(f|e) plm(e)

Здесь, p(f|e) - это модель перевода, а plm(e) - языковая модель.

При этом, модель перевода можно представить как

p(fI1|eI1) = ПIi=1ц(fi|ei) d(starti ? endi?1 ? 1),

где ц - вероятность перевода, а d - вероятность перестановки.

1.3.4 Модель перестановок

Перестановки слов являются важной частью статистического машинного перевода. Действительно, порядок слов существенно различается во многих языках, особенно если речь идет о языках из разных семей.

Часто проблема отличающегося порядка слов решается с помощью такого инструмента, как языковая модель. Это справедливо для случаев, в которых расстояние между словами, которые нужно переставить, не слишком велико. Чаще всего языковые модели строятся на основе триграмм, так что такие перестановки могут происходить в пределах окна из трех слов. Например, при переводе французского выражения affaires extйrieures на английский в языковой модели будет содержаться external affairs намного чаще, чем affairs external (вероятнее всего, такой фразы не будет вообще), поэтому external и affairs будут переставлены местами. К сожалению, такое рассуждение не будет справедливо для языков с порядком слов SOV (существительное - дополнение - сказуемое), таких как турецкий. Из-за того, что сказуемое будет стоять в конце предложения, расстояние между сказуемым в переводе без перестановок и в правильном с точки зрения целевого языка переводе в таких случаях может существенно отличаться. Вследствие этого, нужно использовать модель перестановок. (В то время как для языковой французский-английский можно использовать так называемый «монотонный перевод» - перевод без специальной модели перестановок). Чаще всего, имеет смысл ограничить расстояние возможных перестановок окном из некоторого количества слов. У такого шага есть две цели. Во-первых, таким образом можно сократить время, расходуемое на вычисление вероятностей для всех возможных вариантов. Кроме того, слишком большое окно перестановок может приводить к ухудшению результатов перевода.

Лексикализованная модешль перестановок позволяет вычислить вероятность того, что пара фраз на целевом и исходном языке имеет монотонный, обратный или раздельный тип ориентации. Ориентация называется монотонной (monotone), если в матрице выравниваний существует соответствие между словами исходного и целевого языка левее и выше фразы. Обратной (swap) ориентацию называют, если соответствие между словами двух языков расположено правее и выше фразы. При этом, соответстия должны примыкать к углу той части матрицы, которая отражает рассматриваемую фразу. Тип ориентации считают прерывным (discontinious), если ни к левому верхнему, ни к правому верхнему углу фразы не примыкает никаких соответствий между словами исходного и целевого языков.

Рассчитаем вероятность того или иного типа ориентации для данной пары фраз. Пусть p0(orientation|f, e) - вероятность ориентации фразовой пары (f, e). Согласно принципу максимального правдоподобия, ее можно вычислить следующим образом:

p0(orientation|f,e) =

Стоит отметить, что из-за разреженности данных в при создании модели перестановок возникет проблема сглаживания. Для того, чтобы решить ее, мы можем использовать распределение безусловной вероятности максимального правдоподобия с каким-либо множителем d.

Также, иногда при построении модели перестановок бывает полезно прибегнуть к некоторым дополнительным приемам. К примеру, многие фразы могут сигнализировать не только то, что их нужно переставить, но и необходимость перестановки следующей за ними фразы. В таком случае нужно дополнительно построить модель перестановок для последующих фраз.

Кроме того, время от времени имеет смысл учитывать распределение ориентации лишь на фразах исходного языка (или только целевого). Это может помочь в борьбе с недостаточностью данных. Вдобавок к этому, можно объединить обратный и прерывный типы ориентации с тем, чтобы еще сильнее снизить сложность используемой модели перестановок.

1.3.5 Языковые модели

Основные идеи

Еще одним ключевым компонентом системы машинного перевода, как правило, является языковая модель. Языковая модель отражает вероятность того, что в естественном языке встретится та или иная фраза. Преимущества использования подобной модели очевидны - она помогает переведенному тексту быть не только соответствовать оригиналу по смыслу, но и быть легко читаемым с точки зрения целевого языка.

Языковая модель обеспечивает «гладкость» текста в первую очередь за счет того, что позволяет более точно выбирать подходящие слова и помогает определить наиболее правильный порядок слов. Например, вероятностная языковая модель должна помочь выбрать частотный порядорк слов в следующем примере:

Plm(the house is small) > Plm(small is the house)

В хорошей языковой модели вероятность первого высказывания будет значительно выше, чем вероятность второго, поэтому должен быть выбран вариант с таким порядком слов.

Другим случаем, в котором оказывается языковая модель оказывается полезна, является лексический выбор. Часто использование того или иного слова в качестве перевода зависит от контекста, что и позволяет учесть языковая модель. К примеру, в следующем примере она должна определить более вероятный вариант:

Plm(I'm going home) > Plm(I'm going house)

Вариант home намного чаще используется после слова going, поэтому он является предпочтительным с точки зрения вероятностной языковой модели для английского языка.

Наиболее популярный метод создания языковых моделей - использование n-грамм. Для того, чтобы рассчитать вероятность той или иной n-граммы, мы можем сначала рассчитать вероятности каждого отдельного слова:

p(w1, w2, …, wn) = p(w1) p(w2| w1) ... p(wn| w1, w2, …, wn-1)

Таким образом, вероятность каждого слова равна произведение вероятностей предшествующих ему слов - истории. Для того, чтобы сделать вычисления технически возможными, ограничим истории до m слов:

p(wn| w1, w2, …, wn-1) = p(wn| wn-m, …, wn-2, wn-1)

Такая модель, учитывающая лишь ограниченную историю, называется цепью Маркова. При этом, количество элементов, входящих в историю, именуется порядком цепи, а сама идея того, что лишь ограниченное количество элементов цепи влияет на каждый следующий элемент - предположением Маркова. Вообще говоря, это не является правдой, но его можно использовать в вычислительных целях. Одной из наиболее популярных языковых моделей является модель на основе триграмм (то есть, марковская цепь второго порядка), но могут использоваться также биграммы, униграммы и n-граммы более высоких порядков.

Для того, чтобы вычислить вероятность того или иного слова при какой-то заданной истории, нужно лишь посчитать количество употреблений данного слова в такой ситуации и разделить его на число употреблений такой истории в корпусе в принципе:

Взглянем, к примеру, на вероятности слов для трех следующих историй в корпусе Europarl, выделенные в [Koehn, 2009]:

Таблица 2. Вероятности следующего слова для истории "the green"

The green (1748 употреблений)

Слово

Употребления

Вероятность

Paper

801

0,458

Group

540

0,367

Light

110

0,063

Party

27

0,015

ecu

21

0,012

Таблица 3. Вероятности следующего слова для истории "the red"

The red (225 употреблений)

Слово

Употребления

Вероятность

Cross

123

0,547

Tape

31

0,138

Army

9

0,040

Card

7

0,031

,

5

0,022

Таблица 4. Вероятности следующего слова для истории "the blue"

The blue (54 употребления)

Слово

Употребления

Вероятность

Box

15

0,296

.

6

0,111

Flag

6

0,111

,

3

0,056

angel

3

0,056

Из этих примеров мы можем видеть, что разные истории действительно имеют разные вероятностные распределения слов, стоящих за ними. К примеру, после слов “the red” чаще всего, с вероятностью 0,547, идет слово ”cross”, так как в текстах Европейского парламента, очевидно, часто употребляет название организации «Красный крест». В то же время, слово “cross” в данном корпусе не употребляется после последовательностей слов “the green” и “the blue”. Вероятность того, что “cross” будет следовать за “the red”, можно рассчитать как частное числа употрелений слова “cross” после “the red” и всех случаев употребления слов “the red”: .

Perlexity

Логичной выглядит идея, что для того, чтобы оценить качество имеющейся языковой модели, стоит использовать какую-то общую меру. Одним из наиболее распространенных способов является применение perplexity - оценки, основанной на кросс-энтропии. Для того, чтобы понять, как нужно применять данную метрику, вспомним сначала формулу кросс-энтропии:

Из кросс-энтропии можно легко получить perplexity:

Покажем применение perplexity на примере предложения из корпуса Europarl, проанализированного в [Koehn, 2009], и основанной на триграммах модели. Выберем для данной цели следующее предложение:

I would like to commend the rapporteur on his work.

В качестве маркера начала предложения условимся использовать <s>, для конца - <\s>.

Таблица 5. Вероятности языковой модели

Предсказанное лово

- log2

(i|<\s><s>)

0,109

3,197

(would|<s> i)

0,144

2,791

(like|I would)

0,489

1,031

(to|would like)

0,905

0,144

(commend|like to)

0,002

8,794

(the|to commend)

0,472

1,084

(rapporteur|commend the)

0,147

2,763

(on|the rapporteur)

0,056

4,150

(his|rapporteur on)

0,194

2,367

(work|on his)

0,089

3,498

(.|his work)

0,290

1,785

(<\s>|work.)

0,99999

0,000014

Среднее

2,634

Стоит отметить, что с помощью данной меры мы не просто считаем, сколько слов было «угадано» правильно. Perplexity основывается на том, какая вероятность была присвоена действительно встретившимся словам. Хорошая языковая модель не будет «тратить» вероятности на редко встречающиеся последовательности слов, так как иначе мало вероятности достанется более вероятным вариантам.

Сглаживание

Еще одним крайне важным моментом при разработке языковой модели является вопрос сглаживания. Согласно рассмотренной выше модели, если n-грамма вовсе не встречается в модели, то ей присваивается вероятность, равная нулю. Возможно, такая оценка является слишком радикальной. Кроме того, в некоторых случаях она является недостаточно информативной. К примеру, если модель рассматривает несколько вариантов, каждый из которых ранее не встречался в текстах, то каждый из них будет иметь вероятность, равную нулю, и мы никоим образом не может сравнить их друг с другом. Таким образом, нам нужно присваивать какие-либо вероятности не встречавшимся ранее n-граммам. Интересно отметить, что эта проблема становится все острее при увеличении порядка рассматриваемых языковых моделей.

Одним из самых простых способов решить проблему нлеовых вероятностей является сглаживанием с добавлением единицы (или любого иного фиксированного заранее числа). Для того, чтобы реализовать его, прибавим по единице к каждому подсчету употреблений. Кроме того, для того, чтобы получившаяся мера отвечала определению вероятности, прибавим к количеству встретившихся в тексте n-грамм количество всех возможных триграмм. Таким образом, формулу для вычисления вероятности n-граммы можно записать как

Здесь, c - количество употреблений n-граммы, n - количество n-грамм в корпусе, а v - количество всех возможных n-грамм. Недостатком данного метода является то, что он присваивает слишком большие вероятности не встречавшимся ни разу вероятностям. Эту проблему можно исправить, прибавляя к каждому числу употреблений не единицу, а некоторое число a. Тогда, формулу можно представить как

Определить оптимальное значени a можно, оптимизируя perplexity по a на каком-либо тестовом тексте.

Сглаживание Гуда-Тюринга

Также популярным вариантом при построении языковых моделей является сглаживание Гуда-Тюринга. В его основе - идея о том, что все употребления n-грамм нужно как-либо обработать для того, чтобы получить более достоверную информацию о том, как часто такая n-грамма может встретиться в текстах в дальнейшем. Для этого используются данные о том, сколько n-грамм встречается в корпусе какое-то определенное число раз, а таке тех, которые не встречаются вовсе. Для оценки ожидаемой вероятности используется формула

где r' = ожидаемое количество употреблений n-граммы в тексте, r - количество употреблений n-граммы в исходном корпусе, Nr - количество n-грамм, действительно в исходном корпусе r раз.

В качестве примера приведем еще раз статистику из корпуса Europarl по [Koehn, 2009]:

Таблица 6. Применение сглаживания Гуда-Тюринга

Употребления

N-граммы с данным числом употреблений

Ожидаемое число употреблений

Тестовый подсчет

r

Nr

r'

t

0

7 514 941 065

0,00015

0,00016

1

1 123 844

0,46539

0,46235

2

263 611

1,40679

1,39946

3

123 615

2,38767

2,34307

4

73 788

3,33753

3,35202

5

49 254

4,36967

4,35234

6

35,869

5,32928

5,33762

8

21,693

7,43798

7,15074

10

14,880

9,31304

9,11927

20

4,546

19,54487

18,95948

К примеру, если мы хотим подсчитать ожидаемое количество употреблений n-грамм, встречающихся в корпусе четыре раза, то сделать это можно следующим образом:

Как мы видим, расчетные значение ожидаемого количества употреблений достаточно близки тестовым показателям. Важным преимуществом данного метода Шуда-Тюринга является простота вычислений. С другой стороны, данный способ сглаживания может быть ненадежен в случаях, когда число употреблений велико (а n-грамм с таким числом употреблений, наоборот, мало).

Интреполяция

Языковые модели разного порядка можно также сочетать с помощью интерполяции. Такой подход часто позволяет повысить точность модели и, кроме того, является дополнительным инструментом в решении проблемы не встретившихся при построении модели, но потенциально возможных n-грамм.

Интерполированную языковую модель можно построить с помощью линейной комбинации моделей разного порядка. Построим, к примеру, такую модель на основе униграмм, биграмм и тригамм:

Таким образом, каждая отдельная языковая модель pn вносит свою лепту в итоговую оценку. При этом, каждая такая вероятность умножается на весовой коэффициент лn. Отметим, что для того, чтобы языковая модель pI оставалась вероятностным настоящим распределением, каждый весовой коэффициент лn должен находиться в пределах промежутка от нуля до единицы. Кроме того, сумма всех коэффициентов лn должна равняться единице:

Основная сложность при построении подобной языковой модели - определение размеров весовых коэффициентов n. Их можно вычислить при помощи оптимизации на каком-либо тестовом корпусе.

. Рекурсивная интерполяция

При построении интерполированных языковых моделей также используется понятие рекурсивной интерполяции:

Здесь, параметры л отражают, насколько сильно мы доверяем модели уровня n. При этом, можно сделать параметры л зависимыми от истории - то есть, для каждой конкретной истории в таком случае будет свое значение параметра. С другой стороны, в реальной жизни у нас вряд ли получится получить достоверные оценки для каждой конкретной истории: это потребовало бы наличия слишком большого тренировочного корпуса. Поэтому, есть смысл сгруппировать данные по какому-либо принципу. Одним из способов такой группировки могло бы стать, к примеру, объединение историй по частотности.

Откат

Интересным спобом справиться с проблемой не встречающихся n-грамм является также откат к n-граммам меньшего порядка в случае, если рассматриваемая n-грамма не встречалась в исходном корпусе. Определим формулу рекурсивного отката:

,

;

в ином случае.

Таким образом, в ситуациях, когда мы встречаем n-грамму, встречавшуюся нам в исходном корпусе, мы используем ее вероятность, иначе - «возвращаемся» к n-грамме на порядок ниже.

Так как для нас важно, чтобы языковая модель оставалась настоящим вероятностным распределением, нужно удостовериться, что сумма всех возможных исходов все еще равна единице. Для этого вводится дисконт d, принадлежащий отрезку от нуля до единицы, на который умножается вероятность, получившаяся в языковой модели каждого порядка pn.

Как и в случае с интерполяцией, мы можем захотеть, чтобы параметр d зависел от истории , для того, чтобы дать преимущества часто встречающимся n-граммам. Реже встречающиеся истории, в свою очередь, позволят выставить более высокие оценки б для откатов к n-граммам более низкого порядка.

Сглаживание Виттена-Белла

Сглаживание Виттена-Белла [Witten, Bell 1989] является способом включить в модель фактор разнообразия возможных предсказываемых слов. Таким образом, можно будет учесть тот факт, что для некоторых историй существует мало возможных продолжений с высокой вероятностью, и, соответственно, вероятность встретить не употреблявшуюся в ранее n-грамму достаточно мала. В то же время, для других вероятных вариантов может быть достаточно много, и, в таком случае, существует куда большая вероятность встретить новую n-грамму. Постараемся определить понятие многообразия предсказываемых слов более формально. Для начала, определим количество возможных продолжений истории :

Здесь, - количество возможных продолжений, c - количество употреблений n-граммы.

Параметры л, при этом, можно определить следующим образом:

В качестве примера приведем два случая из корпуса Europarl. За словом spite обычно следует предлог of (из-за очень распространенного в английском языке словосочетания in spite of). Всего это слово встречается 993 раза, и у него есть 9 различных вариантов следующего слова, однако, 979 раз этим продолжением оказывается of, в то время как на остальные 8 вариантов приходится в общей сложности 14 продолжений.

Сравним эту ситуацию со словом constant, которое в корпусе Europarl употребляется также 993 раза. Однако, различных вариантов продолжения у него намного больше, а именно 415.Из них, к примеру, слово and встречается сразу за constant 42 раза, concern - 27 раз, pressure - 26 раз. Но также присутствует длинный хвост из слов, употребленных в такой ситуации лишь один раз. В таком случае, расчеты параметров будут выглядеть следующим образом:

В таком случае, мы видим, что для n-грамм со словом spite меньше вероятности распределяется в пользу варианта с откатом к n-граммам более низкого порядка, так как в таких случаях вероятность новой n-граммы достаточно мала. Для n-грамм со словом constant, напротив, для модели с откатом зарезервирована относительно большая вероятность, так как в таких случаях вполне может встретиться сочетание constant с каким-либо не употреблявшимся ранее после него словом.

Также, отметим случай, когда та или иная история встречается лишь раз. Тогда,

Такая оценка предполагает высокую вероятность не встречавшихся ранее n-грамм.

Сглаживание Кнезера-Нея

Одним из наиболее популярным методов сглаживания в наши дни является сглаживание Кнезера-Нея [Kneser, Ney 1995], учитывающее роль разнообразия историй. В методе Кнезера-Нея подсчеты употреблений самих слов заменяюся на подсчеты историй слов. К примеру, в стандартной языковой модели, построенное на основе униграмм, оценка вероятности слова выглядит как:

В то же время, оценка вероятности в языковой модели со сглаживанием Кнессера-Нея для униграмм оценка вероятности будет проводиться следующим образом:

здесь - количество историй. Его можно рассчитать по такой формуле:

Возьмем, к примеру, слово york, которое 477 раз употребляется в корпусе Europarl. Из них, в 473 случаях перед York идет new, и лишь в 4 - какие-то иные варианты: дважды предлог of, и по одному разу предлоги in и to (в этих случаях речь идет об английском городе Йорке). В этом случае, мы будем использовать в расчетах не сами употребления слова york, а четыре его истории, три из которых справедливо получат намного меньший вес.

Модифицированное сглаживание Кнезера-Нея

Кроме оригинального метода сглаживания Кнезера-Нея, также широко используется и модифицированное сглаживание Кнезера-Нея. Для того, чтобы сформулировать его идеи, определим следующим образом встречавшееся нам ранее понятие интерполяции:

,

;

в ином случае.

Таким образом, в формуле вероятности задействовано две функции. Каждая n-грамме соответствует функция б, отвечающая за ее вероятность. Кроме того, каждой истории соответствует функция ??, отвечающая за вероятность, зарезервированную для не встретившихся в тренировочном корпусе n-грамм. Даннаяя формулировка поможет нам далее дать определение модифицированному сглаживанию Кнезера-Нея, предложенному в [Chen, Goodman 1998] (1998).

В основе модифицированного сглаживания Кнезера-Нея лежит идея абсолютного дисконта, предполагающего вычет определенного, заранее установленного значения D, принадлежащего отрезку от нуля до единицы из подсчетов упоминаний для модели, основанной на n-граммах наивысшего порядка:

Однако, наилучшие, по мнению Чена и Гудмана результаты получаются не при вычете фиксированного значения D из каждого подсчета употреблений, а при вычислении D для каждого подсчета n-грамм. Они предложили три разных параметра D для разных количеств употреблений:

D(c) = D1, если c = 1,

D(c) = D2, если c = 2,

D(c) = D3+, если c ? 3.

Значения параметров D1, D2 и D3+ можно вычислить следующим образом:

С другой стороны, параметры D могут быть также оптимизированы на каком-либо корпусе.

Параметр, влияющий на вероятность, присваиваемую не встретившимся ранее n-граммам, предлагается рассчитывать по следующей формуле:

Здесь, для - количество расширений историй , встретившихся один, два или три и более раз, соответственно.

Вычислять б для n-грамм более низких порядков предлагается следующим образом:

Как видно из формулы, для вычисления данного параметра используется подсчет историй, а не просто подсчет употреблений слов. При этом, здесь снова используются три разных значчений D (D1, D2 и D3+), вычисляемые на основе данных об истории .

Параметр для языковых моделей на основе n-грамм более низких порядов вычисляется также, как и для моделей на основе n-грамм наиболее высокого порядка:

Интерполированный откат

Модели с откатом определяют вероятности исходя из истории и предсказанных слов. Но в случае, если данных недостаточно, оценки могут быть не очень точными. К примеру, пусть мы имеем две n-граммы с одинаковыми историями, которые встречается по одному разу в тренировочных данных. Тогда мы присваиваем предсказываемым словам одинаковые вероятности. Однако, одно из них вполне может быть выбросом, в то время как другое - недостаточно представленным в корпусе, но частотным в текстах на данном языке вариантом. Для того, чтобы справиться с этой проблемой, можно попробовать использовать откат к модели, построенной с помощью n-грамм более низкого порядка, даже в тех случаях, когда n-грамма а самом деле встречается в тренировочном корпусе. Для этого, можно видоизменить функцию б следующим образом:

Функция в таких случаях также должна соответственно уменьшаться.

1.4 Декодер

Декодер в системе Moses работает на основе алгоритма лучевого поиска (beam search). Важными состовлящими его работы являются прореживание, оценка будущих издержек и генерация списка n-лучших вариантов.

У каждой строки на иностранном языке существуют возможные переводы для составляющих ее фраз. Такие возможные переводы называются вариантами перевода. Варианты перевода хранятся, основываясь на следующей информации:

- первое иностранное слово фразы

- последнее иностранное слово фразы

- перевод фразы на английский

- вероятность такого перевода

1.4.1 Основной алгоритм

Строки на целевом языке генерруются слева направо, изначально - в форме гипотез. Исходная гипотеза расширяется за счет новых вариантов перевода. Процесс перевода состоит в том, что фразы иностранного языка заменяются на фразы английского, причем оценивается вероятность каждой из таких замен. При этом, слова исходного языка заменяются на звездочки. В результате, выбирается перевод с наибольшим произведением вероятностей.

Опишем процесс лучевого поиска более формально. Поиск начинается в исходном состоянии, в котором ни одно иностранное слово не переведено и не сгенерировано ни одной английской фразы. Новые состояния формируются с помощью перевода непереведенных еще фраз исходного языка. Таким образом, происходит генерация строки на целевом языке. Вероятность нового состояния высчитывается как произведение вероятности старого состояния, умноженная на вероятность перевода, перестановок и языковой модели добавляемого перевода.

Рисунок 2. Работа декодера

Каждая гипотеза представляется с помощью:

- обратной ссылки на лучшее предыдущее состояние (необходимо для поиска наулучшего перевода предложения),

- иностранных слов, переведенных к этому моменту,

- двух послених сгенерированных слов целевого языка (необходима для вычисления будущих издержек языковой модели),

-конец последней переведенной фразы на иностранном языке (необходимо для будущих издержек перестановок),

- последняя добавленная фраза на целевом языке (необходимо для считывания перевода из последовательности гипотез),

- издержки к этому моменту,

- оценка будущих издержек (вычисляется заранее и хранится в памяти из соображений эффективности).

Финальные гипотезы включают в себя перевод всех слов строки на исходном языке. Из них выбирается состояние с наибольшей вероятностью.

1.4.2 Рекомбинация гипотез

Две гипотезы можно рекомбинировать (свести к одной), если обе имеют одинаковые:

- набор переведенных к этому моменту иностранных слов,

- два последних сгенерированных слова целевого языка,

- окончание последней переведенной фразы исходого языка.

В таком случае можно выбрать состояние с наибольшей вероятностью и отбросить другую гипотезу.

1.4.3 Прореживание

Прореживание бывает необходимо для сокращения числа рассматриваемых гипотез, так как их количество может быть чересчур большим для имеющихся вычислительных мощностей. Для прореживания используются, во-первых, текущие вероятности фраз, во-вторых, будущие издержки перевода и языковой модели. Это обусловлено тем, что если не учитывать будущие издержки, модель будет считать предпочтительными гипотезы, уже включающие в себя переводы наиболее легких частей предложения.

Прореживание может осуществлятсья при помощи относительного порога или гистограммного прореживания. Для прореживания с помощью относительного порога нужно выбрать множитель, при умножении наилучшей текущей вероятности на который будет получаться минимальное значение вероятности. Гипотезы, вероятность которых меньше минимального значения, будут отсеяны. Гистограммное прореживание просто оставляет лишь какое-либо число наилучших вариантов.

1.4.4 Генерация N-лучших списков

Для выбора наилучшего перевода бывает полезно отобрать некоторе количество переводов предложения на исходном языке и затем переоценить их при помощи дополнительных показателей.

Наряду с N-лучшими списаками, наборы возможных переводов можно также представить в виде словесных графов либо структур лесов. Такие альтернативные структуры позволяют более компактно хранить большие массивы данных, однако в них намного сложнее выделять глобальные свойства.

1.5 Тюнинг

Во время декодинга Moses рассчитывает вероятности перевода, используя линейную модель. Как правило, в модель включаются вероятности перевода, перестановок и языковой модели, а также частотность слова, фразы или правила. Тюнинг - процесс, позволяющий найти оптимальные веса для этих линейных моделей. При этом, оптимальные веса высчитываются как веса, позволяющие максимизировать результат на небольшом параллельном корпусе (тюнинговом сете). Качество перевода оценивается с помощью одной из автоматических метрик: чаще всего это BLEUScore, но иногда могут применятсья и другие показатели, такие как TER, PER, CDER и другие.

Стоит отметить, что существует два основных подхода к тюнингу: пакетный тюнинга и онлайн-тюнинг. Основная идея пакетного тюнинга состоит в том, что весь переводится сразу весь корпус на исходном языке, причем в таких случаях обычно формируется n-лучший список. После этого, веса обновляются в соответствии с результатами получившихся переводов. Этот процесс итеративно повторятется до схождения по заранее выбранному критерию.

Опцией по умолчанию в Moses является алгоритм MERT (Minimum error rate training), описанный в [Och, 2003] и, кроме того, подробно проанализированный в [Moore, Quirk 2008] - один из наиболее популярных алгоритм тюнинга. Его ограничением является то, что он не поддерживает использование более 20-30 признаков для тюнинга.

Также, интерес представляют некоторые идеи усовершенствования алгоритм MERT. К примеру, в исследовании [Cer, Jurafsky, Manning 2008] предлагается использовать усредненные значения BLEUScore на некоторых отрезках для сглаживания кривой. Также предпринимаются попытки адаптировать симплекс-метод (метод Нелдера-Мида), сформулированный в [Nelder, Mead 1965].

Помимо этого, обращают на себя внимание идеи увеличения тюнинговых сетов с помощью использования парафраза, изложенные в [Madnani et al. 2007].

Онлайн-тюнинг отличается от пакетного тем, что пересчет весов для линейной модели осуществляется каждый раз при переходе от одной строки к другой. Такой подход предполагает более тесную интеграцию с декодером. Алгоритм может проходить через тюнинговый сет несолько раз.

Глава II. Поиск оптимальной сегментации

2.1 Обзор исследований

Существует ряд работ на английском языке, посвященных влиянию морфологической сегментации арабского текста на результаты статистического машинного перевода. В частности, эта проблема рассматривалась в работе [Mansour, Ney 2012]. Кроме того, похожей целью в своем исследовании задавались [Habash, Sadat 2006]. Влияние сегментации и удаления некоторых морфем изучалось в [Zollmann, Venugopal, Vogel 2006]. Помимо этого, сегментацию арабского текста при англо-арабском переводе успешно применяли [Badr, Zbib, Glass 2008], [Al-Haj, Lavie 2010], что также может свидетельствовать о возможной пользе такой меры и при переводе на арабский язык.

2.2 Способы сегментации

Для того, чтобы улучшить качество перевода, часто бывает целесообразно провести предобработку текста на исходном языке. Примером такой преобработки может служить изменение порядка слов в предложении, разделение слов на более мелкие единицы, замена поверхностных форм морфем или словоформ на глубинные формы либо тэги, добавление частеречной разметки. В этой работе мы в первую очередь сосредоточимся на сегментации арабского текста.

Идеей, лежащей в основе наших предположений, является тот факт, что при отделении некоторых арабских морфем от остальной части слова будет улучшаться соответствие между арабскими и русскими токенами. Это обосновывается тем, что в арабском языке некоторые части речи фактически «приклеиваются» к другим словам в качестве клитиков. Рассмотрим некоторые случаи подобного соединения слов, сегментация которых может представлять интерес для статистического машинного перевода с арабского на русский.

2.2.1 Местоимения

Самым ярким примером слитного написания арабских слов можно считать объектные местоимения, которые прикрепляются к глаголам. Так, в слове ГСЗеЗ “видеть ее” можно выделить еЗ “ее” и ГСЗ “видеть”. Другим примером могут служить притяжательные местоимения. Слово ЯКЗИе “его книга” состоит из притяжательного местоимения е “его” и существительного ЯКЗИ “книга”. Помио этого, местоимение может приписываться также к предлогам - например «к нему» в арабском языке будет писать одним словом. Также, личные местоимения мошгут писать слитно с некоторыми союзами и частицами.

2.2.2 Определенный артикль

Еще одним случаем, когда представляется логичным разделить слово на две части, является определенная форма существительных и прилагательных. Дело в том, что определенный артикль ЗбЬ в арабском языке также пишется слитно с существительным или прилагательным. Однако, в такой ситуации можеть быть целесообразно не только отделение артикля, но и его полное удаление. Это обусловлено тем, что в грамматике русского языка отсутствует категория определенности. Стоит отметить, что два других состояния существительных - неопределенное и конструктивное - в арабском языке не выражаются на письме каким-либо явным образом. Это также справедливо и для прилагетельных в неопределенном состоянии. К примеру, гдТб “дом” будет записываться таким образом в неопределенном и конструктивном состоянии, в то время как в определенном состоянии это слово будет выглядеть как гдТб Зб. Также, прилагательное Мгнб “красивый” в определенном состоянии будет записываться как ЗбМгнб, в то время как в неопределенном состоянии артикль будет отсутствовать. Кроме того, стоит помнить, что определенный артикль несовместим с сущетвительными, к которым уже «приклеены» притяжательные местоимения.
...

Страница:

магистерская работа "Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык" скачать

Подобные документы

Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке
Основные понятия и функциональные стили лингвостилистики. Принципы работы и типы систем машинного перевода. Сопоставительный анализ отрывков научно-технического текста и их переводов на русский язык с помощью различных СМП - трансфертной и статистической.

дипломная работа [4,0 M], добавлен 23.06.2011
Особенности машинного перевода
Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.

курсовая работа [42,2 K], добавлен 17.11.2014
Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке
Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

дипломная работа [4,0 M], добавлен 20.06.2011
Синтаксические функции причастий в английском языке и способы их перевода на русский язык
Синтаксические функции, в которых чаще всего выступает причастие в английском языке, особенности использования переводческих трансформаций при их переводе на русский язык. Формы и строевые признаки причастий, основные способы их перевода на русский язык.

курсовая работа [252,7 K], добавлен 27.11.2012
Перевод как объект лингвистического исследования
История перевода, его основные принципы. Необходимость изучения перевода лингвистикой и некоторые вопросы построения теории перевода. Лингвосемиотические основы переводоведения. Языковой знак и его свойства. Перевод в рамках межъязыковой коммуникации.

курсовая работа [39,3 K], добавлен 10.10.2013
Художественный перевод и творческая личность переводчика
Определение художественного перевода. Концепция "творческая личность переводчика". Сущность творческой индивидуальности переводчика. Анализ переводов произведения "Ромео и Джульетта" на русский язык. Феномен множественности художественного перевода.

дипломная работа [186,4 K], добавлен 27.02.2013
Научный перевод и его специфика
Периодизация истории развития перевода и подходов к нему. Понятие перевода, подходы к переводу текста. Особенности перевода с английского на русский. Специфика работы с иноязычным текстом. Варианты подхода к изучения феномена "ложных друзей переводчика".

курсовая работа [47,7 K], добавлен 10.01.2017
Особенности перевода автобиографии на примере перевода книги "I Have Given You Everything" Anna McAllister
Особенности перевода жанра автобиографии, передачи стиля при переводе. Перевод книги "I have given you everything" by Anna McAllister с английского языка на русский язык. Перевод эмоционально окрашенных выражений. Особенности перевода цитат из Библии.

дипломная работа [101,7 K], добавлен 16.07.2017
Адекватность и эквивалентность перевода имен собственных при локализации игр
Выявление и описание способов перевода имен собственных при локализации игр на русский язык. Оценка адекватности и эквивалентности таких переводов. Способы перевода имен собственных при локализации компьютерных игр на примере MMORPG "World of Warcraft".

дипломная работа [119,4 K], добавлен 09.05.2013
Структурные модели терминологических словосочетаний, их перевод на русский язык
Понятие термина и терминологические словосочетания. Проблема полисемии терминологических единиц. Терминологическая лексика в печатных СМИ. Терминологические словосочетания по экономике, особенности их функционирования и перевода на русский язык.

дипломная работа [149,1 K], добавлен 11.06.2014
Особенности перевода англоязычных рекламных слоганов на русский язык
Особенности рекламного текста. Причины перевода англоязычных рекламных слоганов на русский язык. Сравнительный анализ стилистически окрашенных рекламных слоганов, их переводов. Переводческие трансформации при переводе рекламных слоганов, их классификация.

дипломная работа [428,1 K], добавлен 24.06.2015
Антитеза при переводе с английского языка на русский
Понятие "троп" и "фигура речи", их классификация и виды. Принципы отбора афоризмов. Проблемы перевода и восприятия афоризмов, содержащих в конструкции антитезу. Трудности перевода, возникающие при переводе афоризмов с английского языка на русский.

дипломная работа [150,4 K], добавлен 20.03.2011
Особенности использования лексических трансформаций при переводе поэтических текстов с английского языка на русский язык
Понятие и классификация лексических трансформаций, их общая характеристика, разновидности, отличительные особенности. Признаки поэзии как объекта перевода. Лексические трансформации при переводе произведений английских поэтов на русский язык, и наоборот.

курсовая работа [54,8 K], добавлен 11.05.2014
Социокультурный аспект перевода
Социокультурный колорит художественного произведения и пути его сохранения при переводе. Отображение национально-культурных особенностей в литературе и сохранение их при переводе произведений Джейн Остин на русский язык. Социокультурная адаптация текста.

дипломная работа [75,4 K], добавлен 29.07.2017
Проблематика перевода стихов Роберта Фроста на русский язык
Основные проблемы художественного перевода. Критерии адекватности поэтического перевода. Особенности и достижения поэзии Роберта Фроста. Трудности перевода стихотворений Фроста. Сопоставительный анализ переводов стихотворения Роберта Фроста "Come in".

курсовая работа [38,4 K], добавлен 09.04.2011
Особенности перевода произведений В.В. Маяковского на английский и немецкий языки
Творчество советского поэта В.В. Маяковского как объект переводческой деятельности. Анализ имеющихся и собственных переводов некоторых стихотворений писателя. "Левый марш" и "Нате!" в переводе на немецкий язык. "Послушайте" в переводе на английский язык.

дипломная работа [91,2 K], добавлен 16.09.2017
Способы перевода с итальянского на русский язык суффиксов субъективной оценки
Формирование новых слов или добавление оттеночных значений к исходному слову. Классификация суффиксов субъективной оценки в итальянском и русском языках. Художественный перевод слов с суффиксами субъективной оценки. Создание эмоциональной окраски текста.

курсовая работа [40,2 K], добавлен 21.10.2011
Художественный перевод с китайского на русский язык
Общая характеристика художественных текстов и особенности его перевода. Рассмотрение трудностей, возникающих при переводе художественной литературы. Изучение понятия контекста и его роли в работе переводчика. Сопоставительный анализ перевода поэзии.

курсовая работа [140,0 K], добавлен 13.10.2019
Перевод заголовков в немецком языке
Лексико-стилистические и грамматические особенности заголовков, их виды и функции. Основные трудности перевода немецких заголовков на русский язык. Классификация грамматических и лексических трансформаций, используемых при переводе немецких заголовков.

курсовая работа [290,0 K], добавлен 12.09.2012
Особенности перевода монолога Гамлета
Язык и межкультурная коммуникация. Исследование проблемы перевода с английского на русский язык. Роль и значение перевода и степени теоретической подготовки переводчика. Особенности языка Вильяма Шекспира. Сравнительный анализ переводов монолога Гамлета.

курсовая работа [40,3 K], добавлен 03.06.2014

Другие документы, подобные "Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

The green (1748 употреблений)
Слово	Употребления	Вероятность
Paper	801	0,458
Group	540	0,367
Light	110	0,063
Party	27	0,015
ecu	21	0,012

The red (225 употреблений)
Слово	Употребления	Вероятность
Cross	123	0,547
Tape	31	0,138
Army	9	0,040
Card	7	0,031
,	5	0,022

The blue (54 употребления)
Слово	Употребления	Вероятность
Box	15	0,296
.	6	0,111
Flag	6	0,111
,	3	0,056
angel	3	0,056

Предсказанное лово		- log2
(i\|<\s><s>)	0,109	3,197
(would\|<s> i)	0,144	2,791
(like\|I would)	0,489	1,031
(to\|would like)	0,905	0,144
(commend\|like to)	0,002	8,794
(the\|to commend)	0,472	1,084
(rapporteur\|commend the)	0,147	2,763
(on\|the rapporteur)	0,056	4,150
(his\|rapporteur on)	0,194	2,367
(work\|on his)	0,089	3,498
(.\|his work)	0,290	1,785
(<\s>\|work.)	0,99999	0,000014
Среднее	2,634

Употребления	N-граммы с данным числом употреблений	Ожидаемое число употреблений	Тестовый подсчет
r	Nr	r'	t
0	7 514 941 065	0,00015	0,00016
1	1 123 844	0,46539	0,46235
2	263 611	1,40679	1,39946
3	123 615	2,38767	2,34307
4	73 788	3,33753	3,35202
5	49 254	4,36967	4,35234
6	35,869	5,32928	5,33762
8	21,693	7,43798	7,15074
10	14,880	9,31304	9,11927
20	4,546	19,54487	18,95948

Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

1.1 Основные принципы

Рассмотрим подробнее историю статистического машинного перевода и основные этапы, которые включает в себя процесс создания статистической модели.

1.2 История SMT

1.3 Основные этапы и компоненты SMT

1.3.1 Выравнивание по словам

1.3.2 Фразовая таблица

- переводить фразы, значение которых может быть неочевидно из состовляющих их слов,

- использовать местный контекст,

- запоминать длинные фразы при наличии достаточного количества данных.

Каждому переводу фразы присваивается вероятность. К примеру, посмотрим таблицу из [Koehn 2009], отражающую возможные переводы на английский немецкой фразы “den Vorschlag” :

1.3.3 Вероятностная модель

Согласно правилу Байеса, наилучший перевод ebest для фразы f можно рассчитать следующим образом:

ebest = argmaxe p(e|f) = argmaxe p(f|e) plm(e)

Здесь, p(f|e) - это модель перевода, а plm(e) - языковая модель.

При этом, модель перевода можно представить как

p(fI1|eI1) = ПIi=1ц(fi|ei) d(starti ? endi?1 ? 1),

где ц - вероятность перевода, а d - вероятность перестановки.

1.3.4 Модель перестановок

p0(orientation|f,e) =

1.3.5 Языковые модели

Основные идеи

Plm(the house is small) > Plm(small is the house)

Plm(I'm going home) > Plm(I'm going house)

Вариант home намного чаще используется после слова going, поэтому он является предпочтительным с точки зрения вероятностной языковой модели для английского языка.

p(w1, w2, …, wn) = p(w1) p(w2| w1) ... p(wn| w1, w2, …, wn-1)

p(wn| w1, w2, …, wn-1) = p(wn| wn-m, …, wn-2, wn-1)

Взглянем, к примеру, на вероятности слов для трех следующих историй в корпусе Europarl, выделенные в [Koehn, 2009]:

Perlexity

Из кросс-энтропии можно легко получить perplexity:

I would like to commend the rapporteur on his work.

В качестве маркера начала предложения условимся использовать <s>, для конца - <\s>.

Сглаживание

Определить оптимальное значени a можно, оптимизируя perplexity по a на каком-либо тестовом тексте.

Сглаживание Гуда-Тюринга

В качестве примера приведем еще раз статистику из корпуса Europarl по [Koehn, 2009]:

Интреполяция

. Рекурсивная интерполяция

При построении интерполированных языковых моделей также используется понятие рекурсивной интерполяции:

Откат

,

;

в ином случае.

Сглаживание Виттена-Белла

Здесь, - количество возможных продолжений, c - количество употреблений n-граммы.

Параметры л, при этом, можно определить следующим образом:

Также, отметим случай, когда та или иная история встречается лишь раз. Тогда,

Такая оценка предполагает высокую вероятность не встречавшихся ранее n-грамм.

Сглаживание Кнезера-Нея

В то же время, оценка вероятности в языковой модели со сглаживанием Кнессера-Нея для униграмм оценка вероятности будет проводиться следующим образом:

здесь - количество историй. Его можно рассчитать по такой формуле:

Модифицированное сглаживание Кнезера-Нея

,

;

в ином случае.

D(c) = D1, если c = 1,

D(c) = D2, если c = 2,

D(c) = D3+, если c ? 3.

Значения параметров D1, D2 и D3+ можно вычислить следующим образом:

С другой стороны, параметры D могут быть также оптимизированы на каком-либо корпусе.

Параметр, влияющий на вероятность, присваиваемую не встретившимся ранее n-граммам, предлагается рассчитывать по следующей формуле:

Здесь, для - количество расширений историй , встретившихся один, два или три и более раз, соответственно.

Вычислять б для n-грамм более низких порядков предлагается следующим образом:

Параметр для языковых моделей на основе n-грамм более низких порядов вычисляется также, как и для моделей на основе n-грамм наиболее высокого порядка:

Интерполированный откат

Функция в таких случаях также должна соответственно уменьшаться.

1.4 Декодер

- первое иностранное слово фразы

- последнее иностранное слово фразы

- перевод фразы на английский

- вероятность такого перевода

1.4.1 Основной алгоритм

1.4.2 Рекомбинация гипотез

Две гипотезы можно рекомбинировать (свести к одной), если обе имеют одинаковые:

- набор переведенных к этому моменту иностранных слов,

- два последних сгенерированных слова целевого языка,

- окончание последней переведенной фразы исходого языка.

В таком случае можно выбрать состояние с наибольшей вероятностью и отбросить другую гипотезу.

1.4.3 Прореживание