Способ автоматического получения правил для трансферной системы машинного перевода
Рассмотрение способа автоматического получения множества правил и их вероятностей из корпуса переводов в обучающем алгоритме для трансферной системы машинного перевода. Возможности получение правил трансфера. Линеаризация слов в целевом дереве разбора.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 08.05.2018 |
Размер файла | 19,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
СПОСОБ АВТОМАТИЧЕСКОГО ПОЛУЧЕНИЯ ПРАВИЛ ДЛЯ ТРАНСФЕРНОЙ СИСТЕМЫ МАШИННОГО ПЕРЕВОДА
Ярмолюк А.Э., бакалавр, Национальный технический университет Украины «Киевский политехнический институт»
АННОТАЦИЯ
автоматический трансферный машинный перевод
Способ автоматического получения правил для трансферной системы машинного перевода
В данной статье я рассматриваю способ автоматического получения правил для трансферной системы машинного перевода. Обучающий алгоритм получает множество правил и их вероятностей из корпуса переводов. Правило переводит путь в дереве зависимостей исходного предложения в фрагмент дерева зависимостей целевого предложения.
Ключевые слова: машинный перевод, правила трансфера.
ABSTRACT
Algorithm for automatic rule acquiring for transfer-based machine translation
Yarmoluk A.E., Bachelor, National Technical University of Ukraine
The article considers an algorithm for automatic rule acquiring for transfer-based machine translation. Training algorithm acquires rules and their possibilities from a parallel corpus. Rule translates a link in source dependency tree into a fragment in target sentence.
Keywords: machine translation, transfer rules.
Недавно появилось много предложений о получении правил трансфера автоматически из параллельного корпуса переводов [1, 2]. Я предлагаю рассмотреть новый подход к решению этой проблемы.
1. Получение правил трансфера
Правило трансфера определяет, как переводится путь в дереве зависимостей исходного языка. Мы получаем трансферные правила автоматически из параллельного корпуса переводов. Трансферные правила также содержат соответствия слово-слово между узлами во исходном и целевом языках (полученные из согласований слов).
Алгоритм получения правил использует понятие интервалов [3, 4]. Если дано согласование слов и узел n в дереве зависимостей исходного языка, интервалы n созданые согласованием слов являются последовательностями слов в целевом предложении. Мы определяем два типа интервалов:
Главный интервал: последовательность слов в согласована с узлом n.
Интервал фразы: последовательность слов от нижней границы главных интервалов всех узлов в поддереве с корнем в n до верхней границы того же множества интервалов.
Так же используется алгоритм согласования слов[5], который гарантирует, что если два интервала накладываются то один должен быть полностью накрыт другим.
Для каждого дерева зависимостей в учебном корпусе, получим все пути, где все узлы согласованы со словами в предложении целевого языка. Допускается чтобы прилагательное в середине пути не было согласовано.
Пускай S i - простой путь от узла h до узла m. Пуска h` и m` - слова целевого языка согласованные с h и m соответственно. Пускай s - интервал фразы родственного для m узла, который находится между h` и m` и является самым близким к m` среди всех таких интервалов фраз. Если m не имеет такого родственного узла, пускай s будет главным интервалом h.
Перевод T i из S i складывается из следующих узлов и ребер:
* Два узла помеченные h` и m` , и ребро от h' до m'.
* Узел, соответствующий каждому слову между s и интервалом фразы узла m и ребро из каждого из этих узлов к m'.
В общем, путь -- это или один узел, или простой путь, или последовательность простых путей. Перевод одиночных узлов определяется согласованием слов. Перевод последовательности простых путей можно получить объединяя переводы простых путей.
Также правила обобщаются посредством замены одного из конечных узлов в пути на универсальный символ и часть речи этого слова.
Далее рассчитываем вероятность перевода. Пусть S и - это путь в дереве зависимостей входного языка, а T i - фрагмент дерева целевого языка. Вероятность перевода P (T i | S i) можно вычислить как:
где C (S i) является количеством S i в учебном корпусе, (Т i, S i) это количество раз когда T i является переводом S i, а М является динамическим параметром.
2. Результаты исследований
Я использовал описанный способ для создания СМП Украинский-Английский. Для обучения использовалась часть параллельного англо-украинского корпуса KDE4 [6]. Полученный результат BLEU для данной системы равняется 0.2346. Если сравнивать с подобными системами то данный результат хуже чем в [7] - BLEU=0.201, но лучше чем система основанная на фразах - BLEU=0.3149.
3. Выводы
Описанная система и вообще системы МП на базе трансфера берут дерево разбора исходного языка и переводят его в дерево разбора целевого языка руководствуясь правилами трансфера. Описанная система отличается от предыдущих трансферных систем по двум основным характеристикам: единицей передачи и генеративным модулем.
Единицами перевода в предыдущих трансферных системах обычно служат поддеревья в дереве зависимости исходного языка. Количество поддеревьев является экспоненциальной функцией, число путей в дереве квадратично. Уменьшение количества возможных трансферных единиц приводит к меньшему раздроблению базы.
Обычно, целевое дерево разбора в трансферных системах не содержит информацию о порядке слов. Линеаризация слов в целевом дереве разбора требует отдельного генеративного модуля, который является сводом правил грамматики целевого языка. Описанные правила трансфера наоборот - устанавливают линейный порядок между узлами в правиле. Упорядочивание между узлами по разным правилам определяется парой простых эвристик. Нет отдельного генеративного модуля и не нужна грамматика целевого языка.
ЛИТЕРАТУРА
1. Lavoie, Benoit; White, Michael; Korelsky, Tanya. Learning Domain-Specific Transfer Rules: An Experiment with Korean to English Translation // COLING Workshop on Machine Translation in Asia. - Taipei, Taiwan, 2002. - P. 60-66.
2. Steve Richardson, W. Dolan, A. Menezes, and J.Pinkham. Achieving commercial-quality translation with example-based methods // MT Summit VIII. - Santiago De Compostela, Spain, 2001. - P. 293-298.
3. Heidi J. Fox. Phrasal cohesion and statistical machine translation. // EMNLP-02. - Philadelphia, PA, 2002. - P. 304-311.
4. Colin Cherry, Dekang Lin. A Probability Model to Improve Word Alignment // ACL-03. - Sapporo, Japan, 2003. - P. 88-95.
5. Dekang Lin, Colin Cherry. Word Alignment with Cohesion Constraint. Companion Volume // HLT/NAACL. Companion Volume. - Edmonton, Canada, 2003. - P. 49-51.
6. Jorg Tiedemann. Collection of Multilingual Parallel Corpora with Tools and Interfaces // Recent Advances in Natural Language Processing. - John Benjamins, Amsterdam, Philadelphia, 2009. - P. 237-248.
7. Philipp Koehn, Franz Josef Och, Daniel Marcu. Statistical Phrase-Based Translation // HLT/NAACL. - Edmonton, Canada, 2003. - P. 127-133.
Размещено на Allbest.ru
...Подобные документы
История автоматизированного перевода. Современные компьютерные программы перевода. Сфера использования машинного перевода. Формы организации взаимодействия человека и ЭВМ в машинном переводе. Интерредактирование и постредактирование машинного перевода.
курсовая работа [30,0 K], добавлен 19.06.2015История возникновения, эволюция машинного перевода. Основные требования к коммуникативной эквивалентности. Последовательность формальных операций в системе машинного перевода, ее концепции развития. Переводчик для офиса. Преимущества электронных словарей.
презентация [455,3 K], добавлен 22.10.2013Исследование современных технологий машинного перевода. Изучение классификации систем перевода. Характеристика особенностей работы с электронным словарем. Языковые инструменты Google. Программы для проверки правописания и грамматики, текстовые редакторы.
реферат [917,0 K], добавлен 02.11.2014Сутність та значення алгоритму пошуку асоціативних правил, задачі та сфера використання. Приклад розрахунку показників транзакцій в супермаркеті. Особливості видозміни асоціативних правил. Ознайомлення з аналітичною платформою Deductor, її робота.
лабораторная работа [1,3 M], добавлен 19.03.2011Схемотехнический синтез системы автоматического управления. Анализ заданной системы автоматического управления, оценка ее эффективности и функциональности, описание устройства и работы каждого элемента. Расчет характеристик системы путем моделирования.
курсовая работа [3,4 M], добавлен 21.11.2012Історія машинного перекладу як науково-прикладного напряму. Теорія машинного перекладу. Особливості використання систем, орієнтованих на персональні комп’ютери. Напрямки розвитку та застосування машинного перекладу. Приклади систем машинного перекладу.
реферат [21,5 K], добавлен 19.02.2011Характеристика методов нечеткого моделирования и изучение системы кластеризации в пакетах прикладных программ. Разработка и реализация алгоритма для оптимизации базы правил нечеткого классификатора с помощью генетического алгоритма аппроксимации функции.
дипломная работа [1,9 M], добавлен 21.06.2014Появление технических систем автоматического распознавания. Человек как элемент или звено сложных автоматических систем. Возможности автоматических распознающих устройств. Этапы создания системы распознавания образов. Процессы измерения и кодирования.
презентация [523,7 K], добавлен 14.08.2013Моделирование системы массового обслуживания. Анализ зависимости влияния экзогенных переменных модели однофазной одноканальной СМО на эндогенные переменные. План машинного эксперимента множественного регрессионного анализа и метода наименьших квадратов.
лабораторная работа [107,5 K], добавлен 15.06.2010Способы автоматического перевода математической литературы с английского языка на русский. Вопросы передачи формул (пересчет при необходимости). Импликации в математических текстах. Применение технологии Translation Memory. Основные математические штампы.
реферат [33,2 K], добавлен 07.09.2009Исследование системы автоматического управления при помощи программного обеспечения MATLAB и пакета Simulink. Изучение замкнутой системы согласно критериям устойчивости Гурвица, Михайлова и Найквиста. Реализация модели "жесткого" спутника Земли.
методичка [911,6 K], добавлен 10.10.2010Современная терминология, технологии получения и типы данных цифровых моделей рельефа, методы их интерполяции. Анализ норм и правил градостроительства; критерии для проведения оценки территории; создание цифровой модели местности в среде ArcGIS 9.3.
дипломная работа [2,3 M], добавлен 13.07.2011Динамические характеристики типовых звеньев и их соединений, анализ устойчивости систем автоматического управления. Структурные схемы преобразованной САУ, качество процессов управления и коррекции. Анализ нелинейной системы автоматического управления.
лабораторная работа [681,9 K], добавлен 17.04.2010Аналитический расчет переходной и импульсной характеристик объекта автоматического управления. Передаточная функция и переходная характеристика замкнутой системы. Начальное и конечное значение, оценка качества переходного процесса замкнутой системы.
курсовая работа [1021,0 K], добавлен 06.06.2016Двоичный код, особенности кодирования и декодирования информации. Система счисления как совокупность правил записи чисел с помощью определенного набора символов. Классификация систем счисления, специфика перевода чисел в позиционной системе счисления.
презентация [16,3 K], добавлен 07.06.2011Мировая история технологии машинного перевода как класса систем искусственного интеллекта. Классификация программ онлайн-переводчиков, поддержка функции контролируемого входного языка. Многоязычные браузеры в Интернете и перечень электронных словарей.
контрольная работа [21,6 K], добавлен 03.02.2011Применение правил грамматики. Синтаксический анализатор, нис- и восходящий разбор, полный перебор правил подстановки. Классификация грамматик по Хомскому. Определение языков с помощью автоматов. Форма Бекуса-Наура описания синтаксиса формальных языков.
лекция [270,1 K], добавлен 19.10.2014Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.
дипломная работа [1,8 M], добавлен 08.02.2017Общее понятие про отчет. Системы формирования отчетов. Возможности Сrystal Reports 2008. Формирование сложных отчетов на основе ранее подготовленных шаблонов и правил с помощью T-FLEX DOCs. Анализ идеальной модели отчетов для языков программирования.
курсовая работа [54,2 K], добавлен 05.06.2009Содержание и обоснование необходимости автоматизации технологического процесса, его место и значение в современной промышленности. Суть и цели, основные этапы математического моделирования системы автоматического регулирования производственного процесса.
курсовая работа [1,0 M], добавлен 07.01.2013