Основные типы систем машинного перевода
Понятие машинного перевода как процесса перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы. Место машинного перевода в общей классификации, его краткая характеристика.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 27.05.2014 |
Размер файла | 18,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Государственное образовательное учреждение
высшего профессионального образования
Московский государственный лингвистический университет
Кафедра информатики
Реферат
по информатике
на тему: "Основные типы систем машинного перевода"
Выполнила: Кропотина С.П.
Проверила: Харламов А.А.
Москва 2014
Оглавление
Введение
1. Основная часть
Заключение
Используемая литература
Введение
Машинный перевод - процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютерной программы. Так же называется направление научных исследований, связанных с построением подобных систем.
Вместо "машинный" иногда употребляется слово автоматический, что не влияет на смысл. Однако не стоит путать машинный перевод с автоматизированным, он имеет совсем другое значение - при нём программа просто помогает человеку переводить тексты.
Мысль использовать электронные вычислительные машины (ЭВМ) для перевода была высказана в 1947 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода состоялась в 1954 году. Несмотря на примитивность той системы, этот эксперимент получил широкий резонанс.
К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:
· MARK
· GAT
Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.
Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых систем, ориентированных на работу с естественно-языковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области. Наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.
Впрочем, высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода.
1. Основная часть
Системы машинного перевода делятся на три категории:
-системы на основе грамматических правил (Rule-Based Machine Translation, RBMT),
-статистические системы (Statistical Machine Translation, SMT)
-гибридные системы, сочетающие преимущества тех и других (являются наиболее перспективными)
Машинный перевод на основе правил - общий термин, который обозначает системы машинного перевода на основе лингвистической информации об исходном и переводном языках. Они состоят из двуязычных словарей и грамматик, охватывающих основные семантические, морфологические, синтаксические закономерности каждого языка. Такой подход к машинному переводу еще называют классическим. На основе этих данных исходный текст последовательно, по предложениям, преобразуется в текст перевода. Принцип работы таких систем - связь структуры входного и выходного предложения. перевод компьютерный машинный
RBMT системы делятся на три группы:
· системы пословного перевода;
· трансферные системы (Transfer) - преобразуют структуры входного языка в грамматические конструкции выходного языка;
· интерлингвистические системы (Interlingua)- промежуточный язык описания смысла.
Основным достоинством систем на основе трансфера является высокая полнота охвата текстов при приемлемом уровне качества перевода, а также низкий уровень затрат на первичную разработку и модернизацию.
Компоненты типичной RBMT:
· Лингвистические базы данных: - двуязычные словари; - файлы имен, транслитерации; - морфологические таблицы.
· Модуль перевода: - грамматические правила; - алгоритмы перевода.
· Преимущества RBMT систем:
- синтаксическая и морфологическая точность;
- стабильность и предсказуемость результата;
- возможность настройки на предметную область.
· Недостатки RBMT систем:
- трудоемкость и длительность разработки;
-необходимость поддерживать и актуализировать лингвистические БД;
-"машинный акцент" при переводе.
Статистический машинный перевод - разновидность машинного перевода, где перевод генерируется на основе статистических моделей, параметры которых являются производными от анализа двуязычных корпусов текста (text corpora).
Статистический машинный перевод противопоставляют системам машинного перевода, основанным на правилах, Rule-Based Machine Translation (RBMT), и на примерах, Example-Based MT (EBMT).
Первые идеи статистического машинного перевода были опубликованы Уорреном Уивером (Warren Weaver) в 1949 году. "Вторая волна" - начало 1990-х, IBM. "Третья волна" - Google, Microsoft, Language Weaver, Яндекс.
Статистические модели перевода:
· по словам (Word-based translation - WBT)
· по фразам (Phrase-based translation - PBT)
· по синтаксису (Syntax-based translation - SBT)
· по иерархическим фразам (Hierarchical phrase-based translation - HPBT)
Преимущества SMT:
· Быстрая настройка
· Легко добавлять новые направления перевода
· Гладкость перевода
Недостатки SMT:
· "Дефицит" параллельных корпусов
· Многочисленные грамматические ошибки
· Нестабильность перевода
Разработчики систем машинного перевода для улучшения качества вводят некоторые "сквозные" правила, тем самым превращая чисто статистические системы в Гибридный машинный перевод. Добавление некоторых правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объёме входных данных, используемых при построении индекса машинного переводчика.
Гибридный машинный перевод - интеграция разных подходов машинного перевода из возможных вариантов МП:
· Rule-based machine translation (RBMT) - Машинный перевод на основе правил.
· Corpus-based machine translation (CBMT) - Машинный перевод на корпусах текстов.
· Example-based machine translation (EBMT) Машинный перевод на примерах.
· Statistical machine translation (SMT) - Статистический машинный перевод.
Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.
Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путем на основе параллельных корпусов, формирования нескольких возможных переводов, как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.
Статистический МП стремится использовать лингвистические данные, а системы с "классическим" подходом, основанном на правилах, применяют статистические методы. Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.
Архитектура Гибридной технологии "SMT и RBMT"[
RBMT-система дополнена двумя компонентами: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.
Типичная архитектура HMT:
· Параллельный корпус;
· Обучение;
· Языковая модель;
· Данные для постредактирования;
· Правила синтеза;
· Словарь терминологии.
Преимущества гибридного перевода:
· Быстрая автоматическая настройку на основе Translation Memories заказчика;
· Терминологическая точность перевода, а также единство стиля;
· Получение дополнительных полезных данных - двуязычного терминологического словаря.
Заключение
Главное преимущество машинного перевода в том, что он позволяет быстро справиться с очень большими объёмами текста и поэтому иногда оказывается экономически выгоднее перевода вручную. При этом следует помнить, что качество машинного перевода всегда будет уступать человеческому. Поэтому использовать его целесообразно лишь в определённых случаях.
Многие типы материалов в принципе не предназначены для машинного перевода. Так, нельзя доверять машине тексты, где неточность перевода может поставить под угрозу здоровье человека, работоспособность сложного прибора или крупный контракт - сэкономленное время здесь не оправдывает риска. Любые документы, подразумевающие юридическую ответственность, требуют контроля человека. Машинный перевод непригоден для маркетинговых материалов, где текст фактически переосмысливается в новом культурном контексте и создается заново.
Приемлемого качества можно ожидать при переводе строго формализованных технических текстов, в то время как художественные и рекламные тексты машинному переводу не поддаются.
Прибегая к машинному переводу, важно не только чётко представлять себе желаемый результат и понимать ограничения этого метода, но и учитывать ещё один фактор. Системы МП обычно требуют сложной индивидуальной настройки и доработки, в том числе "обучения" по конкретной тематике - без этого они показывают гораздо худшие результаты. В связи с этим машинный перевод имеет смысл использовать, только если предстоит перевести огромные объёмы однотипных текстов. В этом случае будет экономически целесообразно затратить определённое время на обучение системы, затем применить машинный перевод и получить на выходе текст, пригодный для постредактирования. Если же речь идёт о нескольких десятках страниц, пытаться внедрить машинный перевод бессмысленно и попросту убыточно.
Таким образом, машинный перевод с постредактированием может оказаться действительно выгодным, если переводятся тексты подходящего типа в очень больших объёмах. Поскольку большие объёмы переводов проходят через переводческие компании, которые часто специализируются в конкретных предметных областях, внедрение достаточно эффективных, но дорогих систем машинного перевода последнего поколения экономически оправдано именно в таких компаниях: ни поставщики контента, пусть даже крупные, ни индивидуальные переводчики не смогут самостоятельно эффективно использовать машинный перевод.
Используемая литература
1. http://www.logrus.ru
2. http://www.moluch.ru/
3. https://www.academia.edu
4. http://study-english.info/
Размещено на Allbest.ru
...Подобные документы
История автоматизированного перевода. Современные компьютерные программы перевода. Сфера использования машинного перевода. Формы организации взаимодействия человека и ЭВМ в машинном переводе. Интерредактирование и постредактирование машинного перевода.
курсовая работа [30,0 K], добавлен 19.06.2015Исследование современных технологий машинного перевода. Изучение классификации систем перевода. Характеристика особенностей работы с электронным словарем. Языковые инструменты Google. Программы для проверки правописания и грамматики, текстовые редакторы.
реферат [917,0 K], добавлен 02.11.2014История возникновения, эволюция машинного перевода. Основные требования к коммуникативной эквивалентности. Последовательность формальных операций в системе машинного перевода, ее концепции развития. Переводчик для офиса. Преимущества электронных словарей.
презентация [455,3 K], добавлен 22.10.2013Мировая история технологии машинного перевода как класса систем искусственного интеллекта. Классификация программ онлайн-переводчиков, поддержка функции контролируемого входного языка. Многоязычные браузеры в Интернете и перечень электронных словарей.
контрольная работа [21,6 K], добавлен 03.02.2011Історія машинного перекладу як науково-прикладного напряму. Теорія машинного перекладу. Особливості використання систем, орієнтованих на персональні комп’ютери. Напрямки розвитку та застосування машинного перекладу. Приклади систем машинного перекладу.
реферат [21,5 K], добавлен 19.02.2011Постановка и актуальность задачи написания программы для перевода текстов с транслита. Метод ее решения, входные и выходные данные. Список процедур и функций выполняемые программой. Ее структура: главная форма, форма "О программе" и "Редактор алфавита".
курсовая работа [259,8 K], добавлен 26.03.2009Компьютерная программа как последовательность инструкций, предназначенная для исполнения устройством управления вычислительной машины. Анализ стандартов перевода текстов компьютерных игр. Рассмотрение особенностей ИТ-перевода, примеры грубейших ошибок.
реферат [65,5 K], добавлен 29.01.2013Создание программы для перевода кодов с языка Pascal на язык Си. Обработка программ операторами case, assign, rewrite и write. Способы объявления файла, комментария, переменных, логических и арифметических выражений. Виды синтаксических анализаторов.
курсовая работа [461,0 K], добавлен 03.07.2011Способы автоматического перевода математической литературы с английского языка на русский. Вопросы передачи формул (пересчет при необходимости). Импликации в математических текстах. Применение технологии Translation Memory. Основные математические штампы.
реферат [33,2 K], добавлен 07.09.2009Понятие и цель применения текстовых данных. Принцип кодирования азбуки Морзе. Основные методы языка высокого уровня C#. Алгоритм работы, листинг, тестирование программы для перевода текста в последовательность кодов азбуки Морзе. Руководство пользователя.
курсовая работа [1,4 M], добавлен 15.01.2013Исследование процесса разработки и кодирования приложения для перевода двоичных чисел в шестнадцатеричные в операционной системе Linux. Изучение требований к надежности и программной документации. Определение основных состояний интерфейса программы.
курсовая работа [2,4 M], добавлен 23.06.2012Составление программы-переводчика текста. Обеспечение пословного перевода. Сценарий работы проекта. Главное окно переводчика. Направление перевода. Изменение состояния панелей инструментов с помощью контекстного меню. Окно Tutor. Документация проекта.
курсовая работа [725,6 K], добавлен 11.10.2008Программы автоматизированного перевода: электронные словари, tools-приложения, система Translation Memory, редакторское ПО. Анализ использования САТ-программ в практической деятельности. Выполнение перевода при помощи переводчиков Wordfast и Promt.
курсовая работа [46,5 K], добавлен 10.11.2011Составление транслятора на языке С для перевода кода программы из языка Pascal в код программы на языке Cи. Распознавание и перевод конструкций: for, type, function, integer. Вешняя спецификация, описание, структура, текст программы; распечатка текстов.
курсовая работа [287,8 K], добавлен 24.06.2011Схема разбора арифметического и логического выражения. Внешняя спецификация конвертора и алгоритм перевода программ на языке Паскаль в текст на языке Си. Назначение подпрограмм, особенности констант и переменных. Код программы и ее тестирование.
курсовая работа [567,5 K], добавлен 03.07.2011Человеко-машинный интерфейс. Текстовый и смешанный (псевдографический) интерфейсы. Применение человеко-машинного интерфейса в промышленности. Программные средства для разработки человеко-машинного интерфейса. Среда разработки мнемосхем GraphworX32.
дипломная работа [5,3 M], добавлен 19.03.2010Изучение устройства и механизма процессов в компиляторах и интерпретаторах. Понятие трансляции как процедуры перевода программного кода с языка Паскаль на язык С++. Описание интерфейса программы и автоматизация процесса построения диаграммы классов.
курсовая работа [536,2 K], добавлен 03.07.2011Автоматизований та машинний види перекладу. Можливості подолання мовного бар’єру у спілкуванні. Існуючі класифікації систем машинного перекладу. Лінгвістичне дослідження міри автоматизованості перекладацької системи. Словник і синтаксис вхідної мови.
статья [23,5 K], добавлен 14.08.2017Изучение общей структуры творческого процесса. Исследование машинного творчества в музыке, литературе, изобразительном искусстве. Написание искусственным интеллектом живописных произведений. Развитие компьютерной графики и анимационных мультфильмов.
курсовая работа [1,4 M], добавлен 05.12.2014Создание приложения, исполняющего трансляцию программы из языка Паскаль в язык Си: разработка алгоритма реализации задачи, описание необходимых констант, переменных, функций и операторов, представление листинга программы и распечатка результатов.
курсовая работа [305,9 K], добавлен 03.07.2011