Перспективные направления развития систем машинного перевода

Систематизированы знания о видах систем машинного перевода в контексте развития и повышения идеальности. Проведен анализ проблем существующих систем с использованием ТРИЗ-эволюционного подхода. Определены направления развития машинного перевода.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 19.04.2023
Размер файла 34,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Перспективные направления развития систем машинного перевода

А.А. Животова,

В.Д. Бердоносов, канд. техн. Наук

Аннотация

Систематизированы знания о видах систем машинного перевода в контексте развития и повышения идеальности. Проведен глубокий анализ проблем существующих систем с использованием ТРИЗ-эволюционного подхода. Определены перспективные направления развития машинного перевода. машинный перевод вид

Ключевые слова: машинный перевод, гибридный перевод, интерактивный перевод, систематизация знаний, ТРИЗ-эволюция.

Введение

В условиях, когда количество данных и скорость обмена знаниями постоянно увеличиваются, время генерирования информации сократилось с месяцев и недель до дней и часов, а ее объем экспоненциально растет, процесс получения и систематизации релевантных знаний стремительно усложняется. Требуются современные инструменты поиска, отбора и обработки релевантных данных, а также систематизации полученных знаний. Учитывая развитие технологий и глобализации, применение таких инструментов невозможно представить без использования перевода. Перевод - рутинная необходимость во многих отраслях, включая науку, производство, медицину и т.д., а с неуклонным ростом количества информации и скорости ее генерирования и воспроизведения потребность в повышении качества перевода, наряду с сокращением затрат на него, неуклонно увеличивается.

Естественно, что одним из способов решения данной задачи является автоматизация процессов перевода. Первые попытки такой автоматизации берут свое начало еще в 1950-х гг. С тех пор технологии машинного перевода (МП) прошли большой путь, но только в 2014-2017 гг. [1] произошел качественный скачок роста идеальности данных систем, который привел рынок лингвистических услуг к пониманию того, что внедрение и развитие данных технологий является одним из наиболее перспективных направлений развития отрасли [2]. Современные системы МП демонстрируют высокие показатели качества, кардинально изменив за 2019-2021 гг. структуру рынка лингвистических услуг России [3], вытесняя переводчиков в пользу постредакторов и корректоров машинного перевода.

С развитием технологий искусственного интеллекта интерес исследователей к теме машинного перевода значительно возрос. Так, согласно данным базы "Science Direct" [4], количество статей по ключевым словам "машинный перевод" (Machine Translation) и "качество машинного перевода" (Machine Translation Quality) в 2021 г. выросло по сравнению с 2017 г. на 96% и 115% соответственно.

Несмотря на широкую освещенность темы в литературе, многие из существующих статей, опубликованных в рецензируемых журналах, устарели. Технологии за последние годы совершили качественный скачок, но рецензируемых материалов, описывающих новые технологии в разрезе эволюции, очень мало, а описание перспектив и направлений развития ограниченно и/или отсутствует их обоснование. Между тем систематизация информации о технологиях МП необходима для выявления ключевых направлений и перспектив развития и исследования.

В статье систематизированы знания о существующих системах машинного перевода и проведен ТРИЗ-эволюционный анализ с целью выявить и определить перспективные направления исследований в области машинного перевода (МП).

Систематизация знаний на основе ТРИЗ-эволюционного подхода

Развернувшаяся в последние десятилетия информационная революция обострила потребности создания и развития новых методов извлечения и систематизации знаний, которые обеспечивали бы возможность изучения и структурирования огромного объема информации за ограниченное время. Наметить пути разрешения данного противоречия позволяет ТРИЗ- эволюционный подход. ТРИЗ (теория решения изобретательских задач) - область знаний, исследующая механизмы развития искусственных систем с целью создания практических методов решения инновационных задач [5]. Благодаря своей высокой эффективности и универсальности ТРИЗ получила международное признание, успешно применяется и развивается во многих областях деятельности человека, прежде всего в промышленном производстве, науке и образовании [6, 7].

Методология ТРИЗ-эволюционного подхода к систематизации знаний была подробно рассмотрена авторами на примере систем МП с построением ТРИЗ-эволюционной карты и детальным описанием исходного объекта ТРИЗ-эволюции систем МП "перевод слово в слово" [8]. Однако, как показала практика, одной лишь визуализации знаний за счет построения ТРИЗ-эволюционной карты недостаточно для глубокого анализа систематизируемой области. Предлагается дополнить ТРИЗ-эволюционный анализ следующими шагами: оценка развития главных параметров при переходе от одного объекта ТРИЗ-эволюции к другому; определение ключевых проблем, ограничивающих применение в каждой технологии; компактное, но емкое описание решений, за счет которых произошло преодоление выявленных ограничений.

В контексте МП такой анализ позволит получить представление о развитии систем МП, составить карту проблем, требующих решения, что сократит время на выявление актуальных проблем МП за счет систематизации, визуализации и структурирования ключевых данных, а определение релевантных путей совершенствования систем МП облегчит и ускорит постановку задач исследований и формулирования гипотез.

ТРИЗ-эволюционный анализ систем машинного перевода

В качестве объектов ТРИЗ-эволюции можно выделить следующие системы МП: дословный МП [9], трансферный МП [10], интерлингвистический МП [11], МП на примерах [12], интерактивный МП [13], статистический МП по словам [14], статистический МП по фразам [15], статистический МП на основе синтаксиса [16], нейронный МП [17], нейронный МП "без учителя" [18], адаптированный нейронный МП [19], гибридный МП [20]. Далее рассмотрим краткую характеристику каждого вида указанных систем МП.

В табл. 1 представлен перечень (выявленных в рамках анализа) главных параметров (ГП) систем МП.

Таблица 1

Обозначение

Описание

ГП 1

Качество перевода (ГП 1.1 - с точки зрения лексической точности; ГП 1.2 - с точки зрения грамматической точности; ГП 1.3 - с точки зрения стилистической точности; ГП 1.4 - с точки зрения единообразия; ГП 1.5 - с точки зрения смысловой точности; ГП 1.6 - гладкость перевода; ГП 1.7 - длинных предложений; ГП 1.8 - коротких предложений; ГП 1.9 - текстов узких тематик).

ГП 2

Количество возможных смысловых значений одной лексической единицы.

ГП 3

Работоспособность системы.

ГП 4

Количество языковых пар.

ГП 5

Время на подготовку обучающих данных (ГП 5.1 - двуязычных словарей; ГП 5.2 - параллельных корпусов; ГП 5.3 - правил; ГП 5.4 - монокорпусов).

ГП 6

Сложность структуры текста оригинала.

ГП 7

Объем обучающих данных (ГП 7.1 - правил; ГП 7.2 - корпусов текста).

ГП 8

Время на разработку системы.

ГП 9

Трудозатраты на сопровождение системы.

ГП 10

Количество вариантов сочетаний слов.

ГП 11

Трудозатраты на пред-, постредактирование.

ГП 12

Время на обучение системы.

ГП 13

Вероятность грубых ошибок.

ГП 14

Объем исходного текста.

ГП 15

Время на поиск ошибок в переведенном тексте.

ГП 16

Количество переводимых тематик.

ГП 17

Сложность системы.

Для каждой из систем произведен подробный анализ с выявлением ключевых проблем, ограничивающих рост идеальности, на основании которых сформулированы противоречия. Спецификация выявленных проблем и противоречий (ПР) в системах МП представлена в табл. 2.

Таблица 2

Описание проблемы

Противоречие

Дословный МП

Практически невозможно язык представить набором правил, следовало бы также учесть и все возможные исключения из правил (неправильные глаголы в английском, плавающие приставки в немецком, суффиксы, диалекты, сленг и т.д.).

ПР 2.1: при повышении качества перевода недопустимо увеличивается объем обучающих данных (правил).

Количество правил в каждом языке огромно и для качественной проработки необходимых обучающих данных требуется огромное количество человеко-часов.

ПР 2.2: при повышении качества перевода недопустимо увеличивается время на подготовку обучающих данных.

Требуется постоянно поддерживать лингвистическую базу в актуальном состоянии,

так как язык - динамическая система.

ПР 2.3: при повышении качества перевода недопустимо увеличиваются трудозатраты

на сопровождение системы.

Трансферный МП

С одной стороны, можно задать общие правила переноса грамматической струк-

ПР 3.1: при сокращении времени на разработку системы недопустимо увеличивается

Описание проблемы

Противоречие

туры, что упрощает задачу перевода, с другой стороны, - сочетаний слов намного больше, чем самих слов, и каждый вариант почти невозможно учесть.

объем обучающих данных (правил).

ПР 3.2: при сокращении количества правил недопустимо снижается качество перевода

возможных сочетаний слов.

Интерлингвистический МП

Сложность реализации и отсутствие методов и моделей поиска закономерностей и классификации атрибутов текста для создания унифицированного языка и его структуры.

ПР 4.1: при повышении качества перевода недопустимо увеличивается время на разработку системы.

МП на примерах

Примеры содержат слова, словосочетания и даже предложения, но, фактически, мы находим дословно схожие части, не учитывая особенности синтаксиса, морфологии, грамматического строя и т.д. Чтобы учесть все возможные варианты, необходимо больше обучающих данных.

ПР 5.1: при повышении качества перевода объем обучающих данных (корпусов текста) недопустимо увеличивается.

ПР 5.2: при увеличении количества вариантов сочетаний слов в тексте оригинала качество перевода с точки зрения единообразия недопустимо снижается.

Даже если объем обучающих данных достаточный, система не делит предложение на структурные части из-за чего, например, служебные части речи, влияющие на контекст, могут отразиться на качестве

перевода.

ПР 5.3: при повышении качества с точки зрения единообразия недопустимо снижается качество передачи смысла.

Из-за разницы структуры языков перевода опущенные (нулевые) части предложений не учитываются в переводе либо переводятся части предложения, которые ввиду

грамматических правил языка перевода должны быть опущены.

ПР 5.4: при повышении качества с точки зрения единообразия недопустимо снижается качество перевода грамматической точности.

Система не может работать автоматически без участия человека.

ПР 6.1: при повышении качества перевода недопустимо увеличиваются трудозатраты

на пред-, постредактирование.

Статистический МП по словам

При подготовке обучающих данных необходимо максимально точное соответствие

оригинала и перевода, но не всегда перевод может быть строго формализован, есть еще литературные или вольные переводы, которые также необходимо учитывать.

ПР 7.1: при повышении качества перевода недопустимо увеличивается время на подготовку обучающих данных (корпусов).

Из-за отсутствия двуязычных словарей между некоторыми языками, система переводит текст сначала на английский, а

ПР 7.2: при повышении количества языковых пар недопустимо снижается качества

перевода.

Описание проблемы

Противоречие

затем на язык перевода, из-за чего возникают "двойные потери" качества.

Статистический МП по фразам

Статистические аномалии.

ПР 8.1: при увеличении объема обучающих данных недопустимо снижается качество перевода с точки зрения смысловой точности.

Отдельные фразы плохо согласуются между собой, в итоге переведенное предложение - набор фраз, иногда не связных по смыслу.

ПР 8.2: при повышении качества с точки зрения лексической точности недопустимо

снижается гладкость перевода.

ПР 8.3: при повышении качества с точки зрения лексической точности недопустимо

снижается смысловая точность.

Статистический МП на основе синтаксиса

Даже для корпуса с простейшими 2-3 уровневыми деревьями время обучения слишком велико, а значит, на практике система не может быть применима.

ПР 9.1: при повышении качества перевода с точки зрения грамматической точности время на обучение системы недопустимо увеличивается.

Не для всех языков разработаны методы синтаксического разбора. Не для всех языков, для которых разработаны методы синтаксического анализа, они работают

достаточно качественно.

ПР 9.2: при повышении количества языковых пар недопустимо снижается качество

перевода.

Нейронный МП

В целом "гладкий" перевод может содержать грубые лексические ошибки.

ПР 10.1: при повышении гладкости перевода недопустимо повышается вероятность в нем грубых ошибок.

Почти любой перевод требует понимания контекста нескольких предложений, иногда это имеет решающее значение для

точного перевода с точки зрения используемой лексики. Нейронная система не может анализировать и хранить информацию о контексте текста большого объема и эффективно ее запоминать.

ПР 10.2: при увеличении объема исходного текста недопустимо снижается качество перевода с точки зрения смысловой точности.

Зависимость от состава обучающих данных: если тренировать нейронный перевод только на длинных парах предложений, система будет неспособна перевести корректно короткое предложение и даже отдельное слово.

ПР 10.3: при повышении качества перевода длинных предложений недопустимо снижается качество перевода коротких предложений.

Аномалии в переводе: пропущенные отрицания, отдельные слова или целые фразы.

ПР 10.4: при повышении гладкости перевода недопустимо увеличивается время на по-

Описание проблемы

Противоречие

Аномалии непредсказуемы и непоследовательны, что затрудняет их автоматическое

выявление и исправление.

иск возможных ошибок.

Низкое качество перевода исходных текстов, которые сильно отличаются от данных, использованных для машинного обучения.

ПР 10.5: при увеличении количества тематик исходного текста недопустимо увеличивается время на подготовку обучающих

данных.

ПР 10.6: при увеличении количества тематик исходного текста недопустимо снижается качество перевода.

Адаптированный нейронный МП

По узким тематикам чрезвычайно сложно производить сбор и обработку релевантных двуязычных корпусов для обучения нейронной сети в достаточном объеме.

ПР 11.1: при повышении качества перевода текстов узкой тематики и/или редкой языковой пары недопустимо увеличивается время на подготовку обучающих данных.

Нейронный МП "без учителя"

Необходимость подготовки моно

корпусов большого объема по редким языкам и/или тематикам в векторном представлении.

ПР 12.1: при повышении качества перевода редких языковых пар или тематик объем необходимых обучающих данных недопустимо увеличивается.

Гибридный МП

При комбинировании разных систем достигается более высокое качество перевода, но это означает усложнение системы,

которая наследует не только преимущества, но и недостатки систем, входящих в

ее состав.

ПР 13.1: при повышении качества перевода недопустимо увеличивается сложность конечной системы.

ПР 13.2: при увеличении количества тематик недопустимо увеличивается время на разработку системы.

ПР 13.3: при увеличении количества языковых пар недопустимо увеличивается время на разработку системы.

В табл. 3 проведен анализ выявленных противоречий и решений (Р), при помощи которых были разрешены противоречия в описанных системах, описаны итерации ТРИЗ-эволюции систем МП.

Таблица 3

Итерация

Описание решения

Дословный МП

ПР 2.1: ГП 1|, ГП 7.1| - Р 11:ГП 7.Ц

Переводить с погрешностью, предлагать пользователю скорректировать перевод с целью улучшения качества. Реализовано в системах интерактивного МП.

ПР 2.1: ГП 1|, ГП 7.1| - Р 12: (ГП 1.4|, ГП 1.3|, ГП 7.Ц}

Не описывать правила вообще, загрузить в систему большое количество примеров, из которых система будет брать готовые части перевода. Реализовано в системах МП на примерах.

ПР 2.2: ГП 1|, ГП 5| - Р 13: ГП 5|

Выделить ключевые синтаксические конструкции. Заложить в систему правила перевода каждого слова и подстановки в соответствии с синтаксическими конструкциями языка перевода. Реализовано в системах трансферного МП.

ПР 2.2: ГП 1|, ГП 5| - Р 14: ГП 5|

Создать промежуточный алгоритм обучения системы: на основе статистических методов система будет выбирать наиболее статистически вероятный перевода, при этом нет необходимости описывать правила. Реализовано в системах СМП по словам.

ПР 2.3: ГП 1Т, ГП 9| - Р 15: ГП 9|

Периодически подгружать в систему новые параллельные корпуса текста, на которых система доучивается. Реализовано в системах СМП по словам.

Трансферный МП

ПР 3.1: ГП 9|, ГП 7.1| - Р 16:ГП 7.Ц

Не описывать правила, загрузить в систему большое количество примеров, из которых система будет брать готовые части перевода. Реализовано в системах МП на примерах.

ПР 3.1: ГП 9|, ГП 7.1| - Р 17: ГП 7.Ц

Создать промежуточный алгоритм обучения системы: на основе статистических методов система будет выбирать наиболее статистически вероятный вариант перевода, при этом нет необходимости описывать правила. Реализовано в системах СМП по

словам.

ПР 3.2: ГП 7.Ц, ГП 1.Ц - Р 18: ГП 1.1Т

Найти все возможные сочетания слов в тексте, при помощи статистических методов найти наиболее вероятный перевод. Реализовано в системах СМП по фразам.

ПР 3.2: ГП 7.Ц, ГП 1.Ц - Р 19: ГП 1.1|

Предварительно обрабатывать оригинал для того, чтобы он был более простым и "понятным" машине, переводить с погрешностью, привлекая постредактора для повышения качества перевода. Реализовано в системах интерактивного МП.

Интерлингвистический МП

ПР 4.1: ГП 1|, ГП 8| - Р 20: ГП 8|

Для редких языков и/или тематик из-за сложности создания и разметки универсальной модели и сбора обучающих данных использовать английский язык в качестве промежуточного. Реализовано в системах СМП по словам.

ПР 4.1: ГП 1Т, ГП 8| - Р 21: |ГП 1|,ГП 8|}

Для кодировки текста в универсальное представление использовать многослойную нейронную сеть. Реализовано в системах нейронного МП.

МП на примерах

ПР 5.1: ГП 1|, ГП 7.2| - Р 22:ГП 1.1|

Перед копированием перевода выбрать из множества вариантов наиболее вероятный на основе статистических методов. Реализовано в системах СМП по словам.

ПР 5.2: ГП 10|, ГП 1.4|

- Р 23:ГП 1.4|

Записывать порядок слов в предложении относительно друг друга, при переводе выбирать наиболее вероятный вариант на основе статистических методов. Реализовано в системах СМП

по словам.

ПР 5.4: ГП 1.5Т, ГП 1.2| - Р 24:ГП 1.2|

Заранее промаркировать места, где необходимо подставить служебное слово, при переводе заполнить маркеры. Реализовано в системах СМП по словам.

ПР 5.2: ГП 10|, ГП 1.4|

- Р 25:{ГП 1.4|, ГП 1.1|}

Найти все возможные сочетания слов в тексте, при помощи статистических методов найти наиболее вероятный перевод. Реализовано в системах СМП по фразам.

ПР 5.3: ГП 1.4|, ГП 1.5| - Р 26:ГП 1|

При помощи статистических методов находить среди множества вариантов обучающего корпуса наиболее вероятный перевод целых фраз, а не отдельных слов. Реализовано в системах СМП по фразам.

{ПР 5.2: ГП 10|, ГП 1.4|, ПР 5.4: ГП 1.5|, ГП 1.2Ц - Р 27:{ГП 1.4|, ГП 1.2|}

Перед переводом производить полный синтаксический разбор предложения, структурируя части текста при помощи деревьев.

Реализовано в системах СМП на основе синтаксиса.

Интерактивный МП

ПР 6.1: ГП 1|, ГП 11| - Р 28:{ГП 1Т,ГП 1Ц}

Использовать в качестве посредника между машинным переводом и человеком среду автоматизации переводов, объединив все цифровые инструменты, облегчающие перевод в одной среде. Использовать МП для тех фрагментов, для которых не нашлось совпадений по памяти перевода, при этом выбирать модель перевода исходя из особенности задачи. Реализовано в системах гибридного МП.

Статистический МП по словам

ПР 7.1: ГП 1|, ГП 5.2| - Р 29:ГП 5.2|

Объединить отдельные слова в предложении в фразы во всех возможных сочетаниях по n-слов в каждом и проанализировать перевод для каждого из них, выбрав впоследствии только статистически наиболее вероятные сочетания, т.е. учитывать контекст. Реализовано в системах СМП по фразам.

ПР 7.2: ГП 4|, ГПЦ - Р 30: {ГП 1|,ГП 4|}

В качестве алгоритма вывода использовать нейронные сети, состоящие из энкодера и декодера. Энкодер сначала кодирует исходный текст в универсальное представление. Декодер распознает универсальное представление и переводит его на язык перевода. Реализовано в системах нейронного МП.

Статистический МП по фразам

{ПР 8.2: ГП 1.1|, ГП 1.6|, ПР 8.3: ГП 1.1|, ГП 1.5|} - Р 31:ГП 1|

Объединить в одной системе несколько типов систем, воспользовавшись преимуществами каждой из них, разделив задачи. Например: перевод отдельных слов по словарю, а "выравнивание" текста доверить СМП или НМП; НМП переводить длинные предложения, СМП переводить короткие фразы. Реализовано в системах гибридного МП.

{ПР 8.2: ГП 1.1|, ГП 1.6|, ПР 8.3: ГП 1.1Т, ГП 1.5|} -

Учитывать в переводе контекст всего предложения, а не только отдельных фраз при помощи многослойных нейронных сетей с долгосрочной памятью. Реализовано в системах нейронного

Р 32: ГП 1|

мп.

ПР 8.1: ГП 7|, ГП 1.5| - Решение отсутствует

Статистический МП на основе синтаксиса

{ПР 9.1: ГП 1.2Т, ГП 12Т, ПР 9.2: ГП 4|, ГПЦ} ^ Р 33:ГП 1|

Использовать многослойную нейронную сеть, не использовать методы синтаксического разбора и анализа. Реализовано в системах нейронного МП.

Нейронный МП

ПР 10.3: ГП 1.7|, ГП 1.84 ^ Р 34: {ГП 1.7|, ГП 1.8|}

Объединить в одной системе два типа систем, выбрав наиболее подходящую технологию отдельно для длинных предложений, отдельно - для коротких фраз. Реализовано в системах гибридного МП.

ПР 10.5: ГП 16Т, ГП 5|

^ Р 35: ГП 5.2|

Обучать сеть алгоритмом без учителя, исключив тем самым необходимость подготовки эталонной выборки данных. Реализовано в системах НМП "без учителя".

ПР 10.6: ГП 16|, ГП 1.94 ^ Р 36:ГП 1.9|

Для каждой из тематик готовить корпуса обучающих данных отдельно. Реализовано в системах адаптированного НМП.

П

э 10.1: ГП 1.6|, ГП 13| - Решение отсутствует

ПР 10.2: ГП 14|, ГП 1.5| - Решение отсутствует

ПР 10.4: ГП 1.6|, ГП 15| - Решение отсутствует

Адаптированный НМП

ПР 11.1: ГП 1.9|, ГП 5.2| ^ Р 37: ГП 5.2|

Обучать нейронную сеть алгоритмом "без учителя" на монокорпусах текста вместо параллельных корпусов. Реализовано в системах НМП "без учителя".

НМП "без учителя"

ПР 12.1: ГП 1|, ГП 7| - Решение отсутствует

Гибридный МП

ПР 13.1: ГП 1|, ГП 17| - Решение отсутствует

ПР 13.2: ГП 16|, ГП 8| - Решение отсутствует

ПР 13.3: ГП 4|, ГП 8| - Решение отсутствует

Анализ ТРИЗ-эволюции систем МП

Анализ ТРИЗ-эволюции систем МП показывает в первую очередь качественные скачки развития, которые позволили сформировать новые парадигмы: переход к трансферному МП привел к созданию парадигмы "перевод, основанный на правилах"; переход к СМП по словам - к созданию парадигмы "статистический МП"; переход к НМП - к созданию парадигмы "нейронный МП".

По улучшаемым параметрам в ходе развития систем МП мы видим, что оно происходило по следующим ключевым направлениям:

повышение качества перевода, причем с развитием МП сам параметр качества трансформировался и детализировался в подпараметры;

сокращение времени на сбор и подготовку обучающих данных;

развитие способов обработки оригинала с целью упрощения его структуры для более точного понимания системой семантики текста;

совершенствование технической реализации МП.

Часть противоречий существующих систем не разрешена (8.1, 10.1, 10.2, 10.4, 12.1, 13.1, 13.2, 13.3), и, следовательно, задачи по разрешению этих противоречий являются перспективными направлениями исследования в области МП.

На основании проведенного анализа можно заключить, что ключевыми направлениями перспективных исследований в области МП являются:

1) развитие методов интерактивного перевода и нативного взаимодействия с пользователями МП. Проблема заключается в том, что, несмотря на огромный прорыв в качестве нейросетевого машинного перевода, он все еще может содержать грубые ошибки, поскольку система не может достаточно точно определять контекст текста целиком, а не отдельного предложения, оттенки смысла и т.д.;

2) разработка эффективных методов анализа и алгоритмов хранения нейросетью контекста всего текста, а не отдельных его частей. Актуальным является исследование и совершенствование способов определения и хранения информации о контексте (смысле) не только соседних слов, но и предложений, а также оценка смысла всего текста;

3) совершенствование архитектуры систем МП и нейросетей, используемых в задачах обработки естественного языка;

4) разработка и совершенствование методов обучения нейросетей на ограниченном объеме монокорпусов текста. Современные системы нейросетевого перевода обучаются "с учителем" на двуязычных параллельных корпусах текста (оригинал и эталонный перевод). Не для всех языков и тематик возможно аккумулировать достаточный для качественного обучения объем таких корпусов. Интерес представляет развитие алгоритмов обучения нейросетей на монокорпусах (один язык, без перевода) "без учителя";

5) решение проблемы извлечения знаний и анализа семантики оригинальных текстов. Проблема извлечения знаний актуальна для многих областей, связана она, в том числе и с обработкой естественного языка;

6) совершенствование методов синтаксического разбора текста для упрощения структуры оригинальных текстов при переводе. Не для всех языков разработаны методы синтаксического разбора и не для всех, для которых разработаны такие, они достаточно качественны;

7) совершенствование методов автоматической оценки и проверки качества переведенных текстов. Проблема заключается в том, что ни методы автоматической оценки качества, ни методы "ручной" оценки качества не являются надежными и достаточно достоверными. Первые не опираются на семантику (смысл) текста, а вторые зависят от компетенции проверяющего специалиста. При этом в обоих случаях высока вероятность пропуска грубых ошибок, учитывая общую "гладкость" нейронного машинного перевода.

Описанные направления развития систем МП относятся к задачам автоматизации извлечения знаний, обработки естественного языка, нейросетевого программирования.Заключение

Предложено использовать ТРИЗ-эволюционный подход к выявлению направлений развития гибридных систем нейронного МП, сформулированы дополнительные положения ТРИЗ-эволюционного анализа, позволяющие систематизировать исследуемую область знаний с большей детализацией.

Применение ТРИЗ-эволюционного анализа систем МП позволило систематизировать данные об эволюции систем МП; определить ключевые этапы развития систем МП; выделить главные производственные параметры, определяющие направления развития систем нейронного МП.

Показано, что перспективным направлением является развития методов анализа, сбора и хранения нейросетью данных о семантических особенностях оригинального текста целиком, а не отдельных его частей.

Таким образом, представленное исследование позволит добиться повышения качества перевода при ограниченном объеме обучающих данных за счет развития методов и алгоритмов предобработки оригинального текста.

Создание модуля автоматизированного предредактирования согласно правилам, которые упрощают понимание текста системой МП и в полуавтоматическом режиме позволяют производить анализ семантики оригинальных текстов, повысит качество МП и дает возможность сделать МП более доступным для пользователей, владеющих только языком оригинального текста.

Литература

1. Wu Y., Schuster М., Chen Z., et al. Google's neural machine translation system: Bridging the gap between human and machine translation // Conference on Empirical Methods in Natural Language Processing. - 2017.

2. Screen B. What effect does post-editing have on the translation product from an end-user's perspective? // J. Spec. Transl. - 2019. - Vol. 31 - P. 133-157.

3. Сайт о развитии отрасли переводов [Электронный ресурс]. - Режим доступа: https://translationrating.ru/

4. Science Direct Journals & Books [Электронный ресурс]. - Режим доступа: https://www.sciencedirect.com/

5. Altshuller G. The innovation algorithm: TRIZ, systematic innovation, and technical creativity. - Worchester, Massachusetts: Technical Innovation Center, 1999.

6. GaddK. TRIZ for Engineers: Enabling Inventive Problem Solving. - John Wiley & Sons, 2011.

7. Creativity, learning techniques and TRIZ / T. Bertoncelli, O. Mayer, M. Lynass // Procedia CIRP. - 2016. - Vol. 39. - P. 191-196.

8. Zhivotova A.A., Berdonosov V.D., Redkolis E.V. Machine translation systems analysis and development prospects // 2020 International Multi-Conference on Industrial Engineering and Modern Technologies. - Vladivostok, 2020.

9. Brown A. Automatic translation of languages // Automatic Translation of Languages: papers presented at NATO Summer School - Venice, 1966. - P. 27-54.

10. Tosh L. W. Data preparation for syntactic translation // International Conference on Computational Linguistics - New York, 1965.

11. Tosh L. W. Stratificational grammar and interlingual mapping for automatic translation // Actes du Xe Congres International des Linguistes. - Bucarest, 1967, - P.1049-1059.

12. Aramaki E., Kurohashi S. Example-based machine translation using structural translation examples // International Workshop on Spoken Language Translation: Evaluation Campaign on Spoken Language Translation. - Japan, 2004. - P. 91-94.

13. Nepveu L., Lapalme G., Langlais P. Adaptive language and translation models for interactive machine translation // Conference on Empirical Methods in Natural Language Processing. - 2004.

14. A statistical approach to machine translation / P. Brown, J. Cocke, S. Della Pietra, et al // Computational linguistics. - 1990. - Vol. 16, No.2. - P.79-85.

15. Junczys-Dowmunt M., Grundkiewicz R. Phrase-based machine translation is state-of-the-art for automatic grammatical error correction // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processingю - 2016. - P. 1546-1556.

16. Yamada K., Knight K. A syntax-based statistical translation model // Proceedings of the Conference of the Association for Computational Linguistics. - 2001. - P. 132-139.

17. Google's multilingual neural machine translation system: enabling zero-shot translation / M. Johnson, M. Schuster, Q. Le, et al // Transactions of the Association for Computational Linguistics. - 2017. - Vol. 5. - P. 339-351.

18. Lample G., Conneau A., Denoyer L., et al. Unsupervised machine translation using monolingual corpora only // ICLR 2018. - 2018.

19. Chu C., Wang R. A survey of domain adaptation for neural machine translation / Proceedings of the 27th International Conference on Computational Linguistics. - 2018. - P. 13041319.

20. Costa-Jussa M., Fonollosa J. Latest trends in hybrid machine translation and its applications / Computer Speech & Language. - 2014. - Vol. 32. - No. 1. - P. 3-10.

Размещено на Allbest.ru

...

Подобные документы

  • Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.

    курсовая работа [42,2 K], добавлен 17.11.2014

  • Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

    дипломная работа [4,0 M], добавлен 20.06.2011

  • Понятие и теории перевода, его связь с лингвистикой. Причины формирования и процесс становления науки о переводе. Создание системы машинного переводчика. Развитие сопоставительных контрастивных исследований в языкознании. Современное переводоведение.

    презентация [50,0 K], добавлен 29.07.2013

  • Основные понятия и функциональные стили лингвостилистики. Принципы работы и типы систем машинного перевода. Сопоставительный анализ отрывков научно-технического текста и их переводов на русский язык с помощью различных СМП - трансфертной и статистической.

    дипломная работа [4,0 M], добавлен 23.06.2011

  • Периодизация истории развития перевода и подходов к нему. Понятие перевода, подходы к переводу текста. Особенности перевода с английского на русский. Специфика работы с иноязычным текстом. Варианты подхода к изучения феномена "ложных друзей переводчика".

    курсовая работа [47,7 K], добавлен 10.01.2017

  • Виды и способы перевода, определение способа перевода и меры информационной упорядоченности для переводного текста. Преимущества и трудности синхронного перевода, проблемы синхронистов, возникающие в процессе перевода, психологические условия работы.

    реферат [27,7 K], добавлен 25.10.2010

  • Понятие языка и нормы перевода. Обеспечение высокого качества перевода переводчиком. Семантические проблемы перевода. Межъязыковые расхождения в грамматикализации "классических" грамматических категорий. Синтаксические проблемы перевода стихотворений.

    реферат [33,3 K], добавлен 23.12.2011

  • Обзор выявления в оригинале конструкций, требующих синтаксических трансформаций при переводе, их классификации и анализа способов перевода. Описания перевода при помощи перестановок, членения и объединения предложений, синтаксических проблем перевода.

    курсовая работа [49,1 K], добавлен 29.12.2011

  • Предмет, методы и направления исследования, основное содержание и значение теории перевода. Виды перевода, сферы его применения, оценка качества и языковой сложности. Переводческая сегментация текста, его связность. Типы лексических трансформаций.

    контрольная работа [33,6 K], добавлен 20.12.2011

  • Предмет, основные задачи и методы теории перевода. Концепция полной и неполной переводимости. Проблема правильности определения единицы перевода как одна из важнейших условий его адекватности. Особенности психолингвистического подхода к переводоведению.

    курсовая работа [34,2 K], добавлен 09.12.2014

  • Понятие перевода как вида языковой коммуникативной творческой деятельности человека. Предмет и методы исследования теории перевода, история ее становления и развития, современные тенденции и перспективы, взаимосвязь с другими науками на сегодняшний день.

    презентация [767,5 K], добавлен 22.12.2013

  • Определение понятия "стратегия перевода". Характеристика основных видов переводческих стратегий. Стратегии перевода И.С. Алексеевой. Особенности реферативного перевода и его место в общей классификации. Виды реферативного перевода и их специфика.

    курсовая работа [55,8 K], добавлен 09.01.2015

  • Нормативные требования и их роль в оценке качества перевода. Жанрово-стилистическая норма перевода. Классификация смысловых ошибок. Условные критерии оценки качества перевода. Место оценки качества перевода в переводоведении. Норма переводческой речи.

    курсовая работа [32,1 K], добавлен 13.04.2015

  • Сущностная характеристика современных наиболее распространенных моделей перевода: ситуативно-денотативная, трансформационная, семантическая, интерпретативная. Теория уровней эквивалентности и трехвазная модель перевода о. Каде. Способы и приемы перевода.

    курсовая работа [78,9 K], добавлен 21.02.2011

  • Специфика поэтической предикации и способов объективации глубинных поэтических смыслов в связи с изучением проблем поэтического перевода. Ритм как способ смыслообразования в поэтическом тексте. Взаимоотношение двух коммуникативных систем: "Я-Я" и "Я-ОН".

    статья [22,5 K], добавлен 20.08.2013

  • Классификация видов, форм и типов перевода. Понятие синхронного перевода, его характеристики. Распределение внимания синхронного переводчика. Коммуникативная ситуация синхронного перевода. Вероятностное прогнозирование. Обучение синхронному переводу.

    реферат [28,5 K], добавлен 16.12.2016

  • Лингвокультурология как наука. Лингвокультурология и концепты. Интерпретативная теория перевода. Необходимость культурологических знаний в деятельности переводчика. Виды киноперевода, особенности закадрового перевода. Анализ перевода монтажных листов.

    дипломная работа [76,6 K], добавлен 28.07.2017

  • Описание направленностей и эффективности существующих классификаций трансляционных упражнений. Роль грамматики в обучении искусству перевода. Разработка лингвистического комплекса для пособия "Упражнения по английской грамматике для переводчиков".

    дипломная работа [145,7 K], добавлен 23.04.2011

  • Роль и значение перевода в современном мире. Особенности перевода арабизмов в персидском языке. Проблематика перевода письменных персоязычных источников. Особенности межъязыковой речевой деятельности и основные трудности персидско-русского перевода.

    курсовая работа [30,3 K], добавлен 13.10.2016

  • Особенности художественного перевода и критерии его оценки. Понятие вторичной номинации, ее классификации и способы перевода. Специфика перевода драматургических текстов. Сопоставительный анализ перевода единиц вторичной номинаций в пьесах Чехова.

    курсовая работа [74,7 K], добавлен 22.08.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.