Перспективные направления развития систем машинного перевода
Систематизированы знания о видах систем машинного перевода в контексте развития и повышения идеальности. Проведен анализ проблем существующих систем с использованием ТРИЗ-эволюционного подхода. Определены направления развития машинного перевода.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 19.04.2023 |
Размер файла | 34,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Перспективные направления развития систем машинного перевода
А.А. Животова,
В.Д. Бердоносов, канд. техн. Наук
Аннотация
Систематизированы знания о видах систем машинного перевода в контексте развития и повышения идеальности. Проведен глубокий анализ проблем существующих систем с использованием ТРИЗ-эволюционного подхода. Определены перспективные направления развития машинного перевода. машинный перевод вид
Ключевые слова: машинный перевод, гибридный перевод, интерактивный перевод, систематизация знаний, ТРИЗ-эволюция.
Введение
В условиях, когда количество данных и скорость обмена знаниями постоянно увеличиваются, время генерирования информации сократилось с месяцев и недель до дней и часов, а ее объем экспоненциально растет, процесс получения и систематизации релевантных знаний стремительно усложняется. Требуются современные инструменты поиска, отбора и обработки релевантных данных, а также систематизации полученных знаний. Учитывая развитие технологий и глобализации, применение таких инструментов невозможно представить без использования перевода. Перевод - рутинная необходимость во многих отраслях, включая науку, производство, медицину и т.д., а с неуклонным ростом количества информации и скорости ее генерирования и воспроизведения потребность в повышении качества перевода, наряду с сокращением затрат на него, неуклонно увеличивается.
Естественно, что одним из способов решения данной задачи является автоматизация процессов перевода. Первые попытки такой автоматизации берут свое начало еще в 1950-х гг. С тех пор технологии машинного перевода (МП) прошли большой путь, но только в 2014-2017 гг. [1] произошел качественный скачок роста идеальности данных систем, который привел рынок лингвистических услуг к пониманию того, что внедрение и развитие данных технологий является одним из наиболее перспективных направлений развития отрасли [2]. Современные системы МП демонстрируют высокие показатели качества, кардинально изменив за 2019-2021 гг. структуру рынка лингвистических услуг России [3], вытесняя переводчиков в пользу постредакторов и корректоров машинного перевода.
С развитием технологий искусственного интеллекта интерес исследователей к теме машинного перевода значительно возрос. Так, согласно данным базы "Science Direct" [4], количество статей по ключевым словам "машинный перевод" (Machine Translation) и "качество машинного перевода" (Machine Translation Quality) в 2021 г. выросло по сравнению с 2017 г. на 96% и 115% соответственно.
Несмотря на широкую освещенность темы в литературе, многие из существующих статей, опубликованных в рецензируемых журналах, устарели. Технологии за последние годы совершили качественный скачок, но рецензируемых материалов, описывающих новые технологии в разрезе эволюции, очень мало, а описание перспектив и направлений развития ограниченно и/или отсутствует их обоснование. Между тем систематизация информации о технологиях МП необходима для выявления ключевых направлений и перспектив развития и исследования.
В статье систематизированы знания о существующих системах машинного перевода и проведен ТРИЗ-эволюционный анализ с целью выявить и определить перспективные направления исследований в области машинного перевода (МП).
Систематизация знаний на основе ТРИЗ-эволюционного подхода
Развернувшаяся в последние десятилетия информационная революция обострила потребности создания и развития новых методов извлечения и систематизации знаний, которые обеспечивали бы возможность изучения и структурирования огромного объема информации за ограниченное время. Наметить пути разрешения данного противоречия позволяет ТРИЗ- эволюционный подход. ТРИЗ (теория решения изобретательских задач) - область знаний, исследующая механизмы развития искусственных систем с целью создания практических методов решения инновационных задач [5]. Благодаря своей высокой эффективности и универсальности ТРИЗ получила международное признание, успешно применяется и развивается во многих областях деятельности человека, прежде всего в промышленном производстве, науке и образовании [6, 7].
Методология ТРИЗ-эволюционного подхода к систематизации знаний была подробно рассмотрена авторами на примере систем МП с построением ТРИЗ-эволюционной карты и детальным описанием исходного объекта ТРИЗ-эволюции систем МП "перевод слово в слово" [8]. Однако, как показала практика, одной лишь визуализации знаний за счет построения ТРИЗ-эволюционной карты недостаточно для глубокого анализа систематизируемой области. Предлагается дополнить ТРИЗ-эволюционный анализ следующими шагами: оценка развития главных параметров при переходе от одного объекта ТРИЗ-эволюции к другому; определение ключевых проблем, ограничивающих применение в каждой технологии; компактное, но емкое описание решений, за счет которых произошло преодоление выявленных ограничений.
В контексте МП такой анализ позволит получить представление о развитии систем МП, составить карту проблем, требующих решения, что сократит время на выявление актуальных проблем МП за счет систематизации, визуализации и структурирования ключевых данных, а определение релевантных путей совершенствования систем МП облегчит и ускорит постановку задач исследований и формулирования гипотез.
ТРИЗ-эволюционный анализ систем машинного перевода
В качестве объектов ТРИЗ-эволюции можно выделить следующие системы МП: дословный МП [9], трансферный МП [10], интерлингвистический МП [11], МП на примерах [12], интерактивный МП [13], статистический МП по словам [14], статистический МП по фразам [15], статистический МП на основе синтаксиса [16], нейронный МП [17], нейронный МП "без учителя" [18], адаптированный нейронный МП [19], гибридный МП [20]. Далее рассмотрим краткую характеристику каждого вида указанных систем МП.
В табл. 1 представлен перечень (выявленных в рамках анализа) главных параметров (ГП) систем МП.
Таблица 1
Обозначение |
Описание |
|
ГП 1 |
Качество перевода (ГП 1.1 - с точки зрения лексической точности; ГП 1.2 - с точки зрения грамматической точности; ГП 1.3 - с точки зрения стилистической точности; ГП 1.4 - с точки зрения единообразия; ГП 1.5 - с точки зрения смысловой точности; ГП 1.6 - гладкость перевода; ГП 1.7 - длинных предложений; ГП 1.8 - коротких предложений; ГП 1.9 - текстов узких тематик). |
|
ГП 2 |
Количество возможных смысловых значений одной лексической единицы. |
|
ГП 3 |
Работоспособность системы. |
|
ГП 4 |
Количество языковых пар. |
|
ГП 5 |
Время на подготовку обучающих данных (ГП 5.1 - двуязычных словарей; ГП 5.2 - параллельных корпусов; ГП 5.3 - правил; ГП 5.4 - монокорпусов). |
|
ГП 6 |
Сложность структуры текста оригинала. |
|
ГП 7 |
Объем обучающих данных (ГП 7.1 - правил; ГП 7.2 - корпусов текста). |
|
ГП 8 |
Время на разработку системы. |
|
ГП 9 |
Трудозатраты на сопровождение системы. |
|
ГП 10 |
Количество вариантов сочетаний слов. |
|
ГП 11 |
Трудозатраты на пред-, постредактирование. |
|
ГП 12 |
Время на обучение системы. |
|
ГП 13 |
Вероятность грубых ошибок. |
|
ГП 14 |
Объем исходного текста. |
|
ГП 15 |
Время на поиск ошибок в переведенном тексте. |
|
ГП 16 |
Количество переводимых тематик. |
|
ГП 17 |
Сложность системы. |
Для каждой из систем произведен подробный анализ с выявлением ключевых проблем, ограничивающих рост идеальности, на основании которых сформулированы противоречия. Спецификация выявленных проблем и противоречий (ПР) в системах МП представлена в табл. 2.
Таблица 2
Описание проблемы |
Противоречие |
|
Дословный МП |
||
Практически невозможно язык представить набором правил, следовало бы также учесть и все возможные исключения из правил (неправильные глаголы в английском, плавающие приставки в немецком, суффиксы, диалекты, сленг и т.д.). |
ПР 2.1: при повышении качества перевода недопустимо увеличивается объем обучающих данных (правил). |
|
Количество правил в каждом языке огромно и для качественной проработки необходимых обучающих данных требуется огромное количество человеко-часов. |
ПР 2.2: при повышении качества перевода недопустимо увеличивается время на подготовку обучающих данных. |
|
Требуется постоянно поддерживать лингвистическую базу в актуальном состоянии, так как язык - динамическая система. |
ПР 2.3: при повышении качества перевода недопустимо увеличиваются трудозатраты на сопровождение системы. |
|
Трансферный МП |
||
С одной стороны, можно задать общие правила переноса грамматической струк- |
ПР 3.1: при сокращении времени на разработку системы недопустимо увеличивается |
|
Описание проблемы |
Противоречие |
|
туры, что упрощает задачу перевода, с другой стороны, - сочетаний слов намного больше, чем самих слов, и каждый вариант почти невозможно учесть. |
объем обучающих данных (правил). |
|
ПР 3.2: при сокращении количества правил недопустимо снижается качество перевода возможных сочетаний слов. |
||
Интерлингвистический МП |
||
Сложность реализации и отсутствие методов и моделей поиска закономерностей и классификации атрибутов текста для создания унифицированного языка и его структуры. |
ПР 4.1: при повышении качества перевода недопустимо увеличивается время на разработку системы. |
|
МП на примерах |
||
Примеры содержат слова, словосочетания и даже предложения, но, фактически, мы находим дословно схожие части, не учитывая особенности синтаксиса, морфологии, грамматического строя и т.д. Чтобы учесть все возможные варианты, необходимо больше обучающих данных. |
ПР 5.1: при повышении качества перевода объем обучающих данных (корпусов текста) недопустимо увеличивается. |
|
ПР 5.2: при увеличении количества вариантов сочетаний слов в тексте оригинала качество перевода с точки зрения единообразия недопустимо снижается. |
||
Даже если объем обучающих данных достаточный, система не делит предложение на структурные части из-за чего, например, служебные части речи, влияющие на контекст, могут отразиться на качестве перевода. |
ПР 5.3: при повышении качества с точки зрения единообразия недопустимо снижается качество передачи смысла. |
|
Из-за разницы структуры языков перевода опущенные (нулевые) части предложений не учитываются в переводе либо переводятся части предложения, которые ввиду грамматических правил языка перевода должны быть опущены. |
ПР 5.4: при повышении качества с точки зрения единообразия недопустимо снижается качество перевода грамматической точности. |
|
Система не может работать автоматически без участия человека. |
ПР 6.1: при повышении качества перевода недопустимо увеличиваются трудозатраты на пред-, постредактирование. |
|
Статистический МП по словам |
||
При подготовке обучающих данных необходимо максимально точное соответствие оригинала и перевода, но не всегда перевод может быть строго формализован, есть еще литературные или вольные переводы, которые также необходимо учитывать. |
ПР 7.1: при повышении качества перевода недопустимо увеличивается время на подготовку обучающих данных (корпусов). |
|
Из-за отсутствия двуязычных словарей между некоторыми языками, система переводит текст сначала на английский, а |
ПР 7.2: при повышении количества языковых пар недопустимо снижается качества перевода. |
|
Описание проблемы |
Противоречие |
|
затем на язык перевода, из-за чего возникают "двойные потери" качества. |
||
Статистический МП по фразам |
||
Статистические аномалии. |
ПР 8.1: при увеличении объема обучающих данных недопустимо снижается качество перевода с точки зрения смысловой точности. |
|
Отдельные фразы плохо согласуются между собой, в итоге переведенное предложение - набор фраз, иногда не связных по смыслу. |
ПР 8.2: при повышении качества с точки зрения лексической точности недопустимо снижается гладкость перевода. |
|
ПР 8.3: при повышении качества с точки зрения лексической точности недопустимо снижается смысловая точность. |
||
Статистический МП на основе синтаксиса |
||
Даже для корпуса с простейшими 2-3 уровневыми деревьями время обучения слишком велико, а значит, на практике система не может быть применима. |
ПР 9.1: при повышении качества перевода с точки зрения грамматической точности время на обучение системы недопустимо увеличивается. |
|
Не для всех языков разработаны методы синтаксического разбора. Не для всех языков, для которых разработаны методы синтаксического анализа, они работают достаточно качественно. |
ПР 9.2: при повышении количества языковых пар недопустимо снижается качество перевода. |
|
Нейронный МП |
||
В целом "гладкий" перевод может содержать грубые лексические ошибки. |
ПР 10.1: при повышении гладкости перевода недопустимо повышается вероятность в нем грубых ошибок. |
|
Почти любой перевод требует понимания контекста нескольких предложений, иногда это имеет решающее значение для точного перевода с точки зрения используемой лексики. Нейронная система не может анализировать и хранить информацию о контексте текста большого объема и эффективно ее запоминать. |
ПР 10.2: при увеличении объема исходного текста недопустимо снижается качество перевода с точки зрения смысловой точности. |
|
Зависимость от состава обучающих данных: если тренировать нейронный перевод только на длинных парах предложений, система будет неспособна перевести корректно короткое предложение и даже отдельное слово. |
ПР 10.3: при повышении качества перевода длинных предложений недопустимо снижается качество перевода коротких предложений. |
|
Аномалии в переводе: пропущенные отрицания, отдельные слова или целые фразы. |
ПР 10.4: при повышении гладкости перевода недопустимо увеличивается время на по- |
|
Описание проблемы |
Противоречие |
|
Аномалии непредсказуемы и непоследовательны, что затрудняет их автоматическое выявление и исправление. |
иск возможных ошибок. |
|
Низкое качество перевода исходных текстов, которые сильно отличаются от данных, использованных для машинного обучения. |
ПР 10.5: при увеличении количества тематик исходного текста недопустимо увеличивается время на подготовку обучающих данных. |
|
ПР 10.6: при увеличении количества тематик исходного текста недопустимо снижается качество перевода. |
||
Адаптированный нейронный МП |
||
По узким тематикам чрезвычайно сложно производить сбор и обработку релевантных двуязычных корпусов для обучения нейронной сети в достаточном объеме. |
ПР 11.1: при повышении качества перевода текстов узкой тематики и/или редкой языковой пары недопустимо увеличивается время на подготовку обучающих данных. |
|
Нейронный МП "без учителя" |
||
Необходимость подготовки моно корпусов большого объема по редким языкам и/или тематикам в векторном представлении. |
ПР 12.1: при повышении качества перевода редких языковых пар или тематик объем необходимых обучающих данных недопустимо увеличивается. |
|
Гибридный МП |
||
При комбинировании разных систем достигается более высокое качество перевода, но это означает усложнение системы, которая наследует не только преимущества, но и недостатки систем, входящих в ее состав. |
ПР 13.1: при повышении качества перевода недопустимо увеличивается сложность конечной системы. |
|
ПР 13.2: при увеличении количества тематик недопустимо увеличивается время на разработку системы. |
||
ПР 13.3: при увеличении количества языковых пар недопустимо увеличивается время на разработку системы. |
В табл. 3 проведен анализ выявленных противоречий и решений (Р), при помощи которых были разрешены противоречия в описанных системах, описаны итерации ТРИЗ-эволюции систем МП.
Таблица 3
Итерация |
Описание решения |
|
Дословный МП |
||
ПР 2.1: ГП 1|, ГП 7.1| - Р 11:ГП 7.Ц |
Переводить с погрешностью, предлагать пользователю скорректировать перевод с целью улучшения качества. Реализовано в системах интерактивного МП. |
|
ПР 2.1: ГП 1|, ГП 7.1| - Р 12: (ГП 1.4|, ГП 1.3|, ГП 7.Ц} |
Не описывать правила вообще, загрузить в систему большое количество примеров, из которых система будет брать готовые части перевода. Реализовано в системах МП на примерах. |
|
ПР 2.2: ГП 1|, ГП 5| - Р 13: ГП 5| |
Выделить ключевые синтаксические конструкции. Заложить в систему правила перевода каждого слова и подстановки в соответствии с синтаксическими конструкциями языка перевода. Реализовано в системах трансферного МП. |
|
ПР 2.2: ГП 1|, ГП 5| - Р 14: ГП 5| |
Создать промежуточный алгоритм обучения системы: на основе статистических методов система будет выбирать наиболее статистически вероятный перевода, при этом нет необходимости описывать правила. Реализовано в системах СМП по словам. |
|
ПР 2.3: ГП 1Т, ГП 9| - Р 15: ГП 9| |
Периодически подгружать в систему новые параллельные корпуса текста, на которых система доучивается. Реализовано в системах СМП по словам. Трансферный МП |
|
ПР 3.1: ГП 9|, ГП 7.1| - Р 16:ГП 7.Ц |
Не описывать правила, загрузить в систему большое количество примеров, из которых система будет брать готовые части перевода. Реализовано в системах МП на примерах. |
|
ПР 3.1: ГП 9|, ГП 7.1| - Р 17: ГП 7.Ц |
Создать промежуточный алгоритм обучения системы: на основе статистических методов система будет выбирать наиболее статистически вероятный вариант перевода, при этом нет необходимости описывать правила. Реализовано в системах СМП по словам. |
|
ПР 3.2: ГП 7.Ц, ГП 1.Ц - Р 18: ГП 1.1Т |
Найти все возможные сочетания слов в тексте, при помощи статистических методов найти наиболее вероятный перевод. Реализовано в системах СМП по фразам. |
|
ПР 3.2: ГП 7.Ц, ГП 1.Ц - Р 19: ГП 1.1| |
Предварительно обрабатывать оригинал для того, чтобы он был более простым и "понятным" машине, переводить с погрешностью, привлекая постредактора для повышения качества перевода. Реализовано в системах интерактивного МП. Интерлингвистический МП |
|
ПР 4.1: ГП 1|, ГП 8| - Р 20: ГП 8| |
Для редких языков и/или тематик из-за сложности создания и разметки универсальной модели и сбора обучающих данных использовать английский язык в качестве промежуточного. Реализовано в системах СМП по словам. |
|
ПР 4.1: ГП 1Т, ГП 8| - Р 21: |ГП 1|,ГП 8|} |
Для кодировки текста в универсальное представление использовать многослойную нейронную сеть. Реализовано в системах нейронного МП. МП на примерах |
|
ПР 5.1: ГП 1|, ГП 7.2| - Р 22:ГП 1.1| |
Перед копированием перевода выбрать из множества вариантов наиболее вероятный на основе статистических методов. Реализовано в системах СМП по словам. |
|
ПР 5.2: ГП 10|, ГП 1.4| - Р 23:ГП 1.4| |
Записывать порядок слов в предложении относительно друг друга, при переводе выбирать наиболее вероятный вариант на основе статистических методов. Реализовано в системах СМП по словам. |
|
ПР 5.4: ГП 1.5Т, ГП 1.2| - Р 24:ГП 1.2| |
Заранее промаркировать места, где необходимо подставить служебное слово, при переводе заполнить маркеры. Реализовано в системах СМП по словам. |
|
ПР 5.2: ГП 10|, ГП 1.4| - Р 25:{ГП 1.4|, ГП 1.1|} |
Найти все возможные сочетания слов в тексте, при помощи статистических методов найти наиболее вероятный перевод. Реализовано в системах СМП по фразам. |
|
ПР 5.3: ГП 1.4|, ГП 1.5| - Р 26:ГП 1| |
При помощи статистических методов находить среди множества вариантов обучающего корпуса наиболее вероятный перевод целых фраз, а не отдельных слов. Реализовано в системах СМП по фразам. |
|
{ПР 5.2: ГП 10|, ГП 1.4|, ПР 5.4: ГП 1.5|, ГП 1.2Ц - Р 27:{ГП 1.4|, ГП 1.2|} |
Перед переводом производить полный синтаксический разбор предложения, структурируя части текста при помощи деревьев. Реализовано в системах СМП на основе синтаксиса. Интерактивный МП |
|
ПР 6.1: ГП 1|, ГП 11| - Р 28:{ГП 1Т,ГП 1Ц} |
Использовать в качестве посредника между машинным переводом и человеком среду автоматизации переводов, объединив все цифровые инструменты, облегчающие перевод в одной среде. Использовать МП для тех фрагментов, для которых не нашлось совпадений по памяти перевода, при этом выбирать модель перевода исходя из особенности задачи. Реализовано в системах гибридного МП. Статистический МП по словам |
|
ПР 7.1: ГП 1|, ГП 5.2| - Р 29:ГП 5.2| |
Объединить отдельные слова в предложении в фразы во всех возможных сочетаниях по n-слов в каждом и проанализировать перевод для каждого из них, выбрав впоследствии только статистически наиболее вероятные сочетания, т.е. учитывать контекст. Реализовано в системах СМП по фразам. |
|
ПР 7.2: ГП 4|, ГПЦ - Р 30: {ГП 1|,ГП 4|} |
В качестве алгоритма вывода использовать нейронные сети, состоящие из энкодера и декодера. Энкодер сначала кодирует исходный текст в универсальное представление. Декодер распознает универсальное представление и переводит его на язык перевода. Реализовано в системах нейронного МП. Статистический МП по фразам |
|
{ПР 8.2: ГП 1.1|, ГП 1.6|, ПР 8.3: ГП 1.1|, ГП 1.5|} - Р 31:ГП 1| |
Объединить в одной системе несколько типов систем, воспользовавшись преимуществами каждой из них, разделив задачи. Например: перевод отдельных слов по словарю, а "выравнивание" текста доверить СМП или НМП; НМП переводить длинные предложения, СМП переводить короткие фразы. Реализовано в системах гибридного МП. |
|
{ПР 8.2: ГП 1.1|, ГП 1.6|, ПР 8.3: ГП 1.1Т, ГП 1.5|} - |
Учитывать в переводе контекст всего предложения, а не только отдельных фраз при помощи многослойных нейронных сетей с долгосрочной памятью. Реализовано в системах нейронного |
|
Р 32: ГП 1| |
мп. |
|
ПР 8.1: ГП 7|, ГП 1.5| - Решение отсутствует |
||
Статистический МП на основе синтаксиса |
||
{ПР 9.1: ГП 1.2Т, ГП 12Т, ПР 9.2: ГП 4|, ГПЦ} ^ Р 33:ГП 1| |
Использовать многослойную нейронную сеть, не использовать методы синтаксического разбора и анализа. Реализовано в системах нейронного МП. |
|
Нейронный МП |
||
ПР 10.3: ГП 1.7|, ГП 1.84 ^ Р 34: {ГП 1.7|, ГП 1.8|} |
Объединить в одной системе два типа систем, выбрав наиболее подходящую технологию отдельно для длинных предложений, отдельно - для коротких фраз. Реализовано в системах гибридного МП. |
|
ПР 10.5: ГП 16Т, ГП 5| ^ Р 35: ГП 5.2| |
Обучать сеть алгоритмом без учителя, исключив тем самым необходимость подготовки эталонной выборки данных. Реализовано в системах НМП "без учителя". |
|
ПР 10.6: ГП 16|, ГП 1.94 ^ Р 36:ГП 1.9| |
Для каждой из тематик готовить корпуса обучающих данных отдельно. Реализовано в системах адаптированного НМП. |
|
П |
э 10.1: ГП 1.6|, ГП 13| - Решение отсутствует |
|
ПР 10.2: ГП 14|, ГП 1.5| - Решение отсутствует |
||
ПР 10.4: ГП 1.6|, ГП 15| - Решение отсутствует |
||
Адаптированный НМП |
||
ПР 11.1: ГП 1.9|, ГП 5.2| ^ Р 37: ГП 5.2| |
Обучать нейронную сеть алгоритмом "без учителя" на монокорпусах текста вместо параллельных корпусов. Реализовано в системах НМП "без учителя". |
|
НМП "без учителя" |
||
ПР 12.1: ГП 1|, ГП 7| - Решение отсутствует |
||
Гибридный МП |
||
ПР 13.1: ГП 1|, ГП 17| - Решение отсутствует |
||
ПР 13.2: ГП 16|, ГП 8| - Решение отсутствует |
||
ПР 13.3: ГП 4|, ГП 8| - Решение отсутствует |
Анализ ТРИЗ-эволюции систем МП
Анализ ТРИЗ-эволюции систем МП показывает в первую очередь качественные скачки развития, которые позволили сформировать новые парадигмы: переход к трансферному МП привел к созданию парадигмы "перевод, основанный на правилах"; переход к СМП по словам - к созданию парадигмы "статистический МП"; переход к НМП - к созданию парадигмы "нейронный МП".
По улучшаемым параметрам в ходе развития систем МП мы видим, что оно происходило по следующим ключевым направлениям:
повышение качества перевода, причем с развитием МП сам параметр качества трансформировался и детализировался в подпараметры;
сокращение времени на сбор и подготовку обучающих данных;
развитие способов обработки оригинала с целью упрощения его структуры для более точного понимания системой семантики текста;
совершенствование технической реализации МП.
Часть противоречий существующих систем не разрешена (8.1, 10.1, 10.2, 10.4, 12.1, 13.1, 13.2, 13.3), и, следовательно, задачи по разрешению этих противоречий являются перспективными направлениями исследования в области МП.
На основании проведенного анализа можно заключить, что ключевыми направлениями перспективных исследований в области МП являются:
1) развитие методов интерактивного перевода и нативного взаимодействия с пользователями МП. Проблема заключается в том, что, несмотря на огромный прорыв в качестве нейросетевого машинного перевода, он все еще может содержать грубые ошибки, поскольку система не может достаточно точно определять контекст текста целиком, а не отдельного предложения, оттенки смысла и т.д.;
2) разработка эффективных методов анализа и алгоритмов хранения нейросетью контекста всего текста, а не отдельных его частей. Актуальным является исследование и совершенствование способов определения и хранения информации о контексте (смысле) не только соседних слов, но и предложений, а также оценка смысла всего текста;
3) совершенствование архитектуры систем МП и нейросетей, используемых в задачах обработки естественного языка;
4) разработка и совершенствование методов обучения нейросетей на ограниченном объеме монокорпусов текста. Современные системы нейросетевого перевода обучаются "с учителем" на двуязычных параллельных корпусах текста (оригинал и эталонный перевод). Не для всех языков и тематик возможно аккумулировать достаточный для качественного обучения объем таких корпусов. Интерес представляет развитие алгоритмов обучения нейросетей на монокорпусах (один язык, без перевода) "без учителя";
5) решение проблемы извлечения знаний и анализа семантики оригинальных текстов. Проблема извлечения знаний актуальна для многих областей, связана она, в том числе и с обработкой естественного языка;
6) совершенствование методов синтаксического разбора текста для упрощения структуры оригинальных текстов при переводе. Не для всех языков разработаны методы синтаксического разбора и не для всех, для которых разработаны такие, они достаточно качественны;
7) совершенствование методов автоматической оценки и проверки качества переведенных текстов. Проблема заключается в том, что ни методы автоматической оценки качества, ни методы "ручной" оценки качества не являются надежными и достаточно достоверными. Первые не опираются на семантику (смысл) текста, а вторые зависят от компетенции проверяющего специалиста. При этом в обоих случаях высока вероятность пропуска грубых ошибок, учитывая общую "гладкость" нейронного машинного перевода.
Описанные направления развития систем МП относятся к задачам автоматизации извлечения знаний, обработки естественного языка, нейросетевого программирования.Заключение
Предложено использовать ТРИЗ-эволюционный подход к выявлению направлений развития гибридных систем нейронного МП, сформулированы дополнительные положения ТРИЗ-эволюционного анализа, позволяющие систематизировать исследуемую область знаний с большей детализацией.
Применение ТРИЗ-эволюционного анализа систем МП позволило систематизировать данные об эволюции систем МП; определить ключевые этапы развития систем МП; выделить главные производственные параметры, определяющие направления развития систем нейронного МП.
Показано, что перспективным направлением является развития методов анализа, сбора и хранения нейросетью данных о семантических особенностях оригинального текста целиком, а не отдельных его частей.
Таким образом, представленное исследование позволит добиться повышения качества перевода при ограниченном объеме обучающих данных за счет развития методов и алгоритмов предобработки оригинального текста.
Создание модуля автоматизированного предредактирования согласно правилам, которые упрощают понимание текста системой МП и в полуавтоматическом режиме позволяют производить анализ семантики оригинальных текстов, повысит качество МП и дает возможность сделать МП более доступным для пользователей, владеющих только языком оригинального текста.
Литература
1. Wu Y., Schuster М., Chen Z., et al. Google's neural machine translation system: Bridging the gap between human and machine translation // Conference on Empirical Methods in Natural Language Processing. - 2017.
2. Screen B. What effect does post-editing have on the translation product from an end-user's perspective? // J. Spec. Transl. - 2019. - Vol. 31 - P. 133-157.
3. Сайт о развитии отрасли переводов [Электронный ресурс]. - Режим доступа: https://translationrating.ru/
4. Science Direct Journals & Books [Электронный ресурс]. - Режим доступа: https://www.sciencedirect.com/
5. Altshuller G. The innovation algorithm: TRIZ, systematic innovation, and technical creativity. - Worchester, Massachusetts: Technical Innovation Center, 1999.
6. GaddK. TRIZ for Engineers: Enabling Inventive Problem Solving. - John Wiley & Sons, 2011.
7. Creativity, learning techniques and TRIZ / T. Bertoncelli, O. Mayer, M. Lynass // Procedia CIRP. - 2016. - Vol. 39. - P. 191-196.
8. Zhivotova A.A., Berdonosov V.D., Redkolis E.V. Machine translation systems analysis and development prospects // 2020 International Multi-Conference on Industrial Engineering and Modern Technologies. - Vladivostok, 2020.
9. Brown A. Automatic translation of languages // Automatic Translation of Languages: papers presented at NATO Summer School - Venice, 1966. - P. 27-54.
10. Tosh L. W. Data preparation for syntactic translation // International Conference on Computational Linguistics - New York, 1965.
11. Tosh L. W. Stratificational grammar and interlingual mapping for automatic translation // Actes du Xe Congres International des Linguistes. - Bucarest, 1967, - P.1049-1059.
12. Aramaki E., Kurohashi S. Example-based machine translation using structural translation examples // International Workshop on Spoken Language Translation: Evaluation Campaign on Spoken Language Translation. - Japan, 2004. - P. 91-94.
13. Nepveu L., Lapalme G., Langlais P. Adaptive language and translation models for interactive machine translation // Conference on Empirical Methods in Natural Language Processing. - 2004.
14. A statistical approach to machine translation / P. Brown, J. Cocke, S. Della Pietra, et al // Computational linguistics. - 1990. - Vol. 16, No.2. - P.79-85.
15. Junczys-Dowmunt M., Grundkiewicz R. Phrase-based machine translation is state-of-the-art for automatic grammatical error correction // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processingю - 2016. - P. 1546-1556.
16. Yamada K., Knight K. A syntax-based statistical translation model // Proceedings of the Conference of the Association for Computational Linguistics. - 2001. - P. 132-139.
17. Google's multilingual neural machine translation system: enabling zero-shot translation / M. Johnson, M. Schuster, Q. Le, et al // Transactions of the Association for Computational Linguistics. - 2017. - Vol. 5. - P. 339-351.
18. Lample G., Conneau A., Denoyer L., et al. Unsupervised machine translation using monolingual corpora only // ICLR 2018. - 2018.
19. Chu C., Wang R. A survey of domain adaptation for neural machine translation / Proceedings of the 27th International Conference on Computational Linguistics. - 2018. - P. 13041319.
20. Costa-Jussa M., Fonollosa J. Latest trends in hybrid machine translation and its applications / Computer Speech & Language. - 2014. - Vol. 32. - No. 1. - P. 3-10.
Размещено на Allbest.ru
...Подобные документы
Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.
курсовая работа [42,2 K], добавлен 17.11.2014Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.
дипломная работа [4,0 M], добавлен 20.06.2011Понятие и теории перевода, его связь с лингвистикой. Причины формирования и процесс становления науки о переводе. Создание системы машинного переводчика. Развитие сопоставительных контрастивных исследований в языкознании. Современное переводоведение.
презентация [50,0 K], добавлен 29.07.2013Основные понятия и функциональные стили лингвостилистики. Принципы работы и типы систем машинного перевода. Сопоставительный анализ отрывков научно-технического текста и их переводов на русский язык с помощью различных СМП - трансфертной и статистической.
дипломная работа [4,0 M], добавлен 23.06.2011Периодизация истории развития перевода и подходов к нему. Понятие перевода, подходы к переводу текста. Особенности перевода с английского на русский. Специфика работы с иноязычным текстом. Варианты подхода к изучения феномена "ложных друзей переводчика".
курсовая работа [47,7 K], добавлен 10.01.2017Виды и способы перевода, определение способа перевода и меры информационной упорядоченности для переводного текста. Преимущества и трудности синхронного перевода, проблемы синхронистов, возникающие в процессе перевода, психологические условия работы.
реферат [27,7 K], добавлен 25.10.2010Понятие языка и нормы перевода. Обеспечение высокого качества перевода переводчиком. Семантические проблемы перевода. Межъязыковые расхождения в грамматикализации "классических" грамматических категорий. Синтаксические проблемы перевода стихотворений.
реферат [33,3 K], добавлен 23.12.2011Обзор выявления в оригинале конструкций, требующих синтаксических трансформаций при переводе, их классификации и анализа способов перевода. Описания перевода при помощи перестановок, членения и объединения предложений, синтаксических проблем перевода.
курсовая работа [49,1 K], добавлен 29.12.2011Предмет, методы и направления исследования, основное содержание и значение теории перевода. Виды перевода, сферы его применения, оценка качества и языковой сложности. Переводческая сегментация текста, его связность. Типы лексических трансформаций.
контрольная работа [33,6 K], добавлен 20.12.2011Предмет, основные задачи и методы теории перевода. Концепция полной и неполной переводимости. Проблема правильности определения единицы перевода как одна из важнейших условий его адекватности. Особенности психолингвистического подхода к переводоведению.
курсовая работа [34,2 K], добавлен 09.12.2014Понятие перевода как вида языковой коммуникативной творческой деятельности человека. Предмет и методы исследования теории перевода, история ее становления и развития, современные тенденции и перспективы, взаимосвязь с другими науками на сегодняшний день.
презентация [767,5 K], добавлен 22.12.2013Определение понятия "стратегия перевода". Характеристика основных видов переводческих стратегий. Стратегии перевода И.С. Алексеевой. Особенности реферативного перевода и его место в общей классификации. Виды реферативного перевода и их специфика.
курсовая работа [55,8 K], добавлен 09.01.2015Нормативные требования и их роль в оценке качества перевода. Жанрово-стилистическая норма перевода. Классификация смысловых ошибок. Условные критерии оценки качества перевода. Место оценки качества перевода в переводоведении. Норма переводческой речи.
курсовая работа [32,1 K], добавлен 13.04.2015Сущностная характеристика современных наиболее распространенных моделей перевода: ситуативно-денотативная, трансформационная, семантическая, интерпретативная. Теория уровней эквивалентности и трехвазная модель перевода о. Каде. Способы и приемы перевода.
курсовая работа [78,9 K], добавлен 21.02.2011Специфика поэтической предикации и способов объективации глубинных поэтических смыслов в связи с изучением проблем поэтического перевода. Ритм как способ смыслообразования в поэтическом тексте. Взаимоотношение двух коммуникативных систем: "Я-Я" и "Я-ОН".
статья [22,5 K], добавлен 20.08.2013Классификация видов, форм и типов перевода. Понятие синхронного перевода, его характеристики. Распределение внимания синхронного переводчика. Коммуникативная ситуация синхронного перевода. Вероятностное прогнозирование. Обучение синхронному переводу.
реферат [28,5 K], добавлен 16.12.2016Лингвокультурология как наука. Лингвокультурология и концепты. Интерпретативная теория перевода. Необходимость культурологических знаний в деятельности переводчика. Виды киноперевода, особенности закадрового перевода. Анализ перевода монтажных листов.
дипломная работа [76,6 K], добавлен 28.07.2017Описание направленностей и эффективности существующих классификаций трансляционных упражнений. Роль грамматики в обучении искусству перевода. Разработка лингвистического комплекса для пособия "Упражнения по английской грамматике для переводчиков".
дипломная работа [145,7 K], добавлен 23.04.2011Роль и значение перевода в современном мире. Особенности перевода арабизмов в персидском языке. Проблематика перевода письменных персоязычных источников. Особенности межъязыковой речевой деятельности и основные трудности персидско-русского перевода.
курсовая работа [30,3 K], добавлен 13.10.2016Особенности художественного перевода и критерии его оценки. Понятие вторичной номинации, ее классификации и способы перевода. Специфика перевода драматургических текстов. Сопоставительный анализ перевода единиц вторичной номинаций в пьесах Чехова.
курсовая работа [74,7 K], добавлен 22.08.2015