Отдельные слабые стороны современного машинного перевода (на примере веб-службы "Google Translate")

Использование нейронного перевода - причина повышения качества услуг, предоставляемых веб-службой "Google Translate". Авторские окказионализмы — не зафиксированные в словарях лексические единицы, использующиеся в научно-популярных статьях и докладах.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 26.01.2019
Размер файла 15,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

За последние двадцать лет появилось большое количество сервисов машинного перевода, предоставляющих услуги в режиме онлайн: “Free Translation”, “Google Translate”, “InterTran”, “SYSTRANet”, “Translate.ru”, “Windows Life Translator” и др. На рубеже столетий качество переводов было очень низким: часто их нельзя было использовать даже для ознакомления с общим содержанием исходного текста. Многочисленные ошибки в синтаксисе, временах, артиклях, управлении, значениях слов и словосочетаний делали перевод неудобочитаемым. Сначала подобные искажения возникали даже при перекодировании простейших высказываний, соответствующих уровню “Beginner”: например, предложение Он учитель могло быть переведено как He is teacher (без артикля), He a teacher (без глагола) или даже He teacher. Качество услуг, предоставляемых веб-службами, постоянно росло, но темпы этого прогресса оставляли желать лучшего. Эволюцию машинного перевода в 1990-е -- 2010-е годы можно проследить по многочисленным научным статьям и другим работам [Мюге, 2009; Исламов и др., 2013; Митренина, 2017; Anderson, 1995; Koehn, 2005; Sutskever et al., 2014 и др.].

Два года назад машинный перевод вышел на принципиально новый уровень. У истоков этой революции стояла веб-служба “Google Translate”: с ноября 2016 года она стала переходить на нейронный перевод, основанный на анализе огромного количества примеров [Schuster et al., 2016]. Новый движок был активирован для девяти языков: английского, испанского, китайского, корейского, немецкого, португальского, турецкого, французского и японского. В статье Г. Льюиса-Крауса приведены два перевода одного и того же текста с японского языка на английский [LewisKraus, 2016]. Перевод № 1 был выполнен веб-службой “Google Translate” (далее -- GT) до упомянутых изменений, а перевод № 2 -- после них:

№ 1

Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west, “Ngaje Ngai” in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.

№ 2

Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called “Ngaje Ngai” in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.

Перевод № 2 несовершенен: второе предложение не очень удачно сформулировано (in Masai лучше было бы поставить в начало, а вместо The summit of the west использовать более лаконичное The western summit); в третьем и четвертом предложениях пропущены артикли перед словом leopard (неопределенный и определенный соответственно). Однако он существенно превосходит Перевод № 1, который содержит множество грамматических и лексических ошибок, затрудняющих восприятие отдельных фрагментов и текста в целом. Автор статьи подчеркивает революционность произошедших изменений, указывая на крайне малый срок, разделяющий два перевода: 24 часа.

В марте 2017 года к перечисленным девяти языкам добавились еще пять, в том числе русский. Популярность веб-сервиса в нашей стране значительно повысилась: использовать GT стало целесообразно для ознакомительного или срочного перевода, а также при перекодировании относительно простых текстов. Тем не менее качество нейронного перевода уступает тому уровню, который демонстрируют специалисты. В недавней статье [Самохин и др., 2018] мы рассмотрели недостатки GT, связанные с недостаточной эффективностью сервисного алгоритма. В данной же работе исследуются ошибки и неточности, имеющие другие причины -- недостаточный объем общей и терминологической лексики в базе данных и присутствие в ней отдельных неправильных переводов слов и словосочетаний.

Мы решили рассмотреть перевод с русского языка на английский, поскольку GT выполняет его на более высоком уровне. Это позволяет нам точнее оценить возможности веб-службы. Кроме того, англоязычный перевод научных текстов является актуальным для научно-педагогических работников (при подготовке статей для международных журналов, индексируемых в базах данных “Scopus” и “Web of Science”) и студентов лингвистических специальностей (при написании выпускных квалификационных работ на первом иностранном языке).

Основная часть выбранных терминов и понятий имеет отношение к филологии и педагогике -- в соответствии со специальностью авторов и осуществляемой ими деятельностью. Приведены рекомендации по исправлению некоторых ошибок и неточностей, допущенных веб-сервисом, в ходе «живого» (осуществляемого специалистом) редактирования. Следует отметить, что подобные искажения допускаются и конкурентами GT, поэтому данная статья может оказаться полезной и для тех читателей журнала, кто предпочитает использовать другие веб-службы («Translate.Ru», «Яндекс.Переводчик» и т. д.).

В исследовании рассматриваются варианты перевода, предложенные GT в первой половине июня 2018 года. Вероятно, на момент публикации данной работы отдельные термины и предложения будут переводиться подругому.

Анализ ошибок веб-службы “Google Translate”, связанных с некорректной передачей отдельных терминов и понятий.

Пожалуй, чаще всего встречается неточный перевод со ставных терминов и понятий: языковая картина мира -- language picture of the world (правильно: linguistic worldview), компьютерная лингвистика -- computer linguistics (правильно: computational linguistics), возрастная психология -- age-related psychology (правильно: developmental psychology), педагог-психолог -- pedagogue-psychologist (правильно: educational psychologist), социальный педагог -- social teacher (правильно: social pedagogue или social educator). Если подобную ошибку совершает живой переводчик, то она, скорее всего, связана с феноменом межъязыковой интерференции: человек просто калькирует привычный термин, даже не задумавшись, что английский эквивалент может чем-то отличаться (калькирование использовано во всех приведенных примерах, кроме последнего). Если же ошибается веб-служба, то дело, вероятно, в полном «незнании» термина, его отсутствии в загруженном словаре. То есть GT не содержит неверный перевод, а воспринимает составной термин как свободное словосочетание; не видит принципиальной разницы между синтаксическими единицами «возрастная психология» и, скажем, «красивая психология» или «треугольная психология».

Ошибки, приведенные в начале предыдущего абзаца, относительно безобидны, так как не мешают восприятию смысла. Вспоминается персонаж одного из фильмов П.Е. Тодоровского -- иностранец, допустивший похожую оплошность, только не в термине, а в идиоме Чтоб ваш дом всегда была полная чашка. В кино над его неточностью добродушно посмеялись, а вот переводчику (и живому, и «онлайновому») стоит по возможности избегать подобных «помарок»: они могут подорвать доверие к тексту, к его содержанию (даже при отсутствии явных смысловых искажений). Однако следует отметить, что словосочетания вроде computer linguistics и age-related psychology смутят лишь того читателя, который разбирается в предмете и владеет английским языком на достаточно высоком уровне.

Прямые смысловые ошибки и грубые неточно сти при передаче однозначных терминов и понятий характерны для GT в меньшей степени -- как и для других веб-служб («Яндекс.Переводчик», «Translate. Ru» и т. д.). Тем не менее пока случаются и такие досадные промахи:

* фантастическая литература -- fiction (правильно: speculative fiction, поскольку существительное fiction имеет более широкое значение `художественная литература');

* игровая деятельность -- gaming (правильно: play activity, так как gaming -- это то же, что gambling (не игровая деятельность, а игорная));

* доктор наук -- Ph.D (правильно: Grand Ph.D или Doctor of sciences; формальным и фактическим аналогом Ph.D является другая отечественная степень -- кандидат наук).

Некоторые русскоязычные термины не имеют четких эквивалентов в английском языке (или же такие эквиваленты есть, но по какой-то причине обделены вниманием специальной теории перевода). Это приводит к смысловым ошибкам иного рода -- созданию конструкций, лишенных какого-либо очевидного смысла. Так, базовое организационно-педагогическое понятие «цензовое образование» GT превращает в census education (`образование, основанное на переписи, сборе сведений') -- и это при наличии у русского термина очень близкого аналога: outcome-based education. А термин частное языкознание веб-сервис передает загадочным словосочетанием private linguistics. Читателю остается лишь гадать, какая лингвистика имеется в виду. Непубличная? Принадлежащая отдельному лицу? Связанная с негосударственным предпринимательством? В отечественной литературе частное языкознание иногда называют специальным [Сергиевский, 1952; Тиллоева, 2012], однако вариант special linguistics также может оказаться, мягко говоря, недопонятым. “Wikipedia” предлагает использовать термин descriptive linguistics, но и здесь есть проблема: частное языкознание бывает не только дескриптивным (описательным), но и историческим (изучающим язык в его развитии). Поэтому лучше, по-видимому, отдать предпочтение описательному переводу: a branch of linguistics which studies certain languages.

Порой два русских слова имеют один и тот же англоязычный эквивалент, что ставит GT в «тавтологический тупик»: студенты и слушатели -- students and students, учителя и преподаватели -- teachers and teachers, училища и колледжи -- colleges and colleges, выводы и заключение -- conclusions and conclusion, реферат и аннотация -- abstract and abstract. (Любопытно, что при измененном порядке слов перевод может оказаться другим, даже более качественным. Например, училища и колледжи GT передает как colleges and colleges, а колледжи и училища -- как colleges and schools. На наш взгляд, это почти так же странно, как перемена мест слагаемых, повлиявшая на сумму). Переводчик из плоти и крови может построить несколько громоздких предложений, а вот написать что-то вроде teachers and teachers -- едва ли (особенно дважды или трижды в рамках одного текста). Поэтому мы рекомендуем коллегам избавлять свои GT-переводы, по меньшей мере, от таких ошибок. Способов достаточно много: (1) опущение одного из существительных (студенты и слушатели -- students); (2) поиск более точного аналога на уровне словосочетаний (училища и колледжи -- specialized schools and colleges); (3) описательный перевод (учителя и преподаватели -- teachers working at schools and higher education institutions).

Есть проблемы и с пониманием аббревиатур -- особенно в таких разделах, как «Сведения об авторах», «Благодарности» и «Литература», где часто указываются сокращенные названия образовательных учреждений (в последнем разделе -- в названиях журналов, сборников и издательств). Некоторые аббревиатуры веб-сервис успешно распознаёт, используя закрепившиеся эквиваленты: МГУ -- MSU (Moscow State University), МГЛУ -- MSLU (Moscow State Linguistic University), РУДН -- PFUR (Peoples' Friendship University of Russia), ВШЭ -- HSE (Higher School of Economics). Однако в большинстве случаев применяется обычная транслитерация. В результате получается набор букв, не соотносимый с полным англоязычным названием российского вуза: МПГУ -- MPGU, ПСТГУ -- PSTGU, МАБиУ -- MABiU и т. д. При передаче терминов и понятий происходит, разумеется, то же самое: ИКУ (исследовательские компетенции учителя) -- IKU; СБСППС (событийная сущность профессиональной подготовки специалистов) -- SBSPPS [Дзюбенко и др., 2018, c. 305; К проблеме …, 2018, с. 331]. На наш взгляд, переводчики должны приводить полные англоязычные названия, дополняя их корректными аббревиатурами. Например: МАБиУ -- International Academy of Business and Management (IABM), СБСППС -- Co-Existence Essence of Specialists' Professional Training (CEESPT).

Хуже всего GT справляется с передачей авторских окказионализмов -- не зафиксированных в словарях лексических единиц, которые иногда используются в научно-популярных статьях и докладах: обграммачивание -- obgramchivanie (предпринята попытка транскрибирования, не раскрывающая смысл придуманного слова), лингвечер -- lingu (предложен окказионализм, передающий лишь общую сему), школиоз -- schoolboy (допущена полная смысловая ошибка), фурсенко-ливановский -- Fursenko-Lebanon (смешение фамилии и названия страны) и т. д. При таких результатах не приходится надеяться на успех в более сложных случаях. Например, Л. П. Шустова в своей диссертации предлагает программу межполового воспитания под названием «ГормониЯ» [Шустова, 2006, с. 94--127]. GT уверенно избавляется от творческой составляющей, устраняя и контаминацию, и словосложение. Получаем нейтральный, «идейно выдержанный» перевод: “Harmony”. Даже в научных текстах авторские окказионализмы остаются «полномочными представителями» языка художественной литературы и его ближайшего родственника -- ассоциативно-образного мышления, которым искусственный интеллект пока не обладает. Поэтому любой человек, даже не переводчик и не писатель, перекодирует такие слова лучше самой продвинутой веб-службы. Наши варианты: обграммачивание -- overgrammaring, лингвечер -- language party, школиоз -- schooliosis, фурсенко-ливановский -- of two previous ministers, ГормониЯ -- HormonI.

Можно констатировать, что использование нейронного перевода привело к существенному повышению качества услуг, предоставляемых веб-службой “Google Translate”. Тем не менее данный сервис до сих пор допускает ошибки (смысловые и стилистические) при переводе следующих категорий лексики: составных терминов и понятий (компьютерная лингвистика, педагог-психолог); лексических единиц и словосочетаний, не имеющих четких эквивалентов в английском языке (частное языкознание, цензовое образование); двух слов с одним и тем же англоязычным эквивалентом (учителя и преподаватели, студенты и слушатели); аббревиатур; авторских окказионализмов (которые могут использоваться, например, в текстах докладов или научно-популярных статей). Также GT, как ни странно, не всегда подбирает верный аналог для вполне однозначных и широко используемых русских понятий (например, доктор наук превращается в Ph.D, то есть понижается до кандидата наук, что может вводить в заблуждение, если речь идет о конкретном ученом).

Таким образом, машинный перевод до сих пор нуждается в редактировании -- пусть и не таком значительном, как раньше, до внедрения нейронных методов, следовательно, тем, кто прибегает к помощи той или иной веб-службы, следует помнить об этом. Отметим, что некоторые ошибки и неточности являются «фирменной» чертой современного машинного перевода (злоупотребление предлогом of, сочетания вроде students and students и др.).

Что касается перспектив машинного перевода, точный прогноз едва ли возможен. Безусловно, успехи GT внушают немалый оптимизм, однако доля скепсиса не повредит. Вспомним: полет Гагарина в космос привел к разговорам о том, что в ближайшие десятилетия человечество освоит иные галактики и, возможно, войдет в контакт с представителями внеземных цивилизаций. Но спустя более полувека мы даже не побывали на Марсе.

Литература

окказионализм нейронный перевод лексический

1. Дзюбенко С.В. Совершенствование исследовательских компетенций школьного педагога в контексте модернизации отечественного образования / С.В. Дзюбенко, М.Г. Сергеева, И.С. Самохин // Научный диалог. -- 2018. -- № 2. -- С. 303-- 321. -- DOI: 10.24224/2227-1295-2018-2-303-321.

2. Исламов Р.С. Анализ современных систем машинного перевода типа SMT и RBMT / Р.С. Исламов, А.Г. Фомин // Филологические науки. Вопросы теории и практики. -- 2013. -- № 3 (21). -- Часть 1. -- С. 69--73.

3. Митренина О.В. Назад, в 47-й: к 70-летию машинного перевода как научного направления / О.В. Митренина // Вестник Новосибирского государственного университета. -- Серия: Лингвистика и межкультурная коммуникация. -- 2017. -- Т. 15. -- № 3. -- С. 5--12.

4. Мюге У. Три мифа о машинном переводе / У. Мюге // Профессиональный перевод и управление информацией. -- 2009. -- № 1. -- С. 3--8.

5. Самохин И.С. Современный машинный перевод в контексте российского высшего образования (исследование на материале услуг, предоставляемых вебслужбой “GOOGLE TRANSLATE”) / И. С. Самохин, М.Г. Сергеева, Н.Л. Соколова // Казанский педагогический журнал. -- 2018. -- № 5. -- С. 195--201.

6. Сергиевский М.В. Введение в романское языкознание: учебник / М.В. Сергиевский. -- Москва: Издательство литературы на иностранных языках, 1952. -- 278 c.

7. Тиллоева С.М. Общелингвистический взгляд на язык / С.М. Тиллоева // Профессионально-ориентированное обучение иностранным языкам: сборник материалов V Научно-практической конференции. Уральский государственный педагогический университет, Институт иностранных языков, Кафедра иностранных языков; под ред. О. П. Казаковой. -- Екатеринбург, 2012. -- С. 151--160.

8. Шустова Л.П. Формирование гендерной толерантности старшеклассников в специально созданных педагогических условиях: диссертация ... кандидата педагогических наук: 13.00.01 / Л. П. Шустова. -- Ульяновск, 2006. -- 215 с.

9. Anderson D.D. Machine translation as a tool in second language learning / D.D. Anderson // CALICO Journal. -- 1995. -- V. 13, N. 1. -- Pр. 68--96.

10. Koehn P. Europarl: A Parallel Corpus for Statistical Machine Translation [Electronic resource] / P. Koehn // Conference Proceedings: the tenth Machine Translation Summit. Phuket, Thailand, AAMT. -- 2005. -- Pр. 79-86.

11. Lewis-Kraus G. The Great A. I. Awakening [Electronic resource] / G. LewisKraus // The New York Times Magazine. -- 14.12.2016. -- Access mode: https://www. nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html.

12. Schuster M. Zero-Shot Translation with Google's Multilingual Neural Machine Translation System [Electronic resource] / M. Schuster, M. Johnson, N. Thorat // Google AI Blog. -- 22.11.2016. -- Access mode: https://ai.googleblog.com/2016/11/zero-shottranslation-with-googles.html

13. Sutskever I. Sequence to Sequence Learning with Neural Networks [Electronic resource] / I. Sutskever, O. Vinyals, Q. Le // NIPS, 2014. -- Access mode: https://arxiv. org/pdf/1409.3215.pdf

Размещено на Allbest.ru

...

Подобные документы

  • Контрольная по английскому языку, состоит из заданий по переводу текстов и вопросов. Тема – бухгалтерский учет. Например - translate the text "Money and its functions.", translate the following words, phrases and statements from Russian into English.

    контрольная работа [18,0 K], добавлен 26.12.2008

  • Признаки и характерные особенности перевода текстов научного стиля. Лексические особенности и трудности перевода. Специфика морфологии и основные проблемы перевода, синтаксические особенности текстов научного стиля и научно-популярного подстиля.

    дипломная работа [137,5 K], добавлен 19.02.2015

  • Научно-популярный текст - объект перевода. Место научно-популярного стиля в системе функциональных стилей. Переводческие, лексические и грамматические трансформации. Особенности религиозной лексики. Терминология гностических и иных течений в христианстве.

    дипломная работа [215,5 K], добавлен 30.12.2014

  • Перевод специальных текстов с русского на английский язык. Обеспечение точного и адекватного перевода технической документации. Адекватность перевода как лингвистическая проблема. Термины как особые лексические единицы официально-делового стиля.

    дипломная работа [55,4 K], добавлен 30.12.2009

  • Понятие, лексические и семантические признаки профессионализмов как лексической единицы. Основные способы, приемы и трудности перевода профессиональной лексики. Применение некоторых лингвистических приемов в практике перевода специализированных текстов.

    курсовая работа [39,8 K], добавлен 24.01.2012

  • Авторский неологизм как лингвистический феномен и объект перевода. Пути передачи неологизмов: транскрипция, транслитерация, калькирование, функциональная замена. Авторские неологизмы в трилогии Толкиена "Властелин колец". Переводческие окказионализмы.

    дипломная работа [50,8 K], добавлен 07.04.2012

  • Нормативные требования и их роль в оценке качества перевода. Жанрово-стилистическая норма перевода. Классификация смысловых ошибок. Условные критерии оценки качества перевода. Место оценки качества перевода в переводоведении. Норма переводческой речи.

    курсовая работа [32,1 K], добавлен 13.04.2015

  • Классификация и типы функциональных стилей, их отличительные характеристики. Научно-популярный стиль как разновидность научного стиля, его основные стилистические и лексические характеристики. Проблемы перевода научно-популярного текста на примере.

    дипломная работа [6,5 M], добавлен 18.10.2013

  • Виды перевода и текст как объект перевода. Стилистическая принадлежность и особенности текстов сферы строительства. Значимость лексической эквивалентности при переводе текстов строительной тематики. Особенности перевода лексики сферы строительства.

    дипломная работа [85,9 K], добавлен 10.02.2012

  • Перевод и его виды. Особенности перевода научно-технических и официально-деловых материалов. Лексическая эквивалентность и трансформация при переводе текстов строительной тематики. Особенности перевода лексики и терминологии сферы строительства.

    дипломная работа [103,6 K], добавлен 15.07.2010

  • Адекватность и эквивалентность как базисные понятия теории перевода. Функционально-стилистические особенности научно-популярных текстов в аспекте переводоведения. История и векторы развития компьютерного перевода. Принцип работы электронных переводчиков.

    курсовая работа [81,2 K], добавлен 16.01.2009

  • Способы перевода художественного текста. Основные способы перевода и передачи ономастических единиц в романе Стивена Кинга "Сияние". Особенности перевода эпитетов и сравнений в романе, использование калькирования для создания индивидуального стиля.

    курсовая работа [35,2 K], добавлен 30.05.2009

  • Понятие языка и нормы перевода. Обеспечение высокого качества перевода переводчиком. Семантические проблемы перевода. Межъязыковые расхождения в грамматикализации "классических" грамматических категорий. Синтаксические проблемы перевода стихотворений.

    реферат [33,3 K], добавлен 23.12.2011

  • Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

    дипломная работа [4,0 M], добавлен 20.06.2011

  • Лексические и грамматические проблемы перевода научно-технических текстов, насыщенных специальными терминами и словосочетаниями. Атрибутивные конструкции как один из распространенных типов свободных словосочетаний в английских научно-технических текстах.

    курсовая работа [78,0 K], добавлен 23.07.2015

  • Понятие и виды безэквивалентной лексики. Квазиреалии как лексические единицы с социокультурным компонентом. Анализ основных квазиреалий антиутопии "Мы" как средства создания фантастического мира. Приемы и стратегии их перевода на английский язык.

    курсовая работа [37,0 K], добавлен 22.03.2014

  • Лингвистические, лексические и грамматические особенности статей по дизайну и оформлению. Проблема перевода заголовков и перевод надписей на рисунках. Проблема перевода авторских неологизмов и профессиональной лексики. Прием антонимического перевода.

    дипломная работа [3,3 M], добавлен 14.11.2017

  • Выделение единиц перевода на уровне фонем, графем, морфем, слов, словосочетаний, предложений и текста. Выявление текстовой функции исходной единицы перевода. Пространственно-временные и причинно-следственные характеристики словесного состава текста.

    презентация [38,7 K], добавлен 29.07.2013

  • Лексико-грамматические особенности перевода научно-технических текстов. Понятие "стиль" и требования, предъявляемые к научно–техническому стилю русского языка в англо–русском переводе. Эквивалентность и адекватность перевода научно–технических текстов.

    дипломная работа [189,2 K], добавлен 26.02.2011

  • Рассмотрение и анализ популярных в Интернете он-лайн переводчиков, сравнение их возможностей и функций. Технологии, на которых работают он-лайн транслейторы. Сравнительная характеристика перевода английских шуточных текстов с помощью он-лайн словарей.

    курсовая работа [452,6 K], добавлен 06.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.