Грамматические особенности компьютерного перевода технических текстов
Проведение исследования перехода развития систем компьютерного перевода от типа HAMT к типу FAMT. Характеристика выявления грамматических и лексико-семантических ошибок, допущенных системами машинного перевода при преобразовании технических текстов.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 02.04.2019 |
Размер файла | 54,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Оренбургский государственный университет
Грамматические особенности компьютерного перевода технических текстов
Моисеева И.Ю.
Сегодня понятие интернет коммуникация становится все более и более востребованным, так как сеть интернет предоставляет человеку доступ к огромному количеству информации, значительная часть которой представлена источниками на иностранном языке. При этом, обмен информацией ускоряется и увеличивается с каждым днем. Понимание же этой информации трудно для пользователя без знания иностранного языка. В решении этой проблемы может помочь компьютерный перевод.
Изучением и разработкой систем компьютерного перевода занимается наука компьютерная лингвистика, задачами которой являются: разработка синтаксического анализатора предложения, разработка компьютерных словообразовательных словарей и проведение с использованием компьютера статистического анализа синтаксических форм текста [1].
История компьютерного перевода берет начало в 1940-х годах, активное развитие компьютерного перевода привело к тому, что в 1967 году в отчете наблюдательного комитета по автоматической обработке текстов национальной академии наук США по целесообразности была подчеркнута непригодность машинного перевода без последующей обработки. Так, в 1982 году, профессор университета Киото Макото Нагао в своем докладе подтвердил неспособность системы компьютерного перевода заменить человека: «Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже» [2].
Дальнейшее развитие компьютерного перевода тесно связано с развитием интернета, так как в современных реалиях интернета вещей (третья и самая современная стадия развития интернета. Переход к Web 3.0 - интернету вещей обусловлен тем, что сегодня доступ к всемирной паутине имеют не только компьютеры, но и вообще любая бытовая техника и автомобили) человек должен иметь возможность быстро получить интересующую его информацию, то есть перевод должен быть осуществлен в кратчайшие сроки.
Сегодня компьютерный перевод, также называемый машинный или автоматический - это, согласно оксфордскому словарю - перевод, осуществляемый при помощи компьютера [3].
Сейчас развитие систем компьютерного перевода находится на стадии перехода от типа HAMT (Human-Assisted Machine Translation) к типу FAMT (Fully-Automated Machine Translation). Процесс начался, когда профессор Макото Нагао предложил осуществлять машинный перевод текстов по аналогии с другими текстами, переведенными ранее вручную. При этом он предполагал, что может быть сформирован и загружен в мощную многопроцессорную ЭВМ достаточно большой массив текстов на одном языке и их переводов на другой язык (массив билингв) и, опираясь на этот массив, можно будет осуществлять перевод новых текстов.
Именно на этом принципе стали основываться системы статистического машинного перевода, которые брали за основу использование больших объемов параллельных корпусов текстов, с помощью которых система учится, выявляя закономерности при переводе. Статистический метод подразумевает собой деление исходного текста на N-граммы, каждой из которой подбирается наилучшее, с точки зрения частотности, совпадение из всего объема проанализированных системой текстов. Данная технология имеет ряд недостатков, например с технологической точки зрения, настройка системы очень сложна, тем не менее, например система компьютерного перевода Google Translate работала по статистическому принципу. Но в ноябре 2016 года корпорация Google представила свою обновленную систему компьютерного перевода - нейронный машинный перевод Google. С этого момента, благодаря развитию искусственного интеллекта и его глубокого обучения (deep learning), были пересмотрены сами подходы к процессу компьютерного перевода [2].
Сегодня, лишь несколько систем перешли на технологию нейросетей. Первой была система Google, в конце 2016 года. Система Яндекс с 2017 года также использует нейросеть, но в отличии от первопроходца, система компьютерного перевода Яндекс производит сразу два варианта перевода - статистический и с помощью нейросети, а затем механизм Catboost, выбирает наиболее подходящий вариант [4].
Основные направления исследований компьютерного перевода сегодня - это разработка более совершенных нейросетей, которые позволят получать адекватный и эквивалентный вариант перевода, основываясь на технологии глубокого обучения, материалом для которого служат массивы параллельных текстов. В данной области исследования нерешенными остаются вопросы разной длинны предложений до и после перевода, а также перевода редких слов и выражений [7]. При этом к числу основных направлений относится также разработка систем оценивания компьютерного перевода, как автоматизированных (METEOR), так и проводимых человеком (шкала оценки Макото Нагао) [6].
Целью нашего исследования является выявление и анализ грамматических и лексико-семантических ошибок, допущенных системами компьютерного перевода при переводе технических текстов. Изучение основных типов ошибок даст возможность разработать в дальнейшем новую систему оценивания, учитывающую особенности каждого типа ошибок.
Материалом исследования служат технические тексты сайта http://www.beldencables-emea.com. Выбор материала исследования обусловлен тем, что именно подобные тексты часто требуются пользователю, и именно они вызывают наибольшие затруднения при компьютерном переводе [10]. Трудности компьютерного перевода технических текстов связаны в первую очередь с тем, что система компьютерного перевода часто не способна верно интерпретировать семантику переводимого текста, и, соответственно, выдать адекватный и эквивалентный перевод. Тематика выбранных текстов сети передачи данных обусловлена тем, что сегодня это одно из актуальных направлений в IT-сфере. Согласно VOIP Industry Dictionary, сеть передачи данных - совокупность оконечных устройств (терминалов) связи, объединённых каналами передачи данных и коммутирующими устройствами (узлами сети), обеспечивающими обмен сообщениями между всеми оконечными устройствами [5]. Осуществление компьютерного перевода текстов данной тематики может существенно облегчить понимание их для конечного пользователя. Нами проанализировано три текста, каждый текст переведен с помощью всех трех анализируемых систем компьютерного перевода. В практической части работы проведен анализ ошибок, допущенных системами компьютерного перевода Google, Яндекс и Промт. Выбор данных систем обусловлен тем, что они используют разные технологии компьютерного перевода. В рамках исследования, ошибки разделены на лексико-семантические и грамматические, которые, в свою очередь, представлены морфологическими и синтаксическими. компьютерный перевод грамматический семантический
Проиллюстрируем алгоритм выявления и анализа ошибок следующим примером компьютерного перевода статьи «Fondamentaux du cвblage : Cвble а fibre optique». Название статьи переведено с помощью всех трех исследуемых систем компьютерного перевода. В данном случае варианты перевода систем Google и Яндекс совпадают: «Основы проводки: Волоконно-оптический кабель», а вариант перевода статистической системы компьютерного перевода Промт «Фундаментальные прокладки кабеля: Телеграфируй оптическому волокну» является примером семантической ошибки, вызванной неверной интерпретацией семантики.
Тип лексико-семантических ошибок связан с неспособностью систем компьютерного перевода верно интерпретировать семантику переводимого текста, особенно это применимо к терминам. Например, слово le coeur в предложении «Cњur: zone de transmission de la lumiиre de la fibre, soit en verre soit en plastique». Система Google переводит как «Сердце», не передавая семантики слова. В данном контексте речь идет о составных частях оптоволоконного кабеля, соответственно и переводиться слово должно, как «Сердечник».
Грамматические ошибки систем компьютерного перевода встречаются гораздо реже, но, тем не менее, системы допускают морфологические и синтаксические ошибки.
Рассмотрим предложение «La rйsistance а la traction, de robustesse, de longйvitй, de souplesse, de taille, de rйsistance а l'environnement, d'inflammabilitй, de plage de tempйratures et d'aspect, tous ces points doivent кtre prises en compte pour la construction d'un cвble а fibre optique». При компьютерном переводе, выполненном системой Google, предложение будет выглядеть так: «Прочность на растяжение, прочность, долговечность, гибкость, размер, сопротивление окружающей среде, воспламеняемость, температурный диапазон и внешний вид, все эти моменты должны быть учтены при построении волоконно-оптический кабель». Морфологическая ошибка в данном примере представлена неверным употреблением слов «волоконно-оптический кабель», слова необходимо употреблять в родительном падеже. Синтаксическая ошибка представлена неверным употреблением предлога при переводе словосочетания «La rйsistance а la traction», необходимо употребить предлог «при» вместо «на». В таком случае верный перевод предложения будет выглядеть так: «Прочность при растяжении, прочность, долговечность, гибкость, размер, сопротивление окружающей среде, огнеупорность, температурный диапазон и внешний вид, все эти моменты должны быть учтены при создании волоконно-оптического кабеля».
Система компьютерного перевода Яндекс допускает те же самые типы ошибок. Так, лексико-семантическая ошибка, представленная в предложении «Ассортимент волоконно-оптических кабелей Belden удовлетворяет гетерогенным, часто сложным потребностям современных передовых сетей», снова связана с неверным определением семантики. Морфологическая ошибка в предложении «Чрезвычайно маленький, ядро одномодового волокна составляет от 5 до 10 микрон» заключается в неверном согласовании падежей. Синтаксическая - заключается в неверной расстановке системой знаков препинания: «Трубка свободной структуры изолирует волокно от внешних механических напряжений которые действуют на кабель». Самое большое количество ошибок наблюдается у системы компьютерного перевода Промт, так как она использует устаревшую сегодня технологию статистического компьютерного перевода. Лексико-семантическая ошибка, связанная с неверным переводом термина, допущена системой в следующем переводе: «Существует два фундаментальных типа волокна: многорежимный и моноспособ». Морфологическая ошибка (неверное употребление формы слова) представлена во фразе: «Показатель преломления, который ослабляется больше удаляемся от направления», а синтаксическая выражается в неверном употреблении предлога: «Волокно в перепаде индекса следовательно уравнивает времена распространения различных способов чтобы передавать данные о намного более длинном расстоянии».
Морфологические и синтаксические ошибки, хоть и являются менее распространенными, в отличие от лексико-семантических, допускаются всеми типами систем компьютерного перевода. Наиболее часто морфологические ошибки проявляются в неспособности системы правильно определить семантику сложного предложения, разобраться в связи слов и верно их согласовать.
Синтаксические ошибки являются следствием невозможности учета всех нюансов расстановки знаков препинания в предложении, так как обучение системы ведется на большом объеме параллельных текстов, а грамматические правила усваиваются по принципу частотности.
Результаты количественного анализа допущенных ошибок представлены в таблице (см. таблицу 1).
Таблица 1 - Количественная репрезентация допущенных ошибок
Системы компьютерного перевода |
Лексико-семантические |
Грамматические |
||
Морфологические |
Синтаксические |
|||
|
14 |
8 |
4 |
|
Яндекс |
24 |
8 |
4 |
|
Промт |
67 |
5 |
10 |
На основе таблицы составлена диаграмма (см. рис. 1).
Рис. 1 - Сравнительные показатели допущенных ошибок
Таким образом, наибольшее затруднение вызывает неспособность систем компьютерного перевода верно передать семантику переводимого технического текста. Тем не менее, в большинстве случаев системы компьютерного перевода не допускают грамматических ошибок, они составляют всего около 27% от общего числа ошибок. Наибольшее количество лексико-семантических ошибок связано с неверным переводом терминов, грамматических - с неверным согласованием слов в лице и падеже, особенно в случаях сложных предложений, где придаточное предложение находится между двумя частями главного.
Сегодня, с момента введения технологии глубокого обучения в процессе компьютерного перевода, системы получили способность самообучаться, учитывая свои ошибки. Несмотря на пока нерешенные проблемы, обусловленные разницей количества слов в переводимом предложении, сложностями перевода редких слов, недостаточной разработанностью систем оценивания компьютерного перевода, в дальнейшем мы можем получить очень мощный инструмент, сильно облегчающий работу переводчика-постредактора.
Список литературы
1. Ясулова, Х.С. Прикладные задачи компьютерной лингвистики / Х.С. Ясулова, Ш.Б. Шихиев // Вестник СПИ. - 2015.
2. Nagao, M. and Mori, S. A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese / In Proceedings of the 15th International Conference on Computational Linguistics (COLING 1994). - Kyoto, Japan, 1994.
3. Переходько И.В. Оценка качества компьютерного перевода / И.В Переходько, Д.А. Мячин // Вестник ОГУ. - 2017.
4. Комиссаров, В.Н. Теория перевода (лингвистические аспекты) / В.Н. Комиссаров. - М.: Высш. шк., 1990. - 253 с.
Размещено на Allbest.ru
...Подобные документы
Лексико-грамматические особенности перевода научно-технических текстов. Понятие "стиль" и требования, предъявляемые к научно–техническому стилю русского языка в англо–русском переводе. Эквивалентность и адекватность перевода научно–технических текстов.
дипломная работа [189,2 K], добавлен 26.02.2011Лексические и грамматические проблемы перевода научно-технических текстов, насыщенных специальными терминами и словосочетаниями. Атрибутивные конструкции как один из распространенных типов свободных словосочетаний в английских научно-технических текстах.
курсовая работа [78,0 K], добавлен 23.07.2015Изучение лексико-грамматических и стилистических особенностей перевода военных текстов. Текстуальные категории военных текстов. Выявление специфических приемов перевода, используемых для передачи текстов военного характера с английского языка на русский.
дипломная работа [94,1 K], добавлен 20.05.2015Классификация перевода по жанровой принадлежности оригинала. Эквивалентность при информативном переводе. Лексико-грамматические и стилистические характеристики специальных текстов. Переводческий анализ текстов прагматической направленности компании AES.
дипломная работа [97,5 K], добавлен 05.05.2008- Особенности перевода свободных словосочетаний и фразеологических единиц в научно-технических текстах
Характеристика научно-технического текста на лексическом, стилистическом, грамматическом и синтаксическом уровнях. Анализ терминологии английских научно-технических текстов. Основные трудности перевода свободных и устойчивых словосочетаний данных текстов.
курсовая работа [50,2 K], добавлен 08.06.2013 Признаки и характерные особенности перевода текстов научного стиля. Лексические особенности и трудности перевода. Специфика морфологии и основные проблемы перевода, синтаксические особенности текстов научного стиля и научно-популярного подстиля.
дипломная работа [137,5 K], добавлен 19.02.2015Теоретические основы перевода. Оценка выполнения перевода романа У. Коллинза "Женщина в белом" с точки зрения лексико-грамматических и лексических аспектов. Общие замечания, ошибки и вставки. Некоторые интересные случаи. Вольности и неточности перевода.
курсовая работа [49,9 K], добавлен 19.12.2010Основные характеристики технического текста. Лексико-грамматические особенности стиля технического текста. Перераспределение содержания, сопровождаемое изменением синтаксической структуры фразы. Анализ перевода инструкции к китайским телефонам.
курсовая работа [62,9 K], добавлен 17.04.2012Понятие перевода, его функции и роль в современном мире. Особенности профессии переводчика. Лингвокультурные факторы перевода юридического текста. Правовая лингвистика и взаимосвязь языка и права. Виды и особенности перевода юридических текстов.
курсовая работа [59,0 K], добавлен 11.12.2009Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.
дипломная работа [174,2 K], добавлен 09.07.2015Лексико-грамматические особенности философского текста, стилистические аспекты его перевода. Стилистические особенности языка Т. Гоббса и И. Канта. Сравнительный анализ отрывка перевода трудов Т. Гоббса "Левиафан" и И. Канта "Критика чистого разума".
дипломная работа [83,2 K], добавлен 29.07.2017Основные исторические этапы возникновения переводческой деятельности. Первые теоретики перевода: Цицерон, Этьен Доле, Тайлер, Сэвори. Использование перевода в царской России в качестве орудия диссидентства. Особенности перевода технических текстов.
презентация [45,4 K], добавлен 29.07.2013Исследование грамматических переводческих трансформаций с точки зрения изменений, которые они вызывают при переводе английской научно-технической литературы. Грамматика английской технической литературы. Особенности перевода научно-технических текстов.
дипломная работа [184,0 K], добавлен 13.06.2013Перевод и его виды. Особенности перевода научно-технических и официально-деловых материалов. Лексическая эквивалентность и трансформация при переводе текстов строительной тематики. Особенности перевода лексики и терминологии сферы строительства.
дипломная работа [103,6 K], добавлен 15.07.2010Виды перевода и текст как объект перевода. Стилистическая принадлежность и особенности текстов сферы строительства. Значимость лексической эквивалентности при переводе текстов строительной тематики. Особенности перевода лексики сферы строительства.
дипломная работа [85,9 K], добавлен 10.02.2012Адекватность и эквивалентность как базисные понятия теории перевода. Функционально-стилистические особенности научно-популярных текстов в аспекте переводоведения. История и векторы развития компьютерного перевода. Принцип работы электронных переводчиков.
курсовая работа [81,2 K], добавлен 16.01.2009Функционально-стилистическая характеристика газетно-информационного текста, особенности перевода и трудности в данной сфере. Анализ англо-русского и русско-английского перевода газетно-информационных текстов, выявление основных способов избежать ошибок.
дипломная работа [132,8 K], добавлен 03.07.2015Классификация, характерные и стилистические особенности рекламных текстов. Приемы параллелизма и повтора. Наиболее частые трудности, возникающие при переводе рекламных текстов. Интересные примеры перевода из публицистической продукции и сети Интернет.
курсовая работа [46,8 K], добавлен 18.04.2011Понятие перевода в современной лингвистике. Уровни и виды эквивалентности. Сложности и особенности перевода художественных текстов. Дискурс-анализ произведений детективного жанра. Дискурсивная модель Синклера и Коултхарда в развитии С.К. Гураль.
дипломная работа [90,9 K], добавлен 27.10.2010Специальная теория перевода и понятие адекватности экономического дискурса. Особенности перевода английских экономических текстов: на уровне лексических единиц, на грамматическом и стилистическом уровне. Перевод заголовков, фразеологизмов, клише, метафор.
дипломная работа [87,3 K], добавлен 11.05.2012