Грамматические особенности компьютерного перевода технических текстов

Проведение исследования перехода развития систем компьютерного перевода от типа HAMT к типу FAMT. Характеристика выявления грамматических и лексико-семантических ошибок, допущенных системами машинного перевода при преобразовании технических текстов.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 02.04.2019
Размер файла 54,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Оренбургский государственный университет

Грамматические особенности компьютерного перевода технических текстов

Моисеева И.Ю.

Сегодня понятие интернет коммуникация становится все более и более востребованным, так как сеть интернет предоставляет человеку доступ к огромному количеству информации, значительная часть которой представлена источниками на иностранном языке. При этом, обмен информацией ускоряется и увеличивается с каждым днем. Понимание же этой информации трудно для пользователя без знания иностранного языка. В решении этой проблемы может помочь компьютерный перевод.

Изучением и разработкой систем компьютерного перевода занимается наука компьютерная лингвистика, задачами которой являются: разработка синтаксического анализатора предложения, разработка компьютерных словообразовательных словарей и проведение с использованием компьютера статистического анализа синтаксических форм текста [1].

История компьютерного перевода берет начало в 1940-х годах, активное развитие компьютерного перевода привело к тому, что в 1967 году в отчете наблюдательного комитета по автоматической обработке текстов национальной академии наук США по целесообразности была подчеркнута непригодность машинного перевода без последующей обработки. Так, в 1982 году, профессор университета Киото Макото Нагао в своем докладе подтвердил неспособность системы компьютерного перевода заменить человека: «Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже» [2].

Дальнейшее развитие компьютерного перевода тесно связано с развитием интернета, так как в современных реалиях интернета вещей (третья и самая современная стадия развития интернета. Переход к Web 3.0 - интернету вещей обусловлен тем, что сегодня доступ к всемирной паутине имеют не только компьютеры, но и вообще любая бытовая техника и автомобили) человек должен иметь возможность быстро получить интересующую его информацию, то есть перевод должен быть осуществлен в кратчайшие сроки.

Сегодня компьютерный перевод, также называемый машинный или автоматический - это, согласно оксфордскому словарю - перевод, осуществляемый при помощи компьютера [3].

Сейчас развитие систем компьютерного перевода находится на стадии перехода от типа HAMT (Human-Assisted Machine Translation) к типу FAMT (Fully-Automated Machine Translation). Процесс начался, когда профессор Макото Нагао предложил осуществлять машинный перевод текстов по аналогии с другими текстами, переведенными ранее вручную. При этом он предполагал, что может быть сформирован и загружен в мощную многопроцессорную ЭВМ достаточно большой массив текстов на одном языке и их переводов на другой язык (массив билингв) и, опираясь на этот массив, можно будет осуществлять перевод новых текстов.

Именно на этом принципе стали основываться системы статистического машинного перевода, которые брали за основу использование больших объемов параллельных корпусов текстов, с помощью которых система учится, выявляя закономерности при переводе. Статистический метод подразумевает собой деление исходного текста на N-граммы, каждой из которой подбирается наилучшее, с точки зрения частотности, совпадение из всего объема проанализированных системой текстов. Данная технология имеет ряд недостатков, например с технологической точки зрения, настройка системы очень сложна, тем не менее, например система компьютерного перевода Google Translate работала по статистическому принципу. Но в ноябре 2016 года корпорация Google представила свою обновленную систему компьютерного перевода - нейронный машинный перевод Google. С этого момента, благодаря развитию искусственного интеллекта и его глубокого обучения (deep learning), были пересмотрены сами подходы к процессу компьютерного перевода [2].

Сегодня, лишь несколько систем перешли на технологию нейросетей. Первой была система Google, в конце 2016 года. Система Яндекс с 2017 года также использует нейросеть, но в отличии от первопроходца, система компьютерного перевода Яндекс производит сразу два варианта перевода - статистический и с помощью нейросети, а затем механизм Catboost, выбирает наиболее подходящий вариант [4].

Основные направления исследований компьютерного перевода сегодня - это разработка более совершенных нейросетей, которые позволят получать адекватный и эквивалентный вариант перевода, основываясь на технологии глубокого обучения, материалом для которого служат массивы параллельных текстов. В данной области исследования нерешенными остаются вопросы разной длинны предложений до и после перевода, а также перевода редких слов и выражений [7]. При этом к числу основных направлений относится также разработка систем оценивания компьютерного перевода, как автоматизированных (METEOR), так и проводимых человеком (шкала оценки Макото Нагао) [6].

Целью нашего исследования является выявление и анализ грамматических и лексико-семантических ошибок, допущенных системами компьютерного перевода при переводе технических текстов. Изучение основных типов ошибок даст возможность разработать в дальнейшем новую систему оценивания, учитывающую особенности каждого типа ошибок.

Материалом исследования служат технические тексты сайта http://www.beldencables-emea.com. Выбор материала исследования обусловлен тем, что именно подобные тексты часто требуются пользователю, и именно они вызывают наибольшие затруднения при компьютерном переводе [10]. Трудности компьютерного перевода технических текстов связаны в первую очередь с тем, что система компьютерного перевода часто не способна верно интерпретировать семантику переводимого текста, и, соответственно, выдать адекватный и эквивалентный перевод. Тематика выбранных текстов сети передачи данных обусловлена тем, что сегодня это одно из актуальных направлений в IT-сфере. Согласно VOIP Industry Dictionary, сеть передачи данных - совокупность оконечных устройств (терминалов) связи, объединённых каналами передачи данных и коммутирующими устройствами (узлами сети), обеспечивающими обмен сообщениями между всеми оконечными устройствами [5]. Осуществление компьютерного перевода текстов данной тематики может существенно облегчить понимание их для конечного пользователя. Нами проанализировано три текста, каждый текст переведен с помощью всех трех анализируемых систем компьютерного перевода. В практической части работы проведен анализ ошибок, допущенных системами компьютерного перевода Google, Яндекс и Промт. Выбор данных систем обусловлен тем, что они используют разные технологии компьютерного перевода. В рамках исследования, ошибки разделены на лексико-семантические и грамматические, которые, в свою очередь, представлены морфологическими и синтаксическими. компьютерный перевод грамматический семантический

Проиллюстрируем алгоритм выявления и анализа ошибок следующим примером компьютерного перевода статьи «Fondamentaux du cвblage : Cвble а fibre optique». Название статьи переведено с помощью всех трех исследуемых систем компьютерного перевода. В данном случае варианты перевода систем Google и Яндекс совпадают: «Основы проводки: Волоконно-оптический кабель», а вариант перевода статистической системы компьютерного перевода Промт «Фундаментальные прокладки кабеля: Телеграфируй оптическому волокну» является примером семантической ошибки, вызванной неверной интерпретацией семантики.

Тип лексико-семантических ошибок связан с неспособностью систем компьютерного перевода верно интерпретировать семантику переводимого текста, особенно это применимо к терминам. Например, слово le coeur в предложении «Cњur: zone de transmission de la lumiиre de la fibre, soit en verre soit en plastique». Система Google переводит как «Сердце», не передавая семантики слова. В данном контексте речь идет о составных частях оптоволоконного кабеля, соответственно и переводиться слово должно, как «Сердечник».

Грамматические ошибки систем компьютерного перевода встречаются гораздо реже, но, тем не менее, системы допускают морфологические и синтаксические ошибки.

Рассмотрим предложение «La rйsistance а la traction, de robustesse, de longйvitй, de souplesse, de taille, de rйsistance а l'environnement, d'inflammabilitй, de plage de tempйratures et d'aspect, tous ces points doivent кtre prises en compte pour la construction d'un cвble а fibre optique». При компьютерном переводе, выполненном системой Google, предложение будет выглядеть так: «Прочность на растяжение, прочность, долговечность, гибкость, размер, сопротивление окружающей среде, воспламеняемость, температурный диапазон и внешний вид, все эти моменты должны быть учтены при построении волоконно-оптический кабель». Морфологическая ошибка в данном примере представлена неверным употреблением слов «волоконно-оптический кабель», слова необходимо употреблять в родительном падеже. Синтаксическая ошибка представлена неверным употреблением предлога при переводе словосочетания «La rйsistance а la traction», необходимо употребить предлог «при» вместо «на». В таком случае верный перевод предложения будет выглядеть так: «Прочность при растяжении, прочность, долговечность, гибкость, размер, сопротивление окружающей среде, огнеупорность, температурный диапазон и внешний вид, все эти моменты должны быть учтены при создании волоконно-оптического кабеля».

Система компьютерного перевода Яндекс допускает те же самые типы ошибок. Так, лексико-семантическая ошибка, представленная в предложении «Ассортимент волоконно-оптических кабелей Belden удовлетворяет гетерогенным, часто сложным потребностям современных передовых сетей», снова связана с неверным определением семантики. Морфологическая ошибка в предложении «Чрезвычайно маленький, ядро одномодового волокна составляет от 5 до 10 микрон» заключается в неверном согласовании падежей. Синтаксическая - заключается в неверной расстановке системой знаков препинания: «Трубка свободной структуры изолирует волокно от внешних механических напряжений которые действуют на кабель». Самое большое количество ошибок наблюдается у системы компьютерного перевода Промт, так как она использует устаревшую сегодня технологию статистического компьютерного перевода. Лексико-семантическая ошибка, связанная с неверным переводом термина, допущена системой в следующем переводе: «Существует два фундаментальных типа волокна: многорежимный и моноспособ». Морфологическая ошибка (неверное употребление формы слова) представлена во фразе: «Показатель преломления, который ослабляется больше удаляемся от направления», а синтаксическая выражается в неверном употреблении предлога: «Волокно в перепаде индекса следовательно уравнивает времена распространения различных способов чтобы передавать данные о намного более длинном расстоянии».

Морфологические и синтаксические ошибки, хоть и являются менее распространенными, в отличие от лексико-семантических, допускаются всеми типами систем компьютерного перевода. Наиболее часто морфологические ошибки проявляются в неспособности системы правильно определить семантику сложного предложения, разобраться в связи слов и верно их согласовать.

Синтаксические ошибки являются следствием невозможности учета всех нюансов расстановки знаков препинания в предложении, так как обучение системы ведется на большом объеме параллельных текстов, а грамматические правила усваиваются по принципу частотности.

Результаты количественного анализа допущенных ошибок представлены в таблице (см. таблицу 1).

Таблица 1 - Количественная репрезентация допущенных ошибок

Системы компьютерного перевода

Лексико-семантические

Грамматические

Морфологические

Синтаксические

Google

14

8

4

Яндекс

24

8

4

Промт

67

5

10

На основе таблицы составлена диаграмма (см. рис. 1).

Рис. 1 - Сравнительные показатели допущенных ошибок

Таким образом, наибольшее затруднение вызывает неспособность систем компьютерного перевода верно передать семантику переводимого технического текста. Тем не менее, в большинстве случаев системы компьютерного перевода не допускают грамматических ошибок, они составляют всего около 27% от общего числа ошибок. Наибольшее количество лексико-семантических ошибок связано с неверным переводом терминов, грамматических - с неверным согласованием слов в лице и падеже, особенно в случаях сложных предложений, где придаточное предложение находится между двумя частями главного.

Сегодня, с момента введения технологии глубокого обучения в процессе компьютерного перевода, системы получили способность самообучаться, учитывая свои ошибки. Несмотря на пока нерешенные проблемы, обусловленные разницей количества слов в переводимом предложении, сложностями перевода редких слов, недостаточной разработанностью систем оценивания компьютерного перевода, в дальнейшем мы можем получить очень мощный инструмент, сильно облегчающий работу переводчика-постредактора.

Список литературы

1. Ясулова, Х.С. Прикладные задачи компьютерной лингвистики / Х.С. Ясулова, Ш.Б. Шихиев // Вестник СПИ. - 2015.

2. Nagao, M. and Mori, S. A New Method of N-gram Statistics for Large Number of n and Automatic Extraction of Words and Phrases from Large Text Data of Japanese / In Proceedings of the 15th International Conference on Computational Linguistics (COLING 1994). - Kyoto, Japan, 1994.

3. Переходько И.В. Оценка качества компьютерного перевода / И.В Переходько, Д.А. Мячин // Вестник ОГУ. - 2017.

4. Комиссаров, В.Н. Теория перевода (лингвистические аспекты) / В.Н. Комиссаров. - М.: Высш. шк., 1990. - 253 с.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.