Возможности машинного перевода видеоматериалов

Понятие машинного перевода и краткая история его развития. Разновидности, преимущества, проблемы машинного перевода. Алгоритм перевода видеоматериалов с помощью сервиса от Яндекс браузера. Анализ ошибок системы автоматического закадрового перевода.

Рубрика Иностранные языки и языкознание
Вид курсовая работа
Язык русский
Дата добавления 30.03.2022
Размер файла 42,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНПРОСВЕЩЕНИЯ РОССИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ

«БАШКИРСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ

УНИВЕРСИТЕТ ИМ. М. АКМУЛЛЫ»

ИНСТИТУТ ФИЛОЛОГИЧЕСКОГО ОБРАЗОВАНИЯ И МЕЖКУЛЬТУРНЫХ КОММУНИКАЦИЙ

Кафедра межкультурной коммуникации и перевода

КУРСОВАЯ РАБОТА

Направление 45.03.02 Лингвистика, профиль Перевод и переводоведение

Возможности машинного перевода видеоматериалов

Повираева Ксения Александровна

Курс IV, группа ЛИНПП 42-18 очная форма обучения

Научный руководитель:

к.ф.н., доцент Юсупова Ю.Р

Дата защиты____________________________________

Оценка_________________________________________

Уфа 2021

Содержание

Введение

Глава I. Машинный перевод, его виды и формы.

Понятие машинного перевода и краткая история его развития

1.1.1 Разновидности машинного перевода

1.1.2 Преимущества машинного перевода

1.1.3 Проблемы машинного перевода

1.2 Аудиовизуальный перевод с помощью компьютерных программ

1.2.1 Аудиовизуальный перевод как отдельный вид перевода

1.2.2 Применение компьютерных программ для перевода видеоматериалов

Выводы по главе I

Глава II. Анализ функции машинного перевода видеоматериалов в браузере «Яндекс»

2.1 Алгоритм перевода видеоматериалов с помощью сервиса от Яндекс браузера

2.2 Анализ ошибок системы автоматического закадрового перевода

Выводы по главе II

Заключение

Список литературы

Введение

В настоящее время имеется достаточно широкий выбор программ, облегчающих труд переводчика, среди которых особое место занимают системы машинного перевода. С их помощью можно переводить деловые бумаги, руководства, письма из электронной почты, странички из Интернета (Web-страницы). С недавнего времени также появилась возможность использовать компьютерные программы для перевода видеоматериалов

Создание эффективно работающих систем машинного перевода, способных обеспечить приемлемое качество переводимого текста, то есть достаточное для его понимания и дальнейшего практического использования, - одна из актуальных и перспективных областей не только в современной лингвистике, но также и в других прикладных науках.

Актуальность данной работы заключается в необходимости проанализировать возможности новых машинных программ в связи с популярностью и активным развитием машинного перевода.

Объектом данного исследования выступает машинный перевод и современные компьютерные программы перевода.

Предметом данного исследования являются особенности аудиовизуального перевода с помощью компьютерных программ.

Цель данной работы - определить возможности адекватного перевода видеоматериалов с помощью компьютерных программ. Достижение поставленной цели потребовало решения следующих задач:

1) Изучить историю развития машинного перевода;

2) Описать существующие виды переводческих программ

3) Рассмотреть аудиовизуальный перевод как отдельный вид перевода

4) Описать проблемы машинного перевода, определяемые лингвистами

5) Проанализировать возможности машинного перевода в отношении видеоматериалов

Материалом исследования являются пять видео, опубликованных на видеохостинге YouTube в общем доступе.

Методика исследования носит комплексный характер и включает такие методы, как сравнительно-сопоставительный, классификационный, дедуктивный методы, а также метод семантического анализа.

Теоретической базой данной работы являются труды, учебники по теории перевода, статьи о машинном переводе, сборники и монографии по лингвистике и теории и практике перевода, так авторов, как Апресян Ю.Д., Баранов А.Н., Кулагина О.С., Марчук Ю.Н.

Теоретическая значимость исследования заключается в том, что исследование дает материал для дальнейших теоретических обобщений, способствует разработке таких теоретических проблем, как точность машинного перевода видеоматериалов, способствует развитию и распространению машинного перевода в различных сферах.

Практическая значимость исследования заключается в том, что его результаты могут быть использованы при выборе способа перевода аудиовизуальных материалов.

Структура работы. Курсовая работа состоит из введения, двух глав, заключения и библиографического списка. В первой главе описываются теоретические основы данного исследования, даются определения ключевых понятий. Во второй главе представлены результаты практического исследования по заявленной теме. В заключении подводятся итоги исследования.

Глава I. Машинный перевод, его виды и формы

1.1 Понятие машинного перевода и краткая история его развития

машинный перевод видеоматериал

Прежде всего определим термин «машинный перевод» (МП). Он понимается по крайней мере в двух смыслах. Машинный перевод в узком смысле - это процесс перевода некоторого текста с одного естественного языка на другой, реализуемый компьютером полностью или почти полностью. В ходе данного процесса на вход машины подается текст, словесная честь которого не сопровождается никакими дополнительными указаниями, а на выходе получается текст на другом языке, являющийся переводом входного, причем преобразование входного текста в выходной происходит без вмешательства человека (иногда допускается постредактирование). [1]

Машинный перевод в широком смысле - это область научных исследований, находящаяся на стыке лингвистики, математики, кибернетики, и имеющая целью построение систем, реализующих машинный перевод в узком смысле.

Датой рождения машинного перевода как научного направления принято считать 1946 г., когда Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, в переписке с Эндрю Бутом и Норбертом Винером впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 г.) развил в своем меморандуме “Translation”, адресованном фонду.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г в Нью-Йорке была представлена первая система МП -- IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент).

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня.

С развитием вычислительной техники в конце 70-х годов (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в эпоху "Ренессанса". При этом несколько сместились акценты: исследователи теперь ставили целью развитие "реалистических" систем МП, предполагавших участие человека на различных стадиях процесса перевода.

90-е годы принесли с собой бурное развитие рынка персональных компьютеров (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное, востребованным, дальнейшее развитие систем МП. [6]

1.1.1 Разновидности машинного перевода

Машинный перевод обладает собственными разновидностями, а также специфическими стратегиями и механизмами.

Разновидностями машинного перевода являются:

? статистический машинный перевод;

? машинный перевод на основе примеров;

? машинный перевод на основе правил;

? нейронный машинный перевод;

? гибридный машинный перевод.

Статистическим называется перевод, основанный на сравнении больших объемов языковых пар, или корпусов текста (text corpora). Первые идеи такого перевода были предложены Уорреном Уивером в 1949 г. и были глубоко связаны с теорией вероятности и информационной теорией Клода Шеннона, американского инженера, криптоаналитика и математика.

Словарь является основой любой статистической системы перевода, и обозначается термином «таблица переводов». Схема работы такой системы выглядит следующим образом: части исходного текста анализируются компьютером и происходит их сравнение с таблицей переводов. В ней находятся несколько самых вероятных переводов для каждой части исходного текста, а затем эти части оцениваются вероятностной моделью. Наиболее вероятные значения являются конечным результатом перевода. Такой перевод был очень времяемким, поскольку в более старых компьютерах не хватало памяти для хранения всех элементов - текста оригинала и соответствующим каждой части переводам. Изначально такой перевод производился пословно, но системы статистического перевода продолжали развиваться, и стало возможным разбивать текст на другие разные части, кроме как по словам: по фразам, по предложениям или по синтаксису. Чаще всего начал использоваться перевод по предложениям.

Примерами систем, которые используют статистический машинный перевод являются: Google Translate (до 2016 г.), Microsoft Translator (до 2016 г.), SYSTRAN (до 2016 г.), Yandex Translate (до 2017 г.)

Все вышеуказанные примеры отказались от данной системы в пользу нейронного машинного перевода, из чего можно сделать вывод что данная система является недостаточно совершенной и проигрывает нейронному переводу.

Машинный перевод на основе примеров состоит из двуязычных параллельных корпусов, содержащих пары предложений. В систему вносится большое количество таких предложений-примеров, и процесс перевода происходит по аналогии с этими примерами. Эта идея была впервые предложена японским специалистом по компьютерным наукам Макото Нагао в 1984 г. Она основана на представлении о том, что любой человек-переводчик не проделывает глубокий лингвистический анализ при переводе, а пользуется аналогией: разбивает предложение на фразы, переводит их, а затем составляет из полученных фрагментов предложение, соответствующее грамматическим и лексическим нормам языка перевода.

Алгоритм работы данной системы схож со статистическим, поскольку они используют фактически тот же самый принцип словаря, только в этом случае он состоит не из языковых пар, а из предложений-примеров. Однако, в отличие от статистического машинного перевода, здесь после поиска соответствий происходит еще и рекомбинация, и выравнивание полученного результата, чтобы текст полностью соответствовал грамматике целевого языка.

Нагао отмечал, что эта система особенно хорошо приспособлена к переводу между двумя абсолютно разными языками, например, между английским и японским. Также стоит упомянуть и то, что ее принципы делают ее хорошо приспособленной для перевода фразовых глаголов.

Машинный перевод на основе правил, также называемый классическим подходом к машинному переводу, имеет в основе грамматические, синтаксические, морфологические и семантические закономерности языков перевода и оригинала.

Этот подход включает в себя три разные стратегии перевода:

1. Системы пословного перевода.

2. Трансферные системы.

3. Интерлингвистические системы.

Стратегия, применяющая системы пословного перевода, является самой старой - первым поколением в машинном переводе. Ее суть заключается в преобразовании слов или словосочетаний языка оригинала в их эквивалент на языке перевода. Моделирование функционирования всей языковой системы в целом в этом методе не предусмотрено, используются фактически исключительно только языковые соответствия, предоставленные в словаре, который задействован в данной системе машинного перевода.

Стратегия, используемая трансферными системами, является более продвинутой, поскольку задействует знания как языка оригинала, так и языка перевода.

Процесс перевода происходит таким образом:

? анализ текста оригинала и определение его грамматической структуры;

? перевод грамматической структуры языка оригинала в грамматическую структуру языка перевода;

? генерация текста на языке перевода.

Данная стратегия позволяет получить достаточно точный перевод, и во многом является вполне адекватной.

Поскольку стратегия прямого перевода во многом являлась несовершенной, появились интерлингвистические системы. При таком переводе текст оригинала преобразуется в интерлингву, то есть абстрактное, независимое от правил языка оригинала, понимание текста. Затем из этой интерлингвы текст преобразуется на язык перевода. Механизмы работы данной стратегии в некотором смысле схожи с трансферной системой. Принципиальным различием является то, что интерлингвистические системы полностью независимы от грамматик обоих языков при составлении абстрактного понимания текста, а трансферные системы не отходят в своем понимании от грамматик двух задействованных в работе языков.

Нейронный машинный перевод использует большую искусственную нейронную сеть. Такой подход задействует лишь крошечную часть всей той памяти, которая необходима статистическому машинному переводу, то есть является намного более ресурсоемкой. Нейронная сеть - это система, состоящая из огромного количества соединенных между собой простых процессоров. Ее основной чертой является способность самообучаться в пределах одного языка, и применять полученные знания при переводе. Нейронная сеть так же использует наработки машинного перевода на основе примеров, повышая точность и адекватность перевода.

Гибридный машинный перевод стремится объединить лучшие черты всех вышеописанных методов. Он характеризуется использованием нескольких механизмов машинного перевода одновременно, в пределах одной системы. Толчком к развитию такого подхода является стремление повысить точность и адекватность машинного перевода, исключить те недочеты, с которыми сталкивается и не может успешно справиться тот или иной подход.

Следует также упомянуть и концепцию памяти переводов. Она не является системой машинного перевода, а представляет из себя базу данных, которая содержит ранее переведенные сегменты текста. Это средство используется крайне часто, поскольку сокращает время, требуемое на перевод. Если система машинного перевода находит сегмент текста, полностью соответствующий имеющемуся в базе, она не переводит его заново, а использует перевод, уже хранящийся в базе. [13]

1.1.2 Преимущества машинного перевода

Самым главным преимуществом машинного перевода является его высокая скорость. Использование системы машинного перевода позволяет значительно сократить время, требуемое для перевода текстов.

Следующим преимуществом является его низкая стоимость. Прибегая к услугам профессиональных переводчиков, мы вынуждены платить деньги за каждую страницу перевода. Однако часто необходимости в получении идеального перевода текста нет, а нужно быстро уловить смысл присланного письма или содержания страницы в Интернете. В этом случае система перевода, без сомнений, станет надежным и эффективным помощником.

Помимо этого, достоинством машинного перевода можно назвать его конфиденциальность. Многие пользователи регулярно используют системы МП для перевода личных писем, ведь далеко не каждый человек готов отдать постороннему переводчику личную переписку или доверить перевод финансовых документов.

Ещё одним преимуществом машинного перевода является его универсальность. Профессиональный переводчик, как правило, имеет специализацию по переводу текстов определенной тематики. Программа переводчик справится с переводом текстов из самых разных областей: для правильного перевода специализированных терминов достаточно подключить необходимые настройки.

Нельзя не отметить также возможность перевода в режиме онлайн и перевода содержания Интернет-страниц. Достоинства услуги онлайн-перевода информации очевидны. Сервисы онлайн-перевода всегда под рукой и помогут в нужный момент быстро перевести информацию, если у вас нет программы-переводчика. Помимо этого, сегодня с помощью систем перевода можно переводить содержание Интернет страниц и запросы поисковых систем. [6]

1.1.3 Проблемы машинного перевода

Стоит отметить, что на сегодняшний день результаты работы МП далеки от совершенства, и необходима профессиональная корректировка ряда обнаруженных погрешностей в переведенном тексте. Анализы готового текста на лексическую целостность показали, что вычислительные машины успешно справляются с простыми частями речи и устойчивыми выражениями, но допускают частые ошибки при переводе падежей, речевых оборотов, логико-смысловых акцентов в предложении и построении самих предложений. Это объясняется различной интерпретацией падежей на примере русского и английского языков: в русском -- через окончание, в английском -- через предлоги.

В таком случае можно заверить, что готовый текст, который был переведен с помощью МП, почти всегда требует дополнительных доработок. Поэтому адекватность и компетентность результатов работы с помощью электронных систем стоит оценивать не только качеством самого МП, но и, конечно, качеством дальнейшего редактирования. В данном случае уместно будет описать ещё одну классификацию стратегий постредактирования текста, переведенного машиной:

? цельное редактирование перевода с проверкой всех составляющих текста по исходным частям;

? использование МП только как подсказки в терминологии;

? использование МП как грамматического или лексического подстрочника с подбором синонимичных конструкций и выражений;

? чтение МП и корректировка вызывающих сомнения фрагментов с обращением к первичному тексту;

? чтение МП и исправление видимых погрешностей и ошибок без обращения к первичному тексту.

Говоря о недостатках машинного перевода стоит заметить, что очень часто в нем не учитываются правила грамматики, языковые приемы. Анализы готового текста на лексическую целостность показывают, что вычислительные машины успешно справляются с простыми частями речи и устойчивыми выражениями, но допускают частые ошибки при переводе падежей, речевых оборотов, логико-смысловых акцентов в предложении и построении самих предложений [3]. Также выбранное значение слова может не подходить по контексту. Если в словарной базе отсутствует какое-то слово, оно не переводится. Но самым большим недостатком является неправильная интерпретация идиом и фразеологизмов.

Перевод фразеологизмов является сложным процессом, который требует от переводчика, как богатых знаний, так и творческих способностей. Компьютер не обладает такими возможностями, поэтому он ведет пословный перевод, а не передает смысл фразеологизма, что приводит к таким неудовлетворительным результатам.

Также недостатки автоматических систем можно отметить при переводе художественных произведений, в которых помимо смысла, необходимо передать эмоции, экспрессию и образность. Помимо этого, нужно сохранить стиль произведения, культуру, эпоху, игру слов и юмор. Не каждый профессиональный переводчик способен это осуществить. Еще сложнее задача переводчика, работающего над стихотворной формой, где нужно сохранить не только смысл, а еще ритм, такт, метафоричность. Следовательно, художественный машинный перевод пока еще невозможен. [7]

1.2 Аудиовизуальный перевод с помощью компьютерных программ

1.2.1 Аудиовизуальный перевод как отдельный вид перевода

Современный мир быстро меняется, новые информационные технологии предоставляют такие возможности для создания и распространения аудиовизуального контента, которые не так давно могли казаться фантастикой. Эти изменения ставят перед переводчиками все новые задачи. Изучение аудиовизуального перевода (далее - АВП) - одна из таких задач.

В российской научной традиции АВП долгое время считался разновидностью литературного, устного или синхронного перевода, так как аудиовизуальный текст рассматривался исключительно как элемент письменной речи.

Согласно А.В. Козуляеву, выделение АВП в отдельную дисциплину обосновано тем, что: АВП является «ограниченным» (constrained) переводом из-за присутствия внешних ограничений; аудиовизуальные произведения полисемантичны; аудиовизуальный перевод требует знания различных стратегий семантического анализа и семантического синтеза информации, поступающей по параллельным каналам восприятия. [13]

Многие переводоведы - приверженцы лингвоцентрического подхода - отказываются считать АВП переводом и считают его межъязыковой адаптацией, так как в процессе АВП происходят глубокие изменения исходного текста, которые не вписываются в рамки традиционных представлений об эквивалентности.

Аудиовизуальный переводчик работает с четырьмя параллельными потоками данных: визуальный невербальный ряд, невербальный аудиоряд (шумомузыкальный), вербальный аудиоряд (диалоги героев), вербальный видеоряд (надписи на экране, субтитры).

В аудиовизуальных произведениях И. Гамье выделяет 14 семиотических кодов. Ряды значащих кодов, из которых состоит аудиовизуальный объект, одновременно влияют на порождение смысла. Согласно И. Гамье, выявление типов связи между вербальными и невербальными знаками является одной из ключевых задач для практики и исследований АВП. [15]

Реципиент аудиовизуального произведения получает информацию из различных каналов и обрабатывает ее на различных уровнях декодирования, является одновременно зрителем, слушателем и читателем. В ходе исследований, проводившихся группой А. Пилар Орейро, было установлено, что во время просмотра аудиовизуального произведения примерно 60 процентов внимания и общего объема перцептивной деятельности посвящено дешифровке и пониманию визуального потока, и лишь 40 - вербально-текстовому. Для художественного произведения пропорция составила: 68 процентов - визуальный и невербальный ряд, 32 - текстовый. [4]

По результатам проведенных исследований были сделаны выводы о том, что аудиовизуальные тексты полисемантичны и что в случае аудиовизуального перевода текстовая составляющая играет подчиненную роль по отношению к целостному дискурсу.

Исходя из принципов динамической эквивалентности перевода, А.В. Козуляев определяет АВП как «создание нового полисемантического единства на языке-реципиенте на основе единства, существовавшего на исходном языке, причем таким образом, чтобы новое полисемантическое единство стало элементом культуры языка-реципиента и не было ему чуждо». [14]

Самыми распространенными видами АВП считаются субтитрирование, дублирование (lip-synс) и перевод для закадрового озвучивания (voice-over).

Субтитрирование является наиболее хорошо изученным видом АВП. Под субтитрами понимается текстовое сопровождение видеоряда, дублирующее или дополняющее звуковую дорожку. При осуществлении перевода для двухмерного субтитрирования переводчик сталкивается с рядом внешних ограничений, так как необходимо уместить перевод в ограниченное количество строк и знаков и привязать смену субтитров к смене планов в кадре.

При дублировании (dubbing) аудиовизуального произведения осуществляется полная замена иностранной речи на родной язык. На начальном этапе дублирования осуществляется перевод звуковой дорожки, затем происходит подбор актеров и озвучивание. При подборе актеров учитывается оригинальный голос, темперамент героя и голосовой возраст. Перевод под полный дубляж (lip-synс) синхронизируется с мимикой актёров и артикуляцией, поэтому осуществляя перевод, переводчик вынужден синтезировать текст заново.

Дублирование наиболее дорогой и трудоемкий вид АВП по сравнению с субтитрированием и закадровым озвучиванием.

Закадровое озвучивание является более простым и менее дорогостоящим способом перевода чем субтитрирование и дублирование. При осуществлении закадрового перевода голос озвучивающего актера накладывается поверх оригинальной звуковой дорожки. Тот факт, что переведённая речь актёров озвучивания слышна поверх оригинальной звуковой дорожки произведения, является основным отличием закадрового перевода от дубляжа. А.В. Козуляев отмечает, что при закадровом переводе количество ограничений минимально и считает, что закадровый перевод можно анализировать как одну из разновидностей синхронного перевода. [4]

Каждый из этих видов АВП ставит перед переводчиком задачи, обусловленные определенными трудностями.

Можно утверждать, что существуют все основания считать АВП отдельным видом перевода. АВП имеет свой предмет изучения и теоретическое обоснование. Стоит отметить, что АВП отличается от других видов перевода особой сложностью. При осуществлении АВП переводчик должен обращать внимание на множество факторов и учитывать ограничения при переводе, полисемантический характер аудиовизуальных произведений; осуществлять анализ на различных уровнях для того, чтобы выполнить перевод, который бы воспринимался адресатом перевода как естественный, т.е. перевод, который подходил бы культуре адресата и вызывал эквивалентную реакцию.

1.2.2 Применение компьютерных программ для перевода видеоматериалов

Автоматический аудиовизуальный перевод был доступен и раньше в качестве автоматического субтитрирования с помощью систем общего назначения, таких как «Google Speech-to-Text» (с 2011 года), службы речи от Microsoft (с 2017 года), «Yandex SpeechKit» (с 2013 года), а также с помощью специализированных систем «Trint», «AppTek Subtitling and Captioning» и «Speechmatics». Кроме того, возможностью автоматической генерации субтитров к видео отличается видеохостинг «Youtube».

В недавнее время стал также возможным автоматический перевод видеоматериалов с английского языка с озвучкой на языке перевода в Яндекс браузере.

В данный момент функция автоматического перевода может быть использована только для роликов на английском языке. По словам разработчиков, технология была опробована на видеозаписях на самые разные темы: изменение климата, машинное обучение, история Плутона.

Пользователям глобальной сети интернет функция машинного перевода видеороликов доступна в фирменном браузере «Яндекса» для операционных систем Windows и macOS, однако лишь при просмотре ограниченного числа роликов. Специалисты компании создали на Youtube-канале "Yet another browser" подборку из 12 видео (плейлист «Перевод видео»), с помощью которых любой желающий сможет убедиться в работоспособности технологии. Представители компании «Яндекс обещают, что в пользователи получат возможность самостоятельно выбирать, какие именно ролики переводить.

Над созданием прототипа работало несколько команд. Предположительно, он основан на гибридном виде перевода. На данный момент в нем применяются технология синтеза речи, разработки «Яндекс.переводчика» и биометрия. Последняя используется для определения пола говорящего - это, как отмечают разработчики, важно и для перевода, и для синтеза речи, в частности, позволяет подобрать подходящий голос для закадровой озвучки.

Технология «Яндекса» поддерживает синхронизацию закадрового голоса с видеорядом, при необходимости корректируя темп речи виртуального переводчика и добавляя в нее паузы. Синхронизация необходима, поскольку исходные и переведенные реплики могут значительно отличаться по длительности - например, в английском языке часто используемые фразы нередко лаконичнее своих русских аналогов.

Выводы по главе I

В этой главе были рассмотрены такие ключевые в рамках данного исследования понятия как машинный перевод и аудиовизуальный перевод

Обобщив существующие в лингвистике определения термина «машинный перевод», мы понимаем под ним выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Качество перевода зависит от стиля и тематики первичного текста, а также синтаксической, грамматической и лексической родственности языков, между которыми производится перевод.

Также нами было рассмотрено понятие аудиовизуального перевода. Это особый вид перевода, объектом которого являются креолизованный текст, включающий аудиальный (вербальный и невербальный - звуки и музыка) и визуальный (иконический и в некоторых случаях вербальный) компоненты; АВП может осуществляться в виде устного (синхронного или последовательного) или письменного перевода, либо комбинированным способом.

Нельзя не отметить постоянный, инновационный прогресс в сфере компьютерных технологий и растущее осознание необходимости их использования. Необходимо осваивать полезные и продуктивные плоды постоянного развития информационных систем, и эффективность от такого взаимодействия человека и машины в быстро меняющемся мире перевода будет только возрастать. Стоит также сказать, что отмеченные программы перевода, которые успешно используются на данный момент, до сих пор не могут разрешить самую сложную задачу процесса перевода: выбор контекстуально-необходимого варианта, который обусловлен многими причинами.

Глава II. Анализ функции машинного перевода видеоматериалов в браузере «Яндекс»

2.1 Алгоритм перевода видеоматериалов с помощью сервиса браузера «Яндекс»

Как уже было рассмотрено в предыдущей главе (раздел 1.2.2), в настоящее время в браузере «Яндекс», предположительно, используется гибридный вид машинного перевода, так как технология объединяет машинный перевод, биометрию, распознавание и синтез речи. Система самостоятельно определяет, какого пола спикер, и выбирает подходящий для озвучки голос.

Синхронный перевод видео проходит в несколько этапов. Технология распознаёт и транскрибирует речь, затем переводит получившийся текст на другой язык и впоследствии озвучивает его подходящим голосом. Алгоритм позволяет следить за темпом речи спикера в видео и подстраиваться под него -- делать паузы, ускорять или замедлять озвучку. В итоге закадровый голос полностью совпадает с тем, что происходит на экране.

Рассмотрим процесс перевода подробнее.

Шаг 1. Распознавание речи и предобработка текста

Пользователю предлагается нажать кнопку переводчика, после чего система начинает обрабатывать ролик.

На входе система получает видео с неопределенными голосами. Это может быть образовательный ролик с одним ведущим или интервью, в котором участвует два человека, а может быть и многоголосая дискуссия. При простом переводе потока речи в текст получается набор слов без знаков препинания, логической группировки слов в предложения, а предложений -- в абзацы. Поэтому необходимо не только превратить аудио в текст, но и запустить специальную нейросеть, которая исправляет неточности, группирует слова в смысловые сегменты и расставляет знаки препинания.

Система опирается не только на голос, но и на субтитры. Если к видео были загружены субтитры -- то распознавание не используется: ведь тексты, написанные людьми, обычно более качественные, чем тексты на выходе у автоматической системы распознавания речи. Но если субтитры сгенерированы автоматически, то система игнорирует их и применяет свою технологию.

При этом ручные субтитры также должны проверяться нейросетью как минимум потому, что в них бывает много текста, который не нужен для синтеза голоса. Например, описание звуков (*аплодисменты*, *звук сирены* и т. д.) или указание имени спикера перед каждой фразой.

Шаг 2. Биометрия

В ходе первого шага система получает части текста и тайминги, необходимые для дальнейшей работы.

На текущем этапе определяется пол говорящего для каждой части текста, чтобы озвучивать их мужским или женским голосами.

Шаг 3. Машинный перевод

Процесс машинного перевода происходит стандартно, но с одной важной особенностью: в модель переводчика передается информация о спикерах, об их поле. Это нужно для того, чтобы в переводе разные спикеры говорили о себе или обращались к другим с корректным согласованием местоимений, глаголов и прилагательных.

Шаг 4. Синтез речи

Тексты на русском языке длиннее, чем на английском. Разница может составлять в среднем от 10 до 30%. Чтобы синхронизировать то, что говорит спикер на английском с тем, что произносит голос перевода, нужно синхронизировать два потока речи.

Благодаря таймингам, полученным в ходе шага 1, система понимает, какие фразы в какой момент должны произноситься. Это позволяет синхронизировать речь более гибко. Синтез речи -- многоступенчатый процесс, в котором можно выделить два самых больших этапа. На первом с помощью нейросетей система представляет текст в виде промежуточной спектрограммы. На втором с помощью других нейросетей превращает спектрограммы в звук. Тайминги используются на первом этапе, чтобы сгенерировать спектрограмму нужной длительности. При этом ускорение в первую очередь достигается за счёт сокращения бесполезных пауз между фразами и словами. И только если этого недостаточно, алгоритм ускоряет сами фразы.

В настоящее время перевод видео доступен только для перевода в языковой паре «английский - русский». Воспользоваться данной функцией пользователи могут при переводе видеоматериалов популярных сервисов. Данная функция доступна в браузере «Яндекс» в ОС стационарного компьютера и в системе Android, а также в приложении «Яндекс» для Android и iOS.

2.2 Анализ ошибок системы автоматического закадрового перевода

В ходе работы было просмотрено пять видеороликов общей продолжительностью четыре минуты тринадцать секунд. Было выявлено, что система хорошо справляется с первым этапом работы - распознавание речи и предобработка текста. Большая часть слов была переведена верно, но в некоторых случаях, когда речь слишком быстрая или нечеткая, система допускает ошибки или полностью опускает нераспознанные элементы речи. Например, на видео «"Apparently" This Kid is Awesome, Steals the Show During Interview» журналист берёт интервью у мальчика, но его речь недостаточно четкая, поэтому система оставляет непереведнными целые фразы.

На втором этапе работы системы были обнаружены более существенные ошибки.

В видео, «Just Do It», герой произносит мотивационную речь. Система справляется с переводом текста, однако, когда речь героя становится эмоциональной, он переходит на крик, и система допускает ошибку при биометрии. Голос перевода, который изначально был мужским, становится женским.

В сцене из фильма «Комната» герой, как и на протяжении всего фильма, проговаривает реплики практически без эмоций, однако нейросеть снова не сразу определила пол героя, поэтому первое предложение он произнёс женским голосом.

Такую же ошибку система допускает, если героем видео становится ребенок. В видео «Have you ever had a dream like this?», где мальчик пытается процитировать героя мультфильма нейросеть неплохо распознала все варианты глаголов, но снова озвучила мальчика женским голосом. Кроме того, в данном видео обнаружены ошибки и на этапе синтеза речи. В результате того, что герой говорил быстро и система не успела распознать и перевести все слова, текст перевода так же был ускорен. В итоге, вместо сказанных мальчиком слов на выходе мы слышим бессвязную речь.

Также ошибки допускаются на этапе синтеза речи. На видеоролике «LEAVE BRITNEY ALONE ORIGINAL VIDEO» герой в слезах защищает певицу Бритни Спирс и просит оставить ее в покое. Нейросеть разобрала почти слова, но во многих местах заменила «Britney» на «Britain».

Выводы по главе II

В данной главе был рассмотрен алгоритм работы системы автоматического закадрового перевода видеоматериалов. Для начала работы система получает видеоролик. Далее происходит распознавание и предобработка текста, затем машинный перевод с помощью сервиса «Yandex Translate» и в итоге осуществляется синтез речи. В результате работы пользователь получает синхронный закадровый перевод.

Было определено, что Нейросеть «Яндекса» справляется с функцией синхронного перевода текста. Результат перевода может быть использован для понимания смысла текста, произнесенного на видео.

Тем не менее, на данном этапе систему нельзя назвать идеальной. В настоящий момент она не справляется с переводом сложных конструкций и е всегда распознаёт слова сходные по звучанию. Помимо этого, голос перевода отличается и отсутствием эмоций, а также нейросеть заметно ускоряет речь для попадания в темп говорящего и не всегда правильно определяет его пол при повышении эмоциональности речи.

Заключение

В данном исследовании были определены и проанализированы понятия машинного перевода и автоматического аудиовизуального перевода. Работа была осуществлена на основе научных работ лингвистов и интернет-ресурсов.

В первой главе было определено понятие «машинный перевод», а также кратко изложена история развития направления, рассмотрены разновидности, определены преимущества и недостатки. Помимо этого, было рассмотрено понятие аудиовизуального перевода и возможности применения компьютерных программ для автоматического перевода видеоматериалов.

Вторая глава данной работы посвящена описанию работы системы закадрового перевода от браузера «Яндекс». Был представлен и рассмотрен пошаговый алгоритм работы системы, а также определены и проанализированы возможные ошибки.

В целом, можно заключить, что сфера машинного перевода остаётся актуальной и востребованной, и поэтому продолжают развиваться существующие программы машинного перевода, а также появляются новые, не менее перспективные сервисы.

С помощью системы автоматического перевода пользователям интернета, не владеющим английским языком станет доступен более широкий выбор контента как научного и образовательного, так и развлекательного.

В настоящее время система работает не идеально. На всех этапах работы программы были обнаружены ошибки.

СПИСОК ЛИТЕРАТУРЫ

1. Андреева, А.Д. Обзор систем машинного перевода // А.Д. Андреева, И.Л. Меньшиков, А.А. Мокрушин. - М.: Молодой ученый, 2013.-- № 12.-- с. 64-66.

2. Апресян Ю.Д. Лингвистический процессор для сложных информационных систем. - М.: Наука, 2008.

3. Баранов А.Н. Введение в прикладную лингвистику. М., 2001.

4. Козуляев А.В. Обучение динамически эквивалентному переводу аудиовизуальных произведений: опыт разработки и освоения инновационных методик в рамках школы аудиовизуального перевода // Вестник Пермского национального исследовательского политехнического университета. Проблемы языкознания и педагогики. 2015. N 3(13) С. 3-24.

5. Кулагина О. С. Исследования по машинному переводу. - М., 1979

6. Мамедова М.Т. Машинный перевод. Эволюция и основные аспекты моделирования - Баку, 2006

7. Марчук, Ю.Н. Проблемы машинного перевода / Ю.Н. Марчук.-- M.: Наука, 1983.-- 234с.

8. Нелюбин Л.Л. Компьютерная лингвистика и машинный перевод. М., Наука, 2008

9. Семенов А.Л. Современные информационные технологии и перевод.1991.

10. Семенов, А.Л. Теория перевода: [учебник для вузов].-- М.: Академия, 2013.-- 217 с.

11. Ситдикова Ф.Б. Эволюция машинного перевода./ Янбекова Г.Б., Галимзянова З.В., Ситдикова Ф.Б. // Научные революции: Сущность и роль в развитии науки и техники: Сборник статей по итогам Международной научно-практической конференции (Оренбург, 30 апреля 2018 г.). - Стерлитамак: АМИ, 2018. С. 53-58.

ЭЛЕКТРОННЫЕ РЕСУРСЫ

12. Изюмов, А.А. Компьютерные технологии в науке и технике учебно-методическое пособие для вузов / А.А. Изюмов, В.П. Коцюбинский; Томск. гос. ун-т систем упр. и радиоэлектроники.-- Электрон. текстовые дан.-- Томск: Издательство ТУСУР, 2011.-- 150 с.-- [Электронный ресурс]: URL: http://www.studfiles.ru/preview/5828554/

13. Краткая история машинного перевода. [Электронный ресурс]. URL: http://linguisticus.com/ru/TranslationTheory/OpenFolder/ (Дата обращения: 4.12.21)

14. Козуляев А.В. Аудиовизуальный полисемантический перевод как особая форма переводческой деятельности. Обучение данному виду перевода [Электронный ресурс] // URL: http://www.russian-translators.ru/about/editorial/audiovizualnyperevod/ (дата обращения: 6.12.21)

15. Теоретические основы машинного перевода [Электронный ресурс]URL: http://refdb.ru/look/1641419.html (Дата обращения: 20.12.21)

16. Gambier, Y. Rapid and Radical Changes in Translation and Translation Studies International // Journal of Communication, 10 (2016), 887-906 p. [Электронный ресурс] // URL: http://ijoc.org/index.php/ijoc/article/viewFile/3824/1570 (дата обращения: 23.12.2021)

17. Gigatran: Системы машинного перевода [Электронный ресурс] URL: http://www.gigatran.ru/machine-translation/ (Дата обращения: 20.12.21)

18. Have you ever had a dream like this? [Электронный ресурс]. URL: https://vk.com/im?sel=361952827&z=video361952827_456239219%2Fa084d5b5cbe45f87e7 (Дата обращения: 17.12.21)

19. Shia LaBeouf "Just Do It" Motivational Speech (Original Video by LaBeouf, Rцnkkц & Turner) [Электронный ресурс]. URL: https://www.youtube.com/watch?v=ZXsQAXx_ao0 (Дата обращения: 17.12.21)

20. LEAVE BRITNEY ALONE ORIGINAL VIDEO [Электронный ресурс]. URL: https://www.youtube.com/watch?v=ElXi7yDHyWo (Дата обращения: 17.12.21)

21. "Apparently" This Kid is Awesome, Steals the Show During Interview [Электронный ресурс]. URL: https://www.youtube.com/watch?v=rz5TGN7eUcM (Дата обращения: 17.12.21)

Размещено на Allbest.ru

...

Подобные документы

  • Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.

    курсовая работа [42,2 K], добавлен 17.11.2014

  • Виды и способы перевода, определение способа перевода и меры информационной упорядоченности для переводного текста. Преимущества и трудности синхронного перевода, проблемы синхронистов, возникающие в процессе перевода, психологические условия работы.

    реферат [27,7 K], добавлен 25.10.2010

  • Понятие языка и нормы перевода. Обеспечение высокого качества перевода переводчиком. Семантические проблемы перевода. Межъязыковые расхождения в грамматикализации "классических" грамматических категорий. Синтаксические проблемы перевода стихотворений.

    реферат [33,3 K], добавлен 23.12.2011

  • Понятие и теории перевода, его связь с лингвистикой. Причины формирования и процесс становления науки о переводе. Создание системы машинного переводчика. Развитие сопоставительных контрастивных исследований в языкознании. Современное переводоведение.

    презентация [50,0 K], добавлен 29.07.2013

  • Понятие и разновидности письменного перевода, его основные этапы и назначение, особенности реализации. Понятие и содержание художественного перевода, специфика и средства оформления информации в нем. Проблемы, возникающие в процессе перевода поэзии.

    курсовая работа [54,6 K], добавлен 18.04.2011

  • Нормативные требования и их роль в оценке качества перевода. Жанрово-стилистическая норма перевода. Классификация смысловых ошибок. Условные критерии оценки качества перевода. Место оценки качества перевода в переводоведении. Норма переводческой речи.

    курсовая работа [32,1 K], добавлен 13.04.2015

  • Определение понятия "стратегия перевода". Характеристика основных видов переводческих стратегий. Стратегии перевода И.С. Алексеевой. Особенности реферативного перевода и его место в общей классификации. Виды реферативного перевода и их специфика.

    курсовая работа [55,8 K], добавлен 09.01.2015

  • Лингвокультурология как наука. Лингвокультурология и концепты. Интерпретативная теория перевода. Необходимость культурологических знаний в деятельности переводчика. Виды киноперевода, особенности закадрового перевода. Анализ перевода монтажных листов.

    дипломная работа [76,6 K], добавлен 28.07.2017

  • Классификация видов, форм и типов перевода. Понятие синхронного перевода, его характеристики. Распределение внимания синхронного переводчика. Коммуникативная ситуация синхронного перевода. Вероятностное прогнозирование. Обучение синхронному переводу.

    реферат [28,5 K], добавлен 16.12.2016

  • Основные проблемы художественного перевода. Критерии адекватности поэтического перевода. Особенности и достижения поэзии Роберта Фроста. Трудности перевода стихотворений Фроста. Сопоставительный анализ переводов стихотворения Роберта Фроста "Come in".

    курсовая работа [38,4 K], добавлен 09.04.2011

  • Теоретические основы перевода. Оценка выполнения перевода романа У. Коллинза "Женщина в белом" с точки зрения лексико-грамматических и лексических аспектов. Общие замечания, ошибки и вставки. Некоторые интересные случаи. Вольности и неточности перевода.

    курсовая работа [49,9 K], добавлен 19.12.2010

  • Сущностная характеристика современных наиболее распространенных моделей перевода: ситуативно-денотативная, трансформационная, семантическая, интерпретативная. Теория уровней эквивалентности и трехвазная модель перевода о. Каде. Способы и приемы перевода.

    курсовая работа [78,9 K], добавлен 21.02.2011

  • Особенности художественного перевода и критерии его оценки. Понятие вторичной номинации, ее классификации и способы перевода. Специфика перевода драматургических текстов. Сопоставительный анализ перевода единиц вторичной номинаций в пьесах Чехова.

    курсовая работа [74,7 K], добавлен 22.08.2015

  • Понятие перевода как вида языковой коммуникативной творческой деятельности человека. Предмет и методы исследования теории перевода, история ее становления и развития, современные тенденции и перспективы, взаимосвязь с другими науками на сегодняшний день.

    презентация [767,5 K], добавлен 22.12.2013

  • Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

    дипломная работа [4,0 M], добавлен 20.06.2011

  • Роль и значение перевода в современном мире. Особенности перевода арабизмов в персидском языке. Проблематика перевода письменных персоязычных источников. Особенности межъязыковой речевой деятельности и основные трудности персидско-русского перевода.

    курсовая работа [30,3 K], добавлен 13.10.2016

  • Обзор выявления в оригинале конструкций, требующих синтаксических трансформаций при переводе, их классификации и анализа способов перевода. Описания перевода при помощи перестановок, членения и объединения предложений, синтаксических проблем перевода.

    курсовая работа [49,1 K], добавлен 29.12.2011

  • Понятие и виды перевода, его значение для человечества. Специфика перевода в зависимости от вида текста. Особенности юридического перевода и необходимое качество переводов. Обязанности юриста-международника. Специфика профессиональной этики переводчика.

    дипломная работа [88,2 K], добавлен 24.05.2012

  • Грамматические трансформации при переводе. Проблемы перевода форм Continuous, не имеющих аналогов в русском языке. Способы перевода, связанные с различиями в грамматике английского и русского языков. Конструкция "is going to" и передача будущего времени.

    курсовая работа [60,2 K], добавлен 21.04.2011

  • Признаки и характерные особенности перевода текстов научного стиля. Лексические особенности и трудности перевода. Специфика морфологии и основные проблемы перевода, синтаксические особенности текстов научного стиля и научно-популярного подстиля.

    дипломная работа [137,5 K], добавлен 19.02.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.