Средства автоматизированного перевода
САТ-программы как средства для автоматизированной работы переводчика, их классификация и разновидности, функциональные особенности и критерии оценки эффективности. Алгоритм работы программы-переводчика, требования к ней. Программы памяти переводов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 16.05.2015 |
Размер файла | 19,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Реферат
Средства автоматизированного перевода
Введение
Жизнь современного человека трудно представить без технических достижений. Люди уже не могут представить себя без телефона в кармане, навигатора в автомобиле или персонального компьютера в руке. Что касается переводчиков, то для них вопрос современных технологий стоит еще более актуально. Сложно представить человека, профессионально занимающегося переводами, который ни разу не пользовался электронными словарями, программами перевода или просто компьютером. Развитые современные технологии помогают переводчику экономить время, повысить качество и скорость работы.
За последние несколько лет переводческая отрасль претерпела существенные изменения, связанные с появлением новых технологий. Для отрасли, которая растет все более быстрыми темпами и испытывает острую нехватку квалифицированных переводчиков, компьютерные технологии, позволяющие увеличить эффективность работы переводчиков, стали настоящим спасением.
Работа переводчика в современном мире становится профессиональным занятием, ориентированным на рынок, что требует применения к ней единых стандартов обеспечения качества и выполнения переводов в сжатые сроки.
Первым инструментов, позволившим ускорить работу переводчика, была обыкновенная печатная машинка, но более значительным прорывом стала замена печатной машинки на персональный компьютер. Появились крайне важные для переводчика инструменты, в том числе электронные словари и глоссарии, программы для записи голоса и, в конце концов, накопители переводов (CAT-программы).
1. САТ - программы
1.1 Понятие САТ - программ
Во-первых определимся с тем, что называют CAT - программами.
САТ - программы (от англ. Computer Aided Translation) - программы, которые помогают переводить текст на компьютере (согласно материалам на сайте одного из разработчиков САТ - программ) [10]
По другому определению САТ - программы - несколько видов программ, обеспечивающих автоматизацию процесса перевода. [11]
Также можно сказать, что САТ - программы - это средства для автоматизированной работы переводчика. [13]
В свете данных определений разберемся с понятием автоматизированный перевод. Автоматизированный перевод - перевод текстов на компьютере с использованием компьютерных технологий.
Таким образом, говоря об автоматизированном переводе, мы также имеем в виду CAT.
1.2 Виды САТ-программ
Все существующие программы, обеспечивающие автоматизацию перевода, можно разделить на следующие группы:
- электронные словари
- программы и системы памяти переводов (TM-программы)
- программы машинного перевода
Электронный словарь - словарь в компьютере или другом электронном устройстве. Позволяет быстро найти нужное слово, часто с учетом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский) [12].
Внутренне электронный словарь устроен как база данных со словарным статьями. По сути он является аналогом бумажного словаря. Современный рынок предлагает огромное количество электронных словарей. Наиболее известные это словари Lingvo от компании ABBYY, Мультилекс, Мультитран, Oxford Advanced Learner's Dictionary и др.
Работа со словарем не вызывает никаких сложностей. Можно ввести искомое слово в главном окне словаря и получить варианты его перевода. Помимо этого у большинства словарей есть функция быстрого перевода, которая позволяет выделив слово в редактируемом документе или на интернет - странице при помощи специальной комбинации клавиш получить его перевод. Для интернет - браузеров есть, так называемое, всплывающее окно перевода, которое появляется на экране, при наведении курсора на слово.
2. Программы машинного перевода
В процессе своей деятельности случается так, что переводчику приходиться пользоваться программами, которые делают уже готовый перевод. Такие программы как PROMT, Сократ, Pragma 5.x и др. Все их также можно отнести к CAT - программам, с той только разницей, что после выполнения перевода программой, переводчику следует проводить подробный и тщательный разбор.
Работа программы-переводчика осуществляется по следующему алгоритму:
На первом этапе осуществляется ввод текста и поиск входных слов в конкретной грамматической форме (например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). Машина осуществляет синтаксический анализ предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах.
Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка. Также на данном этапе происходит разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом), поэтому машина должна решить к какой части речи относится каждое конкретное слово. Помимо этого, второй этап характеризуется анализом и переводом слов. Обычно на данном этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие / отсутствие контекстных определителей значения.
Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).
И наконец, последний этап включает в себя синтез выходных словоформ и предложения в целом на языке перевода. В память машины помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. [6]
В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера.
Действующие системы машинного перевода, как правило, ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения.
Для переводчика перевод, выполненный при помощи такой программы, может быть использован для поверхностного ознакомления с содержанием текста. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Если же переводчик пользуется данной программой для того, чтобы, например, сэкономить время, то после обработки машиной, необходим обязательный анализ и редактирование «человеческой» рукой.
3. Программы памяти переводов (ТМ-программы)
программа перевод автоматизированный
Для начала определимся с тем, каким образом работают программы памяти переводов. В основе их работы лежит алгоритм перевода - последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков А1 - А2 при заданном направлении перевода (с одного конкретного языка на другой). Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе работы программы:
CAT-программа сегментирует переводимый текст, т.е. разбивает его на сегменты (предложения) и выдает переводчику в удобной форме, упрощающей и ускоряющей перевод. В программе каждый сегмент выводится в специальной рамке, а в другой рамке прямо под исходным текстом можно ввести перевод.
После этого каждый переведенный сегмент анализируется на совпадение с памятью переводов (TM - translation memory), и при определенном проценте совпадения выдаются варианты перевода. В свою очередь, переводчик подтверждает предложенный вариант, корректирует его по своему усмотрению, либо полностью переводит уникальный сегмент. [10]
Таким образом, каждый раз находя в новом тексте сегменты, которые были переведены ранее, программа автоматически предлагает вариант перевода. Вся основная часть CAT - программ работает при помощи памяти перевода(ТМ) или накопителя переводов.
ТМ - это база данных, где хранятся выполненные переводы. Технология ТМ работает по принципу накопления: в процессе перевода в ТМ сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в ТМ. В результате нет необходимости дважды переводить одно и то же предложение. [8]
Каждая запись базы данных ТМ представляет собой единицу (предложение или абзац) параллельных текстов (как правило, на двух языках). Такая база данных хранит предыдущие переводы с целью их возможного повторного использования и решения задач быстрого поиска по содержимому. Память перевода ничего не переводит сама по себе, она всего лишь является вспомогательным средством при переводе.
Как правило, запись памяти перевода состоит из двух сегментов: на исходном (source) и конечном (target) языках. Если идентичный (или похожий) сегмент на исходном языке встречается в тексте, сегмент на конечном языке будет найден в памяти перевода и предложен переводчику в качестве основы для нового перевода. Автоматически найденный текст может быть задействован как есть, отредактирован или полностью отвергнут. Большинство программ используют алгоритм нечеткого соответствия (fuzzy matching), существенно улучшающий их функциональные возможности, поскольку в этом случае можно находить предложения, лишь отдаленно напоминающие искомые фразы, но, тем не менее, пригодные для последующего редактирования. Средства поиска ТМ могут работать как с целыми сегментами, так и с отдельными словами или фразами, позволяя переводчику выполнять терминологический поиск. В систему также включают отдельную программу для работы с глоссарием, содержащим утвержденные для применения в проекте термины. Некоторые системы работают с программами машинного перевода. Основной рабочий интерфейс либо встраивается непосредственно в имеющийся текстовый процессор, такой как Word, либо представляет собой отдельный редактор. В состав системы обязательно включают фильтры для импорта-экспорта файлов различных форматов. Кроме того, многие системы, если не все, имеют средство для добавления в память перевода сегментов из, как правило, имеющихся у переводчика старых переведенных файлов.
Исходя из описаний выше видно, что принятие решения о выборе варианта перевода полностью лежит на переводчике - это основное отличие CAT-средств от машинного перевода, где окончательное решение принимает машина.
В настоящее время существует огромное количество программ, работа которых основана на памяти перевода. Наиболее известными являются такие программы как Trados, Deja Vu, Wordfast, MemoQ, OmegaT, ABBYY Aligner.
4. Обзор современных программ памяти переводов
Для того чтобы проверить каким образом работают САТ - программы и являются ли они реально удобными и полезными для переводчика - рассмотрим механизм их работы на практике.
Основным объектом практического исследования станут самые известные и широко используемые в настоящее время программы, использующие память перевода (ТМ-программы) - WordFast и Trados.
Анализ работы ТМ-программ на примере Wordfast
Выбирая САТ - программу, переводчик должен руководствоваться тремя основными правилами: цена, удобство использования и количество времени, необходимое для того, чтобы научиться пользоваться программой.
Wordfast отвечает этим требованиям. К тому же Wordfast является бесплатной программой, что выгодно её отличает от дорогостоящих Trados и DejaVu. Принцип работы программы тот же самый, как и других ТМ-программ. Единственным отличием является то, что Wordfast разработан в качестве надстройки для Microsoft Word, то есть, данная программа встраивается прямо в окно Microsoft Word. Такая функция, на мой взгляд, является очень удобной. Нет необходимости выполнять работу в одном окне, затем копировать весь переведенный материал в Word. Использование такой вставки экономит время, а более того, позволяет строить переведенный текст, меняя шрифт, цвет, обозначая абзацы и.т.д., то есть, всю ту работу, которую в других программах нужно делать только после выполнения перевода.
В качестве объекта для перевода используем аннотации к лекарственным средствам. Вот содержание первой из них (аннотация к аспирину):
Программа Wordfast после открытия данного текста делит его на сегменты (чаще всего предложения или фразы), причем не весь текст сразу, а по мере выполнения перевода.
Таким образом, от сегмента к сегменту осуществляется перевод текста. После того как перевод всего текста закончен, документ выглядит следующим образом: слева идет первоначальный вариант на исходном языке, рядом в той же строке идет уже переведенный вариант:
{0>Medical Annotation<} 0 {>Инструкция по применению<0}
{0>Active ingredient (in each tablet) 375 mg<} 0 {>Активные вещества (в каждой таблетке) 375г<0}
{0>Purpose<} 0 {>Основное действие<0}
{0>Pain reliever/fever reducer<} 0 {>Облегчение боли и уменьшение жара<0}
Каждая фраза заключена, как видно из примера, в кавычки с цифрами. Цифры обозначают процент совпадения с памятью перевода. Память перевода формируется автоматически, как только вы начинаете работать с программой.
Естественно, что пользуясь данной программой впервые, у меня не было своей накопленной базы переводов, именно поэтому во всех случаях процент совпадения равнялся нулю.
После завершения перевода первой аннотации у меня образовалась определенная база перевода, составленная из тех фрагментов, которые были переведены. Очевидно, что она ничтожно мала, но для того, чтобы перевести схожий текст, полученная база перевода уже сможет помочь.
Размещено на Allbest.ru
...Подобные документы
Составление программы-переводчика текста. Обеспечение пословного перевода. Сценарий работы проекта. Главное окно переводчика. Направление перевода. Изменение состояния панелей инструментов с помощью контекстного меню. Окно Tutor. Документация проекта.
курсовая работа [725,6 K], добавлен 11.10.2008Лингвистическое обеспечение автоматизированной системы. Алгоритмы сортировки методом прохождения бинарного дерева. Перевод входной строки в инфиксной форме в постфиксную. Конструирование программы-переводчика с английского на русский язык в Delphi.
курсовая работа [1,2 M], добавлен 18.08.2009Разработка программы "Калькулятор" для работы с вещественными числами. Алгоритм работы программы. Набор тестов и варианты исполнения программы. Порядок ввода текста, стандартные ошибки в работе программы. Программная документация, текст программы.
курсовая работа [225,9 K], добавлен 13.10.2013Преобразование матрицы по заданным правилам. Методика работы с массивами, основанная на классических алгоритмах. Разработка и описание блок-схемы алгоритма. Листинг программы, экраны работы и отладки программы. Инструкция для пользователей программы.
контрольная работа [338,4 K], добавлен 29.01.2013Разработка программы для работы с последовательностью прописных латинских букв. Алгоритм программы, результаты ее работы и вывод о работоспособности. Поиск количества вхождений элементов одной строки в другую. Тестирование программы, ее результаты.
лабораторная работа [858,0 K], добавлен 23.11.2014Создание системы, осуществляющей запуск программы по расписанию, которое хранится в реестре. Методы и средства взаимодействия с аппаратными и программными средствами, типы интерфейсов. Алгоритм работы и листинг программы, проверка ее работоспособности.
курсовая работа [78,6 K], добавлен 13.11.2009Общие сведения о предприятии "Гранит-ВТ". Основной вид деятельности - производство вычислительных модулей общего назначения. Разработка программы, предназначеной для автоматизированной проверки версий всех компонентов изделия. Алгоритм работы программы.
отчет по практике [33,8 K], добавлен 23.12.2009Динамические структуры данных, их классификация и разновидности, назначение и функциональные особенности. Линейные односвязные списки, их внутренняя организация и значение. Порядок и принципы составления программы, главные требования, предъявляемые к ней.
курсовая работа [137,4 K], добавлен 11.05.2014Особенности языка "Си шарп". Содержательная постановка программы. Описание классов и структур. Алгоритм и логики работы программы, переменные. Тестирование, инструкция пользователю. Пример удаления записи о читателе. Общий вид листинга программы.
курсовая работа [360,3 K], добавлен 21.11.2013Осуществление работы разрабатываемой программы на основе алгоритма, использующего Z-буфер. Аналитическое описание программной реализации. Алгоритмы основных функций программы. Содержание руководства пользователя. Файлы программы, пункты главного меню.
курсовая работа [1,7 M], добавлен 15.04.2015Составление программы, которая по введенным значениям x, y и номеру действия выполняет то или иное арифметическое действие над положительными числами. Алгоритм и код программы. Проведение тестовых наборов. Тестирование и результат работы программы.
лабораторная работа [961,5 K], добавлен 23.11.2014Создание транслятора, обрабатывающего код программы на языке Паскаль и за счет эквивалентных операторов генерирующего программу на Си. Особенности внешней спецификации и работы лексического анализатора. Структура программы, вывод результатов на экран.
курсовая работа [254,0 K], добавлен 02.07.2011Диаграмма последовательности работы в интерфейсе программы. Интерфейсы необходимых классов и их взаимодействие. Средства обработки исключений. Начальный экран работы программы. Инструменты работы с персоналом. Основные функции работника регистратуры.
курсовая работа [3,7 M], добавлен 09.10.2013Требования к информационной и программной совместимости. Описание алгоритма и задач. Разработка программы, предназначенной для работы с системой обработки данных и для оформления сопровождающей документации. Схема работы кадровой службы с программой.
отчет по практике [1,9 M], добавлен 13.12.2011Описание языка программирования Java: общие характеристики, главные свойства, краткий обзор. Надежность и безопасность, производительность и базовая система программы. Разработка программы поиска по словарю, алгоритм её работы. Общий вид кода программы.
курсовая работа [20,3 K], добавлен 28.10.2012Функциональные характеристики программы форматирования текстовых файлов, требования к ее интерфейсу и данным. Схема взаимодействия компонентов системы, выбор среды исполнения и программная реализация алгоритмов. Тестирование и оценка качества программы.
курсовая работа [61,1 K], добавлен 25.07.2012Использование класса статических массивов структур и базы данных "ODER" при создании программы на языке С++. Основные формы выдачи результатов. Технические и программные средства. Тесты для проверки работоспособности алгоритма создания программы.
курсовая работа [1,1 M], добавлен 17.03.2015Схема работы и требования к программам шифрования и дешифрования. Алгоритмы и тексты программы шифрования и программы дешифрования, выполненные на языке программирования C/C++. Содержание файла с исходным текстом, с шифротекстом, с дешифрованным текстом.
курсовая работа [24,7 K], добавлен 20.10.2014Алгоритм работы программы, которая выполняет записи в log-файл действий, идентифицированных как попытки атаки на страницу авторизации пользователей условного ресурса. Макет веб-сайта, листинги файлов программы и процесс ее взаимодействия с СУБД MySQL.
курсовая работа [1,3 M], добавлен 22.06.2015Исследование современных технологий машинного перевода. Изучение классификации систем перевода. Характеристика особенностей работы с электронным словарем. Языковые инструменты Google. Программы для проверки правописания и грамматики, текстовые редакторы.
реферат [917,0 K], добавлен 02.11.2014