Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов

Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов

Основные задачи и направления работы в компьютерной лексикографии. Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии. Русско-английский словарь под общим руководством проф. А.И. Смирницкого.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	30.10.2017
Размер файла	1,9 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Санкт-Петербургский государственный университет

Кафедра математической лингвистики

Направление: «Лингвистика»

Образовательная программа: «Прикладная и экспериментальная лингвистика»

Профиль: «Компьютерная лингвистика и интеллектуальные технологии»

Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов

в машинном словаре

Выпускная квалификационная работа соискателя на степень магистра филологии

Протопоповой Екатерины Владимировны

Научный руководитель

к.ф.н., доц. Митрофанова О.А.

Рецензент: Тарелкин А.В.,

руководитель группы инструментов

оценки качества, «Яндекс»

Санкт-Петербург

2016

1.1 Основные задачи и направления работы в компьютерной лексикографии

1.2 Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии

1.3 Компьютерная двуязычная лексикография

1.4 Электронные двуязычные словари

1.5 Словари систем машинного перевода

1.6 Автоматически составленные (машинные) двуязычные словари: методология составления и применение

1.7 Параллельные конкордансы

1.8 Выводы

2. Иллюстративный блок одно- и многоязычных словарей

2.1 Принципы формирования иллюстративного блока в словарях

2.2 Практическая реализация иллюстративного блока в двуязычных словарях

2.3 Выводы

3. Устойчивые сочетания различных типов и опыт их лексикографирования

3.1 Основные концепции устойчивых сочетаний

3.2 Представление коллокаций в словарях сочетаний

3.3 Выводы

4. Поиск и ранжирование контекстов для англо-русского машинного словаря

4.1 Материал и инструменты исследования

4.2 Описание процедуры поиска контекстов

4.3 Подготовка обучающей и тестовой выборки

4.4 Анализ ошибок в контекстах-кандидатах

4.5 Общий алгоритм ранжирования параллельных контекстов

4.6 Факторы (признаки) ранжирования

4.7 Методы классификации

4.8 Оценка качества классификации

4.9 Результаты классификации

4.10 Сравнение ранжирования с простыми эвристическими методами

4.11 Значимость признаков классификации

4.12 Выводы

Заключение

Лексикографические источники

Литература

Приложение А. Сравнение и оценка ранжирования иллюстрирующих контекстов с помощью разных методов

Ранжирование контекстов на основе меры MI

Ранжирование контекстов на основе частоты перевода

Ранжирование RF1

Ранжирование RF2

Ранжирование RF3

Ранжирование RF4

Введение

Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами - сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, - это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].

С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений - нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.

В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других - параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.

Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже. Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл Текст»).

Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).

Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:

1) анализ принципов составления и особенностей существующих электронных словарей различных типов;

2) описание и анализ реализации иллюстративного блока в современной лексикографической практике;

3) описание подходов к сочетаемости и анализ их отражения в лексикографической практике;

4) выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.

Предполагается также решение следующих практических задач:

1) разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;

2) реализация алгоритма ранжирования параллельных контекстов;

3) оценка качества ранжирования и релевантности выделенных признаков.

Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.

Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.

Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно - в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.

Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог'2015».

1. Компьютерная двуязычная лексикография

1.1 Основные задачи и направления работы в компьютерной лексикографии

Сфера компьютерной лексикографии довольно широка и включает в себя разнообразные методы составления различного рода словарей с использованием компьютерных технологий. Инструментами и материалом компьютерной лексикографии являются базы данных, компьютерные картотеки, инструменты анализа текста, которые позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать её. Множество различных компьютерных лексикографических программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных [Баранов 2001].

Развитие компьютерных методов в лексикографии началось в середине 1960 годов: с одной стороны, возникла необходимость перевести в машиночитаемый формат существующие словари, с другой стороны, стало возможным использование электронных корпусов при составлении новых словарей. Одним из первых словарей в машиночитаемом виде стал Longman Dictionary of Contemporary English [LDOCE; Proctor, 1978], который до сих пор является одним из наиболее популярных словарей английского языка. Поначалу электронные словари представляли собой копии бумажных (Oxford English Dictionary), но постепенно были разработаны специальные представления и форматы, позволяющие, например, хранить содержательную часть словаря отдельно от информации о графическом формате словарных статей.

Также следует упомянуть серию Collins English Dictionary, словари которой с 1979 года полностью создавались с использование электронных баз данных и корпусов.

Примерно в то же время (в 1985 году) по инициативе академика А.П. Ершова начинаются работы по созданию Машинного фонда русского языка http://cfrl.ru/outline.shtml , одной из целей которого было развитие компьютерной лексикографии. Предполагалось решение следующих задач:

· Оборудование рабочих мест Института русского языка РАН компьютерами и объединение их в сеть;

· Сбор материала для теоретического и прикладного исследования русского языка и его преобразование в машинных формат; разработка средств хранения этого материала;

· Создание программных средств, для проведения теоретических и прикладных работ по исследованиям в области русского языка;

· Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке).

В дальнейшем были разработаны концепции компьютерного представления различных лингвистических данных, в том числе автоматические словари (Автоматический Синтаксический словарь русского языка, Автоматический словарь синонимов русского языка, Автоматический вариант Словаря русского языка С.И. Ожегова, Автоматический словарь глагольного управления в русском языке и др. (описания опубликованы в Бюллетене Машинного фонда русского языка, вып. 1-3)), система построения конкордансов и обеспечения лексикографической работы (UNILEX-T, UNILEX-D). В рамках проекта по созданию Машинного фонда русского языка была описана концепция компьютерного описания словосочетаний различной степени устойчивости [Борисова 1990].

Наши наблюдения, сделанные в ходе знакомства с направлениями работ в компьютерной лексикографии, позволяют сделать вывод о том, что автоматизация словарных проектов связана не столько с преобразованием существующих словарей в цифровой формат, а с созданием лексикографических комплексов, имеющих прямой выход к различным блокам лингвистического процессора, отвечающих за автоматический анализ текстов на уровне морфологии, синтаксиса, за автоматическое выделение устойчивых словосочетаний и ряд других задач.

1.2 Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии

Прежде чем перейти к направлениям компьютерной двуязычной лексикографии, следует ввести группу понятий, относящихся скорее к области корпусной лингвистики и машинного перевода, которые в дальнейшем будут использоваться при описании различных словарей.

Двуязычный словарь предполагает описание лексики двух языков: входного языка - языка, с которого производится перевод, и выходного - языка перевода. Слово-заголовок статьи по отношению к статье обычно называют заголовочным. Если в словаре приводятся словосочетания, то в них выделяется опорное слово - слово, под которым это словосочетание приводится в словаре.

Переводным эквивалентом называют перевод, приписываемый лексеме входного языка, или пару «слово входного языка + слово выходного языка», которые являются переводами друг друга.

Для машинного создания словарей или в качестве вспомогательного материала используются параллельные и сопоставимые корпусы текстов. Параллельный корпус - многоязычный корпус, который состоит из текстов на одном языке и их переводов на другой (другие) язык (языки). Сопоставимый (comparable) корпус - набор текстов одной и той же тематической области, на двух или нескольких языках. Для удобства как машинного, так и ручного использования параллельных корпусов производится выравнивание - установление соответствия фрагментов исходного текста (слов, предложений) фрагментам перевода, выполняемое вручную или автоматически.

Лексикографы и лингвисты часто используют специальные инструменты для работы с корпусами - корпус-менеджеры. Для исследования удобен режим построения конкорданса - автоматическое извлечение набора контекстов для заданного явления (слово / словосочетание / грамматическая форма и др.).

1.3 Компьютерная двуязычная лексикография

В области компьютерной двуязычной лексикографии постепенно выделилось несколько направлений:

- создание традиционных двуязычных словарей с помощью компьютерных технологий,

- разработка алгоритмов составления переводных эквивалентов для систем машинного перевода,

- автоматическое составление словарей, надстройки к параллельным и сопоставимым корпусам, параллельные конкордансы.

Рассмотрим каждое направление подробнее.

1.4 Электронные двуязычные словари

Технология создания двуязычных компьютерных словарей наследует основные идеи работы над одноязычными лексикографическими ресурсами, поэтому начнём анализ существующих проектов с одноязычных компьютерных словарей. Зарождение компьютерной лексикографии в 60х годах 20 века связано именно с электронными версиями словарей. Так, Webster's Seventh New Collegiate Dictionary (1967) и New Merriam-Webster Pocket Dictionary стали первыми словарями, электронная версия которых была подготовлена параллельно с бумажной. Как уже отмечалось, компьютерный набор тогда был ещё недостаточно развит, поэтому электронные словари создавались на основе оцифрованных бумажных препринтов.

В 70-е годы компьютерные технологии развивались по большей части в направлении автоматизации подготовки к изданию бумажных словарей. Компьютерный набор и некоторые другие средства подготовки статей использовались в Longman Dictionary of Contemporary English (1978) и первом издании Collins English Dictionary (1979). В то же время ведутся разработки по созданию так называемых карманных словарей и переводчиков (hand held dictionaries) - специализированных устройств, выполняющих поиск по словарю, представленному в машиночитаемом виде. Первые гаджеты появились в 1978 году (LK-3000, Craig M100), а технология оставалась популярной до первого десятилетия 21 века. Основными функциями карманных словарей был перевод заданного слова и озвучивание его произношения. Более продвинутые модели использовали распознавание речи и позволяли осуществлять поиск путём голосового ввода.

В 80-е годы, благодаря росту популярности и сокращению стоимости электронных носителей, появляются первые словари на дисках. Такой формат позволял мгновенно устанавливать словарь на любой компьютер и быстро распространять его. Среди многочисленных изданий словарей на CD-дисках нужно отметить издание Oxford English Dictionary (1988, использовалось издание 1928 года), The American Heritage Dictionary of the English Language (1992). Словари на электронных носителях улучшались с развитием технологий гипертекстовой разметки и вскоре ничем не уступали соответствующим бумажным изданиям. Кроме того, их пользователи могли задействовать такие функции, как озвучивание произношения, просмотр истории поиска, использование словаря непосредственно при чтении текста и т.п.

Развитие интернет-технологий привело к тому, что к 1998 году [Li 1998] в сети можно было найти около четырёхсот словарей английского языка, однако большинство были копиями, не защищёнными в соответствии с нормами авторского права. В 1999 году издательство Oxford University Press выложило в интернет с доступом по подписке Oxford English Dictionary Online, а вслед за ними многие другие издатели начали публиковать в интернете сокращённые версии словарей, предлагая купить подписку на расширенные версии. Затем стало понятно, что онлайн-словари могут приносить доход наряду с бумажными, поэтому сейчас многие популярные словари доступны без ограничений.

Создатели электронных словарей привлекают пользователей к дополнению и исправлению он-лайн версий или созданию новых словарных статей. Самый крупный полностью коллаборативный проект - это Викисловарь, который объединяет различные возможности лексикографического описания, в том числе, функционируя как многоязычный словарь. Описание слова включает фонетическую, этимологическую, синтаксическую, семантическую, сочетаемостную информацию о слове. В [Крижановский 2009] описывается разработка машиночитаемого словаря на основе данных русского Викисловаря. Русский Викисловарь является крупнейшим среди существующих викисловарей, его характерной особенностью является чёткая структура словарной статьи [Крижановский 2011].

Что касается англо-русских словарей, необходимо прежде всего упомянуть электронные словари ABBYY Lingvo. Первая версия, которая тогда называлась LINGuist Volume, v1.0 была выпущена в 1990 году и содержала 35 тысяч словарных статей.

С 2008 года под названием ABBYY Lingvo выпускаются версии x3, x5, x6, содержащие одно- и двуязычные словари, общее количество статей достигает 1,5 миллионов. Некоторые из них составлены лексикографами компании ABBYY, другие представляют собой электронные версии бумажных словарей (Большой толковый словарь русского языка Т.Ф. Ефремовой, Англо-русский словарь под редакцией В.К. Мюллера и т.п.). Возможности электронных словарей Lingvo включают:

- поиск слова по заголовкам словарных статей, поиск по неначальной форме слова, поиск по всем доступным языкам;

- полнотекстовый поиск, в том числе, по примерам употребления;

- озвучивание транскрипции;

- перевод по наведению курсора в браузере, текстовых документах;

- сохранение и просмотр избранных словарных статей.

На данный момент доступен также онлайн-сервис LingvoLive (https://lingvolive.ru), где пользователи могут не только осуществлять поиск по словарям, но и комментировать словарные статьи, добавлять свои примеры употребления и сохранять историю поиска.

Хранение информации электронном словаре осуществляется в базах данных или в специально разработанных для этой цели форматах представления, основанных на XML. Например, рекомендации Text Encoding Initiative (TEI) содержат отдельную главу, посвященную хранению лексикографических данных (http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html). Элемент entry позволяет хранить разнообразную информацию, содержащуюся в словарной статье, причём возможно сохранение словарной статьи в различных видах:

1) типографическое представление - позволяет восстановить статью в том виде, в котором она должна быть напечатана;

2) «редакторское» (editorial) представление - хранит текст без специфической мета-информации;

3) лексическое представление - содержит структурированную информацию из словарной статьи безотносительно особенностей типографии, однако сохраняет лингвистические категории (поле грамматических помет, особенностей употребления и т.п.)

Статья entry может содержать отдельные разделы для омографов (hom), внутри каждого из которых возможны описания форм слова (form), грамматических помет (gramGrp), толкования (def), примеры употребления с отсылкой к источнику (cit), информацию об особенностях употребления (usage), перекрёстные ссылки на другие статьи (xr, re), этимологическую информацию (etym). Возможности хранения лексикографической информации в формате TEI рассматриваются, например, в работах [Захаров и др. 2011; Захаров 2013, Буторова и др. 2016].

Другой вариант представления - Lexical markup formal (LMF) - использует только последний тип (лексическое представление), поскольку он предназначен в первую очередь для хранения всевозможных словарей систем обработки текстов. Этот детально разработанный формат используется в сложных системах хранения лингвистических данных, например, CLARIN (http://www.clarin-d.de/en/).

Вторая, не менее важная составляющая электронного словаря - программа, отвечающая за отображение словарных статей, поиск, редактирование. Как уже было сказано, многие электронные словари предоставляют веб-интерфейс, в котором взаимодействие между пользователем и словарём осуществляется обычно с помощью запросов к базе данных. Программы, устанавливаемые на компьютер или портативное устройство, часто имеют возможность подключения дополнительных словарей и расширений. Среди программ, содержащих англо-русские словари, наиболее популярны ABBYY Lingvo, GoldenDict, AtomicDict и другие.

Обычно главными элементами интерфейса являются окно поиска и окно отображения словарной статьи (см. Рис. 1):

Рисунок 1. Окно поиска ABBYY Lingvo x5.

Электронные двуязычные словари также используются при создании широкомасштабных лексических баз данных. Например, в проекте многоязычного словаря PanDictionary [Mausam и др. 2009; Mausam и др. 2010] было объединено около 600 онлайн-словарей, в частности из Викисловарей, причём переводы из разных словарей были автоматически сгруппированы по смыслу с помощью графового алгоритма. В статье приводится объём полученной базы - 10 миллионов слов для тысячи языков, однако эти результаты не были опубликованы в открытом доступе. Проект Linguee (http://www.linguee.ru, рис. 2) также объединяет материалы различных словарей в рамках одного онлайн-ресурса, причём эти словари пополняются на основе данных, собранных по большому параллельному корпусу. Этот же корпус служит источником для построения параллельного конкорданса (см. ниже).

Рисунок 2. Пример статьи из электронного словаря системы Linguee.

1.5 Словари систем машинного перевода

Словарями систем машинного перевода (фразовыми таблицами, моделями перевода, phrase table) обычно называют автоматически составленные таблицы переводов последовательностей слов с весами, которые затем учитываются при машинном переводе текста. Переводы извлекаются из параллельного корпуса на основании выравнивания предложений. Для построения модели перевода были предложены алгоритмы, известные как модели IBM [Brown и др. 1993]. Они оценивают вероятности перевода с помощью EM-алгоритма, который позволяет итеративно оценить модель на неполных данных. Он состоит из двух шагов, которые обычно повторяются до сходимости:

- E-шаг (expectation), на котором имеющаяся модель применяется к данным;

- M-шаг (maximization), на котором из данных выводится новая модель (корректируется старая).

Итак, IBM model 1 действует следующим образом. Пусть есть корпус, состоящий из трёх параллельных фраз (см. Рисунок 3):

Рисунок 3. Пример параллельного корпуса для обучения модели IBM.

Изначально в корпусе нет информации о пословном выравнивании, веса задаются равномерно (0.25 для каждого перевода). Для оценки вероятности того или иного пословного выравнивания и используется ЕМ-алгоритм. На каждом М-шаге для каждого перевода (пары) суммируются все веса. На первом шаге сначала инициализируются вероятности всех возможных выравниваний, а затем по имеющимся данным для каждого слова в каждом входном предложении суммируются веса различных вариантов его выравнивания. Так, например, по первому предложению вероятность выравнивания и вес буду равны 0.5. Затем для каждого входного слова e (в данном случае на русском языке) и всех вариантов его перевода f (на английском) вычисляется итоговый вес , равный отношению вероятности выравнивания к весу слова на языке перевода. На первом шаге это значение 0.5.

Приведём псевдокод алгоритма оценки весов модели IBM-1 по [Koehn 2010]:

Вход: набор пар предложений

Выход: вероятность перевода

Задать равномерно

Пока не сходится

// инициализация

для всех

для всех предложений

// вычислим нормализацию

для всех слов е в е

для всех слов в

// суммируем

для всех слов в

для всех слов f в f

// оценим вероятности

для всех слов

Следующие модели являются усовершенствованиями первой. Основные дополнения следующие:

· IBM Model 2 определяет вероятность всего выравнивания;

· IBM Model 3 добавляет так называемую fertility model - как много переводов возможно для каждого входного слова;

· IBM Model 4 добавляет модель относительного выравнивания;

· IBM Model 5 регулирует заполнение только свободных позиций при выравнивании.

Подробное сравнение моделей IBM можно найти в [Och, Ney 2003].

Эти модели могу применяться как на уровне пословного перевода (word-based translation), так и на уровне перевода фраз (phrase-based translation). С этим связано и основное отличие словарей систем машинного перевода от классических словарей - помимо слов и многословных выражений (обычно устойчивых) в них включаются словосочетания, а также последовательности слов (n-граммы), которые синтаксически не связаны между собой. Соответственно, в таких словарях отсутствует понятие нормальной формы: для каждой формы слова существуют свои варианты перевода.

За прошедшие 20 лет были предложены различные улучшения и новые способы подбора параметров для моделей IBM [Turkato 1998; Och, Ney 2000; Tsunakawa и др. 2008; Huck и др. 2011; Luo, Lepage 2015]. Кроме того, одним из актуальных направлений остаётся фильтрация машинных лексиконов, полученных путём автоматического выравнивания [Melamed 1996]. Улучшенные модели анализируются и сравниваются в [Huck и др. 2011].

Морфологическая и синтаксическая информация также может быть использована при построении моделей перевода, в частности, для фильтрации шумных переводов. Некоторые авторы предлагают извлечение переводных эквивалентов по структурам зависимостей [Yamamoto, Matsumoto 2000].

1.6 Автоматически составленные (машинные) двуязычные словари: методология составления и применение

С 1990 годов начинаются многочисленные исследования, посвящённые автоматическому извлечению переводных эквивалентов из параллельных корпусов.

Полученные словари обозначали как machine-readable dictionaries (MRD) или bilingual lexicons. Однако, поначалу такие словари использовались в системах машинного перевода (см. выше) или в качестве вспомогательных источников для лексикографов. Подобные ресурсы обычно содержат только информацию о возможных переводных эквивалентах, вероятности перевода (или просто частоте конкретного перевода в корпусе); иногда входные слова и словосочетания снабжаются морфологической информацией.

В противоположность традиционным бумажным словарям, которым присущи «универсальность, всеобъемлемость и мультиприложимость» [Марчук 1976: 2], машинный словарь строго ориентирован на заданную совокупность текстов. Отбор материала для машинного словаря происходит на протяжении всего времени его функционирования в системе автоматической обработки текстов. Принципы формирования словника машинных словарей основываются в большей степени на точных методах, и в меньшей - на логико-интуитивных методах, которыми руководствуются разработчики традиционных словарей. Можно сказать, что традиционный бумажный словарь представляет собой статическое описание, существующее в диахронии, тогда как машинный словарь - динамическое описание, существующее в строгой синхронии.

Развитие интернет-технологий, увеличение объёма доступных параллельных корпусов текстов сделали возможным построение машинных словарей, сопоставимых по размеру с традиционными бумажными или электронными словарями. Кроме того, существует большое количество инструментов автоматической обработки текста, которые позволяют преобразовать информацию из машинного словаря, предназначенного, например, для системы машинного перевода, в электронный словарь, ориентированный на пользователя.

Как уже было сказано, технология извлечения переводных эквивалентов из корпуса разрабатывается довольно давно, и одним из наиболее значимых результатов многолетних исследований явился класс разнообразных методов фильтрации шумных переводов из фразовых таблиц. Таким образом, главной задачей при создании автоматических переводных словарей является включение в них вспомогательной информации: группировка переводов в синонимические ряды, иллюстрация особенностей употребления, грамматические и стилистические пометы.

Первая задача - группировка переводов из фразовой таблицы - несмотря на кажущуюся очевидность её трактовки, имеет лишь несколько известных прикладных решений. В [Bansal 2012] описывается реализация алгоритма группировки переводных эквивалентов, основанная на кластеризации методом K-средних. В качестве факторов кластеризации используются информация об обратном переводе и контекстные представления переводных эквивалентов. Полученные «кластеры смыслов» сравниваются со смыслами из WordNet. Небольшая часть статьи посвящена иллюстрации различных вариантов перевода, оказавшихся в одной группе.

Другой возможный подход описан в [Antonova, Misyurev 2014]: группировка смыслов опирается на предварительно собранный словарь синонимов. Этот словарь генерируется автоматически на основании дистрибутивной векторной модели [см. также Antonova и др. 2016] и сходстве переводов слова. В этой статье [Antonova, Misyurev 2014] описывается создание машинного словаря сервиса Яндекс.Переводчик (http://translate.yandex.ru), который будет использован в практической части данной работы. Рассмотрим на этом примере технологию создания машинного словаря в общем виде. Автоматическое построение переводного словаря предполагает следующие этапы:

1. Предобработка параллельного корпуса (извлечение фразовой таблицы, морфосинтаксический анализ, лемматизация, фильтрация «шумных» переводных эквивалентов).

2. Объединение переводных эквивалентов для каждого слова в ряды синонимов.

3. Добавление грамматических помет.

4. Генерация обратных переводов, то есть синонимов входного слова. В данном случае этот этап производится на основании полученных прямых переводов.

5. Иллюстрация каждой группы переводов примерами употребления из параллельного корпуса.

В результате формируется словарная статья, пример который представлен на рис. 4.

Рисунок 4. Пример словарной статьи из машинного словаря сервиса Яндекс.Переводчик.

Качество параллельного корпуса представляет определённую проблему в развитии автоматической переводной лексикографии. Поэтому в некоторых работах по автоматическому построению двуязычных словарей в качестве параллельных корпусов используются специфические источники. Так, в [Tyers, Pienaar 2008] описывается метод создания словаря на основе заголовков статей Википедии, которым авторы предлагают пользоваться в частности для языков, для которых нет корпусов достаточного объёма - так называемых under-resourced languages.

Последним направлением, активно развивающимся в последнее десятилетие, является построение переводного словаря по данным сопоставимого (comparable) корпуса. С одной стороны, задача оказывается более актуальной, поскольку для многих пар языков параллельные корпуса доступны в ограниченном объёме (если вообще доступны). С другой стороны, извлечение переводных эквивалентов из похожих корпусов требует более сложных методов. Все эти методы используют начальный словарь, состоящий из небольшого набора переводных эквивалентов для заданной языковой пары, а затем осуществляется поиск «похожих» слов входного языка и их переводов в сопоставимом корпусе. Часто применяются графовые модели: в [Sadat и др. 2002; Laws и др. 2010; Yu, Tsujii 2009; Fung 2000; Chatterjee и др. 2010] используется сходство синтаксических деревьев для предложений на разных языках, при условии, что имеется исходный словарь небольшого размера. Возможны разные подходы в зависимости от используемой метрики сходства, способа построения контекстных векторов и так далее. Авторы [Tamura и др. 2012] предлагают улучшения для методов, основанных на сходстве, которое заключается в использовании непрямых отношений между словами (когда вершины графа связаны более чем через одно ребро). Для близких языков предлагаются методы, которые используют не специальный начальный словарь, а, например, слова, общие для обоих языков [Fiser, Ljubesic 2011]. В [Ismail, Manandhar 2010] сначала извлекаются наиболее близкие и относящиеся к одной теме слова, для которых перевод будет наиболее надёжным. Улучшение словаря также может достигаться за счёт добавления параллельного корпуса [Morin, Prochasson 2011] или использования методов разрешения лексической неоднозначности [Bouamor 2013]. Отдельные работы посвящаются проблеме состава начального словаря [Hazem, Morin 2012].

1.7 Параллельные конкордансы

Задача иллюстраций словарных статей контекстами употребления заголовочных слов частично совпадает с задачей построения конкордансов, то есть поиска контекстов заданных слов или языковых явлений в корпусах текстов.

Системы, строящие параллельные конкордансы, как правило, находят параллельные предложения или даже целые абзацы, а не короткие примеры употребления. Самые простые системы осуществляют поиск только по одной части параллельного корпуса (только входному / выходному языку) и не ранжируют выдачу [Kjaersgaard 1987, Langlois 1996].

Некоторые из систем отображают сведения о частоте данного слова и его переводов - например, в [Barlow 2004] описана система поиска по параллельному корпусу ParaConc, которая выводит информацию о частоте отдельных слов и их коллокатов. Системы, которые ранжируют контексты, используют статистику встречаемости перевода. Так, в [Wu и др. 2003] авторы располагают предложения и их переводы в соответствии с частотой перевода запроса, а в [Bai и др. 2012] наиболее релевантные контексты находятся на основании статистики Дайса [Dice 1945].

Такие системы обычно предназначены для лексикографов и профессиональных переводчиков. Рассмотрим две системы с доступным веб-интерфейсом, которые осуществляют поиск по параллельным англо-китайским корпусам: DOMCAT [Bai и др. 2012] и TotalRecall [Wu и др. 2003].

Примеры выдач на поисковые запросы в системах DOMCAT и TotalRecall (собственно конкордансы) представлены на рисунках 5 и 6. Система DOMCAT, как описывается в [Bai и др. 2012], находит наиболее релевантные контексты с помощью статистического критерия Дайса (коэффициент Сёренсена-Дайса):

где и - частоты слова и переводного эквивалента соответственно, а - частота совместного появления этих слов.

Однако, в веб-интерфейсе не содержится никакой информации о ранжировании и принципах работы системы.

Рисунок 5. Результаты поиска по запросу "porcelain" в системе DOMCAT.

Вторая система - TotalRecall - предоставляет две возможности - ранжирование по частоте и по логарифму правдоподобия (log-likelihood ratio, LLR). Применительно к связи между двумя явлениями (например, встречаемостью слова и его перевода) последняя мера вычисляется как [Dunning 1993].

где - совместная частота слова и перевода, а , - частоты i и j соответственно.

Рисунок 6. Результаты поиска по запросу "porcelain" в системе TotalRecall.

Рисунок 7. Пример конкорданса системы Linguee.

Параллельный конкорданс в качестве дополнения к электронному словарю строит многоязычная система Linguee (http://www.linguee.ru). Она предназначена как для изучающих язык, так и для профессионального перевода. Конкорданс для запроса на входном языке строится по большому корпусу текстов различных жанров; особое внимание уделяется технической и специальной (например, юридической и медицинской) литературе. Параллельные тексты собраны из интернета и не проверялись. Весь многоязычный корпус содержит, по описанию разработчиков, около 10 миллионов примеров, при этом в документации не уточняется, идёт речь о коротких словосочетаниях или о параллельных предложениях.

Следует отметить одну из особенностей системы - поиск может осуществляться не только по запросу из одного слова, но и по фразе. Поскольку корпус содержит информацию о пословном выравнивании, при отображении результатов поиска выделяется как текст запроса, так и его вероятный перевод в тексте на языке перевода, однако не всегда это соответствие корректно (см. Рисунок 7).

1.8 Выводы

В первой главе были рассмотрены основные направления компьютерной двуязычной лексикографии: технологии создания электронных словарей традиционными методами, построение словарей систем машинного перевода, автоматическое построение электронных словарей и параллельных конкордансов.

Автоматический поиск иллюстрирующих контекстов в компьютерной лексикографии в основном сводится к задаче построения параллельного конкорданса. Существующие решения, касающиеся поиска коротких примеров употребления и перевода, практически не описываются подробно, а чаще всего составители электронных словарей обращаются к иллюстрациям, подобранным вручную. Таким образом, поскольку эта задача не имеет полного и универсального решения в компьютерной лексикографии, нам представляется необходимым рассмотреть теоретические предпосылки и практические методы отбора иллюстративных примеров в традиционных и компьютерных словарях. Этому посвящена Глава 2.

2. Иллюстративный блок одно- и многоязычных словарей

2.1 Принципы формирования иллюстративного блока в словарях

В одноязычных словарях примеры предназначены для иллюстрации основного содержания словарных статей, а метод их подбора практически полностью определяется функциями словаря. Например, в толковых словарях это иллюстрация значения: примеры дополняют толкование (причём могут даже содержать информацию энциклопедического характера), иллюстрируют грамматическую и лексическую сочетаемость, стилистические особенности употребления, коннотации и ассоциации. Количество и характер иллюстраций при заголовочном слове даже указывает на частоту употребления и может отражать данные живой речи. Поскольку данная работа посвящена двуязычным словарям, мы рассмотрим лишь некоторые характеристики иллюстраций одноязычных словарей - в основном, те проекты и идеи, которые касаются компьютерной обработки лингвистических данных.

Двуязычные словари выполняют другие функции - они предназначаются для перевода с родного языка на неродной и обратно, как при обучении, так и при, например, профессиональном переводе. Из одноязычных словарей по цели наиболее близки к двуязычным словари устойчивых сочетаний различных типов и учебные словари.

«К словарям, тем более двуязычным, не принято писать теоретических введений», пишет Ю.Д. Апресян во введении к Новому большому англо-русскому словарю, составленному под его руководством [Апресян 2000: 12]. Выбор той или иной стратегии для описания конкретного явления в словаре часто явно не выражается в словаре. Исключения составляют теоретические опыты, например, Толково-комбинаторный словарь (Мельчук и др. 1984), о котором речь пойдёт в следующей главе. Что касается отбора иллюстрирующих контекстов, то в одноязычной лексикографии они изначально служат материалом для составления толкований. В этом плане интересным представляется замечание В.П. Беркова в его книге «Двуязычная лексикография»: «Проблема отбора словосочетаний - одна из важнейших в двуязычной лексикографии. Именно отбором словосочетаний переводные словари с одним и тем же входным языком чаще всего отличаются один от другого, именно отбор словосочетаний представляет собой наиболее спорную и уязвимую часть практически каждого двуязычного словаря» (Берков 2004: 61). Словосочетания, по его мнению, вообще составляют часть словника двуязычного словаря (действительно, во многих словарях указывается как количество статей, так и количество включённых словосочетаний). В роли иллюстраций, по мнению В.П. Беркова, выступают свободные сочетания: они дополняют семантизацию, иллюстрируют сходную структуру значений, показывают нюансы конкретного значения. Примеры должны

a) быть информативными, сообщать некую информацию, дополнительную по отношению к переводу входного слова;

b) располагаться в порядке следования соответствующих переводных эквивалентов;

c) группироваться по значению.

Несвободные, фразеологизированные сочетания, очевидно, по мнению В.П. Беркова, включаются в словарь независимо от того, является ли перевод пословным.

Наиболее чётко принципы отбора иллюстраций для двуязычных словарей (как пассивного, так и активного типа) сформулированы в пособии по лексикографии «The Oxford Guide to Practical Lexicography» [Atkins, Rundell 2008]. Цель иллюстрирующих примеров - помочь пользователям словаря выбрать необходимый переводной эквивалент и правильно его использовать. В связи с этим нужно:

· указать, какое значение заголовочного слова иллюстрируется;

· предупредить пользователя о некорректных употреблениях;

· указать значения переводных эквивалентов в случае полисемии.

Поскольку в пособии [Atkins, Rundell 2008] речь идёт о традиционном двуязычном словаре, авторы замечают, что было бы слишком трудоёмко отбирать примеры переводов из корпуса. Вместо этого они рекомендуют использовать имеющиеся списки коллокаций, таким образом, иллюстрировать переводы в контексте этих коллокаций.

Функциональное описание иллюстраций в двуязычных словарях даётся в монографии [Butina-Koller 2005]: «Стандартные ситуации, в которых используется двуязычный словарь (восприятие текста на иностранном языке, перевод текста с иностранного языка на родной, перевод с родного языка на иностранный или более или менее свободное текстопроизводство на иностранном языке), и обусловленные этими ситуациями различные функции словарей должны учитываться при принятии конкретных решений в лексикографической практике». В работе далее подробно анализируются существующие решения в русско-французской лексикографии по четырём основным словарям - Новому французско-русскому словарю В.Г. Гака и К.А. Ганшиной, Dictionnaire Francais-Russe В.Г. Гака и Ж. Триомфа, Русско-французскому словарю Л.В. Щербы и М.И. Матусевич, Русско-французскому словарю Л.В. Щербы, М.И. Матусевич и Д.В. Сеземана.

В литературе обычно выделяются два критерия отбора коллокаций в качестве материала для словаря: частотность и типичность. В случае с двуязычными словарями важен контрастивный аспект - является ли то или иное сочетание понятным (transparent) для пользователя словаря. Понятные (transparent) словосочетания в рамках двуязычной лексикографии - те, значение которых выводится из значения составляющих и внутренняя форма сочетания на родном языке эквивалентна форме сочетания на иностранном. В противном случае трудности у пользователей словаря обычно возникают не при переводе на родной язык, а при порождении текста на иностранном языке. В формальной семантике такие выражения называются некомпозициональными, и именно эти случаи должны учитываться в двуязычном словаре.

В зарубежной лексикографии особое внимание уделяется так называемым типовым контекстам. Эта идея разрабатывается П. Хэнксом [Hanks 2012] в рамках методологии Corpus Pattern Analysis (CPA), на основе которой автор руководит составлением словаря английских глаголов The Pattern Dictionary of English Verbs (http://pdev.org.uk).

Методика базируется на теории нормы и употребления (Theory of Norm and Exploitation, TNE), а та в свою очередь вдохновлена работами М. Хэллидея [Halliday 1966] и Дж. Синклера [Sinclair 1966] по лексической семантике. Эти работы примечательны тем, что описанный в них подход лёг в основу методики создания словарей серии COBUILD и проекта Hector [Atkins 1993].

Основное внимание уделяется прототипическим синтаксическим шаблонам (patterns), фактически - рамкам валентности, с которыми ассоциируются эти слова при использовании их в речи. Эти шаблоны для существительных и глаголов существенно отличаются. Для существительных они строятся на основе корпусных данных и состоят обычно из нескольких групп, в которые объединяются значимые коллокаты. Для глаголов шаблонов включают не только базовую аргументную структуру, но и характеристики актантов, например, наличие определителя в подчинённой именной группе. Значение лексемы определяется не в изоляции, а в её прототипическом контексте. Поэтому первый этап CPA - группировка строк конкорданса по найденным синтаксическим шаблонам, а затем приписывание соответствующему значению толкования. Для практических приложений шаблону может соответствовать не толкование, а синонимический ряд или переводной эквивалент.

В немецком проекте elexiko [Storjohann 2005, URL: http://www1.ids-mannheim.de/lexik/elexiko.html] этот подход используется при разработке блока типовых контекстов (typische Verwendungen) в электронном словаре. Авторы ссылаются на подход П. Хэнкса в рамках проекта COBUILD [Hanks 1987] и формулируют своё неформальное определение типового контекста: это прототипические образцы с конкретными, выбранными по корпусным данным, лексическими элементами; многоуровневые лексико-синтаксические конструкции, элементы которых часто встречаются вместе. Типовые контексты в первую очередь показывают синтагматические ассоциации заголовочного слова - как особенности употребления конкретных грамматических форм, так и лексическую сочетаемость: см. Рисунок 8.

Более разработанное представление типовых контекстов описано в (Storjohann, Mohrs 2007). Было замечено, что типовые контексты представляют чрезвычайно ценный материал для изучающих язык. Поэтому важной задачей становится группировка и ранжирование этих фраз в электронном словаре. На рисунке 8 показаны типовые контексты для слова unbegrenzt (безграничный) в первой версии словаря и с группировкой. Можно заметить, что в первой версии отсутствовала возможность объединения контекстов по их синтаксическому типу, а также пример реализации для слота (обозначается как […]), где возможна широкая вариативность. Это было связано как с ограниченностью функционала графического отображения словарных статей, так и с неразработанностью методики группировки и ранжирования.

Разработчики отмечают, что иллюстрации должны быть упорядочены в соответствии с частью речи опорного слова: так, для прилагательного unbegrenzt в примере на рисунке выделяются синтаксические конструкции, в которых оно выступает в различных функциях - атрибутивной, предикативной и т.д. Затем для каждой группы вырабатывается свой принцип сортировки, иногда довольно специфический: например, в атрибутивном значении контексты располагаются в алфавитном порядке следования второстепенных слов конструкции (предлогов, глагольных форм).

Рисунок 8. Стандартное и упорядоченное представление типовых контекстов в elexiko.

Интересен также подход лексикографов elexiko к иллюстрации реализаций широко вариативных слотов: в примере это, скажем, […] unbegrenzt verlдngern и [z.B. den Vertrag] unbegrenzt verlдngern. Очевидно, что часто возможность реализации слота ограничена конкретной лексической группой (например, одушевлённые лица), однако часто требуется конкретизация. Поэтому на основании корпусных данных были выбраны наиболее регулярные реализации, которые затем использовались в качестве примера заполнения слота.

В отечественной лингвистике тоже употребляется понятие типового контекста (обычно без определения). Например, в книге «Лингвистическая семантика» И.М. Кобозевой [Кобозева 2000] акцентируется необходимость типового контекста для описания значения лексических единиц: «Рассматривая проблему описания значения слова, мы пришли к выводу о том, что в общем случае невозможно правильно, адекватно описать значение слова, изъяв его из типового синтаксического контекста. Таким образом, описание значения (парадигматического свойства слова) требует учёта его синтагматических свойств» [Кобозева 2000: 148].

Типовые контексты, представленные в словарях, и реальные употребления, зафиксированные в корпусе, обсуждаются в статье [Крылов, Митрофанова 2006]. Авторы не формулируют своего определения типового контекста, но принимают как данность, что контексты, иллюстрирующие словарные статьи, считаются типовыми. В статье сравниваются контексты из корпуса Бокрёнок [Азарова, Синопальникова 2004], иллюстрации из словаря Ожегова [Ожегов 1989] и типовая сочетаемость по лексической базе СО-Starling [Крылов, Старостин 2005]. В результате исследования, проведённого на материале частотных лексем год и говорить, было выявлено несколько классов контекстов:

- типовые контексты, которые отражают «закономерное в языке» - структурную организацию и лексическое наполнение синтагм, содержащих опорные слова;

- типовые контексты, содержащие маргинальные единицы, которые, по мнению авторов, отражают «случайное в языке»;

- контексты, совмещающие случайное и закономерное - идиомы, связи между лексемами внутри которых являются одновременно случайными и закономерными.

При этом информация из специализированной лексической базы данных оказывается более разнообразной по сравнению со словарными статьями, но при этом более «концентрированной» и сбалансированной, чем случайные корпусные данные.

А. Килгарифф и коллеги в статье [Kilgarriff и др. 2008], посвящённой корпусному отбору иллюстраций (предложений) для словаря коллокаций Macmillan, также отмечают типичность как необходимую характеристику примера. Для ранжирования контекстов, автоматически найденных в корпусе, используются следующие признаки:

- длина предложения: контексты короче 10 и длиннее 25 слов штрафовались;

- частоты слов внутри предложения;

- наличие в предложении придаточного с that;

- является ли контекст законченным предложением;

- положение опорной фразы внутри предложения.

Веса для признаков подбирались на основе размеченной выборки 1000 положительных примеров, получившуюся метрику GDEX можно использовать для сортировки конкорданса в SketchEngine. Ранжирование не использовалось непосредственно для принятия решений о включении контекста в словарь, но, по словам авторов, значительно сократила усилия лексикографов.

...

Страница:

дипломная работа "Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов" скачать

Подобные документы

Компьютерная лингвистика
Место и роль компьютерной лингвистики в лингвистических исследованиях. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Современные интерфейсы компьютерной лингвистики. Перспективная задача компьютерной лингвистики.

курсовая работа [28,5 K], добавлен 22.11.2009
Особенности компьютерной лингвистики на примере предприятия ТОО "Bimash"
Базовые основы программы Prolog - языка и системы логического программирования. Работа с текстами и предложениями. Электронный казахско-русско-английский словарь. Дистанционный комплекс обучения государственному языку специалистов технического профиля.

реферат [45,6 K], добавлен 15.09.2014
Машинный перевод
История возникновения, эволюция машинного перевода. Основные требования к коммуникативной эквивалентности. Последовательность формальных операций в системе машинного перевода, ее концепции развития. Переводчик для офиса. Преимущества электронных словарей.

презентация [455,3 K], добавлен 22.10.2013
Англо-русский и русско-английский переводчик
Создание программы на языке объектно-ориентированного программирования С++, реализующей построчный перевод текста (по словам) с английского на русский. Описание алгоритма решения задачи. Основные функции программы, примеры результатов ее работы.

отчет по практике [527,5 K], добавлен 10.04.2016
Системы машинного перевода
История автоматизированного перевода. Современные компьютерные программы перевода. Сфера использования машинного перевода. Формы организации взаимодействия человека и ЭВМ в машинном переводе. Интерредактирование и постредактирование машинного перевода.

курсовая работа [30,0 K], добавлен 19.06.2015
Разработка компьютерной игры "Японские кроссворды"
Обзор методов и средств реализации поставленной задачи. Описание компьютерной игры "Японские кроссворды". Обоснование инструментария разработки программного продукта. Алгоритмический анализ задачи. Графический интерфейс и лингвистическое обеспечение.

курсовая работа [725,4 K], добавлен 27.08.2013
Задача о минимизации стоимости перегона транспортных средств
Описание математических методов решения задачи оптимизации. Рассмотрение использования линейного программирования для решения транспортной задачи. Применение симплекс-метода, разработка разработать компьютерной модели в Microsoft Office Excel 2010.

курсовая работа [1,5 M], добавлен 24.05.2015
Современные программы-переводчики
Исследование современных технологий машинного перевода. Изучение классификации систем перевода. Характеристика особенностей работы с электронным словарем. Языковые инструменты Google. Программы для проверки правописания и грамматики, текстовые редакторы.

реферат [917,0 K], добавлен 02.11.2014
Компьютерная графика
Основные понятия и задачи, решаемые компьютерной графикой. Характеристика и разновидности компьютерной графики. Цветовые модели RGB, CMYK, HSB. Графические форматы растровых и векторных изображений. Особенности шелкографии, трёхмерная графика и анимация.

курсовая работа [350,7 K], добавлен 20.02.2012
Общее представление об информационной системе. Архитектурные решения
Основные направления в истории развития компьютерной индустрии. Специфика информационных программных систем. Основные задачи информационных систем. Классификация архитектур информационных приложений. Файл-серверные и клиент-серверные приложения.

презентация [110,8 K], добавлен 11.04.2013
Система компьютерной математики Maple
Раскрытие понятия "системы компьютерной математики", история ее развития. Внутренняя архитектура и составляющие СКМ. Основные принципы работы системы Maple. Ее возможности для решения линейных и нелинейных уравнений и неравенств. Применение функции solve.

курсовая работа [189,4 K], добавлен 16.09.2017
Использование сетевых технологий при проектировании дистанционной информационной системы и компьютерной сети
Понятие и общая характеристика дистанционных информационных систем, их основные функции и задачи. Разработка ДИС для IT-компании Envisionext и проектирование компьютерной системы, объединяющей 20 рабочих станций. Обзор сайтов конкурентов данной компании.

курсовая работа [1,8 M], добавлен 24.09.2012
Компоненты компьютерной системы. Принципы построения базы данных
Типы оборудования, относящиеся к компьютерной технике. Состав системного блока и периферийные устройства. Классификация программного обеспечения. Требования, предъявляемые к системам управления базами данных. Задачи и этапы проектирования баз данных.

контрольная работа [4,1 M], добавлен 18.02.2014
Разработка программного обеспечения "Автоматизация учета компьютерной техники"
Задачи автоматизированного учета компьютерной техники на предприятии ГУ НПО Тайфун. Описание среды программирования, требования к техническому и программному обеспечению. Описание алгоритма, структурная схема. Аномалии и защитное программирование.

дипломная работа [1,1 M], добавлен 30.06.2014
Решение задачи о коммивояжере, прямой алгоритм
Поиск верхних и нижних границ для оптимального значения на подобласти допустимых решений. Методы и проблемы решения задач нелинейного программирования. Написание и отладка программы. Создание программы для решения задачи "коммивояжёра" прямым алгоритмом.

курсовая работа [176,9 K], добавлен 22.01.2016
Средства компьютерной анимации
Методы создания двумерных и трехмерных изображений. Классификация средств компьютерной графики и анимации. Системы для работы с видео и компоновки. Обзор программных продуктов для создания презентаций, двумерной и трехмерной анимации, 3D-моделирования.

реферат [30,5 K], добавлен 25.03.2015
Стеганография и другие альтернативные методы сокрытия информации
Проблема защиты информации от несанкционированного доступа, основные направления ее решения (криптография и стеганография). Методы классической и цифровой стеганографии, стегосистемы. Классификация методов компьютерной стеганографии и их характеристика.

курсовая работа [332,3 K], добавлен 26.11.2013
Разработка автоматизированной системы "Учет компьютерной техники и оргтехники"
Классификация архитектуры базы данных. Компьютерные сети и их виды. Обзор программных продуктов для учета компьютерной техники и оргтехники. Проектирование информационной структуры предметной области и программная реализация задачи учета оргтехники.

дипломная работа [1,9 M], добавлен 16.05.2017
Виды компьютерной графики
Методы и средства создания и обработки изображений с помощью программно-аппаратных вычислительных комплексов. Основные понятия компьютерной графики. Особенности применения растровой, векторной и фрактальной графики. Обзор форматов графических данных.

реферат [49,1 K], добавлен 24.01.2017
Разработка оптимальной компьютерной системы для дизайн-студии.
Разработка компьютерной системы для работы в дизайн-студии. Требования к компонентам компьютерной системы для использования ее в качестве дизайн-студии. Выбор процессора с учетом его производительности. Выбор материнской платы. Видеокарта и ее параметры.

реферат [1,3 M], добавлен 03.01.2009

Другие документы, подобные "Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Оглавление

Введение

1. Компьютерная двуязычная лексикография

1.1 Основные задачи и направления работы в компьютерной лексикографии

1.2 Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии

1.3 Компьютерная двуязычная лексикография

1.4 Электронные двуязычные словари

1.5 Словари систем машинного перевода

1.6 Автоматически составленные (машинные) двуязычные словари: методология составления и применение

1.7 Параллельные конкордансы

1.8 Выводы

2. Иллюстративный блок одно- и многоязычных словарей

2.1 Принципы формирования иллюстративного блока в словарях

2.2 Практическая реализация иллюстративного блока в двуязычных словарях

2.3 Выводы

3. Устойчивые сочетания различных типов и опыт их лексикографирования

3.1 Основные концепции устойчивых сочетаний

3.2 Представление коллокаций в словарях сочетаний

3.3 Выводы

4. Поиск и ранжирование контекстов для англо-русского машинного словаря

4.1 Материал и инструменты исследования

4.2 Описание процедуры поиска контекстов

4.3 Подготовка обучающей и тестовой выборки

4.4 Анализ ошибок в контекстах-кандидатах

4.5 Общий алгоритм ранжирования параллельных контекстов

4.6 Факторы (признаки) ранжирования

4.7 Методы классификации

4.8 Оценка качества классификации

4.9 Результаты классификации

4.10 Сравнение ранжирования с простыми эвристическими методами

4.11 Значимость признаков классификации

4.12 Выводы

Заключение

Лексикографические источники

Литература

Приложение А. Сравнение и оценка ранжирования иллюстрирующих контекстов с помощью разных методов

Ранжирование контекстов на основе меры MI

Ранжирование контекстов на основе частоты перевода

Ранжирование RF1

Ранжирование RF2

Ранжирование RF3

Ранжирование RF4

Введение

1. Компьютерная двуязычная лексикография

1.1 Основные задачи и направления работы в компьютерной лексикографии

Также следует упомянуть серию Collins English Dictionary, словари которой с 1979 года полностью создавались с использование электронных баз данных и корпусов.

1.2 Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии

1.3 Компьютерная двуязычная лексикография

В области компьютерной двуязычной лексикографии постепенно выделилось несколько направлений:

1.4 Электронные двуязычные словари

1.5 Словари систем машинного перевода

1.6 Автоматически составленные (машинные) двуязычные словари: методология составления и применение

С 1990 годов начинаются многочисленные исследования, посвящённые автоматическому извлечению переводных эквивалентов из параллельных корпусов.

1.7 Параллельные конкордансы

где и - частоты слова и переводного эквивалента соответственно, а - частота совместного появления этих слов.

Однако, в веб-интерфейсе не содержится никакой информации о ранжировании и принципах работы системы.

1.8 Выводы

2. Иллюстративный блок одно- и многоязычных словарей

2.1 Принципы формирования иллюстративного блока в словарях

Подобные документы