Параллельный конкорданс: поиск и ранжирование переводных контекстов для иллюстрации переводов

Основные задачи и направления работы в компьютерной лексикографии. Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии. Русско-английский словарь под общим руководством проф. А.И. Смирницкого.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 30.10.2017
Размер файла 1,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

0

*Top*

*Top*

0

_

/

1

мне

я

3

subj

/prn/sg/fem/msc/neu/dat/fst/

2

нравилось

нравиться

3

auxd

/vrb/sg/neu/fin/fst/sec/trd/pst/ind/act/

3

смотреть

смотреть

0

fin

/vrb/sg/neu/inf/fst/sec/trd/pst/act/

4

на

на

5

prep

/prp/acc/

5

улицу

улица

3

prepnp

/nn/sg/fem/acc/trd/

6

через

через

7

prep

/prp/acc/

7

стекло

стекло

3

prepnp

/nn/sg/neu/acc/trd/

В качестве одного из факторов ранжирования используется оценка фразы по модели языка (см. ниже). Для построения этих моделей использовались более надёжные корпуса текстов на английском и русском языках (одноязычные), собранные из интернета. Данные по объёму всех использованных корпусов приведены в таблице 1. Модели языка строятся с помощью утилит пакета SRILM [Stolcke 2002].

Таблица 1. Объём использованных корпусов в токенах (словоупотребления и знаки препинания).

объём корпусов

английский

русский

параллельный Интернет-корпус

1,145 миллиарда

1,132 миллиарда

одноязычный Интернет-корпус

4,1 миллиарда

3,16 миллиарда

4.2 Описание процедуры поиска контекстов

Для поиска потенциальных словарных иллюстраций из параллельного корпуса извлекаются параллельные контексты заданной длины. Сначала по параллельному корпусу с помощью инструмента GIZA++ строится модель перевода, полученные контексты затем обрабатываются парсером SyntAutom. Полученная таблица содержит следующие данные (см. Таблицу 2):

- входной контекст;

- перевод;

- синтаксический разбор входного контекста и перевода;

- пословное выравнивание;

- входной контекст и перевод в лемматизированном виде.

Таблица 2. Пример записей из модели перевода.

a back panel

задняя панель

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_homo_0

adj_/adj/sg/fem/nom/trd/_adj_2 nn_/nn/sg/fem/nom/trd/_homo_0

1-0 2-1

a back panel

задний панель

a back part

арьергардная часть

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_subj_0

adj_/adj/sg/fem/nom/trd/_adj_2 nn_/nn/sg/fem/nom/trd/_subj_0

1-0 2-1

a back part

арьергардный часть

a back part

в заднюю часть

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_prepnp_0

prp_/prp/acc/_prep_3 adj_/adj/sg/fem/acc/trd/_adj_3 prepnp_/nn/sg/fem/acc/trd/_prepnp_0

0-0 1-1 2-2

a back part

в задний часть

a back part

до задней части

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_np_0

prp_/prp/gen/_prep_3 adj_/adj/sg/fem/gen/trd/_adj_3 prepnp_/nn/sg/fem/gen/trd/_prepnp_0

0-0 1-1 2-2

a back part

до задний часть

a back part

задний отдел

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_sm_0

adj_/adj/sg/msc/nom/trd/_adj_2 nn_/nn/sg/msc/nom/trd/_subj_0

1-0 2-1

a back part

задний отдел

a back part

задняя часть

det_/det/_det_3 nn_/nn/sg/trd/_gen_3 nn_/nn/sg/trd/_np_0

adj_/adj/sg/fem/nom/trd/_adj_2 nn_/nn/sg/fem/nom/trd/_np_0

1-0 2-1

a back part

задний часть

Как видно из примера, каждой последовательности слов приписывается синтаксический разбор. Из полученной модели перевода удаляются те фразы, которые не являются связным поддеревом синтаксического разбора всего предложения. Например, в предложении «The result is an industry that works in a radically different way than it did a decade ago.» последовательность “a radically different way” является связным поддеревом, а “in a radically different” - нет.

Кроме того, из модели удаляются пары переводных эквивалентов, включающих только одно знаменательное слово. Затем каждому контексту в модели перевода ставятся в соответствие возможные ключи (потенциальный заголовок статьи и его перевод). Для этого информация о пословном выравнивании контекстов объединяется со словником словаря. Таким образом, например, для пары биграмм на английском и русском языке “digital image - цифровая фотография”, где слова выровнены по порядку, мы получаем две записи - для перевода “digital - цифровой” и “image - фотография”.

Выделенные контексты хранятся в виде значений, разделённых табуляцией, в следующем порядке:

- ключ (заголовочное слово);

- переводной эквивалент;

- частота пары «контекст - перевод» в параллельном корпусе;

- контекст на исходном языке;

- синтаксический разбор и леммы контекста;

- перевод контекста;

- синтаксический разбор и леммы перевода;

- информация о позиции ключа в контексте;

- информация о выравнивании.

4.3 Подготовка обучающей и тестовой выборки

Как уже было сказано, основной задачей эксперимента является упорядочивание иллюстрирующих контекстов в соответствии с допустимостью их использования в качестве материала для иллюстративного блока. Для решения этой задачи мы предлагаем ранжирующий классификатор - алгоритм, который по обучающей выборке приписывает элементам тестовой выборки оценки в заданном диапазоне таким образом, что элементы могут быть затем упорядочены по значению этой оценки. Цель ранжирующей модели -- наилучшим образом (в некотором смысле) приблизить и обобщить способ ранжирования в обучающей выборке на новые данные.

Для обучения ранжирующего классификатора были размечены обучающий и тестовый наборы контекстов.

Первым шагом в подготовке выборок был отбор переводных эквивалентов, к которым затем подбирались контексты. Чтобы сделать этот «словарь» более репрезентативным, переводные эквиваленты выбирались случайно таким образом, чтобы распределение их частот соответствовало распределению частот слов в параллельном корпусе. Кроме того, необходимо было установить такое же соответствие с распределением частот запросов к словарю. Было замечено, что количество запросов на английском языке в значительной степени коррелирует с частотой соответствующих слов в корпусе [Antonova, Misyurev 2014], поэтому можно полагаться только на корпусную статистику. Также в выборку не включалось сто самых частых английских слов.

Для каждой пары переводных эквивалентов в словаре из параллельного корпуса извлекаются все возможные контексты (биграммы), как описано в предыдущем разделе. Случайная выборка из полученного множества контекстов могла бы быть ненадёжной, поскольку в ней сложно было бы обеспечить баланс между положительными и отрицательными примерами. Поэтому каждому контексту приписывается вес по эмпирической формуле, которая соответствует произведению прямой и обратной вероятности перевода

где

- частота выравнивания контекста на входном языке в контекст на выходном языке в параллельном корпусе;

- частота контекста на входном языке в том же параллельном корпусе;

- частота контекста на выходном языке в том же параллельном корпусе.

Затем для каждой пары переводных эквивалентов выбирается несколько (от одного до трёх в зависимости от общего числа кандидатов) с наибольшим весом. Таким образом была получена выборка объёмом 700 словосочетаний.

Разметка производилась вручную по пятибалльной шкале от 1 (неприемлемый контекст) до 5 (идеально подходящий контекст). В таблице приведены неформальные критерии, использованные при выставлении оценки. Стоит напомнить, что каждый параллельный контекст состоит из двух частей - входной и выходной. В качестве эксперимента примеры размечались в двух режимах - сначала оценка приписывалась обеим частям, затем каждой по отдельности. При составлении критериев использовался опыт группы аналитиков отдела машинного перевода компании «Яндекс».

Таблица 3. Принципы разметки контекстов-кандидатов.

Оценка

разметка обеих частей

разметка одной части

пример

1

Обе части бессмысленны и грамматически неправильны; части не являются переводными эквивалентами

Фраза бессмысленна и грамматически некорректна

*pickled <loveliness> > *маринованная <красота>

2

Одна из частей соответствует оценке один по принципам разметки одной части примера; обе или одна из фраз грамматически некорректна

Фраза грамматически некорректна; фраза не является переводным эквивалентом

caribbean <community> > *караибское <содружество>

3

Обе части грамматически корректны, но не отражают особенностей значения / употребления / перевода ключа

Фраза грамматически корректна, но не отражает особенностей значения / употребления / перевода ключа

*его <любовь> > *his <fondness>

4

Обе части грамматически корректны и частично иллюстрируют особенности значения / употребления / перевода ключа

Фраза грамматически корректна и частично иллюстрирует особенности значения / употребления / перевода ключа

quit the company > покинуть компанию

5

Идеально подходящий контекст

Идеально подходящий контекст

ball lightning > шаровая молния

Как было сказано выше, контексты извлекались из корпуса для всех соответствий «английская лексема - русская лексема», полученных из машинного словаря. Машинный словарь в свою очередь содержит некоторое количество «шумных» (ошибочных) переводов: например, из недословных переводов можно извлечь перевод «beautiful - красота». Они были удалены из выборки после разметки. В результате размеченный набор составил более 600 примеров. Результаты разметки каждой из частей по отдельности приведены на рисунке 9.

Рисунок 9. Результаты разметки контекстов по пятибалльной шкале: тёмным отмечены английские контексты, светлым - русские.

4.4 Анализ ошибок в контекстах-кандидатах

Среди примеров с оценками 1 и 2 были выделены следующие группы ошибок (ключи выделены угловыми скобками, ошибки отмечены звёздочкой):

1) Ошибки в форме примера

a) Грамматически некорректные фразы

*<preparation> enamel > <составление> эмали

<appreciate> acrobatics > *<оценить> акробатика

b) Незаконченные фразы

county <detention> > деревенский <исправительный>

c) Фразы в несловарной форме

*<created> tsunamis > *<породило> цунами

monstrously <big> > *чудовищно <огромная>

header files > *заголовочных файлов

d) Фразы, содержащие иностранные слова, транслитерацию

<improve> resiliency > *<улучшать> resiliency

unformatted <capacity> > *unformatted <емкость>

*<beginning> shvatyvanija > начало> схватывания

e) Фразы, содержащие слово с опечаткой

caribbean <community> > *караибское <содружество>

burgundy <sole> > *бардовая <подошва>

2) Ошибки в значении

a) Неинформативные фразы

*его <любовь> > *his <fondness>

*очень <глупый> > *really <stupid>

*nonpregnant <woman >> *небеременная <женщина>

b) Фразы с несвязанными словами

*pickled <loveliness> > *маринованная <красота>

*<saving> neurotic > *<спасение> невротиков

*синхроничная <жизнь> > *synchronistic <life>

c) Труднопонятные фразы со специфическим значением

*sagittal <reconstruction> > *сагиттальная <реконструкция>

*threshold <panel> > *пороговое <табло>

d) Машинный / пословный перевод

*<soya> squirrels > <соевый> белок

*<character> stitches > <символьные> строчки

*harvest <control> > жмешь <контрол>

*Berners-<whether> > Бернерс-<ли>

hi <camcorder> > *привет <видеокамеры>

e) Оскорбительные контексты для нейтральных слов

naked <girl> > голая <девушка>

<Japanese> militarists > <японские> милитаристы

Hitlerite <Germany> > гитлеровская <Германия>

<become> a Shaheed > <стать> шахидом

f) Фразы, не являющиеся переводными эквивалентами

<saving> rolling > <спасение> утопающих

Первую группу ошибок можно объяснить двумя взаимосвязанными причинами. Во-первых, контексты извлекаются из интернет-корпуса, который содержит «некачественные» тексты, полученные в результате машинного перевода, случайно и намеренно искажённые тексты. С другой стороны, на извлекаемые контексты не накладывается никаких ограничений, кроме связности поддерева. Таким образом, учитывая возможные ошибки парсера, находятся грамматически некорректные фразы. С качеством корпуса связаны и некорректные переводы контекстов (ошибки в значении), и пословные переводы: soya squirrels, saving rolling.

При обучении ранжирующих классификаторов из обучающего набора удалялись примеры с оценкой 3, поскольку они не представляют качественного материала для обучения, а скорее зашумляют его.

4.5 Общий алгоритм ранжирования параллельных контекстов

Исходя из проведённого анализа ошибок, а также из изложенных выше принципов отбора иллюстраций и устойчивых сочетаний в словарях классического типа, мы предлагаем следующий алгоритм ранжирования переводных контекстов. Для каждого контекста вычисляются значения признаков, которые позволяют отделить релевантные фразы от некорректных (подробное описание этих признаков приведено ниже). В результате получаем матрицу размера , где N - количество переводных контекстов, а M - количество признаков. Эти данные подаются на вход ранжирующему классификатору, который приписывает каждому контексту некоторое значение (от 0 до 1 или от 1 до 5). Затем контексты ранжируются внутри группы, найденной для ключа (пары «английское слово - русский перевод»). В словаре для каждого ключа отображается только лучший пример из группы.

4.6 Факторы (признаки) ранжирования

Перечислим признаки, которые подавались на вход ранжирующему классификатору, по группам. Для каждой группы в скобках приводится её сокращённое название, которое используется ниже.

Оценка по языковой модели (группа LM)

Статистическая языковая модель (модель языка) - это вероятностное распределение последовательностей слов. Такая модель позволяет на основе данных о вероятности появления в тексте слов и их последовательностей определённой длины вычислить вероятность произвольной последовательности. Простейшая модель языка, основанная на n-граммах, работает следующим образом. Вероятность появления предложения оценивается следующим образом:

Здесь применяется предположение о том, что генерация предложения - случайный марковский процесс, то есть текущее состояние (выбор i-го слова) зависит лишь от нескольких предыдущих. Вероятность появления слова при условии предшествующего контекста длины вычисляется очевидным образом по значениям частот слов и их последовательностей в корпусе:

где count(s) - частота последовательности слов s.

Для оценки вероятности n-грамм, не встреченных в корпусе, применяется сглаживание различными методами от линейной интерполяции до методов Гуда-Тьюринга и back-off моделей (подробнее о способах сглаживания в статье [Chen, Goodman 1998]). Простейший метод сглаживания - линейная интерполяция - заключается представлении произведения вероятностей через сумму - например, когда по корпусу невозможно определить условную вероятность триграммы . В триграммной модели условная вероятность слова по двум предыдущим будет оцениваться по значениям вероятностей , , . Метод линейной интерполяции позволяет подобрать для каждого из множителя коэффициенты , , таким образом, чтобы вероятность была представима следующим образом:

Возможность построения различных языковых моделей предоставляет инструмент SRILM (SRI Language Modeling, [Stolcke 2002]). Мы использовали триграммную модель с настройками по умолчанию, собранную отдельно по английской и русской части параллельного корпуса, из которого извлекались контексты. Также были собраны модели по частеречным тегам на тех же корпусах.

Для оценки качества языковых моделей используется перплексия (perplexity) - мера, которая позволяет оценить, насколько хорошо модель описывает новые данные. Идея заключается в следующем: возьмём предложения, которые не входили в корпус для обучения языковой модели. Каждое «новое» предложение можно оценить с помощью имеющейся модели, и, кроме того, можно оценить вероятность всего набора предложений. Для всех m предложений общим объёмом M слов перплексия вычисляется так:

Где

Чем меньше значение, тем лучше моделируются «новые» данные. С другой стороны, при фиксированной языковой модели можно оценить сложность текстов, не входящих в модель. Для одного предложения она представляет собой вероятность предложения, нормированную на количество слов в предложении и приведённую к диапазону

Таким образом, для каждого контекста вычислялись следующие значения (отдельно для английской и русской частей):

- перплексия по униграммной модели;

- перплексия по триграммной модели.

Кроме того, тексты были размечены синтаксическим анализатором, следовательно, каждому токену приписана морфологическая информация. Таким образом, можно оценить не только вероятность последовательности слов, но и вероятность последовательности граммем. Для этого была построена языковая модель по частеречным тегам и в группу признаков LM включалась также

- перплексия по триграммной частеречной модели.

Относительная частота контекста (RelF)

Относительная частота примера вычисляется по статистической модели перевода. Используемая формула позволяет одновременно оценить как частоту примера в корпусе, так и его значимость относительно входящих в него слов:

где

- частота выравнивания английской части примера в русскую;

- максимальная частота по словам, не являющимся ключом, в английском контексте;

- максимальная частота по словам, не являющимся ключом, в русском контексте.

Взаимная информация (MI)

Как неоднократно отмечалось выше, значительный интерес для иллюстративного блока двуязычного словаря представляют коллокации. Многочисленные меры оценки степени связи внутри коллокаций перечислены, например, в рамках интернет-ресурса collocations.de [Evert 2004] или в работах [Захаров, Хохлова 2010; Пивоварова, Ягунова 2010; Кощеева 2014]. Считается, что некоторые из мер отражают определённый тип сочетаемости; проводились различные попытки сравнения мер.

Таблица 4. Общий вид таблицы сопряжённости для наблюдаемых значений частот слов X и Y.

Таблица 5. Общий вид таблицы сопряжённости для ожидаемых значений частот слов X и Y.

В частности, предлагаются следующие способы оценки связи внутри словосочетания, основанные на таблице сопряжённости (contingency table, таблицы 4-5) и проверке гипотезы о значениях ожидаемых частот:

Логарифм правдоподобия (Log-likelihood ratio test)

t-test

-test

z-score

Каждая из этих мер имеет свои достоинства и недостатки, о которых подробно сказано, например, в [Manning, Schutze 1999: 141-172].

Для данной задачи была выбрана взаимная информация (mutual information, MI), которая является универсальной мерой связи и эффективность которой была показана, в частности, в нашем исследовании [Букия и др. 2015]. В общем случае взаимная информация для пары слов и оценивается так:

где p(w) - вероятность слова в корпусе.

Мы предлагаем расширение традиционного понятия взаимной информации для коллокации, поскольку частоты для оценки вероятности вычисляются по синтаксическим связям, а не по биграммам или совместной встречаемости в рамках предложения. Кроме того, поскольку контексты не ограничены биграммами, вычисляется среднее значение MI по всем парам связей слова-ключа. Для того, чтобы «выровнять» значение меры (не поощрять редкие слова и сочетания), используется линейное сглаживание: к частотам отдельных слов при вычислении вероятностей и добавляется константа, значение которой получено эмпирически.

Векторные модели (WV)

В последнее время значительную популярность приобрели векторные семантические представления, которые позволяют описать различные языковые закономерности (например, [Baroni и др. 2014]). В [Mikolov и др. 2013a] описан способ получения таких векторов на основе рекуррентных нейронных сетей (о них ниже). Затем авторы [Mikolov 2013b] оценивают полученные вектора применительно к различным задачам, таким как нахождение семантически связанных слов, построение аналогий («Какое слово так относится к Италии, как Париж к Франции?»), выделение морфологических форм. Семантические вектора широко применялись при исследовании семантической близости на материале русского языка в рамках соревнования RUSSE [Панченко и др. 2015]. Кроме того, было показано, что косинусная мера близости между такими векторами может учитываться и для оценки синтагматической сочетаемости [Panicheva и др. 2016].

Одним из наиболее популярных инструментов для построения семантических векторов является word2vec (https://code.google.com/archive/p/word2vec/). Это реализация векторных моделей от авторов статьи [Mikolov и др. 2013a], в которой используются два описанных в статье алгоритма - continuous bag-of-words (CBOW) и skip-gram. Оба алгоритма предполагают использование рекуррентной нейронной сети, на вход которой подаются последовательности слов. На выходе сеть должна учиться максимизировать косинусную близость между векторами слов, которые часто встречаются рядом. Алгоритм CBOW обучается предсказывать слово по его контексту, skip-gram - контекст по слову. Авторы статьи [Mikolov и др. 2013а] уточняют, что первая модель лучше подходит для обучения на больших корпусах текстов и работы с частыми словами, а вторая - на меньших корпусах, но лучше работает с редкими словами.

Мы тренировали семантические вектора в 200-мерном пространстве с помощью инструмента word2vec на английской и русской частях параллельного корпуса, из которого извлекались контексты. При построении дистрибутивной модели использовалась архитектура skip-gram.

Рисунок 10. Схематическое изображение архитектур cbow и skip-gram.

В качестве признаков группы WV мы использовали конкатенацию всех векторов данного контекста (в порядке следования соответствующих слов) и бинарные признаки, которые указывали на положение ключевого слова в рамках контекста. Таким образом, для биграммы , где ключом является второе слово, вектор признаков WV выглядит следующим образом: .

Семантическая близость (Sim)

Основным способом оценки семантической близости слов (ассоциации, association) по их семантическим представлениям, является косинус угла между векторами:

где и - вектора, соответствующие словам и .

Как и в случае с взаимной информацией, для контекста вычислялось среднее значение близости ключа к остальным словам примера.

4.7 Методы классификации

Несмотря на детальную разметку обучающей выборки, были произведены эксперименты с бинарной классификаций методом случайного леса и с помощью нейронной сети прямого распространения с одним скрытым слоем. Для предсказания оценки от 1 до 5 использовался набор бинарных классификаторов (также основанных на методе случайного леса). Рассмотрим указанные методы классификации подробнее.

Случайный лес (Random forest)

Метод случайного леса - алгоритм машинного обучения, предложенный в [Breiman 2001]. Классификатор представляет собой ансамбль решающих деревьев (отсюда и название). Алгоритм классификации таков:

1. Построим некоторое количество решающих деревьев следующим образом

a. Сгенерируем случайную подвыборку с повторами размера исходной выборки.

b. Построим решающее дерево, классифицирующее примеры данной подвыборки, причём при создании нового узла дерева будем выбирать признак, на основе которого производится разбиение, не из всех признаков, а лишь из случайно выбранных. Выбор наилучшего из этих признаков может осуществляться различными способами. В оригинальной статье используется критерий Джини, применяющийся также в алгоритме построения решающих деревьев CART - это мера, которая показывает, насколько часто случайный элемент из множества будет помечен неправильно, если следовать распределению классов в подмножестве элементов. Она вычисляется как сумма произведений вероятности выбора каждого элемента на вероятность ошибки при его классификации. Для элементов мера Джини вычисляется следующим образом при условии, что - доля элементов, размеченных как i-ый элемент множества:

c. Построение прекращается, когда заканчиваются элементы подвыборки.

2. Классификация каждого элемента производится затем с учётом решений всех деревьев: выбирается тот класс, к которому элемент относит большинство.

3. Количество деревьев определяется таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке.

Одним из важных свойств метода случайного леса является возможность оценки значимости каждого признака. Для этого каждому элементу на этапе построения решающих деревьев приписывается так называемая ошибка out-of-bag: средняя вероятность ошибки на данном элементе, если не учитывать деревья, в которые входит данный элемент. Затем на всём тренировочном наборе перемешиваются (меняются по элементам) значения признака, который оценивается. Значимостью параметра будет среднее значение разности ошибки out-of-bag по всем элементам набора до и после перемешивания.

Возможность оценки вероятной ошибки с использованием только обучающего набора (out-of-bag) - одно из основных достоинств метода случайного леса. Можно также упомянуть нечувствительность к масштабированию значений признаков, возможность одновременной работы с дискретными и непрерывными значениями без потери в качестве.

В нашей работе использовались параметры из оригинальной статьи Бреймана (критерий Джини, оценка с помощью out-of-bag) в реализации библиотеки scikit-learn (http://scikit-learn.org, [Pedregosa и др. 2011]).

Нейронная сеть прямого распространения

Искусственные нейронные сети изначально создавались как модель биологической нервной системы. Именно поэтому в этой области многие термины заимствованы из нейрофизиологии. Основной единицей этой модели является нейрон, состоящий из следующих частей:

· определённое количество входных сигналов;

· сумматор, складывающий входные сигналы с определенными весами в значение ;

· сеть синапсов (связей) соединяющая входные сигналы с сумматором, при этом у каждого ребра-синапса есть вес;

· функция активации , преобразующая результат суммирования в выходной сигнал - обычно в диапазоне ;

Обычно используются следующие функции активации:

· пороговая функция (модель Мак-Каллока - Питца)

· кусочно-линейная функция

· сигмоидальная функция

где - параметр наклона.

Множество таких нейронов составляет слой нейронной сети. Самая простая сеть будет состоять из трёх слоёв нейронов: входного, скрытого и выходного. Для входного и выходного слоя известны некоторые параметры: какой сигнал подаётся на вход и какой оказывается на выходе. В скрытом слое, как следует из названия, производятся неявные преобразования сигналов. Многослойные сети позволяют находить более сложные зависимости, особенно когда размер входного слоя достаточно велик.

Архитектура нейронной сети предполагает возможность обратной связи, когда выходной сигнал оказывает влияние на новый входной. В зависимости от наличия в сети обратной связи выделяют сети прямого распространения и рекуррентные сети. В первых информация из входного слоя передаётся на выходной слой нейронов; в случае многослойной сети - через один или несколько слоёв скрытых нейронов. Рекуррентные нейронные сети отличает наличие хотя бы одной обратной связи.

Математическая модель нейронной сети может применяться в обучении как с учителем, так и без него. Одним из наиболее распространённых алгоритмов обучения сети является метод обратного распространения ошибки. Он позволяет вычислить синаптические веса (веса связей) таким образом, что значение функции потерь (величина ошибки) стабилизируется и становится достаточно небольшим. При этом каждый новый обучающий пример вносит свой вклад в изменение весов, когда на каждом этапе выходное значение сравнивается с желаемым, и веса пересчитываются в обратном направлении - от выходного слоя к входному.

В экспериментах использовалась сеть прямого распространения с одним скрытым слоем. Такое решение было принято, с одной стороны, чтобы сократить вычислительные затраты, а с другой, поскольку множество признаков, которыми описываются входные данные, сравнительно невелико. Размер скрытого слоя составляет 10 элементов, а максимальное количество итераций - 150 (если сходимость не достигается раньше). Параметры были подобраны эмпирически для достижения наилучших показателей качества.

Оценка мультиклассификации

Оценка примеров с использованием пятибалльной шкалы полезна, когда необходимо выделить наиболее релевантные примеры. Однако, классификация на более чем два класса - довольно сложная задача для одного классификатора. Поэтому были объединены бинарные классификаторы на основе метода случайного леса для каждого класса. Кроме того, при обучении каждого из них из обучающего набора удалялись примеры с ближайшей оценкой: например, при обучении классификатора, определяющего принадлежность примера к 5 классу, из выборки удалялись примеры с оценкой 4. При предсказании оценки на тестовом наборе выбиралась оценка, соответствующая классификатору с наибольшим значением. Кроме того, вычислялась надёжность такой оценки по формуле:

где - предсказание i-го классификатора.

4.8 Оценка качества классификации

Основные эксперименты используют бинарную классификацию или мультиклассификацию. Для их оценки использовались стандартные метрики - точность (precision) и аккуратность (accuracy). В общем виде значения вычисляются следующим образом:

используемые обозначения проще всего представить в таблице (см. Таблица 6).

Точность вычислялась по отрицательным примерам, поскольку важнее было убедиться, что метод фильтрует некачественные контексты. Ниже такая метрика будет обозначаться .

Таблица 6. Варианты ошибок классификации.

количество примеров

исходная разметка

0

1

разметка классификатора

0

tn

fn

1

fp

tp

4.9 Результаты классификации

Для оценки качества классификации размеченная выборка делилась в соотношении 2:1 на обучающую (416 примеров) и тестовую (206 примеров) соответственно. Проведена оценка пяти методов классификации по разным группам признаков:

· оценка каждой части примера по отдельности:

- - случайный лес на группе признаков WV;

- - мультиклассификатор на группе признаков WV;

- - нейронная сеть на группе признаков WV;

· общая оценка параллельного контекста:

- - случайный лес на группах LM, MI, RelF and Sim;

- - случайный лес на всех признаках.

Результаты классификации приведены в таблицах 7а и 7b.

Из таблицы 7а можно заключить, что английские части параллельных контекстов классифицируются значительно лучше русских. Мы предполагаем, что это связано с качеством семантических векторов: и те, и другие были обучены на корпусах одного размера, однако языки с богатой морфологией (как русский), как правило, требуют большего объёма данных.

P0(en)

A(en)

P0(ru)

A(ru)

RF1

0.71

0.74

0.62

0.64

RF2

0.83

0.65

0.63

0.62

NN

0.67

0.65

0.56

0.61

(a) Предсказание качества одной из частей примера.

P0

A

RF3

0.69

0.7

RF4

0.685

0.71

(b) Предсказание качества параллельного контекста.

Таблица 7. Результаты классификации контекстов.

В случае с классификацией параллельных контекстов целиком, можно заметить, что добавление признаков группы WV практически не влияет на качество классификации. В связи с этим можно заключить, что информации о близости векторов слов достаточно для описания словосочетания.

4.10 Сравнение ранжирования с простыми эвристическими методами

Для сравнения результатов ранжирования было выбрано 140 пар «английское слово - русский эквивалент», которые не входили в размеченную ранее выборку. Для каждой пары извлекались все возможные параллельные контексты, которые затем ранжировались следующим значениям:

- - абсолютная частота параллельного контекста в параллельном корпусе;

- - сумма значений взаимной информации ( в том виде, как описано выше) для английской и русской части примера;

- , , - значения, полученные от соответствующих классификаторов (фактически - вероятность отнесения соответствующего слова к положительному классу);

- - модифицированные значения классификатора . В случае, если обе части контекста оценивались как положительные, использовалось значение надёжности c. Если только одна из частей контекста была отнесена к классам (4, 5), то из значения надёжности для этой части вычиталось наименьшее значение надёжности для другой части.

Оценка производилась следующим образом. Из каждого упорядоченного списка для каждого ключа сохранялся лучший параллельный контекст. Затем примеры в полученных списках размечались как положительные (1) и отрицательные (0). Результаты разметки приведены в приложении А.

Мерой качества служило количество положительных примеров в списке. Это связано с тем, что, как было сказано выше, формат используемого машинного словаря позволяет показывать только один параллельный контекст для одного ключа, то есть важно оценить, как часто в верхней части списка оказываются отрицательные примеры. Результаты приведены в таблице 8.

Таблица 8. Оценка ранжирования иллюстративных примеров.

положительные примеры

доля положительных примеров

MI

60

42.8

F

44

31.4

59

42.1

76

54.3

88

62.9

74

52.9

Результаты показывают, что использование машинного обучения значительно улучшает ранжирование по сравнению с простыми методами. Сравнение различных наборов признаков позволяет сказать, что наиболее удачной комбинацией является сочетание всех групп за исключением WV.

4.11 Значимость признаков классификации

Некоторые выводы о важности той или иной группы признаков можно сделать по результатам оценки в предыдущих разделах. Так, заметно, что использование группы WV вместе с остальными избыточно, хотя возможно, что в отдельности классификация, основанная на этой группе, показала бы лучшие результаты на большем обучающем наборе.

Как было сказано, метод случайного леса позволяет вычислить значимость каждого признака. Данные о значимости групп признаков, использовавшихся при классификации , приведены в таблице 9.

Таблица 9. Значимость признаков для классификатора RF3.

MI

0.13 … 0.097

LM

0.1 … 0.04

F

0.079 … 0.05

Sim

0.063 … 0.04

Наиболее существенными оказываются признаки группы MI, то есть устойчивость сочетания. Таким образом, получается, что в обучающей выборке отражена тенденция к выбору в качестве лучших иллюстраций коллокаций, а классификатор стремится воспроизвести эту закономерность. Следующими по значимости выделяются признаки группы LM, причём больший вес имеют значения по триграммной языковой модели и модели по частеречным тегам. Следовательно, таким образом учитывается грамматическая корректность и «беглость» (fluency) словосочетания. Очевидно, что при использовании взаимной информации по синтаксическим связям, как меры устойчивости, косинусная близость векторов слов оказывается наименее значимым признаком.

4.12 Выводы

В главе 4 был описан эксперимент по ранжированию контекстов для иллюстрации статей машинного переводного словаря. Были использованы два метода машинного обучения - метод случайного леса и нейронная сеть прямого распространения; в качестве ранжирующих признаков выбраны те, которые отражают принципы отбора иллюстраций, выявленные при анализе различных словарей в главах 2 и 3. Полученные результаты оценивались стандартными метриками (точность и аккуратность), лучшие значение составили 0.83 и 0.74 соответственно. Кроме того, было проведено сравнение с простыми эвристическими способами ранжирования и показано, что использование расширенного набора признаков и методов машинного обучения даёт значительное улучшение в результатах ранжирования.

Заключение

Одной из наиболее существенных частей словарной статьи в двуязычном словаре, в частности, вследствие его учебных задач, является иллюстративный блок, включающий примеры употребления заголовочного слова. При этом принципы его создания не разработаны ни в классической лексикографии, ни в машинной. Анализ существующих двуязычных словарей (англо-русского направления) позволяет выделить несколько критериев отбора материала для иллюстративного блока: словосочетания предпочитаются предложениям, словосочетания содержат дополнительную информацию о сочетаемости, стилистических особенностях опорного слова и так далее.

Поскольку сочетаемость становится одним из важнейших критериев для двуязычных иллюстраций, в работе так же рассматриваются различные концепции устойчивых сочетаний - от классических до новейших. Из приведённого обзора словарей сочетаемости и словарей коллокаций можно также сделать выводы о некоторых принципах, на которых базируется понятие устойчивости.

Аналитический обзор, изложенный в главах 1-3, позволяет нам выделить признаки для автоматического ранжирования параллельных контекстов относительно их релевантности для иллюстративного блока машинного словаря. Проведены эксперименты с различными наборами признаков, методами машинного обучения, сделана оценка полученных результатов. Наилучшая комбинация методов и признаков показывает точность 84% на английских контекстах и 71% при ранжировании пар контекстов. Полученные результаты используются при составлении машинного словаря сервиса «Яндекс.Переводчик».

Лексикографические источники

1. Амосова Н.Н. Большой англо-русский словарь / Сост. Амосова, Н.Н., Апресян, Ю.Д., Гальперин И.Р.; под общ. руководством Гальперина И.Р. - 2-е изд., стер. - М. : Русский язык, 1977.

2. Англо-русский русско-английский словарь = English-russian Russian-English dictionary : 35573 слова, значения и словосочетания / [ред. и рук. проекта: В.Ю. Бурнашева]. - М. : ABBYY Press, 2011. - 603 с.

3. Анисимова, Т.И. Пособие по лексической сочетаемости слов русского языка: Словарь-справочник / Сост. Т.И. Анисимова, З.Э. Иванова, Р.В. Ульянко; Под ред. Т.П. Плещенко и Л.Ф. Саковец. - Минск : Вышэйш. школа, 1975. - 303 с.

4. Апресян, Ю.Д. Новый большой англо-русский словарь = New English-Russian Dictionary : Ок. 250000 лексич. единиц : В 3 т / Сост. Ю.Д. Апресян, Э.М. Медникова, А.В. Петрова и др.Под общ. руководством акад. Ю.Д. Апресяна и д.филол.н., проф. Э.М. Медниковой. - 5-е изд., стер. - М. : Рус. яз., 2000.

5. Ахманова, О.С. Русско-английский словарь : Около 50000 слов / Сост. О.С. Ахманова, Т.П. Горбунова, Н.Ф. Ротштейн [и др.]; Под общ. рук. проф. А.И. Смирницкого. - М. : Гос. изд-во иностр. и нац. словарей, 1948 (16-я тип. треста "Полиграфкнига"). - 988 с.

6. Бенсон, М. Комбинаторный словарь английского языка. / Бенсон, М., Бенсон, Э., Илсон, Р. - М.: Русский язык, 1990 - 286 с.

7. Большой англо-русский словарь = New English-Russian dictionary : [В 2 т. : Ок. 160000 слов] / Под общ. руководством И.Р. Гальперина, Э.М. Медниковой. - 4-е изд., испр., с доп. - М. : Рус. яз., 1987.

8. Борисова, Е.Г. Слово в тексте. Словарь коллокаций (устойчивых словосочетаний) русского языка с англо-русским словарём ключевых слов. - М.: 1995. (Борисова 1995б).

9. Братусь, Б.В. Russian word-collocations = Словосочетания русского языка : Учеб. словарь для говорящих на англ. яз / Б.В. Братусь, И.Б. Братусь, Е.А. Данциг и др. - М. : Рус. яз., 1979. - 367 с.

10. Гинзбург Р.С. Англо-русский словарь глагольных словосочетаний = English-Russian dictionary of verbal collocations / Р.С. Гинзбург и др.; Под общ. руководством Э.М. Медниковой. - 2-е изд., испр. - М. : Рус. яз., 1990. - 667 с.

11. Козырева, М.Н., Англо-русский словарь = English-Russian dictionary : Около 14000 слов и 63000 словосочетаний / М.Н. Козырева, И.В. Федорова. - М. : Рус. яз., 1998. - 1118 с.

12. Красных, В.И., Русские глаголы и предикативы : Слов. сочетаемости. - М. : Арсис лингва, 1993. - 226 с.

13. Кунин, А.В. Англо-русский фразеологический словарь - М. Русский язык, 1984. - 944 с.

14. Мельчук, И.А., Толково-комбинаторный словарь современного русского языка : Опыты семантико-синтаксического описания русской лексики. - Вена, 1984. - 992 с

15. Мюллер, В.К. Англо-русский словарь, 1928.

16. Ожегов, С. И. Словарь русского языка. Изд. 21-6. - М., 1989.

17. Регинина, К.В. Устойчивые словосочетания русского языка / К.В. Регинина, Г.П. Тюрина, Л.И. Широкова; Под ред. Л.И. Широковой. - 3-е изд. - М : Рус. яз., 1983. - 300 с.

18. Kjellmer, G. A dictionary of English collocations : based on the Brown corpus : in three volumes. - Oxford; New York: Clarendon Press: Oxford University Press, 1994.

19. Longman dictionary of contemporary English. / Сост. Procter, P. - Harlow ; London : Longman, 1978. - XXXIX, 1303 с.

20. McIntosh, C. Oxford Collocations Dictionary. - Oxford University Press, 2009. - 963 с.

21. Rundell, M. Macmillan Collocations Dictionary. - Macmillan, 2010.

22. Sinclair, J. Collins COBUILD English collocations on CD-ROM / Sinclair, J., Fox, G., Seymour, D., Clear, J. - London: HarperCollins Publishers, 1995.

23. The BBI combinatory dictionary of English : A guide to word combinations / Сост. Benson, M., Benson, E., Ilson R. - Amsterdam ; Philadelphia : Benjamins, 1986. - XXXVI, 286 с.

24. Wheeler, M., Unbegaun, B. The Oxford Russian dictionary : Russian-English, English-Russian. - Oxford ; New York : Oxford univ. press, 1997. - XVII, 1340 c.

Литература

25. Азарова, И.В. Принципы построения wordnet-тезауруса RussNet / Азарова, И.В., Синопальникова А.А., Яворская М.В. // Компьютерная лингвистика и интеллектуальные технологии. - М., 2004.

26. Амосова, Н. Н. Основы английской фразеологии. - Л., 1963.

27. Апресян, Ю.Д. Лексическая семантика (синонимические средства языка). - М.: Наука, 1974.

28. Баранов, А.Н. Введение в прикладную лингвистику. Учебное пособие. - М.: Эдиториал УРСС, 2001. - 360 с.

29. Берков, В. П. Двуязычная лексикография. - АСТ, 2006

30. Берков, В.П. Вопросы двуязычной лексикографии. - Л., 1973.

31. Борисова, Е.Г. К типологии составляющих пакета Устойчивые сочетания // Фразеография в Машинном фонде русского языка. М., 1990. - с. 88-103.

32. Борисова, Е.Г. Коллокации. Что это такое и как их изучать. - М.: 1995. (Борисова 1995a).

33. Букия, Г.Т. Корпусная оценка степени близости единиц в лексических конструкциях / Букия, Г.Т., Протопопова, Е.В., Митрофанова, О.А. // Структурная и прикладная лингвистика. Межвузовский сборник. №11. Под. ред. А.С. Герда. - СПб, 2015.

34. Буторова, У.В. Структурная типология словарных статей в словарях русского языка и способы их формального представления / Буторова У.В., Герд А.С., Захаров В.П., Панков Д.И., Пурицкая Е.В., Хохлова М.В. // НТИ. Сер. 2. ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ 2016. № 2. - М., 2016.

35. Бюллетень машинного фонда русского языка /отв. редактор В.М. Андрющенко / - М., 1996, Вып.3

36. Виноградов, В.В. Об основных типах фразеологических единиц в русском языке // Виноградов В. В. Избранные труды. Лексикология и лексикография. - М., 1977. - С. 140-161.

37. Гак, В.Г. К проблеме семантической синтагматики // Проблемы структурной лингвистики. - М.: Наука, 1972. - С. 367-395.

38. Захаров, В.П. Электронный обменный формат проекта TEI (Text Encoding Initiative) для словарей. Учебное пособие. - СПб.: СПбГУ. РИО. Филологический факультет, 2013. - 80 с.

39. Захаров, В.П., Богданова, С.Ю. Корпусная лингвистика: Учебник для студентов направления Лингвистика. 2-е изд., перераб. и дополн., - СПб.: СПбГУ. РИО. Филологический факультет, 2013. - 148 с.

40. Захаров, В.П., Хохлова, М.В. Анализ эфффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции Диалог'2010. - М., 2010

41. Караулов, Ю.Н. Анализ метаязыка словаря с помощью ЭВМ / Караулов Ю.Н., Молчанов В.И., Афанасьев В.А., Михалев Н.В. - М., 1982.

42. Кобозева, И.М. Лингвистическая семантика: Учебник для вузов. - М.: УРСС, 2000. 350 с.

43. Кощеева, С.С. Сравнение методов автоматического выделения глагольно-именных словосочетаний // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединённой конференции «Интернет и современное общество» (IMS-2014), Санкт-Петербург, 19-20 ноября 2014 г. - СПб: Университет ИТМО, 2014. - С. 298-303.

44. Крижановский, А.А. Оценка использования корпусов и электронных библиотек в Русском Викисловаре // Труды Международной научной конференции Корпусная лингвистика-2011. - СПбГУ, Филологический факультет Санкт-Петербург, 2011. С. 217-222.

45. Крижановский, А.А. Построение машинно-читаемого словаря на основе русского викисловаря. Тр. СПИИРАН, 2009, в. 11. С. 228-233

46. Крылов, С.А., Митрофанова, О.А. «Типовой контекст»: случайность или закономерность? // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции Диалог'2006 (Бекасово, 31 мая - 4 июня 2006 г.). - М.: Издательство РГГУ, 2006. - C. 382-388.

47. Крылов, С.А., Старостин, С.А. Металингвистическая разметка текстовых баз данных в системе STARLING и современные задачи корпусной лингвистики // Прикладная лингвистика в поиске новых путей. Международная конференция Megaling'2005. 27 июня - 2 июля 2005. - Симферополь, Таврический национальный университет им. В.И. Вернадского, 2005. С. 33.

48. Марчук Ю.Н. Вычислительная лексикография. - М.: ВЦП, 1976, 175 с.

49. Мельчук, И.А. Опыт теории лингвистических моделей "Смысл-Текст" : Семантика, синтаксис / И.А. Мельчук. - [Переизд.]. - М : Шк. "Языки рус. культуры", 1999. - 345 с.

50. Мельчук, И.А., Иорданская, Л.Н. Смысл и сочетаемость в словаре. - М., 2007.

51. Панченко, А. RUSSE: семинар по оценке семантической близости для русского языка. / Панченко, А., Лукашевич Н.В., Усталов Д., Паперно Д., Мейер К.М., Константинова Н. // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Москва, 27 - 30 мая 2015 г.). Вып. 14 (21). - М.: Изд-во РГГУ, 2015. - C. 89

52. Телия, В. Н. Русская фразеология: Семантический, прагматический и лингвокультурологический аспекты. - М., 1996.

53. Телия, В.Н., Типы языковых значений : Связан. значение слова в яз. - М : Наука, 1981. - 269 с.

54. Шанский, Н.М. Фразеология современного русского языка / Н. М. Шанский. - 3-е изд., испр. и доп. - М., 1985. - 160 с.

55. Янус, Э. Пять польских словарных статей // Научно-техническая информация, Серия 2, N 11. С. 21-24.

56. Altenberg, B. On the phraseology of spoken English: the evidence of recurrent word-combinations. // A. P. Cowie (ред.), Phraseology: theory, analysis and applications (pp. 101-122). - Oxford: Oxford University Press, 1998.

57. Amsler, R.A. Computational lexicology: a research program // Proceedings of the June 7-10, 1982, national computer conference, 657-63. - ACM, 1982.

58. Antonova, A., Misyurev, A. Automatic Creation of Human-Oriented Translation Dictionaries // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2014” [Komp'yuternaya Lingvistika I Intellektual'nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2014”]. - М., 2014.

59. Antonova, A., Misyurev, A. Russian dependency parser SyntAutom at the DIALOGUE-2012 parser evaluation task // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2012” [Komp'yuternaya Lingvistika i Intellektual'nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2012”]. - М., 2012.

60. Antonova, A. The influence of different data sources on finding and ranking synonyms for a large-scale vocabulary / Antonova, A., Kobernik, T., Misyurev, A. // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2016” [Komp'yuternaya Lingvistika i Intellektual'nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2016”]. - М., 2016. [в печати]

61. Atkins, S. Theoretical Lexicography and its relation to Dictionary-making”. // Dictionaries: the Journal of the Dictionary Society of North Americaю - DSNA, Cleveland Ohio, 1993. С. 4-43.

62. Atkins, S., Rundell M. The Oxford Guide to Practical Lexicography. - Oxford University Press, 2008.

63. Bai M. DOMCAT: a bilingual concordancer for domain-specific computer assisted translation / Bai, M., Hsieh Y., Chen K., Chang J.S. // Proceedings of the ACL 2012 System Demonstrations, 55-60. - Association for Computational Linguistics, 2012.

64. Bally Ch. Traitй de stylistique franзaise. - Paris, 1951.

65. Bansal M. Unsupervised translation sense clustering / Bansal, M., DeNero J., Lin D. // Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 773-82. - Association for Computational Linguistics, 2012.

66. Barlow, M. Parallel Concordancing and Translation // Translating and the Computer, 2004.

67. Baroni M. Frege in space: A program of compositional distributional semantics. / Baroni, M., Bernardi, R., Zamparelli, R. // Linguistic Issues in Language Technology 9, 2014.

68. Bouamor Dh. Building Specialized Bilingual Lexicons Using Word Sense Disambiguation / Bouamor, D., N. Semmar, P. Zweigenbaum. // - IJCNLP, 2013. С. 952-956.

69. Breiman L. Random Forests. // Machine Learning 45 (1): 5-32. 2001.

70. Brown P.F. The mathematics of statistical machine translation: Parameter estimation / Brown P.F., Della Pietra V., Della Pietra S., Mercer R. // Computational linguistics 19/ 2 (1993). - C. 263-311.

71. Butina-Koller E. Kollokationen im zweisprachigen Wцrterbuch. Zur Behandlung lexikalischer Kollokationen in allgemeinsprachlichen Wцrterbьchern des Sprachenpaares Franzцsisch/Russisch. Lexicographica. Series Maior 124. - De Gruyter, 2005

72. Chatterjee D. Co-occurrence graph based iterative bilingual lexicon extraction from comparable corpora / Chatterjee D., Sarkar S., Mishra A. // Proceedings of the 4th Workshop on Cross Lingual Information Access, COLING 2010 workshop, 2010. С. 25-42.

73. Chen S.F., Goodman J. An Empirical Study of Smoothing Techniques for Language Modeling // Technical Report TR-10-98, Computer Science Group, Harvard University, 1998.

74. Church, K. W., Hanks P. Word association norms, mutual information, and lexicography. // Computational linguistics. V.16, No. 1 (1990). С. 22-29.

75. Collocations, corpus, dictionnaires / P. Blumenthal, F.J. Hausmann. - Paris : Larousse, 2006. - 128 с.

76. Cowie A.P. The Oxford History of English Lexicography. - Oxford: Clarendon Press, 2009.

77. Dunning, T. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1). - MIT Press, 1999. С. 61-74

78. Evert, S. The Statistics of Word Cooccurences Word Pairs and Collocations. PhD thesis. - Institut fьr Maschinelle Sprachverarbeitung (IMS), Universitдt Stuttgart: 2004.

79. Firth, J. R. The Technique of Semantics. - Transactions of the Philological Society, 1935. С. 36-72.

80. Firth, J.R. Modes of Meanings. Reprinted in Papers in Linguistics 1934-1951. - London: Oxford University Press, 1957. С. 190-215.

81. Fiљer, D., Ljubeљic, N. Bilingual lexicon extraction from comparable corpora for closely related languages // Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP'11), 2011. С. 125-31.

...

Подобные документы

  • Место и роль компьютерной лингвистики в лингвистических исследованиях. Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике. Современные интерфейсы компьютерной лингвистики. Перспективная задача компьютерной лингвистики.

    курсовая работа [28,5 K], добавлен 22.11.2009

  • Базовые основы программы Prolog - языка и системы логического программирования. Работа с текстами и предложениями. Электронный казахско-русско-английский словарь. Дистанционный комплекс обучения государственному языку специалистов технического профиля.

    реферат [45,6 K], добавлен 15.09.2014

  • История возникновения, эволюция машинного перевода. Основные требования к коммуникативной эквивалентности. Последовательность формальных операций в системе машинного перевода, ее концепции развития. Переводчик для офиса. Преимущества электронных словарей.

    презентация [455,3 K], добавлен 22.10.2013

  • Создание программы на языке объектно-ориентированного программирования С++, реализующей построчный перевод текста (по словам) с английского на русский. Описание алгоритма решения задачи. Основные функции программы, примеры результатов ее работы.

    отчет по практике [527,5 K], добавлен 10.04.2016

  • История автоматизированного перевода. Современные компьютерные программы перевода. Сфера использования машинного перевода. Формы организации взаимодействия человека и ЭВМ в машинном переводе. Интерредактирование и постредактирование машинного перевода.

    курсовая работа [30,0 K], добавлен 19.06.2015

  • Обзор методов и средств реализации поставленной задачи. Описание компьютерной игры "Японские кроссворды". Обоснование инструментария разработки программного продукта. Алгоритмический анализ задачи. Графический интерфейс и лингвистическое обеспечение.

    курсовая работа [725,4 K], добавлен 27.08.2013

  • Описание математических методов решения задачи оптимизации. Рассмотрение использования линейного программирования для решения транспортной задачи. Применение симплекс-метода, разработка разработать компьютерной модели в Microsoft Office Excel 2010.

    курсовая работа [1,5 M], добавлен 24.05.2015

  • Исследование современных технологий машинного перевода. Изучение классификации систем перевода. Характеристика особенностей работы с электронным словарем. Языковые инструменты Google. Программы для проверки правописания и грамматики, текстовые редакторы.

    реферат [917,0 K], добавлен 02.11.2014

  • Основные понятия и задачи, решаемые компьютерной графикой. Характеристика и разновидности компьютерной графики. Цветовые модели RGB, CMYK, HSB. Графические форматы растровых и векторных изображений. Особенности шелкографии, трёхмерная графика и анимация.

    курсовая работа [350,7 K], добавлен 20.02.2012

  • Основные направления в истории развития компьютерной индустрии. Специфика информационных программных систем. Основные задачи информационных систем. Классификация архитектур информационных приложений. Файл-серверные и клиент-серверные приложения.

    презентация [110,8 K], добавлен 11.04.2013

  • Раскрытие понятия "системы компьютерной математики", история ее развития. Внутренняя архитектура и составляющие СКМ. Основные принципы работы системы Maple. Ее возможности для решения линейных и нелинейных уравнений и неравенств. Применение функции solve.

    курсовая работа [189,4 K], добавлен 16.09.2017

  • Понятие и общая характеристика дистанционных информационных систем, их основные функции и задачи. Разработка ДИС для IT-компании Envisionext и проектирование компьютерной системы, объединяющей 20 рабочих станций. Обзор сайтов конкурентов данной компании.

    курсовая работа [1,8 M], добавлен 24.09.2012

  • Типы оборудования, относящиеся к компьютерной технике. Состав системного блока и периферийные устройства. Классификация программного обеспечения. Требования, предъявляемые к системам управления базами данных. Задачи и этапы проектирования баз данных.

    контрольная работа [4,1 M], добавлен 18.02.2014

  • Задачи автоматизированного учета компьютерной техники на предприятии ГУ НПО Тайфун. Описание среды программирования, требования к техническому и программному обеспечению. Описание алгоритма, структурная схема. Аномалии и защитное программирование.

    дипломная работа [1,1 M], добавлен 30.06.2014

  • Поиск верхних и нижних границ для оптимального значения на подобласти допустимых решений. Методы и проблемы решения задач нелинейного программирования. Написание и отладка программы. Создание программы для решения задачи "коммивояжёра" прямым алгоритмом.

    курсовая работа [176,9 K], добавлен 22.01.2016

  • Методы создания двумерных и трехмерных изображений. Классификация средств компьютерной графики и анимации. Системы для работы с видео и компоновки. Обзор программных продуктов для создания презентаций, двумерной и трехмерной анимации, 3D-моделирования.

    реферат [30,5 K], добавлен 25.03.2015

  • Проблема защиты информации от несанкционированного доступа, основные направления ее решения (криптография и стеганография). Методы классической и цифровой стеганографии, стегосистемы. Классификация методов компьютерной стеганографии и их характеристика.

    курсовая работа [332,3 K], добавлен 26.11.2013

  • Классификация архитектуры базы данных. Компьютерные сети и их виды. Обзор программных продуктов для учета компьютерной техники и оргтехники. Проектирование информационной структуры предметной области и программная реализация задачи учета оргтехники.

    дипломная работа [1,9 M], добавлен 16.05.2017

  • Методы и средства создания и обработки изображений с помощью программно-аппаратных вычислительных комплексов. Основные понятия компьютерной графики. Особенности применения растровой, векторной и фрактальной графики. Обзор форматов графических данных.

    реферат [49,1 K], добавлен 24.01.2017

  • Разработка компьютерной системы для работы в дизайн-студии. Требования к компонентам компьютерной системы для использования ее в качестве дизайн-студии. Выбор процессора с учетом его производительности. Выбор материнской платы. Видеокарта и ее параметры.

    реферат [1,3 M], добавлен 03.01.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.