Автоматическое составление словарного минимума для обучения математике
Сравнение методов для извлечения коллокаций. Характеристика методики составления словарного минимума для определенной предметной области на примере математических текстов. Структурирование терминологических выражений. Анализ частотных списков глаголов.
Рубрика | Иностранные языки и языкознание |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 10.12.2019 |
Размер файла | 4,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Правительство Российской Федерации
Федеральное государственное автономное образовательное
учреждение высшего образования
Национальный исследовательский университет
«Высшая школа экономики»
Факультет гуманитарных наук
Образовательная программа
«Фундаментальная и компьютерная лингвистика»
Автоматическое составление словарного минимума для обучения математике
Выпускная квалификационная работа студента 4 курса бакалавриата группы 152
Царева Мария Сергеевна
Москва 2019
Оглавление
Введение
Глава I
I.1 Предыдущие исследования
I.2 Работа с данными
I.3 Составление «золотого стандарта»
Глава II
II.1 Ассоциативные метрики
II.1.1 PMI
II.1.2 T-score
II.1.3 Хи квадрат
II.1.4 Z-score
II.1.5 Likelihood Ratio
II.1.6 C-Value/NC-Value
Глава III
III.1 Замена лексико-грамматических шаблонов на тег
Глава IV
Заключение
Литература
Приложение 1
Приложение 2
Приложение 3
Введение
Определение конструкций и выражений, характерных для какой-либо предметной области, является одной из важных задач автоматической обработки текста (АОТ), так как они могут быть использованы во многих направлениях: машинный перевод, поисковые запросы, создание словарей и т. д. Еще одним актуальным направлением становится преподавание иностранных языков, в частности РКИ. Студенты, которые обучаются на неродном языке, должны достаточно быстро овладеть некоторым пластом лексики и лексико-грамматических конструкций, чтобы научиться понимать лекции по специальности. То есть вопрос о лексическом минимуме для обучения в какой-то научной области стоит достаточно остро. До сих пор такие списки создавались вручную. Настоящая работа посвящена исследованию того, как методы выделения терминологии в некоторой предметной области (устойчивых словосочетаний и конструкций) могут помочь в составлении таких списков для РКИ. В работе этот вопрос рассматривается на примере области математики.
Одним из важных вопросов является вопрос о том, языковые единицы какого типа должны попадать в такой словарный минимум. Рассмотрим следующий пример:
Неправильная дробь - это дробь, у которой числитель или больше знаменателя, или равен ему.
Результатом сложения двух матриц является матрица, каждый элемент которой представляет собой сумму соответствующих элементов матриц.
Источником первого определения послужил учебник Математика для иностранных студентов подготовительного отделения: учебно-методическое пособие (Фощан et al., 2016). Второго - Конспект лекций по высшей математике (Власов, 1999). Причиной такого различия может быть тот факт, что в пособия для иностранных студентов включают в основном термины, чтобы студенты смогли овладеть математической лексикой для правильного восприятия информации на иностранном языке. Тем не менее контекстный математический язык, который вводит терминологию в текст, не является предметом изучения.
Выделенные выражения могут быть использованы как студентами, обучающимися на курсах русского как иностранного (РКИ) для написания работ, либо для изучения в общих целях, так и экспертами для составления лексических минимумов. Примером для этой области применения стали труды А. Б. Сосинского об английском математическом языке и правилах правильного написания работ на английском. Для студентов РКИ пока не существует такого же количества материалов, содержащих выражения, полезные для коммуникации в рамках этой темы. Ещё одной причиной стал тот факт, что многие списки составляются вручную, без учета статистических метрик.
Нахождение и выделение таких типов коллокаций являются достаточно сложной областью для автоматической обработки языка. Ранее большее внимание уделялось извлечению терминов и терминологических выражений. Извлечение общенаучных выражений из тематических текстов - задача, которая ещё не рассматривалась подробно, поэтому методы, которые с большой точностью могут определять выражения, не относящиеся к тематическим терминам (типа докажем, что…; представить в виде…; рассмотрим… и др) не были подробно описаны ранее. По этой причине предполагается реализовать ряд статистических метрик, которые были использованы в предыдущих исследованиях и показали хорошие результаты. На основании этих причин можно утверждать, что исследования такого типа являются на данный момент актуальными и новыми.
В итоге будут получены ранжированные по различным методам списки n-грамм. Оценка экспериментов будет зависеть от процента математических штампов в топ-50 выражений.
Перед началом работы была выдвинута гипотеза о том, что специальный язык математики (например: что и требовалось доказать, тогда и только тогда, единственный и достаточный и т.д.) может быть определен с помощью распространённых статистических методов, описанных в ранних исследованиях, из-за частой встречаемости в собранном корпусе.
Цель данной работы - сравнить ряд методов для извлечения коллокаций и понять, какие из них больше всего подходят для составления списков. В итоге должен быть получен словарный минимум для определенной предметной области - в этом исследовании - на примере математических текстов.
Стоит отметить, что не ожидается большой процент покрытия в топ-50 списков для каждого из методов, что будет описан в этой работе. Для этого есть несколько факторов. Во-первых, корпус даже после очистки от служебного математического «мусора» не может считаться до конца чистым. Во-вторых, единого, принятого в математическом сообществе, «золотого стандарта» не существует, поэтому было принято решение составить его вручную и дать на проверку двум экспертам, связанным с точными науками.
К выражениям, которые попадут в список применяются следующие критерии: они должны быть частотными; основанными на статистических данных; релевантными для выбранной темы.
Для достижения этой цели были поставлены следующие задачи:
Сбор тематического математического корпуса текстов;
Составление «золотого стандарта» выражений. Он основан на списке в (Сосинский, 2000)
Предобработка текстов: максимально возможное очищение от «мусора», морфологическая и синтаксическая разметка;
Определение методов на основе предыдущих исследований для выделение нужных коллокаций;
Применение метрик;
При необходимости сбор дополнительных данных для методов;
Сравнение и оценка методов
Глава I
1.1 Предыдущие исследования
Как уже упоминалось ранее, центральной фигурой данной работы являются общенаучные выражения в тематическом тексте. Их определение в тексте и извлечение - задача, которая до сих пор является достаточно непростой для NLP, однако используется в таких областях, как: машинный перевод, составление словарей, информационный поиск и прочее. В этом разделе мы рассмотрим предыдущие исследования в следующем порядке: сначала посмотрим на определения коллокаций и методы, которые обсуждались ранее. Затем - на их извлечение из тематических текстов. В конце - несколько слов о теоретической части определения выражений. 2 области - то, что нужно чтобы общаться и обучаться предмету, специфичное для этой области термины и констр получать
В современной зарубежной лингвистике выражения, состоящие из нескольких слов, но не являющиеся фразеологизмами, называются multi-word expression или MWE (букв. многословное выражение). (Sag et al., 2001) в своей работе дает определение данным выражениям как «многословные выражения это набор двух или более слов (т. е. выражение) с некомпозициональной семантикой, что означает, что значение целого выражения не может быть полностью или напрямую выведен из значений составляющих его слов». В широком смысле такие конструкции могут быть разделены на лексикализированные и инстиуционализированные фразы (терминология была взята из (Bauer, 1983)). Первый тип состоит из слов, которые не встречаются “изолированно”. Далее их можно разделить на: устойчивые выражения, полностью лексикализированные (бить ключом, in short); “полу-устойчивые” выражения: те, в которых имеет место некая вариативность, чаще всего, лексическая (сгорать от стыда/любви/ревности); синтаксически гибкие выражения, которые имеют еще большую синтаксическую вариацию, чем предыдущие два типа.
Именно из-за своей гибкости и вариативности данные коллокации являются не до конца решенным вопросом для автоматической обработки языка. В предыдущих исследованиях можно найти случаи по нахождению терминов (также и составных) из корпуса как с определенной, так и с неопределенной тематикой, и общенаучных конструкций из общего собрания текстов.
(Ramisch, 2009) определил 4 типа работы с многословными выражениями: идентификация, интерпретация, классификация и способы применения
Интерпретация: в (Ramisch, 2009) упоминаются два уровня интерпретации: синтаксический и семантический, оба из которых важны для определения «взаимоотношений» слов внутри таких выражений
Идентификация: из-за семантической, морфологической и синтаксической вариативности и гибкости MWE - это одна из крупнейших зон для развития в автоматической обработке языка, так как из контекста их очень сложно определить.
Классификация: этот тип отличается от предыдущих двух, так как пытается отнести значения к предопределенному классу и смотрит на собрание целиком
Способы применения: три предыдущих типа важны для этого, так как, как было сказано ранее, способов применения этого типа выражений в области автоматической обработки велико
Извлечение MWE из корпуса специальных тематических текстов - один из подходов, который может быть использован для задачи этого исследования. Следует отметить, что в предыдущих работах речь шла в основном о одиночных терминах или биграммах. Однако было принято решение, что методы, описанные в прошлых работах, будут достаточно эффективны в этой работе.
Методы идентификации и извлечения были описаны в (Ramisch, 2009; Fratzi, 2000; Bordea et al., 2013; Seretan, 2008). В данных работах выделялись несколько метрик, которые относятся к потенциально лучшим вариантам для извлечения общенаучных конструкций. Итак, были рассмотрены C/NC-value; POS pattern selection (выделение частеречных фильтров), Loglikelihood; Xi square; Z-score; T-score. Первое упоминание POS pattern selection для выделения информации и некоторые предложенные шаблоны можно найти в (Justeson and Katz, 1995). В работе (Ramisch, 2009) данный метод был оценен достаточно высоко. В ходе исследования проводилось выделение паттернов на основе частей речи и их комбинаций. Стоит заметить, что корпуса для работы и оценивания данного метода уже были размечены. Далее для выделенных кандидатов в термины применялись метрики. Тем самым в топ выходила большая часть тех сочетаний, которые действительно являются терминами. Метрики называются Association Measures (ассоциативные меры) и в большинстве работ включающие в себя PMI (Pointwise Mutual Information), Критерий Стьюдента (t-score), Z-критерий (z-score), Хи квадрат и log-likelihood.
Особый интерес представляет выделение n-грамм с n > 2 для таких метрик, как хи квадрат и log-likelihood. В используемых для биграмм формул используются такие величины, как: частотность слов по отдельности в других сочетаниях, кроме исследуемого; частотность самой биграммы; количество слов без учета слов, составляющих коллокацию. В (Seretan, 2008) описывается решение этой проблемы с помощью построения коллокационных «цепей». В работе был рассмотрен следующий пример (Heid, 1994, 232):
Рисунок 1. Пример разбивки выражения для подсчета статистической метрики
Выражение allgemeine Gьltigkeit haben разбивается на две части - биграммы: allgemeine Gьltigkeit и Gьltigkeit haben. Таким образом, получаем, что в формулах для n-грамм с n > 2, все значения для отдельных слов становятся значениями для выражений. То есть, а - частота встречаемости двух частей выражения вместе (искомый MWE), b - встречаемость первой части коллокации в сочетании с другими, но не второй, с - встречаемость второй части вне сочетания с первой, d - количество выражений без учёта встречаемости обеих частей. В такой интерпретации n-граммы могут быть использованы при подсчете некоторых ассоциативных метрик.
Во многих рассмотренных работах (например (Ramisch, 2009; Seretan, 2008) для определения и оценки алгоритмов и метрик были использованы так называемые «золотые стандарты» - размеченные тексты корпуса (точнее, его части), по которым, используя лингвистические фильтры, определяются термины, а следом производится оценка.
Что касается выделения общенаучных выражений из технических (математических) текстов, то ранее этот вопрос с теоретической точки обсуждался в (Большакова и др., 2006). Авторы объясняют, что такие коллокации являются частью научного дискура и описывают такие операции, как: выдвижение гипотезы, приведение доказательств, определение терминов. Явными маркерами являются перформативные высказывания, которые опираются на большой круг ментальных перформативных глаголов (Рябцева, 1992). Это может указывать на то, что весомая часть математических штампов начинается с глагола или содержит его (рассмотрим, как; предположим, что; из этого следует и др). Также стоит отметить маркеры очередности (наконец; во-первых) и слова-оценки (возможно; по-видимому и др.) (Севбо, 1989). Некоторые абстрактные существительные тоже могут относиться к общенаучной лексике в научных текстах: вопрос; проблема; понятие и т. д. Эти существительные имеют обыкновение сочетаться вместе с перформативными глаголами и образуют выражения, извлечение которых нам интересно: ввести понятие; подвергнуть анализу и т. д. (Большакова и др., 2006)
1.2 Работа с данными
Для этого исследования были собраны тексты учебников, пособий, конспектов и видео лекций по учебным и университетским курсам математики, алгебры и геометрии. Всего коллекция текстов включает в себя 14 документов: 12 учебников (в среднем по 550 страниц) и 3 транскрибированные с помощью расширения для браузера Speechpad видеолекции. Учебные материалы были взяты из открытых источников: сайтов университетов и на платформе Youtube. 15 текстов тематически распределены следующим образом: 4 учебника по линейной алгебре и аналитической геометрии, 4 - по высшей математике и математическому анализу, 1 - по теории вероятностей, 3 - по общим понятиям в математике, без разграничений по темам, 3 - по алгебре (сюда же включены школьные материалы по алгебре). Все данные, кроме видео, были изначально предоставлены в формате PDF. Для перевода в формат .txt сначала были использованы такие библиотеки для языка Python, как: pypdf2, pdfminer, textract и pdftotext. Однако с использованием этих пакетов были сложности: у некоторых нет поддержки русского языка, у других - хорошей документации. В итоге было принято решение использовать онлайн-конвертер https://document.online-convert.com/ru/convert-to-txt, который показывал лучшие результаты на тестовых файлах. После конвертирования в файлах осталось много «мусора», часть которого была удалена вручную. Большую проблему представили обозначения переноса слов на следующую строку: он определялся как знак «-» или пробел, который стоял между частями лексемы. В первом случае замена давала нужный результат, а во втором убрать такое было очень сложно. Поэтому можно встретить в метриках некоторые из этих «мусорных» результатов. Также автоматически было проблематично убрать некоторые математические символы и формулы, поэтому они также остались в итоговом тексте.
По материалам А. Б. Сосинского (например, (Сосинский, 2000)) и текстам учебных материалов были отобраны слова - «золотой стандарт» - которые станут образцом для оценки результатов и основой для выделения лексико-грамматических шаблонов. Список был составлен вручную и отдан на проверку двум экспертами для того, чтобы были отобраны выражения, которые относятся к математическим штампам.
Корпус состоит из 1009631 слов. Предварительно данные были обработаны с помощью онлайн-ресурса RUsyntax. В итоге каждый файл был представлен в формате colln, содержащий коллонки с каждым токеном, леммой, морфологической и синтаксической характеристикой. С помощью языка программирования python и библиотеки для работы с данными pandas были созданы таблицы. Дополнительно были выделены столбцы вида слово_часть речи и слово_падеж. Последний представляет собой обозначение слова и падежа, если часть речи определена как существительное, и как прочерк, если в строке другая часть речи. Все цифры, знаки препинания и единицы текста, определённые либо как nonlex либо не определены вообще (например, буквы греческого алфавита или математические знаки), были заменены на тег <w>.
После этого данные в коллонке слово_падеж были записаны в строку в виде текста через пробел и записаны в текстовый файл. В текстовом файле все вхождения тега и местоимений, кроме возвратных, были удалены. В список стоп-слов вошли некоторые частотные союзы и частицы: и, но, или, то, же\ж, ли, не.
Следующим шагом стало выделение частеречных частотных списков для глаголов, существительных, прилагательных и наречий. Данный шаг был проделан для того, чтобы попытаться получить какую-нибудь информацию, которая может помочь интерпретировать результаты работы программы в дальнейшем. Если мы увидим в списке самых частотных лексем тематические, то поймём, чем отличается составленный корпус от других на уровне частотных слов. Ниже представлены результаты топ-20 для каждой части речи:
Таблица 1. Частотные частеречные списки
Глаголы |
Существительные |
Прилагательные |
Наречия |
|
быть иметь называться доказать являться найти получить существовать следовать мочь рассмотреть сходиться получать решить выполняться делиться показать воспользоваться удовлетворять записать |
число уравнение точка функция система вектор матрица теорема решение элемент задача определение ряд множество плоскость базис пространство вид равенство оператор |
линейный который тогда равный один можно весь где такой любой второй каждый прямой первый некоторый аналитический данный также следующий общий |
тогда можно где также например поэтому следовательно есть линейно так как теперь отсюда образом бесконечно очевидно достаточно аналогично действительно много |
Из данных списков можно заметить, что в топ-20 существительных находятся только относящиеся к математике или околоматематическим дисциплинам. Это может быть объяснимо тем, что большая часть коллокаций, устойчивых сочетаний, ключевых выражений, характерных для такого корпуса, содержат данные лексемы. В топ глаголов попали также некоторые привычные для этой науки глаголы, например: доказать, сходиться, делиться, решить. Самым частотным прилагательным стала лексема линейный, что также может указывать на то, что слово входит в большое количество коллокаций. В списке наречий не выделяется что-то особенное.
Следующим этапом стало составление списка (list в python) из корпуса текстов. После этого с помощью модулей nltk и collections были выделены списки 1000 самых частотных 2-, 3-, 4-, 5-, 6-, 7-, 8-грамм. Последние 3 списка были вычеслены для выделения контекстных слов и подсчёта метрик C/NC-value. Стоит отметить, что расчёты для всех остальных собраний n-грамм проводились не для всех ассоциативных мер, рассматриваемых в данной работе, так в предыдущих работах либо были доказательства их неэффективности, либо описанной модификации формул для расчёта сочетаний с n > 3(4). Так, для n = 2, 3, 4, 5 был подсчитана мера PMI (Pointwise Mutual Information) (Church and Hanks, 1989; Hindle, 1990), для n = 2, 3, 4 - z-score (Berry-Rogghe, 1973; Lafon, 1984) и t-score (Church et al., 1991; Breidt, 1993), для n = 2, 3 - хи квадрат (Manning and Shutz, 1999) и C/NC-value и для n = 2 - Likelihood Ratio.
После этого частотные сочетания - предполагаемые ключевые выражения - были заменены на тег <x>. Это помогло вычленить некоторые специфичные для математических текстов сочетания.
Также был собран контрастный корпус учебных пособий по химии и биологии. Он был собран для подсчета коэффициента G2 для LogLikelihood. Важным этапом стало определение лексико-грамматических шаблоны, которые дали некоторое понимание о том, какие части речи преобладают в терминах и общенаучных выражениях.
1.3 Составление «золотого стандарта»
Для составления эталонного списка с общенаучными выражениями были использованы работы А. Б. Сосинского и Е. А. Большаковой. В (Сосинский, 2011) представлен английско-русский список выражений, которые используются для написания академических математических текстов. В (Большакова и др., 2006) описаны характеристики общенаучных выражений. Для проверки двум экспертам, связанных с точными науками и математикой, в частности, был передан список из 100 сочетаний, которые составляют смешанный из общенаучных и терминологических коллокаций. Им предлагалось отметить те выражения, которые, по их мнению, являются математическими штампами. Для начала был посчитан процент наблюдаемого согласия (Scott, 1955), который определяется как: «процент суждений, с которыми соглашаются 2 аналитика при оценивании одних и тех же данных независимо». Будет подсчитано количество выражений, с которыми согласны кодеры, деленное на их общее количество. Точнее, наблюдаемое согласие -- это среднее арифметическое значения соглашения agri для всех элементов i ? I, определяемое следующим образом:
Рисунок 2. Значение соглашения argi
Для всех значений i формула подсчета наблюдаемого согласия получается следующей:
Рисунок 3. Формула наблюдаемого согласия
Чтобы посчитать данное значение была построена формула, в которой указаны на пересечениях столбцов и строк количество выражений, которые эксперты отнесли к тому или иному классу.
Таблица 2. Количество согласий для каждого класса
Эксперт 2 |
Эксперт 1 |
||||
Общие выражения |
Математические |
Итого |
|||
Общие выражения |
54 |
11 |
65 |
||
Математические |
9 |
26 |
35 |
||
Итого |
63 |
37 |
100 |
Получаем, что процент согласия равен (54 + 26)/100 = 0.8
Стоит отметить, что этот шаг является больше приготовительным, чем основным для оценки выражений, вошедших в «золотой стандарт». Наблюдаемое согласие входит в расчет всех мер согласованности, которые могут быть рассмотрены, но само по себе оно не дает значений, которые можно сравнивать в разных исследованиях. Какая-то часть согласия обусловлено случайностью. По этой причине оценкой станет коэффициент Кохена (Cohen, 1960)
Рисунок 4. Формула коэффициента Кохена
Pr(a) - наблюдаемое согласие между экспертами, Pr(e) - вероятность согласия между экспертами, если бы они проставляли свои оценки случайным образом.
Pr(e) считается как сумма произведений относительных вероятностей всех возможных комбинаций ответов экспертов: 0.63*0.65+0.37*0.35 = 0.539, получаем, что:
K = (0.8 - 0.539)/(1 - 0.539) ? 0.566
Процент согласия экспертов для списка математических выражений составляет примерно 0.566
Глава II
2.1 Ассоциативные метрики
Как уже упоминалось ранее, в этой работе к корпусу будут применены несколько ассоциативных мер, которые в предыдущих исследованиях были отмечены как эффективные для извлечения терминов из тематических текстов и общенаучных выражений - из общих. В данной работе были использованы следующие статистические способы определения устойчивых выражений. Далее будут рассмотрены 6 самых распространенных метрик для нахождения связи между словами. Результаты, представленные ниже, получены только с помощью применения ассоциативных метрик без «внедрения» лексико-грамматических шаблонов (частеречных фильтров (Fratzi, 2000)).
Ассоциативные меры (АМ) очень часто основаны на статистических проверках гипотез (Однако есть исключения, как, например, PMI). Учитывая общую совокупность и случайную выборку, взятую из неё, статистический тест используется для проверки, подтверждается ли гипотеза наблюдаемыми данными.
Проверка гипотезы состоит в противопоставлении альтернативной гипотезы Н1 нулевой гипотезе H0, которая считается истинной по умолчанию. В случае лексической ассоциации альтернативная гипотеза состоит в том, что элементы u и v зависят друг от друга; нулевая гипотеза состоит в том, что между этими двумя элементами нет такой зависимости:
* H0 (нулевая гипотеза): u и v независимы;
* H1 (альтернативная гипотеза): u и v взаимозависимы.
Результат теста описываются с позиции нулевой гипотезы H0: либо H0 отклонена в пользу H1 (отсюда делаем вывод, что H1 может быть истинным), или H0 не отклонена. Это означает, что есть недостаточно доказательств в пользу H1 (т. е. невозможно сделать вывод, что H1 может быть истинным).
Если независимость отклоняется, то, следовательно, эти два элемента могут зависеть друг от друга, и пара кандидатов (u, v) может составлять словосочетание. Если не отклоняется, это означает, что не было достаточно доказательств, поддерживающих альтернативную гипотезу зависимости; следовательно, нельзя сказать, что (u, v) образует коллокацию.
2/1.1 PMI
Рисунок 5. Формула для PMI
PMI (Pointwise Mutual Information) является одной из самых популярных метрик для использования в области автоматического извлечения информации. Впервые была использована в (Church and Hanks 1989; Hindle 1990). Может быть характеризирована как мера того, насколько вероятность одновременного возникновения события р(х'y') отличается от той, которую мы ожидаем, исходя из вероятностей отдельных событий. Изначально мы предполагаем, что слова независимы, то есть MI = 0 (Bouma, 2009).
P(x'y') = вероятность появления этих слов как коллокации, Р(х') - вероятность появления слова х', Р(у') - вероятность появления слова у'
Были посчитаны значения для биграмм и триграмм. Ниже будут представлены результаты топ-20 из 1000 самых часто встречаемых значений.
Необходимо отметить, что среди коллокаций встречаются «мусорные» значения из-за перевода текстов корпуса в необходимый для обработки формат.
Рисунок 6. Значения PMI для биграмм
Как можно заметить, среди топовых биграмм расположены те, частота употребления которых достаточно низкая. В большинстве ранних работ, в которых использовался данный метод, был отмечен этот недостаток. Среди значений встречаются, как и термины (гиперболический параболоид, треугольник Паскаля), так и общие конструкции (представлять себе).
Рисунок 7. Значение PMI для триграмм
Не беря в рассмотрение такие сочетания, как т т т или матем кружок, можно заметить, что в топе появляются вводные конструкции (по крайней мере, в том числе, в противном случае) и математические конструкции (формула включение исключение, взаимно однозначный соответствие, тангенс угла наклона). Опять же в топе - нечастотные сочетания.
2.1.2 T-score
Использовался, например, в (Church et al., 1991; Breidt, 1993) -- применяет t-критерий Стьюдента в задаче обнаружения коллокаций. T-критерий -- это односторонний параметрический критерий, который предполагает, что выборка взята из нормально распределенной популяции (Seretan, 2008)
Рисунок 8. Формула для t-score
P(w1w2) - вероятность появления биграммы в корпусе. N - общее количество биграмм, P(w1) - вероятность появления первого слова в корпусе, P(w2) - вероятность появления второго слова в корпусе. Формула, использованная в работе, была взята из (Браславский, Соколов 2006)
При ранжировании списка топовых конструкций данной метрики можно заметить, что частотность не является такой же проблемной, как для PMI. Сочетания достаточно часто встречаются. Т-критерий позволяет нам выделить некоторое количество релевантных для нас выражений.
Рисунок 9. t-score для биграмм
Так, например, топ-1 - доказать что является и достаточно частотным, и важным для смысловой части математических текстов. То же самое можно сказать о связках для любой; такой что и следовать что. Кроме этого, выделяются некоторые термины: линейный + пространство, система + координата, линейный + оператор и другие.
Рисунок 10. t-score для триграмм
В триграммах такая ситуация, как и в биграммах. Есть и интересующие нас выражения как тогда [и] только тогда, доказать что + предлог или союз, так и составные термины: система + линейный + уравнение, поверхность + второй + порядок и т. д.
При n = 4 количество нерелевантных для исследования конструкций возрастает, в топе можно отметить появление нужных нам конструкций по типу доказать что для любой; можно записать в виде.
2.1.3 Хи квадрат
Для данной метрики были взяты исследования (Seretan, 2008, Manning and Shutz, 1999).
Эта мера стала использоваться на смену t-критерию Стьюдента, которая вызывала недовольство нормально распределенными величинами. Однако в (Seretan, 2008) указано, что эта мера используется по сравнению с остальными несколько меньше.
Он использовался, например, в (Krenn, 2000b; Evert and Krenn, 2001).
Это двусторонний непараметрический критерий, который не предполагает конкретного распределения данных. Он сравнивает наблюдаемые частоты с ожидаемыми (при нулевой гипотезе) в каждой ячейке таблицы сопряженности. Если общая разница велика, то нулевая гипотеза независимости отвергается.
Рисунок 11. Формула для хи квадрат
N - общее количество слов к корпусе а - частотность исследуемой биграммы b - частота вхождения первого слова во все остальные сочетания, кроме исследуемого
c - частота вхождения второго слова во все остальные сочетания, кроме исследуемого
d - количество слов к корпусе без учёта количества обоих слов во всех сочетаниях
В (Seretan, 2008) описано применение данной метрики к триграммам и 4-граммам. Формула и осуществление метрики остаются неизменными, однако меняется представление n-грамм для таблицы сопряжённости. Для подсчёта триграмм было решено разделить их на две составляющие биграммы. Каждая биграмма принималась за единый элемент и считался как вхождение единичного слова. Например: окружность + точка + пересечение = (окружность + точка) + (точка + пересечение). Тогда за величины частот вхождения составляющих слов в случае биграмм, для n > 2 считались составляющие их биграммы.
Рисунок 12. Хи квадрат для биграмм
В случае с хи квадратом можно сказать, что только 7 вхождений из топ-20 можно назвать математическими терминами (комплексный + число; дифференциальный + уравнение; целый + число и т. д.). В данной выборке чётко прослеживается тенденция на выделение частеречных конструкций verb + pr, причём в большинстве случаев можно уточнить как verb + что
Рисунок 13. Хи квадрат для триграмм
Для триграмм важными оказались конструкции, в которых фигурирует сочетание доказать что. В остальном, терминов, извлечённых с помощью применения метрики, появилось ещё меньше, чем в случае с биграммами.
2.1.4 Z-score
Z-score является одной из первых статистических метрик, которую стали использовать для определения коллокаций (Berry-Rogghe, 1973; Lafon, 1984). Как и t-score, это односторонний параметрический тест, предполагающий, что данные распределены нормально. Он вычисляет разницу между наблюдаемым значением x и средним для совокупности м, выраженным в единицах стандартных отклонений в данной совокупности - у.
Рисунок 14. Общая формула для z-score
(Smadja, 1993) использовал данную формулу для о значимо частотных коллокаций, обозначая x как частота слова, м - средняя частота его коллокаций, а - стандартное отклонение частоты его коллокаций.
Но, в целом, z-score используется для измерения значимости разницы между наблюдаемой и ожидаемой частотами для пары-кандидата.
Рисунок 15. Формула для z-score
N - общее количество слов к корпусе а - частотность исследуемой биграммы b - частота вхождения первого слова во все остальные сочетания, кроме исследуемого
c - частота вхождения второго слова во все остальные сочетания, кроме исследуемого
d - количество слов к корпусе без учёта количества обоих слов во всех сочетаниях
Рисунок 16. z-score для биграмм
Не принимая во внимание «мусорные» данные, можно заметить, что в топе списка - коннекторы, связующие элементы и составные служебные части речи (при помощи, таким образом, то есть, в виде и другие). При этом присутствуют математические термины, поэтому можно сделать вывод, что и z-score не показывает отличную эффективность.
Рисунок 17. z-score для триграмм
z-score «собрал» весь «мусор» в топе. К тому же сочетания - не частотные. Результат чем-то схож с результатом работы PMI. При этом всё же в список попали нужные выражения (по крайней мере, в том числе, хотя бы один, принимать во внимание и т. д.)
2.1.5 Likelihood Ratio
LLR (Dunning, 1993) -- это двусторонний параметрический тест, который широко используется в связи с извлечением коллокаций, например, в (Daille, 1994; Lin, 1999; Orliac and Dillinger, 2003; Liu and Zhou, 2004) , Как следует из названия, LLR вычисляет оценку ассоциации для пары кандидатов (u, v), в основном, сравнивая две вероятности и учитывая логарифм результата:
* вероятность наблюдения за подсчетами в таблице непредвиденных обстоятельств при нулевой гипотезе независимости;
* вероятность соблюдения этих показателей при альтернативной гипотезе зависимости.
Рисунок 18. Формула для LogLikelihood Ratio
(Seretan, 2008) предлагает данную формулу, и это кажется самой подробно расписанной формулой из исследованных предыдущих работ. Для подсчёта формулы используются те же обозначения, что и для хи квадрат. а - частотность исследуемой биграммы b - частота вхождения первого слова во все остальные сочетания, кроме исследуемого
c - частота вхождения второго слова во все остальные сочетания, кроме исследуемого
d - количество слов к корпусе без учёта количества обоих слов во всех сочетаниях
Рисунок 19. LLR для биграмм
Как можно заметить, для LogLikеlihood топ выражений получился преимущественно терминологическим. Только 8 из 20 представленных биграмм могут считаться математическими штампами и входят в «золотой стандарт».
2.1.6 C-Value/NC-Value
Данный метод объединяет лингвистическую и статистическую информацию. C-value улучшает общий статистический показатель частоты появления терминов для извлечения, делая его чувствительным к определенному типу многословных терминов, вложенных терминов.
NC-value работает с контекстом терминов (слова, которые имеют тенденцию появляться вместе с ними), извлекая данные контекстные слова и включающий информацию из слов, составляющих контекст термина в процесс извлечения терминов.
C-value назначает термин для строки-кандидата, ранжируя ее в выходном списке терминов-кандидатов. Мера строится с использованием статистических характеристик строки-кандидата. Это:
1. Общая частота появления строки-кандидата в корпусе.
2. Частота строки-кандидата в составе других более длинных терминов-кандидатов.
3. Количество таких более длинных строк-кандидатов.
4. Длина строки-кандидата (в количестве слов).
Рисунок 20. Формула для C-value
а - строка-кандидат,
f () - частота встречаемости в корпусе,
b - термин-кандидат
Ta - это набор извлеченных терминов-кандидатов, которые содержат a,
P (Ta) - количество этих терминов-кандидатов.
Как можно заметить из формулы, C-value - мера, основанная на частоте появления a. Негативное влияние на строку-кандидат a, являющуюся подстрокой других более длинных членов-кандидатов, отражается отрицательным знаком «-» перед знаком суммы. P (Ta) обеспечивает независимость a от этих более длинных членов-кандидатов. То, что P (Ta) - знаменатель дроби, означает, что, чем больше это число, тем больше его независимость.
NC-value внедряет контекстную информацию в C-value метод.
Рисунок 21. Формула для NC-value
а -- кандидат в термин,
Ca -- это множество различных контекстных слов у a,
b -- слово из Ca,
fa (b) -- частота b в качестве контекстного слова у a,
weight (b) -- это вес b в качестве контекстного слова у a.
Рисунок 22. Формула для расчета веса контекстного слова
w - контекстное слово, которому присваивается вес в качестве термина контекстного слова, Weight (w) - назначенный вес слову w,
t(w) - количество терминов, с которыми появляется слово w,
n - общее количество рассматриваемых терминов.
Цель знаменателя n - выражение веса как вероятности того, что слово w может быть термином контекстного слова (Frantzi et al., 2000)
Глава III
3.1 Замена лексико-грамматических шаблонов на тег
После получения результатов работы ассоциативных мер была предпринята попытка структурировать именно терминологические выражения. Они ожидаемо оказались в топе большинства метрик: вероятность встретить составляющие их слова вместе в данном корпусе математических текстов явно высока. Было принято решение заменить самые часто встречаемые составные термины на какой-нибудь одинаковый тег. Для этого сначала были определены паттерны с помощью программы на языке Python. С помощью регулярных выражений были получены частеречные теги. Затем было подсчитано их общее количество. Для биграмм самыми частотными оказались noun + noun и adj + noun|noun + adj. Для триграмм: noun + noun + noun и noun + adj + noun. С помощью регулярных выражений в тексте вместо них появился тег <x>. После этого ассоциативные меры, упомянутые ранее, были посчитаны ещё раз.
Самое значительное изменение появилось в результатах работы меры t-score. Из топа полностью исчезли терминологические коллокации, а также ни разу не появился тег <x>. Наоборот, сочетания с данной заменой получили отрицательные значения.
Рисунок 23. t-score для биграмм в корпусе с тегом <x>
Стоит отметить, что сочетанием м получить из-за полуавтоматической очистки текстов стало мы получить. При сравнении с предыдущим результатом работы данной метрики на биграммах можно заметить, что в топ вышли такие математические штампы, как: теорема + доказать_partcp, иметь вид, показать что и другие.
Рисунок 24. t-score для триграмм в корпусе с тегом <x>
В триграммах появляются некоторые «мусорные» значения, однако можно говорить о том, что при замене терминов t-score и на триграммах работает намного лучше. То же самое можно сказать о z-score. Топ выборки улучшился и получился практически идентичным с результатами t-score.
Остальные метрики не показали особого прогресса после замены предполагаемых терминов. Однако, например, C/NC-value определил в основном сочетания pr + термин, verb + термин, однако не совсем ясен контекст, так как термины заменены на один тег. В итоге получается, что C/NC-value «достал» самые вариативные ранее выражения, которые в измененном корпусе стали идентичными.
Рисунок 25. C/NC-value для биграмм в корпусе с тегом <x>
3.2 Работа с контрастным корпусом
Для определения конструкций, которые характерны только для математических текстов была предпринята попытка посчитать коэффициент G2 для метрики likelihood. Для этого был собран корпус текстов учебников по химии и биологии для учеников старших классов и студентов. Всего было собрано 2 тома по биологии и два - по химии. Размер корпуса практически равен размеру исследуемого текста. Перед началом эксперимента была проведена стандартная для данной работы подготовка текста: перевод из формата PDF в TXT, токенизация, лемматизация, вычленение морфологической и синтаксической составляющих с помощью RuSyntax и последующая очистка от “мусора” и добавление к лексемам некоторых характеристик (часть речи).
Первым этапом стал сбор и сравнение частотных частеречных списков. Для контрастного корпуса были отобраны топ-20 глаголов и существительных. Как и в случае с основным корпусом, здесь можно заметить, что список частотных глаголов не носит в себе сильной смыслоуточняющей информации. Вхождения в отобранный топ пересекаются в некоторых позициях. Что касается существительных, то у собрания биологических и химических текстов также есть тенденция к включению в топ ключевых и темоопределяющих слов. Как говорилось ранее, это может означать, что большинство ключевых выражений содержат данные лексемы.
текст математический глагол коллокация
Рисунок 26. Частотные списки глаголов для корпусов математических и химио-биологических текстов
Как можно заметить, показанные выше списки практически не отличаются. Можно высказать следующее предположение: глаголы в основном не являются терминологией и ключевыми словами, поэтому в топе появляются скорее общие глаголы, которые помогают выстраивать речь. То же самое можно сказать и о наречиях, и частично - прилагательных. Что касается существительных, то чаще всего именно они составляют паттерны терминологии (например, точка пересечения), поэтому топ самых частотных слов для каждой тематики совершенно различен.
Рисунок 27. Частотные списки глаголов для корпусов математических и химио-биологических текстов
Для подсчета значения использовались следующие данные: количество слов в основном и референтом корпусах, Е1 - ожидаемая частота для кандидата в термины в основном корпусе, Е2 - ожидаемая частота для кандидата в термины в контрастном корпусе, a - частота кандидата в основном корпусе, b - частота кандидата в контрастном корпусе.
Рисунок 28. Формула для коэффициента G2 для LogLikelihood
Результаты для биграмм и триграмм можно увидеть ниже. В первом случае в топ-20 оказываются и термины (линейный + алгебра), и общие выражения (доказать + что), и просто относящиеся к математике, но не играющие какой-либо дополнительной роли (в + плоскость)
Рисунок 29. Результаты для G2 c контрастным корпусом для биграмм
Для списка триграмм видно практически то же самое. Здесь есть и части общих математических штампов: тогда+ только + тогда, доказать + что + pr (здесь встречаются различные предлоги), термины: система + линейный + уравнение, линия + второй + порядок и тд.
Рисунок 30. Результаты для G2 с контрастным корпусом для триграмм
Получается, что полностью получить в топе только общенаучные выражения, характерные для математических текстов, не удалось. Коэффициент G2 для log likelihood хорошо работает для вычисления терминов и терминологических выражений (Gelbukh et al., 2010), так как зависит от частотности выражений в основном и контрастном корпусах. Если значение взвешенной частоты коллокации в основном корпусе больше, чем в контрастном, то это выражение заносится в лист возможных кандидатов в термины.
3.3 Определение лексико-грамматических шаблонов из «золотого стандарта»
Одним из способов получения общенаучных выражений, характерных для математических текстов, стало применение к корпусу лексически-грамматических фильтров (Justeson and Katz, 1995; Большакова и др, 2006; Ramisch, 2009). Для этого был составлен усредненный список возможных математических штампов и общих коллокаций, которые встречаются в текстах любого из разделом математики. Основой для данного списка послужили работы А. Б. Сосинского и Е. И. Большаковой
Одной из сложностей при определении списка штампов стало то, что многие из них представляют собой не полностью зафиксированные шаблоны. То есть: в сочетании для каждого <x> найдём <x> неизменяемой частью будет только для каждого найдём. Остальные части могут меняться и относятся больше к терминологии. Стоит также отметить, что количество математических штампов само по себе не велико. В (Сосинский, 2000) указано менее 60 общих выражений.
Тем не менее было определено 8 паттернов, по которым с помощью модуля re, позволяющим использовать регулярные выражения в языке Python, были отобраны самые часто встречающиеся кандидаты.
Именно для этой части был сохранен на раннем этапе корпус текстов с обозначением падежа. Ниже можно увидеть для каждого из паттернов топ самых частотных коллокаций. В данном случае рассматриваются биграммы, у некоторых из которых неизменяемой частью является только одно слово.
наречие + глагол
можно + глагол; отсюда + следовать; тогда + получить
глагол + существительное (термин) в творительном падеже
являться + сущ; воспользоваться + сущ; называться + сущ
глагол + предлог + термин
состоять + из + термин; совпадать + с + термин; следовать + из + термин; зависеть + от + термин; приходить|сводиться|приводить + к + термин
глагол + существительное (термин) в винительном падеже
иметь + вид; иметь + место; доказать + сущ; решить + сущ; получить + сущ; найти + сущ
глагол + союз
рассматривать(ся) + как; доказать + что; найти + что; определять + как
причастие + предлог + термин
состоять + из + термин; проходить + через + термин; входить + в + термин; зависеть + от + термин
В данном случае в верху самых частотных сочетаний оказались нужные нам выражения, однако затем было получено много математических, и последнее - зависеть + от + термин входит в топ-15.
предлог + прилагательное
для + любой; в + некоторый; в + данный; у + который
предлог + существительное + термин
в + сила + термин; в + результат + термин при + решение + термин; по + определение + термин
Были отобраны топ-50 самых частотных вхождений по каждому шаблону. В следующем разделе будет произведен подсчет процента вхождений общенаучных выражений в эти ранжированные списки.
Глава IV
Для оценки получившихся ранжированных списков использовался «золотой стандарт». Определяющим критерием стал процент покрытия в топ-50. То есть, сравнивая с «золотым стандартом» получившийся список, мы получим количество вхождений, которые есть и там, и там.
Таблица 3. Процент покрытия топ-50 для биграмм
PMI |
T-score |
Z-score |
LLR |
Xi square |
C/NC-value |
|
20 |
22 |
22 |
16 |
21 |
21 |
|
40% |
44% |
44% |
32% |
42% |
42% |
Для каждого ранжированного списка с результатами работы метрик на списке триграмм были посчитаны количество вхождений в топ-50 упорядоченных выражений и процент вхождения в топ-50. Нужно подчеркнуть, что учитывались не только полные выражения (как в «золотом стандарте»), но и части этого выражения. Лучше всего сработали t-score и z-score, а LogLikelihood показывает наименьший для биграмм процент вхождения общенаучных выражений в топ-50
Таблица 4. Процент покрытия топ-50 для триграмм
PMI |
T-score |
Z-score |
Xi square |
C/NC-value |
|
11 |
15 |
11 |
28 25 из 28 вхождений общенаучных выражений - различные сочетания с выражением доказать, что |
16 |
|
22% |
30% |
22% |
56% |
32% |
Так, в списке для хи квадрат 25 из 28 вхождений математических штампов являются вариациями сочетания доказать, что, а именно: термин + доказать, что; доказать, что + термин; доказать, что + предлог.
Лучший результат на триграммах в исходном корпусе показал t-score (если не учитывать список по хи квадрат). PMI показала худший результат.
Таблица 5. Процент покрытия топ-50 для биграмм с заменой лексико-грамматического шаблона
PMI |
T-score |
Z-score |
Xi square |
LLR |
C/NC-value |
|
28 |
38 |
32 |
32 |
25 |
25 |
|
56% |
76% |
64% |
64% |
50% |
50% |
Как можно увидеть, доля общенаучных выражений в корпусе с тегом вместо терминологических выражений вдвое выше, чем в оригинальных текстах.
Таблица 6. Процент покрытия топ-50 для триграмм с заменой лексико-грамматических шаблонов
PMI |
T-score |
Z-score |
Xi square |
C/NC-value |
|
24 |
36 |
27 |
30 |
23 |
|
48% |
72% |
54% |
60% |
46% |
Для триграмм в корпусе с заменой лексико-грамматических шаблонов процент покрытия для метрик PMI, t-score и z-score также в 2 раза выше, чем в текстах без замены. В обоих случаях это может показывать на то, что замена шаблонов терминов и терминологических выражений на тег <x> помогает определять общенаучные выражения с большей точностью. Стоит отметить, что для хи квадрат для списка триграмм получились значения типа: предлог + <x> + <x>; глагол + <x> + <x>; существительное + <x> + <x>. Они частично совпадают с «золотым стандартом», поэтому были посчитаны, однако их смысловая целостность не является полной.
Таблица 7. Процент вхождения выражений при коэффициенте G2 для контрастного корпуса
Биграммы |
Триграммы |
|
19 |
14 |
|
38% |
28% |
Как можно увидеть, процент покрытия в топ-50 примерно равен результатам метрик, примененных к корпусу текстов См Таблицы 3, 4.
Таким образом, можно утверждать, что из всех вариантов работы с ассоциативными мерами для корпуса, лучше всего с задачей справляются метрики t-score, C/NC-value, z-score. Причём на корпусе, в котором лексико-грамматические шаблоны, определяющие частеречный состав терминов и терминологических выражений, были заменены на тег <x>.
Для определения результатов извлечения лексико-грамматических шаблонов, выделенных вручную в «золотого стандарта» также была произведена оценка процента вхождений математических штампов в каждый список. Если достаточно большая часть выражений пересекается с эталоном, то паттерн считается удачным.
Таблица 8. Процент вхождений для лексико-грамматических шаблонов
Prtcp + pr |
Adv + verb |
Verb + nounins |
Verb + pr |
Verb + conj |
Pr + noun + term |
Pr + adj |
Verb + nounacc |
|
24 |
48 |
48 |
20 |
23 |
24 |
45 |
26 |
|
48% |
96% |
96% |
40% |
46% |
48% |
90% |
52% |
Процент вхождения довольно высок для каждого шаблона и показывает также лучший результат, чем работа с контрастным корпусом и на оригинальном массиве текстов корпуса. Лидерами стали паттерны adv + verb; verb + nounins; pr + adj - почти все вхождения являются вариациями общенаучных выражений.
Заключение
В результате работы были протестированы 6 ассоциативных мер: PMI, t-score, z-score, xи квадрат, LogLikelihood и C/NC-value, коэффициент G2 с контрастным корпусом, содержащим тексты по химии и биологии, и POS tagging selection (лексико-грамматические шаблоны). Исходя из результатов, полученных в ходе исследования, и оценки получившихся ранжированных списков, получилось следующее:
Оценка экспертов для списка - «золотого стандарта» - получила процент согласия 0.566. Это указывает на достаточно большое количество совпадений в размеченных выражениях.
В частеречных списках тематическое распределение выглядит так: математические глаголы в самом топе практически не появляются; топ существительных - термины.
При работе с оригинальными текстами в корпусе наилучший результат для биграмм показывают z-score и t-score, для триграмм - хи квадрат и C/NC-value. Для последних стоит заметить, что в списке для хи квадрат - различные вариации сочетания доказать, что.
При определении лексико-грамматических шаблонов для извлечения общенаучных выражений получилось из 8 паттернов выделить топ-3 по частотности сочетаний и количеству покрытий (? 90%): adv + verb; verb + nounins; pr + adj. Остальные также получили хороший процент (в среднем - 50%) вхождения в топ-50. Поэтому можем сделать вывод, что такие шаблоны действительно могут служить для определения общенаучных математических выражений.
Результаты эксперимента с контрастным корпусом не принесла видимых улучшений в итоговом списке. Процент вхождения в топ-50 примерно равен результатам работы метрик к непреобразованному корпусу.
Так как эксперименты с метриками не дали хороших результатов, было принято решение заменить терминологические выражения, которые оказались в топе по результатам частотности и работы ассоциативных метрик на специальный тег <x>. Была выдвинута гипотеза о том, что сочетания, которые являются ключевыми словами в корпусе, а также достаточно частотны, «мешают» общенаучным выражениям оказаться в топе результатов ассоциативных мер. Паттернами для замены стали: для биграмм: noun + noun и adj + noun|noun + adj. Для триграмм: noun + noun + noun и noun + adj + noun.
Процент покрытия для биграмм и триграмм в корпусе с тегом вместо терминологических выражений для метрик вырос, а для t-score и z-score - примерно в два раза; выдача результатов для хи квадрат стала менее осмысленной и содержала большое количество тегов, а также конструкций типа: предлог + <x> + <x>; глагол + <x> + <x>; существительное + <x> + <x>. В целом, нужно подчеркнуть, что применений метрик на корпусе с замененными лексико-грамматическими шаблонами показало наилучший результат для биграмм и триграмм в этом исследовании.
...Подобные документы
Перевод английских текстов и активного словарного запаса на русский и украинский языки в письменном виде. Ответы на вопросы по тексту. Перевод утверждений и определение их правдивости или ложности. Составление вопросов по тексту на английском языке.
контрольная работа [41,9 K], добавлен 28.01.2012Специфика словарного состава языка. Классификация словарного состава языка. Особенности и свойства лексического поля. Анализ модели лексического поля "женщины" на материале рекламных текстов в журналах для женщин. Лексика рекламы в журнале "Cosmopolitan".
курсовая работа [46,6 K], добавлен 25.09.2016Значение урока русского языка. Понятие словарного запаса. Психологические и индивидуальные особенности младшего школьного возраста. Методы и приемы обогащения словарного запаса на уроке русского языка в начальной школе. Усвоение различных групп слов.
курсовая работа [53,1 K], добавлен 24.04.2011Факторы, обусловливающие развитие и пополнение словарного состава языка. Новообразования, используемые большинством говорящих на данном языке людей. Количественное пополнение. Заимствование латинской, французской лексики.
доклад [17,0 K], добавлен 25.08.2006Понятие о структурности словарного состава языка. Заимствования как способ развития и обогащения словарного состава языка, их типология и классификация. Экономическая лексика французского языка иноязычного происхождения. Языковой анализ англицизмов.
дипломная работа [67,8 K], добавлен 25.04.2011Этимология - раздел языкознания. Исследование источников и формирования словарного состава языка, включая реконструкцию словарного состава древнейшего периода. Реконструкция первичной мотивации, формы и значения слова как предмет этимологического анализа.
курсовая работа [94,1 K], добавлен 17.06.2015Особенности лексического состава древнеанглийского языка. Развитие и способы пополнения словарного состава языка. Развитие продуктивных способов словообразования. Заимствования новоанглийскогого периода. Образование новых слов путем словосложения.
реферат [34,7 K], добавлен 17.12.2010Анализ особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Характеристика научно-технического языка. Анализ текста и выявление влияния контекста на перевод медицинских терминов.
дипломная работа [159,6 K], добавлен 28.10.2012Эволюция глаголов в английском языке, системы сильных и слабых глаголов. Претерито-презентные, неправильные и супплетивные глаголы. Морфологическая классификация английских глаголов. Анализ древнеанглийских глаголов на примере памятников письменности.
курсовая работа [52,6 K], добавлен 14.11.2012Рассмотрение и анализ популярных в Интернете он-лайн переводчиков, сравнение их возможностей и функций. Технологии, на которых работают он-лайн транслейторы. Сравнительная характеристика перевода английских шуточных текстов с помощью он-лайн словарей.
курсовая работа [452,6 K], добавлен 06.06.2012Лингвостилистические свойства языка немецких средств массовой информации. Изменения словарного состава речи. Заимствования с точки зрения лексической структуры. Анализ классификации неологизмов. Лексико-стилистический анализ информативных медиа-текстов.
дипломная работа [98,0 K], добавлен 26.07.2017Место фразовых глаголов в лексической системе английского языка. Практические особенности употребления глаголов. Сходства и различия текстов английских и русских информационных сообщений. Функционирование фразовых глаголов в средствах массовой информации.
курсовая работа [48,6 K], добавлен 13.11.2015Полисемия как средство обогащения словарного состава языка. Анализ типов семантических изменений лексического значения. Характеристика причин наиболее распространенных типов изменения лексического значения слов на примере произведений В.С. Моэма.
курсовая работа [73,5 K], добавлен 18.04.2011Изучение предмета лексикографии или раздела языкознания, занимающегося теорией и практикой составления словарей. Проблема семантической структуры слова. Принципы словарного описания языка. Лексикографический параметр и пометы. Требования к толкованиям.
презентация [281,9 K], добавлен 17.03.2015Изучение сленга немецкой молодежи, понимание особенности и своеобразия национальной картины и национально-специфических особенностей их менталитета. Рассмотрение некоторых категорий сленговых выражений (существительных, глаголов, эмоциональных выражений).
статья [13,8 K], добавлен 04.06.2012Оцифровка германских документов в архивах России. Издание специальных немецких терминологических справочников, словарей и тезаурусов. Классификация жанров и специфики военных текстов. Анализ особенностей перевода на примере боевых документов бундесвера.
дипломная работа [5,4 M], добавлен 16.09.2017Заимствование как один из видов обогащения словарного запаса. Заимствования в немецком языке и их количество, причины и пути проникновения англицизмов, сферы распространения. Морфологическая трансформация на примере имен существительных в немецком языке.
курсовая работа [86,6 K], добавлен 26.06.2012Общие сведения о древнеанглийском языке, словарный фонд, количественный состав. Развитие словарного состава английского языка: суффиксация, префиксация, словосложение, заимствования. Анализ лексики древнеанглийского языка на примере поэмы "Беовульф".
курсовая работа [28,6 K], добавлен 13.05.2012Стилистический разбор текстов. Составление библиографического списка. Определение типа словосочетаний прилагательных и глаголов с существительными. Понятие синонимов, антонимов. Примеры написания коммерческого письма, распорядительного документа.
контрольная работа [47,5 K], добавлен 18.12.2009Трактовка переходности в концепциях отечественных и зарубежных лингвистов. Семантико-синтаксический анализ переходных глаголов, употребляющихся безобъектно. Классификация переходных глаголов. Факторы, влияющие на употребление переходных глаголов.
дипломная работа [117,0 K], добавлен 15.11.2009