Главная Коллекция "Revolution" Иностранные языки и языкознание Статистические методы анализа языка и метод генерации языка по шаблонам из многомерных баз данных

Статистические методы анализа языка и метод генерации языка по шаблонам из многомерных баз данных

Анализ проблемы определения семантического метрического расстояния между фрагментами текста на естественном языке. Использование шаблонов генерации осмысленных фраз языка в интеграции с применением анализа текстов на основе модели марковских процессов.

Рубрика	Иностранные языки и языкознание
Вид	статья
Язык	русский
Дата добавления	24.03.2019
Размер файла	27,5 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Статистические методы анализа языка и метод генерации языка по шаблонам из многомерных баз данных

Личаргин Д.В., Маглинец А.Ю., Рыбков М.В.

Сибирский федеральный университет, г. Красноярск

Аннотация

В статье рассматривается проблема определения семантического метрического расстояния между фрагментами текста на естественном языке с использованием шаблонов генерации осмысленных фраз языка в интеграции с применением анализа корпусов текстов на основе модели марковских процессов. Проблема давно рассматривается с точки зрения методов компьютерной лингвистики, искусственного интеллекта, традиционной лингвистики, информатики.

Рассматривается вопрос о методах построения шаблонов генерации осмысленных фраз и различных видов проекций информации из этих шаблонов на предложения из корпусов текстов на естественном языке. Рассматривается также вопрос о проецировании частично бессмысленных фраз и фраз с ошибками на данные шаблоны в рамках проблемы автоматической семантической корректуры текста. Делается вывод о необходимости гибридизации статистических и парадигматических методов генерации осмысленных подмножеств языка в приложении к различным задачам, в частности, устранения семантических ошибок, перевода с элементами реферирования и семантической стандартизации текста.

В работе рассматривается проблема построения алгоритма вычисления вероятности проекции фрагмента текста на семантические шаблоны реляционной базы данных. На сегодняшний день широко распространены и разрабатываются разнообразные системы анализа текстов на естественном языке, используются различные методы и критерии отделения осмысленных фраз языка от бессмысленных, в частности, особо важную роль в современной дисциплине «обработка естественного языка» играет статистический метод определения осмысленности фраз. Будучи наиболее проработанным методом на сегодняшний день, он позволяет формировать достаточно работоспособные модели на основе марковских процессов. Проблема является актуальной в связи с тем, что анализ и аналитика текстов на естественном языке требует больших человеческих и временных ресурсов и нуждается во всё большей автоматизации. Проблема генерации множества осмысленных фраз языка решается на стыке таких наук, как компьютерная лингвистика, искусственный интеллект, традиционная лингвистика, информатика, психология.

Проблема генерации естественного языка давно и широко исследуется различными авторами, в частности Т. Виноград, Р. Г. Пиотровским, К. Шенноном, А. Тьюрингом и многими другими.

Цель данной работы состоит в описания алгоритма определения соответствия «фрагмент текста - фрагмент базы данных» в первом приближении. Задачи данной работы заключаются в:

1. Разработке и верификации определённого количества шаблонов генерации осмысленного языка по темам вузовского \ школьного английского языка.

2. Проработка алгоритма и мысленный эксперимент с оригинальными англоязычными текстами, относящимися к теме учебника английского языка.

3. Реализация данного алгоритма в виде программного кода, предназначенного для генерации фраз к учебным заданиям по выбранным тематическим текстам.

Основная идея работы состоит в построении гибридной модели численной оценки вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т.д. слов во множество предложений корпуса текстов. Новизна работы состоит в том, чтобы предложить формулу оценки данной вероятности.

Статистический критерий осмысленности

В работах М. Коллинза, Колумбийский Университет, рассматривается вопрос об оценке условного параметра осмысленности фраз естественного языка на основе статистических оценок словоупотребления в контексте пар, троек, четверок и пятерок слов в корпусах текстов на основе модели марковских процессов. Осуществляется вероятностная оценка возможности вхождения той или иной фразы во множество осмысленных фраз языка с учётом вероятностных оценок прецедентов вхождения однёрок-двоек-троек и так далее слов в большие по объёму корпусы текстов.

Парадигматический критерий осмысленности

Данный критерий основывается на классификации понятий и слов естественного языка. Для этого используются деревья классификации, узлами которых являются понятия. Каждому понятию может соответствовать одно слово или целый ряд синонимов или же не соответствовать ни одного слова. Набор узлов-понятий назовём понятийным пространством. Каждому уровню дерева соответствует один определенный семантический дифференцирующий признак, с конечным, фиксированным набором значений. Признаки для узлов разных уровней составляют ряд или вектор признаков классификации. Признаки одного ряда имеют тождественные элементы, определяющие связи и логику классификации, выраженную в виде семантической формулы определяемых понятий.

Значения каждого элемента семантического вектора являются понятиями другой классификации - более низкого уровня. Единицы языка разного уровня - предложения, слова и понятия, семы (атомы смысла) и т. д. представлены соответствующими классификациями разного уровня (или как говорят лингвисты разного «яруса»). Каждая классификация генерирует понятия для создания ряда признаков последующих классификаций. Каждую из классификаций задает свой вектор семантических признаков. На основании каждого из этих векторов можно построить семантическую формулу, дерево классификации или многомерное понятийное пространство, общие для всех единиц одного уровня.

язык семантический фрагмент текст

Признаки классификации

Как указывается в работах таких авторов, как К.В. Сафонов, Д.В. Личаргин и др., вектор признаков классификации задается перечислением множества значений элементов семантического вектора или же при помощи порождающей грамматики для каждого уровня классификации, то есть для каждого элемента вектора отдельно. Зададим семантический вектор классификации для слов и понятий естественного языка. В данном семантическом пространстве работает метрика Хэмминга, при этом в некоторых случаях имеет смысл использовать евклидову метрику.

В предложенной классификации слов слова разбиваются на классы и подклассы, хорошо сочетающиеся друг с другом комбинаторно и/или ассоциативно. На основе этого принципа разработан электронный словарь, позволяющий генерировать подстановочные таблицы в целях генерации осмысленных фраз и текстов пользователем или программным обеспечением. Ниже дается пример подобной подстановочной таблицы.

В частности, подстановочная таблица по теме «симпатии к одежде», подстановочная таблица по теме «поход в магазин» и далее - по теме «деньги за товар» образуют последовательность подстановочных таблиц, выборка предложений из которых дает предложения вида: «я люблю полосатые жакеты, я с удовольствием ношу полосатую одежду. Завтра я иду в магазин на улице Иванова. Я еду туда на машине. Я заработал 50 долларов и хочу потратить 300 рублей на новый жакет». Таким образом, два вышеупомянутых уровня классификации не только определяют позицию классов слов в понятийном пространстве, но и могут входить в классификацию фраз, организованную тематически. Последнее должно позволить визуализировать в рамках естественно-языкового интерфейса не только структуру предложения, но и структуру возможных текстов.

Таблица 1

Подстановочная таблица как средство генерации осмысленных фраз.

can

может

drive

водить

мой

car

автомобиль

мы

could

мог бы

ride

везти

your

твой

bus

автобус

You

вы

may

может (с разрешения)

take

сесть на

his

его

means of transport

транспортное средство

they

они

might

мог бы (с разрешения)

get on

сесть на

her

ее

plane

самолет

он

Shall

следует

sit in

сесть в

our

наш

airplane

аэроплан

В рамках рассмотрения этих двух различных критериев осмысленности, необходимо отметить, что каждый из рассмотренных критериев не является достаточным сам по себе для решения задач, связанных с определением семантического метрического расстояния между фрагментами текста на естественном языке. Статистический критерий осмысленности не учитывает семантические аспекты языка, делая определение осмысленности фразы затруднительным. Однако он позволяет легко выявлять узуальные фразы, которые часто встречаются в корпусах текстов.

Парадигматический критерий осмысленности позволяет проводить оценку осмысленных подмножеств языка с точки зрения логической совместимости используемых понятий. Однако полноценная оценка затруднительна ввиду несовершенства алгоритмов и электронных словарей, особенно ярко это несовершенство проявляется на текстах и фразах с высокой окказиональностью.

Также следует заметить, что критерии узуальности и окказиональности могут различаться в зависимости от культурных различий тех или иных наций, их привычек и традиций. Если предложение «я люблю газированную воду» будет одинаково воспринято представителем практически любой нации, то фразу «на завтрак будут жареные огурцы и салат из одуванчиков» представитель европейской культуры, скорее всего, воспримет как имеющую шуточную окраску, в то время как для коренного жителя Китая подобное высказывание будет звучать вполне привычно в силу особенностей китайской национальной кухни.

Совмещение двух критериев определения осмысленности фраз естественного языка, а именно, статистического и парадигматического метода, даёт очевидное преимущество.

В то же время есть критерии узуальности \ окказиальности, которые диктуются конкретными задачами и под которые надо приспосабливать разрабатываемые решения и алгоритмы. То есть фразы с очень большой узуальностью не всегда являются удачными, потому что в реальной жизни сложно, точнее даже невозможно, встретить носителя языка, который бы говорил на нём на сто процентов узуально.

После рассмотрения методов, приводимых выше, необходимо отметить, что использование гибридизации данных методов открывает новые возможности по анализу текстов и использованию критериев осмысленности фраз естественного языка. При их совмещении возможно создание системы, которая бы генерировала тексты на основе подстановочных таблиц (учитывая при этом семантику многомерной классификации и глубинных индексов семантического значения слов), и после этого оценивала бы их узуальность \ окказиальность употребления фраз языка на основе гибридных оценок, на основе корпусов текстов.

Программная система должна оценивать вероятность встретить то или иное, принципиально и логически возможное предложение, с точки зрения его допустимости, привычности и общеупотребительности на основе статистических методов.

Что касается автоматического исправления ошибок, традиционные методы исправления ошибок в целом связаны с анализом грамматических структур на основе порождающих грамматик Хомского. На основе гибридных методов оценки осмысленности текстов возможно предложить пользователю варианты предложений более приведенного вида: например, вместо «я желание понять ты» будет предложен семантический вариант «я хочу понять тебя».

Таким образом, предложим следующую формулу оценки допустимости сгенерированной по шаблонам фразы на основе статистических методов оценки их вхождения в корпус текстов:

где q(a,b) - количество пар слов (a, b), встречаемых на незначительном расстоянии в предложениях корпусов текстов, h - общее количество предложений в корпусе текстов, S_i(a, b) - интервальное расстояние между словами a и b в i-том предложении без учёта однородных членов предложения в корпусе текста, S'(a, b) - расстояние между словами в шаблоне генерации, k - коэффициент для увеличения величины результирующих малых вероятностей, m - коэффициент для исключения деления на ноль.

Необходима оценка вариантов выбора функций F и F` для определения оптимального распределения вероятностей вхождения предложения во множество языка. Это могут быть такие распределения как:

1) Нормальное;

2) Линейная функция;

3) Степенная функция;

4) Mexican hat;

Выводы

В работе выполнен анализ проблемы гибридизации статистических и парадигматических методов генерации осмысленных подмножеств языка в приложении к различным задачам. Предложена численная модель оценки вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т.д. слов во множество предложений корпуса текстов. Рассматриваются возможности применения этих методов для автоматической проверки семантических ошибок в текстах на естественном языке. Подчеркивается важность продолжения исследований по теме определения семантического метрического расстояния между фрагментами текста на естественном языке. Делается вывод о необходимости учета функций распределения вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т.д. слов во множество предложений корпуса текстов.

Список литературы

1. Личаргин Д.В. «Методы и средства порождения семантических конструкций естественно языкового интерфейса программных систем». Диссертация. Кандидат технических наук: 05.13.17. / Д.В. Личаргин. Защищена 05.07.2004, Утв. 10.12.2004; №137428. Красноярск, 2004, 154 стр.

2. Личаргин Д.В. Порождение дерева состояний на основе порождающих грамматик над деревьями строк, Сборник СибГАУ, No 4, 2009, стр. 33-37.

3. Личаргин Д.В. Операции над семами слов естественного языка в машинном переводе // Труды конференции молодых ученых. - Красноярск: ИВМ СО РАН, 2003. - с. 23-31.

4. Агамджанова В.И. Контекстуальная избыточность лексического значения слова. - М.: Высшая школа, 1977. - 150 стр.

5. Апресян Ю.Д. Идеи и методы современной структурной лингвистики. - М.: Наука, 1966.

6. Вердиева З.Н. Семантические поля в современном английском языке. - М.: Высшая школа, 1986.

Размещено на Allbest.ru

...

статья "Статистические методы анализа языка и метод генерации языка по шаблонам из многомерных баз данных" скачать

Подобные документы

Опыт стилистической диагностики текстовых источников Интернета
Коммуникативный аспект функции языка. Стилистическая диагностика текста и исследование языка Интернета. Характеристика исследуемого материала веблогов и форумов. Особенности методики их анализа, результаты исследований. Изучение параметров текстов.

курсовая работа [27,3 K], добавлен 10.11.2009
Задачи, особенности, основные направления современной теоретической лингвистики
Определения языка в теоретическом языкознании. Биологическое и социальное, индивидуальное и коллективное, материальное и идеальное в языке. Исторические изменения языка. Функции языка. Основные этапы изучения языка. Сравнительно-историческое языкознание.

шпаргалка [62,2 K], добавлен 05.01.2005
Объект и предмет языкознания. Задачи и методы изучения науки о языке
Зарождение языкознания как науки о естественном человеческом языке. Подходы к изучению языка до XVII-XVIII вв. Связь важнейших функций языка с основными операциями над информацией. Формы существования конкретных языков и членения языкознания на разделы.

презентация [1,1 M], добавлен 13.09.2014
Особенности научного текста английского языка
Классификация научных текстов. Экспрессивность и образность в научном стиле английского языка. Синтаксические и лексические особенности и стилеобразующие факторы научного стиля в английском языке. Лексический состав научной и технической литературы.

курсовая работа [43,7 K], добавлен 02.12.2014
Разработка алгоритма работы синтаксического анализатора текста, а также базы данных синтаксических правил русского языка
Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.

курсовая работа [194,3 K], добавлен 24.06.2012
Русско-английский перевод текстов
Чтение, письменный и устный перевод текста с английского языка на русский, с русского языка на английский. Составление англо-русского словаря по специальности. Написание сочинения на тему "At the Barber's". Письменные ответы на вопросы на ангийском языке.

контрольная работа [19,3 K], добавлен 16.04.2010
Словообразовательная структура
Методы лексико-семантического (компонентного) анализа фразеологических единиц, типология их компонентов в современном русском языке. Компоненты-символы в русской фразеологии. Типы образования фразеологических единиц современного русского языка.

реферат [105,6 K], добавлен 20.08.2015
Приемы и использование различных видов текстов на уроках английского языка
Психологическая природа чтения на иностранном языке. Выделение механизмов, подлежащих формированию в процессе обучения чтению. Приемы использования различных видов текстов на уроках английского языка. Разработка упражнений, формирующих механизмы чтения.

дипломная работа [207,1 K], добавлен 01.07.2014
Непереводимость текстов с иностранного языка
Значение термина "перевод", причины и источники непереводимости текста. Слова и устойчивые словосочетания иностранного языка без полных соответствий в виде лексических единиц (безэквивалентная лексика). Слова-реалии как часть лексики народного языка.

курсовая работа [81,5 K], добавлен 15.01.2012
Полевой метод в исследовании лексики немецкого литературного языка XVIII-XIX вв.
Исследование и реализация подхода к анализу лексики немецкого литературного языка конца XVIII-начала XIX века на примере различных наименований феномена воспитания, входящих в состав соответствующего лексико-семантического поля (ЛСП) немецкого языка.

статья [21,4 K], добавлен 29.07.2013
Демографическая политика Китая (особенности перевода)
Анализ сложностей перевода китайских текстов на демографическую тему. Перевод текста с китайского языка на литературный русский язык, проведение грамматического и лексического анализа переведенного текста. Особенности специальной демографической лексики.

курсовая работа [69,4 K], добавлен 21.09.2015
Особенности при переводе технических текстов с английского языка на русский язык (на материале инструкций, переведенных не носителями языка перевода)
Основные характеристики технического текста. Лексико-грамматические особенности стиля технического текста. Перераспределение содержания, сопровождаемое изменением синтаксической структуры фразы. Анализ перевода инструкции к китайским телефонам.

курсовая работа [62,9 K], добавлен 17.04.2012
Деривационный потенциал заимствованных слов
Исторические изменения в лексической системе языка. Деривационные отношения в современном языке. Заимствование как способ пополнения языка новыми словами. Место компьютерного сленга в языке. Компьютерный жаргон как подсистема языка.

курсовая работа [36,2 K], добавлен 30.11.2006
Лексика туризма в современном немецком языке
Современная тенденция лексического анализа. Причины лексических заимствований. Виды синонимов, их функции в языке. Специфика языка сферы туризма на примере современного немецкого языка. Развитие туризма в Германии. Классификация туристических терминов.

курсовая работа [54,0 K], добавлен 17.06.2013
Происхождение языка
Теории возникновения языка как средства коммуникации между людьми. Учение Энгельса о происхождении языка. Процесс образования отдельных языков, основные закономерности их развития. Образование, формирование и развитие словарного состава русского языка.

курсовая работа [46,2 K], добавлен 06.08.2013
История английского языка. Заимствования
Анализ связи между историей английского народа и историей языка. Раскрытие закономерностей развития языка как определенной системы, при котором осуществляется полная взаимосвязь развития отдельных элементов структуры языка: фонетических, лексических.

презентация [609,7 K], добавлен 04.05.2014
Словарный состав языка и его пласты. Лексическое поле
Специфика словарного состава языка. Классификация словарного состава языка. Особенности и свойства лексического поля. Анализ модели лексического поля "женщины" на материале рекламных текстов в журналах для женщин. Лексика рекламы в журнале "Cosmopolitan".

курсовая работа [46,6 K], добавлен 25.09.2016
Идиомы и разговорные выражения английского языка
История и основные направления развития английского разговорного языка, его особенности и закономерности словотворчества. Проведение анализа некоторых выражений. Понятие идиом, их разновидности и специфика употребления в английском разговорном языке.

презентация [1,2 M], добавлен 18.09.2012
Концептуальный анализ языка
Основные методы и отличие концептуального анализа от семантического. Антропологическая ориентация современной лингвистики. Лингвокогнитивное и культурологическое направления и их подход к анализу концепта. Терминология Московской семантической школы.

реферат [32,8 K], добавлен 10.08.2010
Понятие о поэтической функции языка
Понятие языка и его динамическое целое. Особое отношение поэтической функции к динамическому целому языка. Трактовка поэтической функции языка Р. Якобсоном. Поэтическая функция языка не тождественна функциональному стилю. Язык художественного текста.

реферат [39,4 K], добавлен 14.08.2010

Другие документы, подобные "Статистические методы анализа языка и метод генерации языка по шаблонам из многомерных баз данных"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.