Статистические методы анализа языка и метод генерации языка по шаблонам из многомерных баз данных
Анализ проблемы определения семантического метрического расстояния между фрагментами текста на естественном языке. Использование шаблонов генерации осмысленных фраз языка в интеграции с применением анализа текстов на основе модели марковских процессов.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 24.03.2019 |
Размер файла | 27,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Статистические методы анализа языка и метод генерации языка по шаблонам из многомерных баз данных
Личаргин Д.В., Маглинец А.Ю., Рыбков М.В.
Сибирский федеральный университет, г. Красноярск
Аннотация
В статье рассматривается проблема определения семантического метрического расстояния между фрагментами текста на естественном языке с использованием шаблонов генерации осмысленных фраз языка в интеграции с применением анализа корпусов текстов на основе модели марковских процессов. Проблема давно рассматривается с точки зрения методов компьютерной лингвистики, искусственного интеллекта, традиционной лингвистики, информатики.
Рассматривается вопрос о методах построения шаблонов генерации осмысленных фраз и различных видов проекций информации из этих шаблонов на предложения из корпусов текстов на естественном языке. Рассматривается также вопрос о проецировании частично бессмысленных фраз и фраз с ошибками на данные шаблоны в рамках проблемы автоматической семантической корректуры текста. Делается вывод о необходимости гибридизации статистических и парадигматических методов генерации осмысленных подмножеств языка в приложении к различным задачам, в частности, устранения семантических ошибок, перевода с элементами реферирования и семантической стандартизации текста.
В работе рассматривается проблема построения алгоритма вычисления вероятности проекции фрагмента текста на семантические шаблоны реляционной базы данных. На сегодняшний день широко распространены и разрабатываются разнообразные системы анализа текстов на естественном языке, используются различные методы и критерии отделения осмысленных фраз языка от бессмысленных, в частности, особо важную роль в современной дисциплине «обработка естественного языка» играет статистический метод определения осмысленности фраз. Будучи наиболее проработанным методом на сегодняшний день, он позволяет формировать достаточно работоспособные модели на основе марковских процессов. Проблема является актуальной в связи с тем, что анализ и аналитика текстов на естественном языке требует больших человеческих и временных ресурсов и нуждается во всё большей автоматизации. Проблема генерации множества осмысленных фраз языка решается на стыке таких наук, как компьютерная лингвистика, искусственный интеллект, традиционная лингвистика, информатика, психология.
Проблема генерации естественного языка давно и широко исследуется различными авторами, в частности Т. Виноград, Р. Г. Пиотровским, К. Шенноном, А. Тьюрингом и многими другими.
Цель данной работы состоит в описания алгоритма определения соответствия «фрагмент текста - фрагмент базы данных» в первом приближении. Задачи данной работы заключаются в:
1. Разработке и верификации определённого количества шаблонов генерации осмысленного языка по темам вузовского \ школьного английского языка.
2. Проработка алгоритма и мысленный эксперимент с оригинальными англоязычными текстами, относящимися к теме учебника английского языка.
3. Реализация данного алгоритма в виде программного кода, предназначенного для генерации фраз к учебным заданиям по выбранным тематическим текстам.
Основная идея работы состоит в построении гибридной модели численной оценки вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т.д. слов во множество предложений корпуса текстов. Новизна работы состоит в том, чтобы предложить формулу оценки данной вероятности.
Статистический критерий осмысленности
В работах М. Коллинза, Колумбийский Университет, рассматривается вопрос об оценке условного параметра осмысленности фраз естественного языка на основе статистических оценок словоупотребления в контексте пар, троек, четверок и пятерок слов в корпусах текстов на основе модели марковских процессов. Осуществляется вероятностная оценка возможности вхождения той или иной фразы во множество осмысленных фраз языка с учётом вероятностных оценок прецедентов вхождения однёрок-двоек-троек и так далее слов в большие по объёму корпусы текстов.
Парадигматический критерий осмысленности
Данный критерий основывается на классификации понятий и слов естественного языка. Для этого используются деревья классификации, узлами которых являются понятия. Каждому понятию может соответствовать одно слово или целый ряд синонимов или же не соответствовать ни одного слова. Набор узлов-понятий назовём понятийным пространством. Каждому уровню дерева соответствует один определенный семантический дифференцирующий признак, с конечным, фиксированным набором значений. Признаки для узлов разных уровней составляют ряд или вектор признаков классификации. Признаки одного ряда имеют тождественные элементы, определяющие связи и логику классификации, выраженную в виде семантической формулы определяемых понятий.
Значения каждого элемента семантического вектора являются понятиями другой классификации - более низкого уровня. Единицы языка разного уровня - предложения, слова и понятия, семы (атомы смысла) и т. д. представлены соответствующими классификациями разного уровня (или как говорят лингвисты разного «яруса»). Каждая классификация генерирует понятия для создания ряда признаков последующих классификаций. Каждую из классификаций задает свой вектор семантических признаков. На основании каждого из этих векторов можно построить семантическую формулу, дерево классификации или многомерное понятийное пространство, общие для всех единиц одного уровня.
язык семантический фрагмент текст
Признаки классификации
Как указывается в работах таких авторов, как К.В. Сафонов, Д.В. Личаргин и др., вектор признаков классификации задается перечислением множества значений элементов семантического вектора или же при помощи порождающей грамматики для каждого уровня классификации, то есть для каждого элемента вектора отдельно. Зададим семантический вектор классификации для слов и понятий естественного языка. В данном семантическом пространстве работает метрика Хэмминга, при этом в некоторых случаях имеет смысл использовать евклидову метрику.
В предложенной классификации слов слова разбиваются на классы и подклассы, хорошо сочетающиеся друг с другом комбинаторно и/или ассоциативно. На основе этого принципа разработан электронный словарь, позволяющий генерировать подстановочные таблицы в целях генерации осмысленных фраз и текстов пользователем или программным обеспечением. Ниже дается пример подобной подстановочной таблицы.
В частности, подстановочная таблица по теме «симпатии к одежде», подстановочная таблица по теме «поход в магазин» и далее - по теме «деньги за товар» образуют последовательность подстановочных таблиц, выборка предложений из которых дает предложения вида: «я люблю полосатые жакеты, я с удовольствием ношу полосатую одежду. Завтра я иду в магазин на улице Иванова. Я еду туда на машине. Я заработал 50 долларов и хочу потратить 300 рублей на новый жакет». Таким образом, два вышеупомянутых уровня классификации не только определяют позицию классов слов в понятийном пространстве, но и могут входить в классификацию фраз, организованную тематически. Последнее должно позволить визуализировать в рамках естественно-языкового интерфейса не только структуру предложения, но и структуру возможных текстов.
Таблица 1
Подстановочная таблица как средство генерации осмысленных фраз.
I я |
can может |
drive водить |
my мой |
car автомобиль |
|
We мы |
could мог бы |
ride везти |
your твой |
bus автобус |
|
You вы |
may может (с разрешения) |
take сесть на |
his его |
means of transport транспортное средство |
|
they они |
might мог бы (с разрешения) |
get on сесть на |
her ее |
plane самолет |
|
he он |
Shall следует |
sit in сесть в |
our наш |
airplane аэроплан |
В рамках рассмотрения этих двух различных критериев осмысленности, необходимо отметить, что каждый из рассмотренных критериев не является достаточным сам по себе для решения задач, связанных с определением семантического метрического расстояния между фрагментами текста на естественном языке. Статистический критерий осмысленности не учитывает семантические аспекты языка, делая определение осмысленности фразы затруднительным. Однако он позволяет легко выявлять узуальные фразы, которые часто встречаются в корпусах текстов.
Парадигматический критерий осмысленности позволяет проводить оценку осмысленных подмножеств языка с точки зрения логической совместимости используемых понятий. Однако полноценная оценка затруднительна ввиду несовершенства алгоритмов и электронных словарей, особенно ярко это несовершенство проявляется на текстах и фразах с высокой окказиональностью.
Также следует заметить, что критерии узуальности и окказиональности могут различаться в зависимости от культурных различий тех или иных наций, их привычек и традиций. Если предложение «я люблю газированную воду» будет одинаково воспринято представителем практически любой нации, то фразу «на завтрак будут жареные огурцы и салат из одуванчиков» представитель европейской культуры, скорее всего, воспримет как имеющую шуточную окраску, в то время как для коренного жителя Китая подобное высказывание будет звучать вполне привычно в силу особенностей китайской национальной кухни.
Совмещение двух критериев определения осмысленности фраз естественного языка, а именно, статистического и парадигматического метода, даёт очевидное преимущество.
В то же время есть критерии узуальности \ окказиальности, которые диктуются конкретными задачами и под которые надо приспосабливать разрабатываемые решения и алгоритмы. То есть фразы с очень большой узуальностью не всегда являются удачными, потому что в реальной жизни сложно, точнее даже невозможно, встретить носителя языка, который бы говорил на нём на сто процентов узуально.
После рассмотрения методов, приводимых выше, необходимо отметить, что использование гибридизации данных методов открывает новые возможности по анализу текстов и использованию критериев осмысленности фраз естественного языка. При их совмещении возможно создание системы, которая бы генерировала тексты на основе подстановочных таблиц (учитывая при этом семантику многомерной классификации и глубинных индексов семантического значения слов), и после этого оценивала бы их узуальность \ окказиальность употребления фраз языка на основе гибридных оценок, на основе корпусов текстов.
Программная система должна оценивать вероятность встретить то или иное, принципиально и логически возможное предложение, с точки зрения его допустимости, привычности и общеупотребительности на основе статистических методов.
Что касается автоматического исправления ошибок, традиционные методы исправления ошибок в целом связаны с анализом грамматических структур на основе порождающих грамматик Хомского. На основе гибридных методов оценки осмысленности текстов возможно предложить пользователю варианты предложений более приведенного вида: например, вместо «я желание понять ты» будет предложен семантический вариант «я хочу понять тебя».
Таким образом, предложим следующую формулу оценки допустимости сгенерированной по шаблонам фразы на основе статистических методов оценки их вхождения в корпус текстов:
,
где q(a,b) - количество пар слов (a, b), встречаемых на незначительном расстоянии в предложениях корпусов текстов, h - общее количество предложений в корпусе текстов, Si(a, b) - интервальное расстояние между словами a и b в i-том предложении без учёта однородных членов предложения в корпусе текста, S'(a, b) - расстояние между словами в шаблоне генерации, k - коэффициент для увеличения величины результирующих малых вероятностей, m - коэффициент для исключения деления на ноль.
Необходима оценка вариантов выбора функций F и F` для определения оптимального распределения вероятностей вхождения предложения во множество языка. Это могут быть такие распределения как:
1) Нормальное;
2) Линейная функция;
3) Степенная функция;
4) Mexican hat;
Выводы
В работе выполнен анализ проблемы гибридизации статистических и парадигматических методов генерации осмысленных подмножеств языка в приложении к различным задачам. Предложена численная модель оценки вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т.д. слов во множество предложений корпуса текстов. Рассматриваются возможности применения этих методов для автоматической проверки семантических ошибок в текстах на естественном языке. Подчеркивается важность продолжения исследований по теме определения семантического метрического расстояния между фрагментами текста на естественном языке. Делается вывод о необходимости учета функций распределения вероятности вхождения предложения во множество языка с учетом вхождения пар, троек и т.д. слов во множество предложений корпуса текстов.
Список литературы
1. Личаргин Д.В. «Методы и средства порождения семантических конструкций естественно языкового интерфейса программных систем». Диссертация. Кандидат технических наук: 05.13.17. / Д.В. Личаргин. Защищена 05.07.2004, Утв. 10.12.2004; №137428. Красноярск, 2004, 154 стр.
2. Личаргин Д.В. Порождение дерева состояний на основе порождающих грамматик над деревьями строк, Сборник СибГАУ, No 4, 2009, стр. 33-37.
3. Личаргин Д.В. Операции над семами слов естественного языка в машинном переводе // Труды конференции молодых ученых. - Красноярск: ИВМ СО РАН, 2003. - с. 23-31.
4. Агамджанова В.И. Контекстуальная избыточность лексического значения слова. - М.: Высшая школа, 1977. - 150 стр.
5. Апресян Ю.Д. Идеи и методы современной структурной лингвистики. - М.: Наука, 1966.
6. Вердиева З.Н. Семантические поля в современном английском языке. - М.: Высшая школа, 1986.
Размещено на Allbest.ru
...Подобные документы
Коммуникативный аспект функции языка. Стилистическая диагностика текста и исследование языка Интернета. Характеристика исследуемого материала веблогов и форумов. Особенности методики их анализа, результаты исследований. Изучение параметров текстов.
курсовая работа [27,3 K], добавлен 10.11.2009Определения языка в теоретическом языкознании. Биологическое и социальное, индивидуальное и коллективное, материальное и идеальное в языке. Исторические изменения языка. Функции языка. Основные этапы изучения языка. Сравнительно-историческое языкознание.
шпаргалка [62,2 K], добавлен 05.01.2005Зарождение языкознания как науки о естественном человеческом языке. Подходы к изучению языка до XVII-XVIII вв. Связь важнейших функций языка с основными операциями над информацией. Формы существования конкретных языков и членения языкознания на разделы.
презентация [1,1 M], добавлен 13.09.2014Классификация научных текстов. Экспрессивность и образность в научном стиле английского языка. Синтаксические и лексические особенности и стилеобразующие факторы научного стиля в английском языке. Лексический состав научной и технической литературы.
курсовая работа [43,7 K], добавлен 02.12.2014Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.
курсовая работа [194,3 K], добавлен 24.06.2012Чтение, письменный и устный перевод текста с английского языка на русский, с русского языка на английский. Составление англо-русского словаря по специальности. Написание сочинения на тему "At the Barber's". Письменные ответы на вопросы на ангийском языке.
контрольная работа [19,3 K], добавлен 16.04.2010Методы лексико-семантического (компонентного) анализа фразеологических единиц, типология их компонентов в современном русском языке. Компоненты-символы в русской фразеологии. Типы образования фразеологических единиц современного русского языка.
реферат [105,6 K], добавлен 20.08.2015Психологическая природа чтения на иностранном языке. Выделение механизмов, подлежащих формированию в процессе обучения чтению. Приемы использования различных видов текстов на уроках английского языка. Разработка упражнений, формирующих механизмы чтения.
дипломная работа [207,1 K], добавлен 01.07.2014Значение термина "перевод", причины и источники непереводимости текста. Слова и устойчивые словосочетания иностранного языка без полных соответствий в виде лексических единиц (безэквивалентная лексика). Слова-реалии как часть лексики народного языка.
курсовая работа [81,5 K], добавлен 15.01.2012Исследование и реализация подхода к анализу лексики немецкого литературного языка конца XVIII-начала XIX века на примере различных наименований феномена воспитания, входящих в состав соответствующего лексико-семантического поля (ЛСП) немецкого языка.
статья [21,4 K], добавлен 29.07.2013Анализ сложностей перевода китайских текстов на демографическую тему. Перевод текста с китайского языка на литературный русский язык, проведение грамматического и лексического анализа переведенного текста. Особенности специальной демографической лексики.
курсовая работа [69,4 K], добавлен 21.09.2015Основные характеристики технического текста. Лексико-грамматические особенности стиля технического текста. Перераспределение содержания, сопровождаемое изменением синтаксической структуры фразы. Анализ перевода инструкции к китайским телефонам.
курсовая работа [62,9 K], добавлен 17.04.2012Исторические изменения в лексической системе языка. Деривационные отношения в современном языке. Заимствование как способ пополнения языка новыми словами. Место компьютерного сленга в языке. Компьютерный жаргон как подсистема языка.
курсовая работа [36,2 K], добавлен 30.11.2006Современная тенденция лексического анализа. Причины лексических заимствований. Виды синонимов, их функции в языке. Специфика языка сферы туризма на примере современного немецкого языка. Развитие туризма в Германии. Классификация туристических терминов.
курсовая работа [54,0 K], добавлен 17.06.2013Теории возникновения языка как средства коммуникации между людьми. Учение Энгельса о происхождении языка. Процесс образования отдельных языков, основные закономерности их развития. Образование, формирование и развитие словарного состава русского языка.
курсовая работа [46,2 K], добавлен 06.08.2013Анализ связи между историей английского народа и историей языка. Раскрытие закономерностей развития языка как определенной системы, при котором осуществляется полная взаимосвязь развития отдельных элементов структуры языка: фонетических, лексических.
презентация [609,7 K], добавлен 04.05.2014Специфика словарного состава языка. Классификация словарного состава языка. Особенности и свойства лексического поля. Анализ модели лексического поля "женщины" на материале рекламных текстов в журналах для женщин. Лексика рекламы в журнале "Cosmopolitan".
курсовая работа [46,6 K], добавлен 25.09.2016История и основные направления развития английского разговорного языка, его особенности и закономерности словотворчества. Проведение анализа некоторых выражений. Понятие идиом, их разновидности и специфика употребления в английском разговорном языке.
презентация [1,2 M], добавлен 18.09.2012Основные методы и отличие концептуального анализа от семантического. Антропологическая ориентация современной лингвистики. Лингвокогнитивное и культурологическое направления и их подход к анализу концепта. Терминология Московской семантической школы.
реферат [32,8 K], добавлен 10.08.2010Понятие языка и его динамическое целое. Особое отношение поэтической функции к динамическому целому языка. Трактовка поэтической функции языка Р. Якобсоном. Поэтическая функция языка не тождественна функциональному стилю. Язык художественного текста.
реферат [39,4 K], добавлен 14.08.2010