Решение проблемы вариативности при генерации фраз естественного языка на основе двухуровневых шаблонов
Модель добавления шаблонов семантической декомпрессии. Проблема моделирования естественных языков. Применение вектора грамматических и семантических признаков слова в качестве формы представления грамматики и семантики. Разработка базы данных шаблона.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 14.12.2018 |
Размер файла | 102,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Сибирский федеральный университет
РЕШЕНИЕ ПРОБЛЕМЫ ВАРИАТИВНОСТИ ПРИ ГЕНЕРАЦИИ ФРАЗ ЕСТЕСТВЕННОГО ЯЗЫКА НА ОСНОВЕ ДВУХУРОВНЕВЫХ ШАБЛОНОВ
Личаргин Дмитрий Викторович
Чубарева Елена Борисовна
Николаева Наталья Владимировна
Аннотация
семантический язык грамматический шаблон
В статье описана модель добавления шаблонов семантической декомпрессии. Освещается проблема моделирования естественных языков. Разработанная модель позволяет выполнять алгоритмы добавления шаблонов семантической декомпрессии. Данные шаблоны должны разнообразить генерацию учебных заданий лингвистическим программным обеспечением. В качестве формы представления грамматики и семантики слов используется вектор грамматических и семантических признаков слова. Необходима разработка базы данных шаблонов уровня порождения и уровня усложнения фраз языка.
Ключевые слова и фразы: генерация естественного языка; семантические признаки; классификации слов и понятий языка; генерация учебных материалов; порождение естественного языка; генерация осмысленных предложений.
Annotation
SOLVING PROBLEM OF VARIATION WHEN GENERATING NATURAL LANGUAGE PHRASES BASED ON TWO-LEVEL PATTERNS
Lichargin Dmitrii Viktorovich Chubareva Elena Borisovna Nikolaeva Natal'ya Vladimirovna Siberian Federal University, Krasnoyarsk
In the article a model of adding semantic decompression patterns is described. The article is devoted to the problem of natural language modeling. The developed model provides the execution of algorithms for semantic decompression patterns addition. The patterns allow diversifying the generation of educational tasks by linguistic software. A vector of word grammar and semantic features is used as a form of presenting the words grammar and semantics. The development of patterns database for language phrases generation and complication is necessary.
Key words and phrases: natural language generation; semantic features; language words and notions classification; educational materials generation; natural language generation; meaningful sentences generation.
Основная часть
Проблема автоматизации систем устного и письменного перевода является актуальной для любого языка. Для ее решения ведутся работы в области семантики, лингвистики, дискретной математики и искусственного интеллекта. Автоматическая генерация учебных материалов и создание осмысленных подмножеств естественного языка позволят выполнить построение экспертных систем, систем электронного обучения, систем автоматического перевода.
Уровень разработки. Для решения проблемы генерации осмысленной речи используется широкий инструментарий как семантики, так и искусственного интеллекта в рамках понятийного аппарата и различных моделей математической семантики. В частности, для анализа естественного языка традиционно используются модели и средства, такие как метод онтологий, метод лингвистической классификации, метод многомерного представления данных, инструментарий системного анализа. Также используются порождающие грамматики и грамматики сложения деревьев, семантические сети, гибридные системы, компонентный анализ, парадигматический метод и др. [1-11; 13].
Основная идея данной работы состоит в представлении единиц естественного языка в виде множества векторов признаков, которым соответствует многомерное пространство векторизованных данных. Важно задать иерархию единиц языка и понятийное векторное описание для каждого из них, предоставить классификацию слов и основанную на ней классификацию предложений естественного языка. Слова выбираются из этого пространства на основе шаблонов генерации учебных заданий и текстов. Необходимо описать, как используются шаблоны компрессии и декомпрессии предложений.
Цель работы - построить модель генерации фраз и текстов для учебных курсов по английскому языку. Задачи работы заключаются в использовании классификации семантических категорий и слов естественного языка на основе шаблонов лингвистических трансформаций.
Для генерации семантически и грамматически осмысленных фраз естественного языка необходимо построить классификацию предложений естественного языка в виде многомерного пространства данных. Данная классификация является пересечением лексического и грамматического пространства слов - точек понятийного пространства. Грамматическое подмножество этой классификации имеет определенные координаты вектора классификации, например:
[Части речи {«Артикль», «Прилагательное», «Существительное», «Глагол»…},
Члены предложения {«Определитель», «Определение», «Подлежащее», «Сказуемое»…};
Категории. Лица {«1-е», «2-е», «3-е», «Не определено»},
Категории. Аспект {«Неопределенный», «Продолженный», «Совершенный», «Совершенный продолженный», «Не определен»};
Категории. Степень сравнения {...} и т.п.].
Грамматические конструкции включаются в ячейки многомерного массива. Пересечение таких координат вектора, как, например, V[ГЛАГОЛ / ОПРЕДЕЛЕНИЕ / СОВЕРШЕННЫЙ /…], определяет ячейку многомерного массива с грамматической конструкцией: «having + ГЛАГОЛ-ed» Вектор V[Прилагательное / Сказуемое / 1-е лицо / Превосходная степень / Длинное слово / …] = «am the most + ПРИЛАГАТЕЛЬНОЕ».
Лексическое подмножество этой классификации имеет определенные координаты вектора классификации: [Порядок слов и члены предложения {Субъект, Предикат, Объект…},
Объекты по тематике изучения {идеи {науки, представления, чувства…}, предметы {одежда, еда, части тела, здания, транспорт…}, существа…},
Варианты подстановок слов в предложение {{позитивное, нейтральное, негативное}, {…}}].
Такое многомерное пространство включает комбинаторно сочетающиеся группы слов. Например, группа слов {варить, жарить, тушить, пробовать, подавать…} относится к ячейке многомерного пространства [ОТНОШЕНИЕ - СУЩЕСТВО - ОБЪЕКТ / ПИЩА / СОЗДАНИЕ]. При этом группа слов {морковь, капуста, свекла, картофель, лук…} относится к ячейке многомерного массива [ОБЪЕКТ / ПИЩА], что дает порождаемые фразы «варить картофель», «жарить лук», «тушить капусту» и т.п. Данное пространство становится критерием семантической и грамматической осмысленности речи. Функции определенного вида, определенной геометрии над данными группами слов образуют осмысленные фразы с хорошей вероятностью [1].
При решении проблемы обработки реальных текстов на естественном языке, например, программамигенераторами и анализаторами осмысленной речи важно решить проблему построения шаблонов семантической декомпрессии. Семантические шаблоны декомпрессии могут оперировать информацией для построения текстов, написанных в разных стилях языка: от академического стиля с низкой степенью семантической декомпрессии до сленга с чрезвычайно высокой степенью семантической декомпрессии, в частности с высоким уровнем семантического шума. Семантические шаблоны декомпрессии являются формальными описаниями, соответствующими выражению эмоций и пониманию глубины предмета носителем языка. В частности, компьютер может считать это несущественным для задачи генерации осмысленных единиц естественного языка: слов (например, неологизмов), предложений и текстов.
Для генерации предложений с использованием шаблонов семантической декомпрессии подходит метод составления семантических шаблонов декомпрессии, разработанный посредством анализа смысловых структур понятий для их трансформации.
Например, слово «любить» соответствует вектору признаков: [ОТНОШЕНИЕ - СУЩЕСТВО - X \ СУЩНОСТЬ \ ПОЗИТИВНОСТЬ].
Слово «красивый» соответствует вектору признаков: [ОТНОШЕНИЕ \ СУЩНОСТЬ \\ ОТНОШЕНИЕСУЩНОСТЬ-X \ ИДЕЯ \ НА (НЕ) ЖИВОМ \ ПОЗИТИВНОСТЬ].
Слово «смотреть» соответствует вектору семантических признаков: [ОТНОШЕНИЕ-СУЩЕСТВО-X \ СУЩНОСТЬ \\ ОТНОШЕНИЕ-СУЩЕСТВО-X \ ИДЕЯ \ НА (НЕ) ЖИВОМ \ ПОЗИТИВНОСТЬ].
В результате можно использовать возможность для перегруппировки сем естественного языка в цепочке векторов признаков слов для каждого из слов. Например, фраза «The flower is beautiful» может быть преобразована во фразу «I like the colour of the flower». В этом случае понятие «beautiful» относится к группе сем с внутренним значением, соответствующим слову «see» и элементам его значений в форме слов «well», «love to» или «good», т.е. семой позитивности.
Например, предложение «They are building the bridge» может быть трансформировано во фразу «Their building the bridge…», and «The bridge being built by them …», and «It was… for them to build the bridge», and «The bridge after their building…».
В связи с тем, что обработка глубоких эмоциональных коннотаций является очень сложной задачей для лингвистического программного обеспечения, принципы автоматической генерации учебных заданий выбраны с учетом необходимости применения шаблонов для добавления семантического шума [10]. Подобная задача была реализована на основе принципов языковой комбинаторики, на сегодняшний момент такие системы генерации учебных заданий находятся в процессе усовершенствования. Один из последующих шагов должен заключаться в использовании шаблонов второго уровня для генерации естественного языка.
Таким образом, шаблоны второго уровня могут быть использованы, например, для генерации учебных заданий, основанных на принципах сочетаемости слов: «the user + takes + some wire» (Тема: Детали оборудования, Позиция в предложении: Делатель + Действие + Реципиент, Варианты подстановок слов с их признаками: Пассивный + Получение + Металлический - Длинный - Гибкий); на основе такой фразы может быть сформировано учебное задание: «the user + takes / eats / wears / lives in + some wire».
Может быть дано соответствующее задание: «выбрать правильное слово из списка» или «заполнить пробелы с одним из вариантов, предложенных ниже» и т.д. Также может быть выполнена дальнейшая декомпрессия фразы посредством добавления семантического шума: «the user`s taking the wire was necessary» или «the wire after taking by the user was given to me».
Могут быть сгенерированы соответствующие задания на основе декомпрессированных предложений, например «the wire after taking / eating / wearing / living by the user was given to me». Необходимо создание базы данных семантических шаблонов второго уровня для применений в области лингвистического программного обеспечения для электронного обучения.
В заключение необходимо отметить, что возможно и целесообразно применение многомерной модели естественного языка, в частности, семантической векторизованной классификации слов и понятий естественного языка для классификации стилистических структур на основе множества правил порождающей грамматики или с использованием множества реляционных шаблонов пословного построения предложений, используемых для генерации естественного языка. В работе была проанализирована структура такого рода правил. Последние могут быть использованы для компрессии и декомпрессии предложений и текста языка. Были предложены методы использования декомпрессии на основе речевых шаблонов второго уровня для порождения языка в целях улучшения лингвистического программного обеспечения для автоматической генерации учебных заданий, например, на уроках английского языка. Классификация понятий естественного языка может служить источником лексических единиц, для составления шаблонов генерации осмысленных текстов, которые можно усложнять посредством добавления семантического шума на основе расширенных порождающих грамматик над лесом строк и деревьев разнородных данных. Необходимо дальнейшее исследование в этой области.
Рис. 1 Программное обеспечение для автоматической генерации учебных заданий
Список литературы
1. Агамджанова В. И. Контекстуальная избыточность лексического значения слова. М.: Высшая школа, 1977. 150 c.
2. Алексеева И. С. Текст как доминанта перевода // Журнал СФУ. Красноярск: Издательство СФУ, 2011. Т. 4. № 10. С. 1375-1384.
3. Апресян Ю. Д. Идеи и методы современной структурной лингвистики. М.: Наука, 1966. 301 c.
4. Вердиева З. Н. Семантические поля в современном английском языке. М.: Высшая школа, 1986. 119 c.
5. Зыкова Т. В., Кытманов А. А., Цибульский Г. М., Шершнева В. А. Обучение математике в среде Moodle на примере электронного обучающего курса // Вестник Красноярского государственного педагогического университета имени В. П. Астафьева. 2012. № 1. С. 60-63.
6. Личаргин Д. В. Методы и средства порождения семантических конструкций естественно языкового интерфейса программных систем: дисс. … к.т.н. Красноярск, 2004. 154 с.
7. Личаргин Д. В. Операции над семами слов естественного языка в машинном переводе // Труды конференции молодых ученых. Красноярск: ИВМ СО РАН, 2003. C. 23-31.
8. Личаргин Д. В. Порождение дерева состояний на основе порождающих грамматик над деревьями строк // Вестник СибГАУ. 2010. № 1. C. 57-58.
9. Личаргин Д. В., Бачурина Е. П. Обобщенная иерархическая структура учебного электронного курса и рассмотрение на ее основе электронного курса обучения английскому языку РИЯ ИКИТ СФУ // Информатизация образования и науки. 2012. № 3. С. 20-36.
10. Личаргин Д. В., Таранчук Е. А. Иерархическая структура учебного электронного курса и его вариабельность для обучения иностранному языку // Дистанционное и виртуальное обучение. 2011. № 4. С. 56-75.
11. Личаргин Д. В, Суманеева Я. А., Юрьева Е. В. Метод подстановочных таблиц и его применение в сфере обучения русскому языку для иностранцев // Вестник Сургутского государственного педагогического университета. 2012. № 6. C. 179-187.
12. Поветкина Ю. В. Моделирование как метод лингвистического исследования // Филологические науки. Вопросы теории и практики. Тамбов: Грамота, 2012. № 6 (17). С. 132-136.
13. Сдобников В. В. Новый взгляд на стратегию перевода: коммуникативно-функциональный подход // Журнал СФУ. Красноярск: Издательство СФУ, 2011. Т. 4. № 10. C. 1444-1453.
Размещено на Allbest.ru
...Подобные документы
Проблема правильного и уместного употребления слов. Единицы языка как ячейки семантики. Морфемы полнозначных слов. Типы семантических отношений. Возможность соединения слов по смыслу в зависимости от реальной сочетаемости соответствующих понятий.
курсовая работа [40,2 K], добавлен 02.01.2017Слово как один из элементов языка-эталона, как двусторонняя единица лексической сферы, его морфемный состав. Уровни сопоставительного анализа в лексике. Понятие лексического ареала грамматических явлений. Проблема семантической мотивированности слова.
контрольная работа [39,4 K], добавлен 16.06.2009Проблема многозначности слова, наряду с проблемой структуры его отдельного значения как центральная проблема семасиологии. Примеры лексико-грамматической полисемии в русском языке. Соотношение лексических и грамматических сем при многозначности слова.
статья [42,0 K], добавлен 23.07.2013Понятие паремии как явления естественного языка и фольклора. Пословицы и поговорки как важный жанр устного народного творчества. Антипословицы, причины их возникновения. Понятие вариативности и трансформации в современной паремиологи. Формы языковой игры.
курсовая работа [60,2 K], добавлен 07.06.2011Понятие морфологии как науки и раздела грамматики, изучающей слово, его принадлежность к определенной части речи, структуру, формы изменения, способы выражения грамматических значений. Особенности семантического строя языка, правила изменения слов.
реферат [61,5 K], добавлен 09.12.2014Проблемы изучения общей истории русского лексикона. Типология лексических групп, динамично меняющаяся с изменением факторов развития лексико-семантической системы. Проблема единства и тождества исторического слова, необходимость учета особенностей текста.
реферат [24,5 K], добавлен 05.07.2015Рассмотрение ряда основных проблем общего языкознания и взаимоотношения логических и грамматических категорий языков. Исследование датского лингвиста Отто Есперсена в широком плане и на материале большого количества разнообразных по структуре языков.
книга [813,6 K], добавлен 07.05.2009Лексические и грамматические трансформации, их основные виды и способы передачи при переводе с казахского языка на английский и русский языки на примере произведения А. Кунанбаева "Слова Назидания". Проблема определении трансформации при переводе.
дипломная работа [386,2 K], добавлен 30.05.2012Ознакомление с научной литературой, посвященной семантике лексических единиц в отечественном языкознании. Выделение своеобразия компонентов семантической структуры многозначного слова. Семантический анализ многозначного слова на материале слова fall.
курсовая работа [44,1 K], добавлен 18.09.2010Понятие семантического поля. Понятийное поле "жилище" в русском языке. Сравнение русского и английского языков. Трудности, возникающие при переводе с одного языка на другой. Формирование лексико-семантической группы слова "жилище" в английском языке.
курсовая работа [34,3 K], добавлен 07.03.2014История отечественного терминоведения. Выявление лексических и семантических особенностей специального текста для применения этих знаний в практике моделирования семантики специального текста. Требования к терминам, их анализ. Понятие фоновой лексики.
курсовая работа [106,3 K], добавлен 14.11.2009Перевод как вид переводческой деятельности. Проблема классификации лексических и грамматических трансформаций. Анализ предложений, на основе анализа перевода произведения "Слова Назидания" А. Кунанбаева на казахском, русском и английском языках.
дипломная работа [120,0 K], добавлен 22.05.2012Психолого-педагогические особенности формирования грамматических навыков. Методический аспект изучения грамматики английского языка на начальном этапе в средней школе. Система упражнений, направленная на формирование грамматических навыков у детей.
дипломная работа [64,7 K], добавлен 24.01.2009Сравнительная типология грамматических трансформаций при переводе с французского на русский и наоборот. Асимметрия грамматических систем, анализ использования преобразований при переводе художественного текста; проблемы относительно данной пары языков.
дипломная работа [74,2 K], добавлен 28.08.2011Изучение предмета лексикографии или раздела языкознания, занимающегося теорией и практикой составления словарей. Проблема семантической структуры слова. Принципы словарного описания языка. Лексикографический параметр и пометы. Требования к толкованиям.
презентация [281,9 K], добавлен 17.03.2015Активная и пассивная грамматика: философский и психологический подходы. Построение активной грамматики по принципу "от содержания к форме", пассивной - "от формы к содержанию". Языковое "предложение", его роль в разработке активной и пассивной грамматики.
реферат [22,9 K], добавлен 06.02.2011Структура лексико-семантической системы языка. Смысловая мотивированность и организация лексики. Ядро, центр лексико-семантической группы, системы цветообозначения. Типы семантических отношений лексических единиц. Типология и основные признаки поля.
курсовая работа [122,9 K], добавлен 08.03.2016Сравнительное изучение языков Вильгельмом фон Гумбольдтом. Выявление общих закономерностей исторического развития языков мира. Антиномии Гумбольдта. Рассмотрение ученым вопроса о взаимосвязи языка и "народного духа". Этапы развития, типы и формы языка.
реферат [17,7 K], добавлен 11.06.2014Рассмотрение понятия и свойства слова. Изучение фонетической, семантической, синтаксической, воспроизводимой, внутренней линейной, материальной, информативной и других характеристик слова в русском языке. Роль речи в жизни современного человека.
презентация [83,8 K], добавлен 01.10.2014Типы лексического значения слова. Категориальные признаки и коммуникативно-прагматические свойства фразеологизмов. Анализ семантических групп фразеологических единиц со значением возраста: младенчество, совершеннолетие, средний и преклонный возраст.
дипломная работа [72,5 K], добавлен 28.12.2013