Об одной псевдоассоциативной модели текста

Характеристика модели организации бинарной ассоциативной связи между лексемами, основанная на метрической оценке степени близости. Примеры применения этой модели в задаче генерации псевдолитературных текстов. Построение пар бинарных псевдоассоциаций.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 17.01.2018
Размер файла 125,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Об одной псевдоассоциативной модели текста

Карпов В.Э.

karpov_ve@mail.ru

НИИ Информационных технологий, Москва

в.н.с., доц., к.т.н.

Москва, 2009

Аннотация

Рассматривается модель организации бинарной ассоциативной связи между лексемами, основанная на метрической оценке степени близости. Приводятся примеры применения этой модели в задаче генерации псевдолитературных текстов.

бинарный лексема метрический псевдоассоциация

Введение

Экспериментальная информатика, как и подобает техническому направлению, основана прежде всего на попытках ответить на вопрос типа «Что будет, если ...?». Благо, в отличие от иных областей, ставить в ней эксперименты - пусть и виртуальные - значительно легче. Хотя суть от этого не меняется. Разница между вопросами «Что будет, если смешать азотную и серную кислоту, а затем добавить целлюлозы?» и «Что будет, если посчитать расстояние между словами в предложении?» невелика.

Настоящая статья посвящена как раз ответу на второй вопрос.

Итак, что может дать механизм, оценивающий ассоциативные (точнее, псевдоассоциативные, т.к. приставка псевдо- обычно ни к чему не обязывает, а ответственность снимает) связи между лексемами на основе всего-навсего их взаимного расположения в тесте? Без учета синтаксиса, семантики, прагматики, опираясь исключительно на лексический (или в лучшем случае - морфологический) анализ.

Будем считать, что необходимое введение в предметную область уже сделано. Обзоры многочисленных методов, обоснование важности частотно-лексических критериев, актуальность задачи с точки зрения построения автоматических анализаторов, авторефераторов и тезаурусопостроителей, а также философские рассуждения о языковых моделях мира, аксиоматических объектах и прочее оставим для большой, серьезной работы.

Суть метода

Представим анализируемый текст T в виде множества предложений Pi. (Название «предложение» здесь достаточно условно. На самом деле речь идет о некоторой смысловой единице - фразе в общем случае.)

T = {Pi}, i=1..N.

Каждое предложение - это упорядоченное множество лексем li

Pi = {li1, li2, ..., lik}.

Введем понятие величины псевдоассоциативной связи между лексемами li и lj одного предложения. Нас интересует функционал, который определяет степень близости между лексемами на основе анализа их взаимного расположения. При этом желательно, чтобы степень близости находилась в интервале [0..1].

В простейшем случае этот функционал может быть определен так:

, ij(1)

Параметр в знаменателе необходим для принудительного ослабления связи между соседними лексемами.

Теперь можно определить бинарные псевдоассоциации между лексемами уже на множестве предложений, т.е. на тексте. Для этого применяется следующая итерационная процедура.

· Берется очередное предложение текста Pi.

· Пусть на предыдущем шаге между лексемами A и B была установлена связь r'(A, B).

Если анализ Pi дает по формуле (1) между этими лексемами степень близости r''=r(A, B), то результирующее значение бинарной псевдоассоциации можно определить как

r(A, B) = r'+r''-r'r''(2)

Это, во-первых, гарантирует сохранение итоговой оценки близости в интервале [0..1], а во-вторых - монотонно увеличивает степень связи между лексемами по мере того, как они встречаются совместно по ходу анализа предложений текста.

· Далее процесс повторяется.

Построенное таким образом множество пар бинарных псевдоассоциаций можно рассматривать как ассоциативную модель текста.

Интересно, что эта модель является работоспособной даже в самом примитивном случае, когда из текста выделяются предложения (на уровне просмотра теста до подходящего знака препинания), а лексемами объявляются последовательности символов без учета морфологии и правил словообразования.

После построения сети можно ввести слово и получить множество ассоциированных лексем. Ранжированных, например, по степени их близости. Помимо степени близости, полученной по формуле (2), можно использовать и общее количество ассоциаций для данной пары li, lj (сколько раз эти лексемы встречались вместе в одном предложении) - частоту ассоциации ij. Тогда в качестве интегральной оценки степени ассоциации можно рассматривать, скажем, произведение частоты и близости ijrij.

Здесь можно вновь вернуться к формуле (1). Принудительное ослабление степени связности связано с тем, что наибольшую близость имеют лексемы, стоящие в соседних позициях. При отсутствии параметра соседние лексемы имели бы максимальную, единичную ассоциативную близость, даже если бы во всем тексте они встретились вместе лишь однажды. На самом деле, вместо функционала (1) можно было бы использовать и более тонкие функции - показательно-степенные или гиперболические, лишь бы обеспечивались их ограниченность и монотонность.

Следует отметить, что в [1] описывается несколько похожий механизм, однако в нем рассматриваются ассоциативные связи на основе частот повторения лексем в тексте. При этом каждое предложение рассматривается как вектор частот появления в нем лексем.

Расширения метода

Естественным улучшением предложенного механизма является использование морфологических словарей. Помимо уменьшения размера множества ассоциаций за счет исключения вариаций словоформ одной и той же лексемы, появляется возможность реализации выборочных ассоциаций. Например, можно узнать какие свойства (прилагательные) или действия (глаголы) ассоциируются с данным словом (лексемой).

Кроме того, в качестве запроса ассоциаций можно вводить множество лексем. В этом случае появляется ряд ассоциативных окрестностей, возможно - с пересечениями. Пересечение ассоциаций можно контрастировать за счет увеличения весов связей. Для этого можно использовать ту же формулу (2).

Построенная описанным выше способом сеть отражает бинарные ассоциации. Очевидно, что при желании можно рассматривать и более сложные, транзитивные ассоциации. Например, если между лексемами A и B существует связь rAB, между B и C существует связь rBC, а между A и С непосредственных ассоциаций нет (эти лексемы ни в одном предложении не встречались вместе), то естественным было бы установление связи

rAC=rABrBC

Эксперименты

Суть экспериментов заключалась в определении того, какие ассоциации на один и тот же ряд слов возникают у различных авторов. Исследуемыми произведениями являлись стихи Б. Окуджавы (Поэтический сборник 97), повесть М.Пришвина «Кладовая солнца», а также два произведения В.Шукшина - сказка «До третьих петухов» и повесть «Печки-лавочки». Ассоциируемым рядом - стандартный набор: «женщина», «любовь», «плакать», «жизнь», «смерть», а также пара «жизнь+смерть».

Далее приведены некоторые псевдоассоциации, разбитые по категориям: глаголы, прилагательные и существительные.

Булат Окуджава. Поэтический сборник 97.

ЖЕНЩИНА

· любить, строгать, глядеть, плакать, подарить, красть, щуриться, гореть, потерять, очаровать, поминать, полюбить, излететь

· величество, сердце, муж, тревога, лапка, лик, тень, вдова

ЛЮБОВЬ

· вечный, старый, суетливый, счастливый, долгий, дешевый, короткий, верный, чистый, высокий, молчаливый, сезонный, рядовой, легкий

· стоить, выбрать, спать, восславить, возвращаться, поверить, удивить, рифмоваться, касаться, осыпаться, прокричать, умереть, соседствует, ждать, прибавить, настроить, уместиться, говорить, нарисовать

· часовой, управление, разлука, мир, дорога, музыка, надежда, слово, ласка, кровь, сердце, тягота, слабость, мистерия, беда, слава, арбат, горе, подруга, вера, награда, природа, восторг, цена, май, смерть, ум, печаль, штука, пуля, злоба, момент, юность, даль, тревога, венок, удел, грусть

ПЛАКАТЬ

· тихий, маленький, упорный

· смеяться, улететь, уйти, пить, горевать, тосковать, грезить, радоваться, кричать, пожить

· дети, женщина, девочка, шарик, девушка жених, муж, старушка, поэт, мария, пот, барабанщица, труд, пикник

ЖИЗНЬ

· короткий, прекрасный, странный, длинный, довоенный, земной, тихий

· любить, кроить, загадать, кончить, даваться, оплакать, укорачивать, учить, оскудеть, играть, проноситься, звать, встретить, течь таять, дорожить, спрашивать, жаждать

· песенка, охотник, земля, смерть, поэма, бог, выбор, слава, минута, праздник, дым, надежда, дама, дурак, господин

СМЕРТЬ

· славный, геройский, голодный

· распахнуть, накрыть, предчувствовать, касаться, бранить, гулять, пророчить, звать

· жизнь, горе, любовь, муж, крыло, враг

ЖИЗНЬ+СМЕРТЬ

· короткий, прекрасный, странный, длинный, славный, геройский, голодный, довоенный, тихий

· звать, любить, кроить, загадать, кончить, распахнуть, накрыть, предчувствовать, бранить, гулять, оплакать, учить, оскудеть, играть, проноситься, пророчить, таять, дорожить, жаждать

· песенка, охотник, земля, поэма, бог, выбор, горе, слава, минута, праздник, любовь, пол, муж, дым, надежда, дама, дурак, враг, щека, господин, супруг

М.М.Пришвин. «Кладовая солнца»

ЖЕНЩИНА

· бывать, нападать

ПЛАКАТЬ

· горький

ЖИЗНЬ

· дикий

· мочь, прилетать, переть, окончить

ЖИЗНЬ+СМЕРТЬ

· дикий

· мочь, прилетать, переть, окончить

· несчастная

· лес, антипыч

Василий Шукшин. «До третьих петухов» + «Печки-лавочки»

ЖЕНЩИНА

· смешливый

· выйти, продолжать, подождать, подстегнуть, спросить, молвить

· беременная, болтливость, врач

ЛЮБОВЬ

· местный

ПЛАКАТЬ

· плясать, сказать

ЖИЗНЬ

· семейный, привольный, нормальный, ритмичный, тихий

· наладить, звать, думать, танцевать, начаться

· друг, мелочь

ЖИЗНЬ+СМЕРТЬ

· семейный, привольный, нормальный, ритмичный, тихий

· наладить, звать, думать, танцевать, начаться

· мелочь

МУЖИК

· рослый, золотой, хороший, хитрый

· петь, приманивать

· город, история, хороший

Первым очевидным выводом является необходимость построения ассоциативных сетей для отдельных текстов. Либо, в худшем случае, для отдельных авторов. Построение сети для целого множества текстов может привести к вырождению ассоциаций: статистически в «очень большой» сети каждая лексема так или иначе найдет ассоциацию.

Это тем более важно, что подобная процедура позволяет, в частности, определять специфику «авторского» текста (см. довольно неожиданные ассоциации у того же Б.Окуджавы).

Насыщенность сети очень сильно зависит от формы выражения мыслей, т.е. строения предложений. Скажем, стихотворные произведения зачастую строятся из коротких предложений, на которых просто невозможно строить ассоциации (А.Блок. «Ночь. Улица. Фонарь. Аптека…»). Здесь имело бы смысл в качестве основной единицы выбирать не предложение, а четверостишие. Тем не менее, проанализированные стихи Окуджавы имеют явно большую ассоциативную насыщенность, нежели проза Пришвина и Шукшина. Отчасти это может быть объяснено, видимо, как большей повторяемостью парных лексем, так и тем, что выбранные поисковые слова (женщина, любовь и т.п.) просто чаще повторяются у поэтов.

Выявленные ассоциации позволяют не только анализировать текст, выявляя, скажем, манеру и стиль автора, но и создавать стилистические подражания. Например, задавая структуру предложения, можно получить его «авторскую» реализацию.

В [2], [3] приведены примеры того, как из структуры (ПРИЛСУЩГЛПРЕДЛ(ПРИЛ, СУЩ)), в зависимости от требуемой минимальной степени связности (ассоциативной близости), могут получаться различные варианты. Например, эта структура для степени связности в 0.1 для сети текста Тургенева «Муму» порождала фразу

«Богатырская сила подействовала через крепкую думу».

То же, но при степени 0.15:

«Богатырская сила подействовала через старшую приживалку».

А при 0.5 это превращалось в

«Богатырская кровать находилась в особенном внимании».

Имея генератор структур фраз (синтаксический анализатор), можно получать множество фраз. Например, сугубо «тургеневских»:

О силе второпях и между

Ну только это так, одна собака

Сила подействовала и косила так

Ну что, зрелый брат, промолвил Степан

Такова ходила сила через старшую приживалку умильную

Сила работала в одинокой избе

Такова ходила молва о богатырской силе немой

Подобного рода фразы хороши для названий, эпиграфов, белых стихов и прочих случаев, когда требуется либо домысливать за автором, выискивая сокровенный смысл, либо достаточно осознания красоты и неожиданности образов.

Об одном применении

В [2] и [3] описана система генерации псевдолитературных произведений - текстов на основе словарно-шаблонного механизма. Используя базу данных шаблонов, система позволяла генерировать сказки, детективы, «сериальные» истории. Одной из задач при построении такого генератора являлось получение не схематического, а почти законченного текста, с авторскими отступлениями, эпитетами и проч. При этом в качестве авторского художественного наполнения использовалась предложенная модель бинарных ассоциаций между лексемами.

Более того, была предпринята попытка придания тексту не только художественного вида, но и своего рода авторского стиля.

Для этого на основе ряда литературных текстов строились ассоциативные сети, используемые при построении авторского стиля. Например, на основе ассоциативной сети, построенной по тексту Тургенева «Муму», можно определить, какие, скажем, наречия ассоциированы с тем или иным глаголом. И тогда мы получим тексты вида

«От огорчения СКОРО умер Глухой Колобок.

И, ТЯЖЕЛО смеясь, пошел Чебурашка дальше.

ВСЕГДА получал Чебурашка то, чего НИКОГДА [не] хотел»

Подчеркнем еще раз, что здесь глаголы берутся из шаблонов, а наречия генерируются системой исходя из имеющейся ассоциативной сети.

То же касается и подбора соответствующих существительным прилагательных и т.п. На этом может быть основано внедрение в макетный текст различного рода эпитетов и прочих художественных дополнений.

В [2], [3] детально описывается структура шаблонов, из которых строится текст, а также методы построения сюжетных линий. Ниже приведен пример одного из порожденных системой эпизодов.

А время продолжало свой неумолимый бег...

Далека дорога от каракум до леса. В лесу было тихо и спокойно.

Восьмого марта Посмотрела сильная Василиса Прекрасная - сидит глупый Соловей-Разбойник.

В глазах Соловья-Разбойника мелькнула тревога.

А что дальше было? А вот что.

Как начала Василиса Прекрасная кричать на Соловья-Разбойника.

Сильно расстроился Соловей-Разбойник. Василиса Прекрасная улыбнулась.

При построении этого текста системой выбирался ряд шаблонов по определенным правилам. В частности, шаблон описания перемещения:

; Универсальный переход

link { "", ""

{"Далека дорога от <lA.ro> до <lB.ro>."

"Не легок путь от <lA.ro> до <lB.ro>."

"От <lA.ro> до <lB.ro> пришлось добираться на попутках."}}

Или шаблон описания встречи персонажей:

tmeet { +-, AB,

{ "Как <начать.A> <A.im> кричать на <B.vi>.\n

Сильно <расстроиться.B> <B.im>."

}}

Очевидно, что, имея подобного рода шаблоны, вполне реально генерировать не только тексты, но и сценарии для последующей автоматической анимации или хотя бы иллюстрирования полученного произведения.

Вот пример сгенерированного фрагмента сценария, соответствующего вышеприведенному тексту

Текст "Эпизод 2."

; место_отправки(Каракумы)

Текст "А время продолжало свой неумолимый бег..."

Текст "Далека дорога от каракум до леса."

Текст "В лесу было тихо и спокойно."

Текст "Восьмого марта"

Фон "Лес"

; время (Восьмого марта)

Слева "Василиса Прекрасная"

Справа "Соловей-Разбойник"

ИдтиКЦентру "Василиса Прекрасная"

ИдтиКЦентру "Соловей-Разбойник"

Имеет "Соловей-Разбойник" "Волшебный кубок"

Текст "посмотрела сильная Василиса Прекрасная - сидит глупый Соловей-Разбойник.\n В глазах Соловья-Разбойника мелькнула тревога."

ЖдатьОстановки

Текст "А что дальше было? А вот что."

Текст "Как начала Василиса Прекрасная кричать на Соловья-Разбойника.\n Сильно расстроился Соловей-Разбойник."

Ударить "Василиса Прекрасная" "Соловей-Разбойник"

Текст "Василиса Прекрасная улыбнулась."

ИдтиНаправо "Василиса Прекрасная"

КонецЭпизода

Жирным шрифтом выделены управляющие команды сценария. Для его проигрывания, разумеется, необходимо иметь некую библиотеку изображений - персонажей, мест действия, имеющихся предметов и т.п. Ниже приведен кадр из подобного рода «мультипликационного» фильма.

Разумеется, изображение достаточно схематичное, однако «естественность» движений и развитость выразительных средств - это уже вопрос сугубо технический.

Заключение

Описанный метод генерации текстов, анимация и прочая автоматизация псевдолитературного труда - это, конечно, лишь некий эффектный казус. Гораздо интереснее ответить на вопрос, что может дать модель бинарных ассоциаций между лексемами, каковы возможные применения это модели.

И здесь автору остается только выразить надежду в том, что найдется психолингвист, который сможет обосновать связь между мыслью, моделью мира и способом их выражения, в том числе - способом взаимной расстановки слов в предложении. Или когнитолог, могущий увидеть в графическом изображении псевдоассоциативной сети какие-нибудь закономерности. Или специалист в области автоматического тезаурусо- , онтолого- или автореферато- строения. Или нейро-, психо- лингвистический программист. Или эксперт-литературовед, наконец.

Вот тогда можно было бы обосновать предложенный механизм с предметно-методологической точки зрения. И главное - объяснить, зачем все это было нужно и что можно отсюда извлечь.

Литература

1. Чанышев О.Г. Ассоциативная модель естественноязыкового текста //Вестник Омского университета, 1997, Вып. 2. С. 17-20

2. Карпов В.Э., Мещерякова Т.В. Об автоматизации нетворческих литературных процессов //Информационные технологии №8, 2004. с.56-63.

3. Карпов В.Э. Об одном методе генерации псевдолитературных произведений //Труды Девятой национальной конференции по искусственному интеллекту с международным участием, т.2, М.Физматлит, 2004, с.794-808

Размещено на Allbest.ru

...

Подобные документы

  • Построение концептуальной модели и метод имитационного моделирования. Определение переменных уравнений математической модели и построение моделирующего алгоритма. Описание возможных улучшений системы и окончательный вариант модели с результатами.

    курсовая работа [79,2 K], добавлен 25.06.2011

  • Построение логической модели определенного вида по выборке данных указанного объема, которая содержит информацию о трех входах системы и одном выходе, и представлена в виде матрицы размерностью 30х4. Поверка адекватности этой модели по заданному критерию.

    дипломная работа [20,0 K], добавлен 13.08.2010

  • Требования, предъявляемые к инфологической модели, ее компоненты. Построение модели и диаграммы "объект — свойство — отношение". Три типа бинарных связей. Подтипы и супертипы сущностей в языках программирования. Каскадные удаления экземпляров сущностей.

    лекция [404,3 K], добавлен 17.04.2013

  • Построение концептуальной модели системы и ее формализация. Алгоритмизация модели системы и ее машинная реализация. Построение логической схемы модели. Проверка достоверности модели системы. Получение и интерпретация результатов моделирования системы.

    курсовая работа [67,9 K], добавлен 07.12.2009

  • Программное обеспечение и инструменты, применяемые для создания трехмерной модели автомобиля. Основные приемы и методы, применяемые при создании модели. Описание технической части и хода работы над проектом, примеры практического применения инструментов.

    курсовая работа [5,6 M], добавлен 09.04.2014

  • Характеристика сетевой модели данных и ее достоинства. Построение иерархической модель данных по принципу иерархического подчинения типов объектов, приведение ее к виду дерева введением избыточности. Реляционная модель, основанная на теории отношений.

    реферат [227,1 K], добавлен 28.11.2011

  • Описание основных целей и рабочих процессов оператора сотовой связи. Шкала оценки важности информации. Построение матрицы ответственности за аппаратные ресурсы. Разработка структурной схемы их взаимодействия между собой и модели информационных потоков.

    практическая работа [336,0 K], добавлен 28.01.2015

  • Характеристика предприятия ООО "РН-Информ" и организации сети в виде топологии звезды. Подключение к интернет с помощью широкополосного маршрутизатора. Описание используемых программных комплексов. Построение модели в Borland Together Architect.

    отчет по практике [1,8 M], добавлен 09.04.2009

  • Общая характеристика ателье "Вита", схема модели рабочего процесса. Исследование заданной системы с помощью моделирования динамических рядов, модели типа "система массового облуживания". Построение имитационной модели деятельности данного ателье.

    курсовая работа [1,4 M], добавлен 01.06.2016

  • Проверка наличия линейной связи между соответствующими показателями деятельности коммерческих банков Украины в модуле Multiple Regression ППП Statistica. Расчет теоретических значений зависимой переменной и ошибки модели, вид графика линейной функции.

    лабораторная работа [1,5 M], добавлен 19.05.2011

  • Создание модели с использованием шаблона, предложенного программой по умолчанию. Создание твердотельной модели. Построение траектории обработки и получение управляющей программы. Построение траектории обработки профиля. Отображение удаленного материала.

    курсовая работа [1,3 M], добавлен 25.07.2012

  • Построение диаграмм, добавление деталей к описаниям операций, определение атрибутов классов и порядок генерации программного кода на языке С++ объектно-ориентированной модели информационной подсистемы, автоматизирующей работу регистратуры поликлиники.

    курсовая работа [1,4 M], добавлен 25.06.2011

  • Основные понятия теории моделирования. Виды и принципы моделирования. Создание и проведение исследований одной из моделей систем массового обслуживания (СМО) – модели D/D/2 в среде SimEvents, являющейся одним из компонентов системы MATLab+SimuLink.

    реферат [1,2 M], добавлен 02.05.2012

  • Анализ и формализация задачи моделирования: построение концептуальной модели, ее формализация в виде Q-схемы. Построение имитационной модели: создание блок-схемы, представление базовой исходной имитационной модели. Исследование экономических процессов.

    контрольная работа [156,0 K], добавлен 21.11.2010

  • Направления деятельности ООО "Тирион" и разработка модели "AS-IS" функционирования магазина по обслуживанию покупателей. Возможности табличного процессора MS Excel. Описание интерфейса и физической структуры программного обеспечения имитационной модели.

    курсовая работа [990,6 K], добавлен 13.12.2011

  • Построение концептуальной модели, процесс моделирования смыслового наполнения базы данных. Основные компоненты концептуальной модели. Построение реляционной модели. Целостность данных в реляционной базе. Нормализация. Проектирование базы данных в ACCESS.

    курсовая работа [1,8 M], добавлен 29.10.2008

  • Этапы разработки объектно-ориентированной модели информационной подсистемы приемной комиссии для учета абитуриентов. Создание диаграмм для моделирования процесса обмена сообщениями между объектами. Порядок генерации программного кода на языке С++.

    курсовая работа [429,3 K], добавлен 29.06.2011

  • Формальные модели морфологии и семантики. Основные синтаксические концепции. Трансформационная грамматика. Представление о модели "смысл-текст". Виды прагматических знаний. Автоматический анализ и синтез речи. Машинный перевод текста. Экспертные системы.

    курсовая работа [294,2 K], добавлен 19.06.2015

  • Описание проектного решения стратегической системы, этапы объектно-ориентированного анализа и проектирования. Описание связей между объектами. Программная реализация, построение модели состояний объекта. Руководство пользователя и описание программы.

    курсовая работа [388,8 K], добавлен 17.11.2011

  • Терминологическая база для построения модели, имитирующей работу маршрутных микроавтобусов. Обоснование выбора программного средства. Алгоритм работы имитационной модели, особенности ее функционирования. Анализ результатов работы имитационной модели.

    курсовая работа [1,1 M], добавлен 29.04.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.