Сопоставление русских поэтических текстов на основе их частотных характеристик

Ключевые характеристики частотного и рангового анализа. Исследование применимости авторского инварианта к анализу поэзии. Алгоритм поиска авторского инварианта. Частотный анализ русских поэтических текстов. Характеристики, подозрительные на инвариант.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 12.06.2016
Размер файла 1,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

частотный инвариант поэзия

Введение

Глава 1. Частотный анализ

1.1 Частотный анализ

1.2 Программное обеспечение

1.3 Ранговый анализ

Глава 2. Исследование применимости авторского инварианта к анализу поэзии

2.1 Авторский инвариант Фоменко

2.2 Алгоритм поиска авторского инварианта

2.3 Применение авторского инварианта к поэзии

2.4 Характеристики, подозрительные на инвариант

Глава 3. Частотный анализ русских поэтических текстов

3.1 Частотный анализ имен существительных

3.2 Частотный анализ имен прилагательных

Заключение

Список литературы

Аннотация

Выпускная квалификационная работа посвящена решению проблемы по сопоставлению русских поэтических текстов на основе их частотных характеристик.

Целью работы является выявление сходства текстов, а также поиск сравнительных характеристик текстов. Задачами исследования являются анализ частотных характеристик, выделение дифференцирующих признаков поэтических текстов и сопоставление русских поэтических текстов. Методом исследования является частотный анализ текстов.

Одной из сравнительных характеристик может выступать авторский инвариант. Это некий числовой параметр, позволяющий различать авторов произведений. Как показали предыдущие исследования, авторским инвариантом для прозаических текстов выступает частота употребления служебных слов: предлогов, союзов, частиц. Таким образом, в общем случае, можно определить автора текста, вычислив долю служебных слов в тексте, и сопоставив ее с уже имеющимися данными по авторам.

Данное исследование посвящено установлению авторского инварианта в поэзии. В работе рассматривается применимость авторского инварианта для прозаических текстов в поэзии и поиск авторского инварианта для поэтических текстов. Помимо этого, проводится анализ частотных словарей поэтов.

В результате было получено, что частота употребления служебных слов не может являться авторским инвариантом для поэтических текстов. С целью выбора инварианта были исследованы частота употребления существительных, доля именных групп и частота употребления глагольных групп. Был получен отрицательный ответ - ни одна из этих характеристик инвариантом не является.

Список ключевых слов: частотный анализ, частотный словарь, авторский инвариант.

Abstract

This graduation project focuses on comparison of Russian poetic texts by analyzing the frequency characteristics.

The main goal of the research is revealing similarities of texts as well as finding the comparative characteristics of texts. The basic tasks are identifying differentiating features of poetic texts and comparison of the texts by analyzing the frequency characteristics. The main tool of information retrieval is the frequency analysis.

The author invariant is one of such comparative characteristics. It is a numeric parameter that allows one to distinguish authors of texts. According to previous investigations, the frequency of occurrence of function words, prepositions, unions and particles, is the author invariant in case of prose. Thus, it is possible to determine the author of a text by calculating the proportion of function words and comparing it to existing data.

This research deals with detecting of author invariant for poetic texts. The paper includes the applicability of author invariant for prose in poetry and searching the author invariant for poetic texts. Apart from, the analysis of frequency vocabularies of poets is conducted.

The result is the frequency of occurrence of function words is not an author invariant for poetry. The frequency of occurrence of nouns, the proportion of nouns' groups and the frequency of occurrence of verbs' groups were considered in order to reveal the author invariant. However, none of these characteristics could be an author invariant for poetry.

Key words: frequency analysis, frequency vocabulary, author invariant.

Введение

Двадцать первый век - век высоких технологий. Основным ресурсом научно-технического прогресса является информация, которую необходимо обрабатывать, хранить, передавать и использовать. Данное исследование посвящено интеллектуальной обработке текстовой информации.

Данная работа относится к сфере автоматической обработки текстов. Эта область возникла около шестидесяти лет назад, и одними из первых исследуемых проблем были проблема машинного перевода и криптографии. Интерес к данным задачам подогревался холодной войной и желанием быстро и досконально изучить противников. Еще больше задач возникло с появлением ПК и различных устройств, требующих обработки языка. Например, автоматическая проверка орфографии в текстовых редакторах или выдача релевантных результатов поисковыми системами сети Интернет. Разработки в данной области ведутся относительно небольшими темпами, ввиду сложности структуры естественного языка.

Данное исследование посвящено другой проблеме автоматической обработки текстов, а именно выявлению сходства между поэтическими текстами. Актуальность данного исследования определяется необходимостью решения проблем искусственного интеллекта в области моделирования поэзии, а также разработки методов частотного анализа русских текстов. Такая необходимость объясняется возможностью широкого применения таких моделей, например, в рекомендательных системах. Встраивание новой модели сходства текстов позволит улучшить рекомендации пользователям. Также возможно применение таких моделей для усовершенствования системы «Антиплагиат».

Данной проблеме посвящено небольшое число работ. В.С. Баевский в своей книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы» рассмотрел сходство между авторами XIX-XX веков. В качестве инструментов анализа он использовал частотные характеристики текстов и ранговую корреляцию Спирмена. В.П. Фоменко и Т.Г. Фоменко в работе «Авторский инвариант русских литературных текстов»[3] решают задачу поиска авторского инварианта, т.е. некоторой количественной характеристики, которая однозначно характеризует произведения одного автора или небольшого числа «близких» авторов и принимает существенно отличающееся значение для групп других авторов. Таким образом, авторский инвариант позволяет определить возможного автора неизвестного текста или определить сходство нескольких писателей. Объектом исследования выступали прозаические тексты. Подробнее работы В.С. Баевского и В.П. Фоменко и Т.Г. Фоменко будут рассмотрены далее.

Целью данной работы является выявление сходства поэтических текстов, а также поиск сравнительных характеристик текстов различных поэтов и выявление авторского инварианта в поэзии. Задачами исследования является анализ частотных характеристик, выделение дифференцирующих признаков поэтических текстов и сопоставление русских поэтических текстов. Методом исследования является частотный анализ текстов.

Новизна исследования заключается в поиске авторского инварианта для поэтических текстов и в моделировании поэтического творчества.

Предметом исследования является вопрос наличия авторского инварианта для поэтических текстов, а также анализ частотных словарей поэтов. Объектом исследования являются поэтические тексты авторов XIX-XX вв.

В первой главе работы рассматривается предмет частотного анализа, история развития, его алгоритм. А также ранговый анализ, который является частным случаем частотного анализа.

Вторая глава посвящена авторскому инварианту. А именно, обзору работы В.П. Фоменко и Т.Г. Фоменко по поиску авторского инварианта для прозаических текстов, проверке, является ли найденный ими инвариант, инвариантом для поэзии и поиску авторского инварианта для поэтических текстов.

В последней главе приведены и проанализированы частотные словари поэтов XIX-XX веков.

Далее следует заключение и список литературы.

Глава 1. Частотный анализ

1.1 Частотный анализ

Частотный анализ - один из методов анализа текстов на естественном языке. Процедура частотного анализа заключается в построении частотного словаря по данному тексту. На первом шаге частотного анализа необходимо привести все словоупотребления в тексте к начальным формам, т.е. к леммам. Далее необходимо вычислить частоту употребления каждой леммы. Для этого необходимо разделить количество вхождений каждой леммы на общее количество лемм в тексте. Таким образом, формула для вычисления частоты:

где - количество употреблений леммы i;

N - общее число лемм в тексте;

- частота леммы i.

Если леммы ранжировать по убыванию частоты, то полученный список будет представлять собой частотный словарь данного текста.

Первый частотный словарь был опубликован в 1953 году и содержал всего 1700 слов. В 1963 году, спустя десять лет, в Таллине был издан «Частотный словарь современного русского литературного языка», содержащий всего 2500 слов. Нетрудно заметить, что оба словаря содержали довольно небольшое количество слов: это всё, что лингвисты могли посчитать без использования компьютера. Первый адекватный частотный словарь, построенный с использованием вычислительной техники, был издан в 1977 году под редакцией Л.Н. Засориной, включал около 40000 слов. Интересно отметить, что в основу данного частотного словаря легли русскоязычные тексты политической направленности, и многие слова, связанные с Советской властью, сейчас устарели и не используются. В настоящее время построение частотных словарей автоматизировано.

Частотный анализ хорошо зарекомендовал себя в качестве инструмента автоматической обработки текстовой информации. На основе частотного словаря можно определить тему текста, стиль, особенности автора.

1.2 Программное обеспечение

Для исследования применялась программа, которая при помощи морфологического словаря, проводила частотный анализ входного текста. Входными данными программы являются: морфологический словарь, анализируемый текст и конфигурационный файл модуля построения словарей. Входные данные должны лежать в той же директории, что и исполняемый файл. Анализируемый текст должен иметь расширение “.txt в кодировке UTF-8. Конфигурационный файл «config.cfg» включает в себя набор признаков, по которым анализируется текст, т.е. набор частей речи. Значение 1 - включать данный тип признака в частотный словарь, 0 - не включать данный тип признака в частотный словарь. Ниже приведен список возможных параметров:

· NGram1 = 1 - n-граммы длины 1

· NGram2 = 1 - n-граммы длины 2

· NGram3 = 1 - n-граммы длины 3

· NGram4 = 1 - n-граммы длины 4

· NGram5 = 1 - n-граммы длины 5

· NGram6 = 1 - n-граммы длины 6

· NGram7 = 1 - n-граммы длины 7

· NGram8 = 1 - n-граммы длины 8

· NGrams = 1 - маска всех n-грамм

· NounInitials = 1 - начальные формы существительных

· AdjectiveInitials = 1 - начальные формы прилагательных

· VerbInitials = 1 - начальные формы глаголов

· ParticipleInitials = 1 - начальные формы причастий

· AdverbInitials = 1 - начальные формы наречий

· CardinalInitials = 1 - начальные формы количественных числительных

· OrdinalInitials = 1 - начальные формы порядковых числительных

· CollectiveInitials = 1 - начальные формы собирательных числительных

· AcronymInitials = 1 - начальные формы аббревиатур

· PronounInitials = 1 - начальные формы местоимений

· ConjunctionInitials = 1 - начальные формы союзов

· ParticleInitials = 1 - начальные формы частиц

· PrepositionInitials = 1 - начальные формы предлогов

· InterjectionInitials = 1 - начальные формы междометий

· SurnameInitials = 1 - начальные формы фамилий

· NameInitials = 1 - начальные формы имён

· PatronymicInitials = 1 - начальные формы отчеств

· ToponymInitials = 1 - начальные формы топонимов

· Initials = 1 - маска начальных форм всех слов

· Bases = 1 - основы всех слов

· NounPhrases = 1 - именные группы

· VerbPhrases = 0 - глагольные группы

Флаги, задающие режим выделения именных и глагольных групп:

· SyntaxMode_Default = 0 - режим по умолчанию - все флаги отключены

· SyntaxMode_AllowPrepositionStart = 1 - выделять предложные группы (предлог + именная группа)

· SyntaxMode_AllowPrepositions = 1 - разрешить предлоги внутри именных групп

· SyntaxMode_RestrictLastItem = 1 - выделять только именные группы, заканчивающиеся на существительное или прилагательное

· SyntaxMode_All = 1 - все из вышеперечисленных.

Пример заполнения файла «config.cfg» для построения частотного словаря по именам существительным:

· NGram1 = 0;n-граммы длины 1

· NGram2 = 0;n-граммы длины 2

· NGram3 = 0;n-граммы длины 3

· NGram4 = 0;n-граммы длины 4

· NGram5 = 0 ;n-граммы длины 5

· NGram6 = 0;n-граммы длины 6

· NGram7 = 0;n-граммы длины 7

· NGram8 = 0 ;n-граммы длины 8

· NGrams = 0;маска всех n-грамм

· NounInitials = 1;начальные формы существительных

· AdjectiveInitials = 0;начальные формы прилагательных

· VerbInitials = 0;начальные формы глаголов

· ParticipleInitials = 0;начальные формы причастий

· AdverbInitials = 0;начальные формы наречий

· CardinalInitials = 0;начальные формы количественных числительных

· OrdinalInitials = 0;начальные формы порядковых числительных

· CollectiveInitials = 0;начальные формы собирательных числительных

· AcronymInitials = 0;начальные формы аббревиатур

· PronounInitials = 0;начальные формы местоимений

· ConjunctionInitials = 0;начальные формы союзов

· ParticleInitials = 0;начальные формы частиц

· PrepositionInitials = 0;начальные формы предлогов

· InterjectionInitials = 0;начальные формы междометий

· SurnameInitials = 0;начальные формы фамилий

· NameInitials = 0;начальные формы имён

· PatronymicInitials = 0;начальные формы отчеств

· ToponymInitials = 0;начальные формы топонимов

· Initials = 0;маска начальных форм всех слов

· Bases = 0;основы всех слов

· NounPhrases = 0;именные группы

· VerbPhrases = 0;глагольные группы

· SyntaxMode_Default = 0;режим по умолчанию - все флаги отключены

· SyntaxMode_AllowPrepositionStart = 0;выделять предложные группы (предлог + именная группа)

· SyntaxMode_AllowPrepositions = 0;разрешить предлоги внутри именных групп

· SyntaxMode_RestrictLastItem = 0;выделять только именные группы, заканчивающиеся на существительное или прилагательное

· SyntaxMode_All = 0;все из вышеперечисленных.

В конфигурационном файле допускаются комментарии. Единственное обязательное требование - они должны быть расположены в конце строки и после символа «;».

В результате работы программы в директории «02_dictionaries» создаются частотные словари в формате «dictionary_<имя словаря>.txt». Количество созданных файлов соответствует количеству файлов в директории 01_input_texts, названия словарей соответствуют названиям файлов, расположенных в директории 01_input_texts.

Таким образом, настраивая этот файл можно проводить частотный анализ, как по каждой отдельной части речи, так и по наборам из них, а также N-граммам, глагольным и именным группам. На выходе по каждому входному тексту имеется частотный словарь, включающий в себя только те признаки, которые указаны в конфигурационном файле. После построения частотных словарей, так же возможны их визуализация путем построения столбчатой диаграммы в файлах формата «.xls» и вычисление для частотных словарей коэффициента ранговой корреляции Спирмена.

Программа была модифицирована и протестирована. В процессе работы было обнаружено, что сумма всех частот в частотном словаре равнялась единице. Значит, программа вычисляла частоту по формуле:

где - общее число лемм, имеющих тот же признак, т.е. ту же часть речи.

Данная формула была скорректирована в соответствии с формулой (1.1.1).

Таким образом, в процессе работы над дипломным проектом было модифицировано, протестировано и исправлено программное обеспечение для анализа текстов.

1.3 Ранговый анализ

В основе рангового анализа лежит вычисление коэффициента ранговой корреляции Спирмена между частотными словарями. Такой анализ был проведен Вадимом Соломоновичем Баевским. Рассмотрим подробнее его исследование.

Вадим Соломонович Баевский, литературовед, историк, создатель Смоленской филологической школы, внес огромный вклад в математическое моделирование языковых явлений. В своей книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы» он рассказывает об исследовании поэзии XIX-XX веков. Им были выбраны яркие представители русской поэзии того времени: Пушкин, Лермонтов, Ахматова, Блок, Высоцкий и другие, всего около двадцати. На основе частотных словарей поэтов Баевский определял сходство между поэтами. «Мы поставили перед собой задачу вычисления расстояний (в математическом смысле слова) между этими частотными словарями или, что почти одно и то же, между тематикой отдельных книг или всего творчества поэтов или, несколько более условно, между их художественными мирами. Мы хотим знать, насколько оригинальна тематика книги или, напротив, насколько она близка к тематике других книг того же автора или других авторов -- предшественников, современников, преемников». Частотный словарь строился для имен существительных. Стоит отметить, что объем исследуемых текстов каждого автора должен быть большим, чтобы быть пригодным для статистического анализа. Анализ проводился только по 30 самым часто употребляемым словам. При меньших значениях, статистика работала плохо, т.к. большая часть коэффициентов ранговой корреляции лежали в доверительной области, т.е. были случайными. При больших значениях, исследуемая область частотного словаря становится менее обозримой, ее труднее анализировать.

При анализе частотных словарей исследователями было установлено, что есть некая лексика присущая всем поэтам. В ней сконцентрированы основные темы поэзии: Бог, жизнь, смерть, человек, любовь, душа. В каждом словаре имелось всего несколько оригинальных слов, которые не встречаются у других поэтов. Более того, средний ранг оригинального слова был равен 19, т.е. оно не являлось часто употребляемым словом. В словарях Лермонтова, Гумилева и Тютчева было всего по одному оригинальному слову. Поэтому подход, чем оригинальнее, тем лучше, не имеет места.

Особый интерес представлял частотный словарь Пушкина. Будут ли в нем оригинальные слова? Он оказал значительное влияние на русскую литературу, следовательно, ожидалось, что наиболее частотные слова у других поэтов должны совпадать или почти совпадать со словами Пушкина. Исследование показало, что среди 30 частотных слов Пушкина только два слова не встречаются среди 30 частотных слов других поэтов. Значит, можно сделать вывод: Пушкин оказал значительное влияние на речь других поэтов. А так как проводился частотный анализ имен существительных, то Пушкин в значительной степени определил тематику поэзии XIX-XX веков.

Также при частотном анализе было обнаружено, что самыми поэтичными словами оказались: душа, день, сердце и ночь.

После этих предварительных наблюдений был проведен ранговый корреляционный анализ по Спирмену. На основе частотных словарей каждому слову в нем приписывается ранг. Затем вычисляется значение коэффициента ранговой корреляции для каждой из возможных пар поэтов. Ниже приведена таблица значений коэффициентов корреляции для ряда авторов.

Под 19 В понимается обобщенный частотный словарь поэзии первой трети XIX века. Жирным шрифтом отмечены значимые коэффициенты корреляции. Это означает, что связь между соответствующими поэтами существует.

Таблица 1.3.1. Коэффициенты ранговой корреляции.

Рылеев

Пушкин

Лермонтов (поэзия)

Лермонтов лирика

Баратынский

Фет

Тютчев

19 В

Грибое-дов «Горе от ума»

0.21

0.27

0.55

0.30

0.36

0.17

0.35

0.22

Рылеев

0.25

0.40

0.55

0.47

0.35

0.43

0.48

Пушкин

0.39

0.31

0.32

0.32

0.34

0.42

Лермон-тов (поэзия)

0.54

0.50

0.42

0.46

0.47

Лермон-тов (лирика)

0.64

0.53

0.58

0.62

Баратын-ский

0.46

0.50

0.57

Фет

0.50

0.62

Тютчев

0.61

Оказалось, частотные словари поэтов-романтиков Рылеева, Лермонтова, Баратынского, Тютчева, Фета все связаны между собой попарно сильной корреляцией. Лирика Пушкина значимо коррелирует с лирикой М.Ю. Лермонтова.

Помимо этого, несмотря на то, что от книги к книге поэта наблюдается изменение тематики, взглядов поэта, между словарями книг одного поэта, как правило, существует сильная положительная корреляция, особенно между хронологически соседними. Например, для З. Гиппиуса.

Таблица 1.3.2. Коэффициент ранговой корреляции для З.Гиппиуса.

ЗГ1

ЗГ2

ЗГ3

ЗГ1

0.50

0.39

ЗГ2

0.40

ЗГ3

Таким образом, частотный анализ и метрика Спирмена позволяют объективно обнаруживать сходство между поэтами.

Глава 2. Исследование применимости авторского инварианта к анализу поэзии

2.1 Авторский инвариант Фоменко

В данном главе рассматривается метод анализа текстов, разработанный Валентиной Поликарповной Фоменко и Тимофеем Григорьевичем Фоменко. Метод был разработан с целью определения авторства текста на основе некой его числовой характеристики. Если такова будет обнаружена, то она позволит ответить на вопросы, которыми давно задаются филологи: действительно ли диалоги Платона написаны одним человеком? Правда ли, что пьесы Шекспира - творения одного гения? Или же они написаны разными людьми? Таким образом, такая характеристика позволит определить плагиат в текстах и установить авторство. Эта характеристика получила название авторский инвариант. Более точное определение будет рассмотрено далее.

В.П. Фоменко и Т.Г. Фоменко исследовали прозаические тексты, и ими был обнаружен авторский инвариант. Им оказалась частота употребления автором служебных слов: частиц, предлогов и союзов.

К проблеме поиска авторского инварианта существовало несколько подходов. Так, например, структура языка различных авторов исследовалась при помощи отдельных служебных слов, в частности, предлога «в», частицы «не», или же при помощи длины предложений или слов. Однако эксперименты показали, что использование отдельных слов не позволяет обнаружить инвариант, так как при больших объемах текстов, оно начинает подчиняться общим законам языка, что не позволяет различить авторов.

Помимо проблемы нахождения такой характеристики, сложность заключается в установлении ее значимости. Действительно ли эта характеристика различает любые тексты или является просто навязанной начальными данными?

Дадим точное определение авторского инварианта. Под авторским инвариантом понимается количественная характеристика литературных текстов (некий параметр), которая:

1) Однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов";

2) Принимает существенно разные значения для произведений разных групп авторов.[3]

Из этого определения следует, что авторский инвариант позволяет установить «близость» авторов. Что может быть полезно в рекомендательных системах.

Обнаружение числовых характеристик, различающих разных авторов, - сложная задача. Дело в том, что когда человек пишет некий текст, то существенную роль играют не только подсознательные, но и сознательные факторы. Например, частота употребления автором редких и иностранных может, конечно, служить показателем его стиля. Однако этот показатель легко контролируется автором на сознательном уровне. В результате, как свидетельствуют конкретные подсчеты, использовать эту числовую характеристику в качестве авторского инварианта нельзя. Она сознательно контролируется автором, и писатель может легко менять ее от произведения к произведению.

Отсюда видно, что количественная оценка индивидуальных отличительных особенностей автора - весьма нетривиальная задача. Сформулируем точнее, какими свойствами должен обладать авторский инвариант.

Искомая числовая характеристика должна удовлетворять следующим естественным требованиям:

1) Она должна слабо контролироваться автором на сознательном уровне. Другими словами, она должна быть его "бессознательным параметром", автор не должен задумывается о нем. А если бы задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и типичное для него состояние.

2) Искомый параметр должен сохранять "постоянное значение" для произведений данного автора. То есть, слабо колебаться на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является инвариантом.

3) Наконец, параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.[3]

Третье условие важно. Ведь может случиться так, что некий параметр окажется слабо колеблющимся для произведений каждого отдельного писателя, однако в то же время принимает одно и то же значение, если вычислен для разных авторов. Другими словами, он не позволяет различать писателей.

Для того чтобы сделать вывод, что авторский инвариант найден, необходимо соблюдение всех трех вышеупомянутых условий.

2.2 Алгоритм поиска авторского инварианта

Пусть имеется несколько произведений одного автора. Если собрать их вместе, то получим то, что называется текстом автора. Таким образом, текст автора может состоять из нескольких его произведений, романов, повестей, рассказов. Теперь разобьем текст на несколько фрагментов с некоторым шагом. Например, через каждые две страницы берем фрагмент текста в 3000 слов. Количество слов во фрагменте назовем выборкой. Чем длиннее текст, тем больше фрагментов, тем лучше результаты анализа. Пронумеруем выборки в порядке возрастания. Для каждого фрагмента вычислим подозрительную на инвариант характеристику. Значение это характеристики отметим на следующем графике: по горизонтальной оси отметим номера выборок, а по вертикальной - значение характеристики. Соединим точки линиями.

Очевидно, получится некая ломаная. Если данная характеристика может служить авторским инвариантом, то, по второму свойству, ее значения должны слабо колебаться в разных фрагментах. Таким образом, ломаная должна быть практически горизонтальной линией. Если провести такой анализ для нескольких авторов, то в соответствии в третьим требованием, ломаные должны располагаться на различным уровнях, т.е. характеристика должна принимать разные значения для разных авторов. Или же, ломаные должны образовывать группы: значение параметра примерно одинаково в пределах одной группы, и существенно различно для разных групп. Авторы в одной группе признаются «близкими».

В.П. Фоменко и Т.Г. Фоменко было экспериментально установлено, что авторским инвариантом для прозы может служить частота употребления служебных слов. Действительно, эта характеристика слабо контролируется авторами. Удовлетворение двум другим требованиям было показано в ходе вычислений. В качестве объекта исследования ими были выбраны 27 писателей XIX-XX веков. Было показано, что объем фрагмента должен быть около 16 000 слов. Шаг не существенно влияет на результаты.

Рассмотрим подробнее эксперимент и результаты. В.П. Фоменко и Т.Г. Фоменко для обнаружения авторского инварианта выбрали следующие параметры: средняя длина предложений, средняя длина слов (слогов в слове), процент служебных слов, частота употребления существительных, глаголов, прилагательных, предлога «в», частицы «не» и количество служебных слов в предложении. Далее был применен описанный выше алгоритм. Величина выборки увеличивалась до тех пор, пока параметр не стабилизировался, т.е. пока ломаная не станет почти горизонтальной. При объеме выборки в 16000 слов был обнаружен авторский инвариант. Им оказалось количество служебных слов в выборке. Он удовлетворял всем трем требованиям: употребление предлогов, союзов и частиц трудно контролировать, параметр стабилизируется и принимает существенно разные значения для различных авторов. Другие параметры либо «склеивают всех авторов», т.е. их значения подчиняются общим законам языка, а не являются индивидуальной особенностью писателя, либо не стабилизируются.

Критерием стабилизации может служить небольшая величина отклонений от среднего значения:

где наибольшее значение параметра,

наименьшее значение параметра,

среднее значение параметра.

Приведем таблицу значений следующих параметров для Тургенева и Толстого.

3 - количество всех служебных слов (в процентах),

1 - количество слов в предложении,

2 - количество слогов в слове,

9 - количество служебных слов в предложении,

7 - частота употребления предлога "в" (в процентах),

8 - частота употребления частицы "не" (в процентах).

Таблица 2.2.1. Значения параметров для Тургенева.

параметры:

3

1

2

9

7

8

Тургенев

22,01

11,26

2,17

2,44

2,36

2,19

22,36

15,58

2,16

3,49

2,05

1,87

22,38

13,35

2,21

3,04

-

-

среднее значение

22,24

13,4

2,17

2,98

2,2

2,04

отклонение

0,016

0,322

0,023

0,35

0,14

0,16

Таблица 2.2.2. Значения параметров для Толстого.

параметры:

3

1

2

9

7

8

Толстой

23,67

13,13

2,11

3,09

2,1

2,05

23,34

20,75

2,15

4,79

2,56

1,72

23,45

14,27

2,28

3,35

2,38

1,67

23,58

18,93

2,16

4,62

2,46

1,87

23,78

14,86

2,15

3,64

2,74

1,88

23,35

16,33

2,19

3,8

2,71

1,93

23,77

14,23

2,11

3,47

2,15

2,17

23,82

15,24

2,11

5,75

2,19

2,07

23,77

14,97

2,2

3,42

2,49

1,75

среднее значение

23,62

15,95

2,16

3,81

2,36

1,92

отклонение

0,02

0,477

0,08

0,45

0,27

0,26

Очевидно, что наименьшими отклонениями обладают параметры 3 и 2, а именно - 0,016 и 0,023 для Тургенева и 0,020 и 0,08 для Толстого. Но параметр 2 не может служить авторским инвариантом, так как его значения для большинства разных авторов чрезвычайно близки. Например, 2,17 для Тургенева и 2,16 для Толстого. Поэтому параметр 2 не позволяет различать писателей. Не выполняется требование 3. Параметр, частота употребления служебных слов, может служить авторским инвариантом. Он не только стабилизируется, но и принимает заметно различные значения для разных авторов. Например, для Тургенева он равен 22,24, а для Толстого 23,62. Разность равна 1,38, что превышает колебания этого параметра в произведениях Тургенева и Толстого.

Приведем теперь таблицу значений параметров 3, 7 и 8 Достоевского, Леонова и Фадеева.

Таблица 2.2.3. Значения параметров для Достоевского.

параметры:

3

7

8

Достоевский

25,26

2,23

1,7

25,43

2,48

2,21

25,29

2,13

2,14

среднее значение

25,32

2,38

2,02

отклонение

0,007

0,15

0,25

Таблица 2.2.4. Значения параметров для Леонова.

параметры:

3

7

8

Леонов

23,11

2,97

1,81

23,04

2,58

2

среднее значение

23,06

2,83

1,9

отклонение

0,003

0,14

0,1

Таблица 2.2.5. Значения параметра для Фадеева.

параметры:

3

7

8

Фадеев

23,4

2,54

1,78

23,43

2,72

1,99

среднее значение

23,4

2,62

1,89

отклонение

0,002

0,07

0,11

Приведем таблицу значений параметров 3, 1, 2, 9 для Гончарова и Лескова.

Таблица 2.2.6. Значения параметров для Гончарова.

параметры:

3

1

2

9

Гончаров

25,13

11,67

2,09

2,92

24,88

13,16

2,03

3,31

24,98

13,72

2,06

3,68

25,47

15,05

2,1

3,58

среднее значение

25,06

13,41

2,06

3,37

отклонение

0,019

0,25

0,03

0,26

Таблица 2.2.7. Значения параметров для Лескова.

параметры:

3

1

2

9

Лесков

26,08

15,65

2,05

3,99

25,83

18,11

2,16

4,69

26,18

15,4

2,11

4,02

среднее значение

26,01

16,58

2,11

4,28

отклонение

0,01

0,16

0,05

0,163

Как видно из таблиц, параметр 3 имеет слабое отклонение от среднего значения, принимает различные средние значения для ряда авторов (авторы с близкими средними значениями признаются схожими). Более того, параметр 3 сложно контролировать. Поскольку параметр 3, процентное содержание всех служебных слов, удовлетворяет всем трем вышеупомянутым требованиям, он служит авторским инвариантом. Интересно выяснить, при каких объемах выборки он стабилизируется. Приведем таблицу, показывающую зависимость величины отклонения от среднего значения при разных выборках.

Таблица 2.2.8. Величины отклонений при разных объемах выборок.

Писатели

Процент служебных слов

Величина отклонения этого параметра от его среднего значения при следующих объемах выборок:

2000

4000

8000

16000

Чулков

22,15

0,064

0,004

-

-

Новиков

23,57

0,136

0,019

-

-

Фонвизин

23,62

0,069

0,013

0,001

-

Радищев

22,3

0,054

0,018

-

-

Карамзин

19,44

0,051

0,014

0,003

-

Крылов

23,67

0,04

0,013

-

-

Гоголь

23,65

0,169

0,066

0,019

0,013

Герцен

22,71

0,165

0,109

0,025

0,024

Гончаров

25,06

0,229

0,116

0,046

0,019

Тургенев

22,24

0,126

0,069

0,04

0,016

Мельников-Печерский

24,49

0,24

0,062

0,005

-

Достоевский

25,32

0,203

0,098

0,03

0,007

Салтыков-Щедрин

24,56

0,173

0,042

0,016

-

Лесков

26,01

0,132

0,057

0,017

0,01

Толстой Л.Н.

23,62

0,199

0,103

0,036

0,02

Горький

22,15

0,201

0,109

0,02

0,009

Бунин

24,64

0,143

0,027

0,013

-

Новиков-Прибой

21,1

0,129

0,09

0,049

-

Федин

21,2

0,151

0,064

0,028

0,019

Леонов

23,08

0,147

0,049

0,014

0,003

Шишков

20,6

0,152

0,115

0,019

-

Фадеев

23,4

0,184

0,111

0,018

0,002

Как видно из таблицы, стабилизация третьего параметра наступает одновременно для всех писателей при объеме выборки в 16000 слов.

Данному результату было найдено интересное приложение. Заключается оно в обнаружении плагиата. Известно, что филологи давно задаются вопросом, является ли Шолохов автором «Тихого Дона». Или же его написал казацкий писатель Крюков. В таблице приведены результаты анализа с использованием авторского инварианта.

Таблица 2.2.10. Количество служебных слов в произведениях Шолохова.

Произведения Шолохова

Количество служебных слов (%)

Ранние рассказы

22,46

Тихий Дон, книги I и II, части 1-5 и начало части 6 в книге III

19,55

Тихий Дон, продолжение книги III и вся книга IV, т.е. продолжение части 6 и части 7-8

22,69

Поднятая целина, книги I и II

23,07

Поздние рассказы и повести

24,37

Очерки, фельетоны, статьи, выступления

23,35

Таблица 2.2.11. Количество служебных слов в произведениях Крюкова.

Произведения Крюкова

Процент служебных слов

Жажда

21

Полчаса

21,04

Мать

21,17

Шаг на месте

21,14

Можно отметить, что в таблице 2.2.11 процент служебных слов в книге I и II, части 1-5 и начало части 6 в книге III «Тихого Дона» заметно отличается от других произведений М.А. Шолохова. Статистические результаты, полученные в результате анализа авторского инварианта свидетельствуют , что части 1,2,3,4, 5 и в значительной мере часть 6 романа «Тихий Дон» написаны не М.А. Шолоховым. Однако процентное содержание служебных слов в «Тихом Доне» не совпадает и с Крюковым, но все же ближе к нему, чем к Шолохову. Авторы исследования подчеркивают, что это лишь результаты частотного анализа.

2.3 Применение авторского инварианта к поэзии

Может ли частота употребления служебных слов, инвариант для прозаических текстов, служить авторским инвариантом для поэзии? Данное исследование дает ответ на этот вопрос.

В качестве объекта исследования были выбраны десять поэтов XIX-XX веков: Пушкин А.С., Лермонтов М.Ю., Есенин С.А., Асадов Э.А., Гумилев Л.Н., Тютчев Ф.И., Фет А.А., Некрасов Н.А., Цветаева М.И. и Маяковский В.В. Далее был проведен анализ текстов в соответствии с вышеуказанным алгоритмом. Частота употребления служебных слов являлась подозрительной на инвариант характеристикой.

Объем выборки был выбран 16 000 слов. Шаг - 1 страница.

Был получен следующий график:

Рис. 2.3.1. Визуализация несостоятельности авторского инварианта В.П. Фоменко и Т.Г. Фоменко для поэзии.

Разные длины ломаных объясняются разными объемами исходных текстов: так как объем выборки фиксирован, а исходные тексты имеют различный объем, то он разбивается на разное число фрагментов, в данном случае, от трех до девяти.

Из графика видно, что значение частоты употребления служебных слов существенно отличается только для Асадова. Таким образом, данная характеристика не может быть авторским инвариантом для поэтических текстов. Она не обладает различающей способностью.

Значения доли служебных слов приведены в таблице.

Таблица 2.3.1. Частота употребления служебных слов.

Номер выборки

1

2

3

4

5

6

7

8

9

Пушкин

0,251089

0,244005

0,225457

0,236122

0,254036

0,249314

Лермон-тов

0,273369

0,283574

0,291892

0,271301

Есенин

0,255097

0,252094

0,278366

0,314644

Маяков-ский

0,269237

0,256423

0,237998

Асадов

0,349926

0,349078

0,348279

0,328269

0,3333

Фет

0,275066

0,266661

0,271396

0,262413

0,272272

0,283309

0,282528

Гумилев

0,257277

0,279228

0,276837

0,281485

0,273915

Некрасов

0,27363

0,274376

0,264557

0,239537

Тютчев

0,254522

0,283705

0,288591

Цветаева

0,260862

0,271967

0,26399

0,267037

0,255276

0,297001

0,253734

0,275387

0,254203

Среднее значение частоты служебных слов и отклонение приведены в таблице.

Таблица 2.3.2. Среднее значение и отклонение частоты служебных слов.

Среднее

Отклонение

Пушкин

0,243337

0,117446

Лермонтов

0,280034

0,07353

Есенин

0,27505

0,227413

Маяковский

0,254553

0,122721

Асадов

0,34177

0,063367

Фет

0,273378

0,060897

Гумилев

0,273748

0,088432

Некрасов

0,263025

0,132455

Тютчев

0,275606

0,123615

Цветаева

0,268157

0,16135

Средние значения параметра чрезвычайно близки для ряда поэтов, например для Фета и Гумилева, что не позволяет их различить. Для остальных авторов частота употребления служебных слов так же примерно одинакова. Также наблюдается слабая стабилизация параметра. Величины отклонений довольно большие. Что также видно на графике: ломаные не представляют собой горизонтальные линии.

Таким образом, частота употребления служебных слов не является авторским инвариантом для поэтических тестов. Это может быть связано с тем, что при составлении стихотворения автор сознательно выбирает даже предлоги, частицы и союзы, так как в стихе, в отличие от прозы, важно соблюдение ритма.

В следующей части главы будут рассмотрены другие частотные характеристики поэтических текстов с целью обнаружения авторского инварианта для поэзии.

2.4 Характеристики, подозрительные на инвариант

Целью ВКР является поиск авторского инварианта для поэтических текстов. В процессе анализа поэтических текстов, выяснилось, что авторский инвариант, предложенный В.П. Фоменко и Т.Г. Фоменко, не работает для поэзии. Поэтому требуется дополнительное исследование поэтических текстов.

В качестве подозрительных на инвариант характеристик были выбраны следующие:

- Частота употребления имен существительных

- Частота употребления именных групп

- Частота употребления глагольных групп

Характеристики выбирались таким образом, чтобы они удовлетворяли первому требованию - невозможность сознательного контроля.

Приведем таблицу и диаграмму для частоты имен существительных.

Рис.2.4.1. Частота употребления имен существительных.

Таблица 2.4.1. Частота употребления имен существительных.

Частота употребления имен существительных

Номер выборки

1

2

3

4

5

6

7

8

9

Асадов

0,323715

0,345959

0,338397

0,32275

0,3153

Есенин

0,427105

0,401983

0,347467

0,322146

Фет

0,349512

0,361187

0,343614

0,345922

0,3469

0,335

0,32723

Гумилев

0,3594

0,365374

0,368438

0,340842

0,3392

Лермонтов

0,326596

0,315206

0,314022

0,344038

Маяковский

0,415797

0,408538

0,405031

Некрасов

0,39449

0,395202

0,379386

0,397381

Пушкин

0,358639

0,357872

0,365921

0,343262

0,3496

0,345

Цветаева

0,364678

0,378208

0,353052

0,389671

0,4048

0,38

0,3998

0,41308

0,4029...


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.