Сопоставление русских поэтических текстов на основе их частотных характеристик
Ключевые характеристики частотного и рангового анализа. Исследование применимости авторского инварианта к анализу поэзии. Алгоритм поиска авторского инварианта. Частотный анализ русских поэтических текстов. Характеристики, подозрительные на инвариант.
Рубрика | Иностранные языки и языкознание |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 12.06.2016 |
Размер файла | 1,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Содержание
частотный инвариант поэзия
Введение
Глава 1. Частотный анализ
1.1 Частотный анализ
1.2 Программное обеспечение
1.3 Ранговый анализ
Глава 2. Исследование применимости авторского инварианта к анализу поэзии
2.1 Авторский инвариант Фоменко
2.2 Алгоритм поиска авторского инварианта
2.3 Применение авторского инварианта к поэзии
2.4 Характеристики, подозрительные на инвариант
Глава 3. Частотный анализ русских поэтических текстов
3.1 Частотный анализ имен существительных
3.2 Частотный анализ имен прилагательных
Заключение
Список литературы
Аннотация
Выпускная квалификационная работа посвящена решению проблемы по сопоставлению русских поэтических текстов на основе их частотных характеристик.
Целью работы является выявление сходства текстов, а также поиск сравнительных характеристик текстов. Задачами исследования являются анализ частотных характеристик, выделение дифференцирующих признаков поэтических текстов и сопоставление русских поэтических текстов. Методом исследования является частотный анализ текстов.
Одной из сравнительных характеристик может выступать авторский инвариант. Это некий числовой параметр, позволяющий различать авторов произведений. Как показали предыдущие исследования, авторским инвариантом для прозаических текстов выступает частота употребления служебных слов: предлогов, союзов, частиц. Таким образом, в общем случае, можно определить автора текста, вычислив долю служебных слов в тексте, и сопоставив ее с уже имеющимися данными по авторам.
Данное исследование посвящено установлению авторского инварианта в поэзии. В работе рассматривается применимость авторского инварианта для прозаических текстов в поэзии и поиск авторского инварианта для поэтических текстов. Помимо этого, проводится анализ частотных словарей поэтов.
В результате было получено, что частота употребления служебных слов не может являться авторским инвариантом для поэтических текстов. С целью выбора инварианта были исследованы частота употребления существительных, доля именных групп и частота употребления глагольных групп. Был получен отрицательный ответ - ни одна из этих характеристик инвариантом не является.
Список ключевых слов: частотный анализ, частотный словарь, авторский инвариант.
Abstract
This graduation project focuses on comparison of Russian poetic texts by analyzing the frequency characteristics.
The main goal of the research is revealing similarities of texts as well as finding the comparative characteristics of texts. The basic tasks are identifying differentiating features of poetic texts and comparison of the texts by analyzing the frequency characteristics. The main tool of information retrieval is the frequency analysis.
The author invariant is one of such comparative characteristics. It is a numeric parameter that allows one to distinguish authors of texts. According to previous investigations, the frequency of occurrence of function words, prepositions, unions and particles, is the author invariant in case of prose. Thus, it is possible to determine the author of a text by calculating the proportion of function words and comparing it to existing data.
This research deals with detecting of author invariant for poetic texts. The paper includes the applicability of author invariant for prose in poetry and searching the author invariant for poetic texts. Apart from, the analysis of frequency vocabularies of poets is conducted.
The result is the frequency of occurrence of function words is not an author invariant for poetry. The frequency of occurrence of nouns, the proportion of nouns' groups and the frequency of occurrence of verbs' groups were considered in order to reveal the author invariant. However, none of these characteristics could be an author invariant for poetry.
Key words: frequency analysis, frequency vocabulary, author invariant.
Введение
Двадцать первый век - век высоких технологий. Основным ресурсом научно-технического прогресса является информация, которую необходимо обрабатывать, хранить, передавать и использовать. Данное исследование посвящено интеллектуальной обработке текстовой информации.
Данная работа относится к сфере автоматической обработки текстов. Эта область возникла около шестидесяти лет назад, и одними из первых исследуемых проблем были проблема машинного перевода и криптографии. Интерес к данным задачам подогревался холодной войной и желанием быстро и досконально изучить противников. Еще больше задач возникло с появлением ПК и различных устройств, требующих обработки языка. Например, автоматическая проверка орфографии в текстовых редакторах или выдача релевантных результатов поисковыми системами сети Интернет. Разработки в данной области ведутся относительно небольшими темпами, ввиду сложности структуры естественного языка.
Данное исследование посвящено другой проблеме автоматической обработки текстов, а именно выявлению сходства между поэтическими текстами. Актуальность данного исследования определяется необходимостью решения проблем искусственного интеллекта в области моделирования поэзии, а также разработки методов частотного анализа русских текстов. Такая необходимость объясняется возможностью широкого применения таких моделей, например, в рекомендательных системах. Встраивание новой модели сходства текстов позволит улучшить рекомендации пользователям. Также возможно применение таких моделей для усовершенствования системы «Антиплагиат».
Данной проблеме посвящено небольшое число работ. В.С. Баевский в своей книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы» рассмотрел сходство между авторами XIX-XX веков. В качестве инструментов анализа он использовал частотные характеристики текстов и ранговую корреляцию Спирмена. В.П. Фоменко и Т.Г. Фоменко в работе «Авторский инвариант русских литературных текстов»[3] решают задачу поиска авторского инварианта, т.е. некоторой количественной характеристики, которая однозначно характеризует произведения одного автора или небольшого числа «близких» авторов и принимает существенно отличающееся значение для групп других авторов. Таким образом, авторский инвариант позволяет определить возможного автора неизвестного текста или определить сходство нескольких писателей. Объектом исследования выступали прозаические тексты. Подробнее работы В.С. Баевского и В.П. Фоменко и Т.Г. Фоменко будут рассмотрены далее.
Целью данной работы является выявление сходства поэтических текстов, а также поиск сравнительных характеристик текстов различных поэтов и выявление авторского инварианта в поэзии. Задачами исследования является анализ частотных характеристик, выделение дифференцирующих признаков поэтических текстов и сопоставление русских поэтических текстов. Методом исследования является частотный анализ текстов.
Новизна исследования заключается в поиске авторского инварианта для поэтических текстов и в моделировании поэтического творчества.
Предметом исследования является вопрос наличия авторского инварианта для поэтических текстов, а также анализ частотных словарей поэтов. Объектом исследования являются поэтические тексты авторов XIX-XX вв.
В первой главе работы рассматривается предмет частотного анализа, история развития, его алгоритм. А также ранговый анализ, который является частным случаем частотного анализа.
Вторая глава посвящена авторскому инварианту. А именно, обзору работы В.П. Фоменко и Т.Г. Фоменко по поиску авторского инварианта для прозаических текстов, проверке, является ли найденный ими инвариант, инвариантом для поэзии и поиску авторского инварианта для поэтических текстов.
В последней главе приведены и проанализированы частотные словари поэтов XIX-XX веков.
Далее следует заключение и список литературы.
Глава 1. Частотный анализ
1.1 Частотный анализ
Частотный анализ - один из методов анализа текстов на естественном языке. Процедура частотного анализа заключается в построении частотного словаря по данному тексту. На первом шаге частотного анализа необходимо привести все словоупотребления в тексте к начальным формам, т.е. к леммам. Далее необходимо вычислить частоту употребления каждой леммы. Для этого необходимо разделить количество вхождений каждой леммы на общее количество лемм в тексте. Таким образом, формула для вычисления частоты:
где - количество употреблений леммы i;
N - общее число лемм в тексте;
- частота леммы i.
Если леммы ранжировать по убыванию частоты, то полученный список будет представлять собой частотный словарь данного текста.
Первый частотный словарь был опубликован в 1953 году и содержал всего 1700 слов. В 1963 году, спустя десять лет, в Таллине был издан «Частотный словарь современного русского литературного языка», содержащий всего 2500 слов. Нетрудно заметить, что оба словаря содержали довольно небольшое количество слов: это всё, что лингвисты могли посчитать без использования компьютера. Первый адекватный частотный словарь, построенный с использованием вычислительной техники, был издан в 1977 году под редакцией Л.Н. Засориной, включал около 40000 слов. Интересно отметить, что в основу данного частотного словаря легли русскоязычные тексты политической направленности, и многие слова, связанные с Советской властью, сейчас устарели и не используются. В настоящее время построение частотных словарей автоматизировано.
Частотный анализ хорошо зарекомендовал себя в качестве инструмента автоматической обработки текстовой информации. На основе частотного словаря можно определить тему текста, стиль, особенности автора.
1.2 Программное обеспечение
Для исследования применялась программа, которая при помощи морфологического словаря, проводила частотный анализ входного текста. Входными данными программы являются: морфологический словарь, анализируемый текст и конфигурационный файл модуля построения словарей. Входные данные должны лежать в той же директории, что и исполняемый файл. Анализируемый текст должен иметь расширение “.txt” в кодировке UTF-8. Конфигурационный файл «config.cfg» включает в себя набор признаков, по которым анализируется текст, т.е. набор частей речи. Значение 1 - включать данный тип признака в частотный словарь, 0 - не включать данный тип признака в частотный словарь. Ниже приведен список возможных параметров:
· NGram1 = 1 - n-граммы длины 1
· NGram2 = 1 - n-граммы длины 2
· NGram3 = 1 - n-граммы длины 3
· NGram4 = 1 - n-граммы длины 4
· NGram5 = 1 - n-граммы длины 5
· NGram6 = 1 - n-граммы длины 6
· NGram7 = 1 - n-граммы длины 7
· NGram8 = 1 - n-граммы длины 8
· NGrams = 1 - маска всех n-грамм
· NounInitials = 1 - начальные формы существительных
· AdjectiveInitials = 1 - начальные формы прилагательных
· VerbInitials = 1 - начальные формы глаголов
· ParticipleInitials = 1 - начальные формы причастий
· AdverbInitials = 1 - начальные формы наречий
· CardinalInitials = 1 - начальные формы количественных числительных
· OrdinalInitials = 1 - начальные формы порядковых числительных
· CollectiveInitials = 1 - начальные формы собирательных числительных
· AcronymInitials = 1 - начальные формы аббревиатур
· PronounInitials = 1 - начальные формы местоимений
· ConjunctionInitials = 1 - начальные формы союзов
· ParticleInitials = 1 - начальные формы частиц
· PrepositionInitials = 1 - начальные формы предлогов
· InterjectionInitials = 1 - начальные формы междометий
· SurnameInitials = 1 - начальные формы фамилий
· NameInitials = 1 - начальные формы имён
· PatronymicInitials = 1 - начальные формы отчеств
· ToponymInitials = 1 - начальные формы топонимов
· Initials = 1 - маска начальных форм всех слов
· Bases = 1 - основы всех слов
· NounPhrases = 1 - именные группы
· VerbPhrases = 0 - глагольные группы
Флаги, задающие режим выделения именных и глагольных групп:
· SyntaxMode_Default = 0 - режим по умолчанию - все флаги отключены
· SyntaxMode_AllowPrepositionStart = 1 - выделять предложные группы (предлог + именная группа)
· SyntaxMode_AllowPrepositions = 1 - разрешить предлоги внутри именных групп
· SyntaxMode_RestrictLastItem = 1 - выделять только именные группы, заканчивающиеся на существительное или прилагательное
· SyntaxMode_All = 1 - все из вышеперечисленных.
Пример заполнения файла «config.cfg» для построения частотного словаря по именам существительным:
· NGram1 = 0;n-граммы длины 1
· NGram2 = 0;n-граммы длины 2
· NGram3 = 0;n-граммы длины 3
· NGram4 = 0;n-граммы длины 4
· NGram5 = 0 ;n-граммы длины 5
· NGram6 = 0;n-граммы длины 6
· NGram7 = 0;n-граммы длины 7
· NGram8 = 0 ;n-граммы длины 8
· NGrams = 0;маска всех n-грамм
· NounInitials = 1;начальные формы существительных
· AdjectiveInitials = 0;начальные формы прилагательных
· VerbInitials = 0;начальные формы глаголов
· ParticipleInitials = 0;начальные формы причастий
· AdverbInitials = 0;начальные формы наречий
· CardinalInitials = 0;начальные формы количественных числительных
· OrdinalInitials = 0;начальные формы порядковых числительных
· CollectiveInitials = 0;начальные формы собирательных числительных
· AcronymInitials = 0;начальные формы аббревиатур
· PronounInitials = 0;начальные формы местоимений
· ConjunctionInitials = 0;начальные формы союзов
· ParticleInitials = 0;начальные формы частиц
· PrepositionInitials = 0;начальные формы предлогов
· InterjectionInitials = 0;начальные формы междометий
· SurnameInitials = 0;начальные формы фамилий
· NameInitials = 0;начальные формы имён
· PatronymicInitials = 0;начальные формы отчеств
· ToponymInitials = 0;начальные формы топонимов
· Initials = 0;маска начальных форм всех слов
· Bases = 0;основы всех слов
· NounPhrases = 0;именные группы
· VerbPhrases = 0;глагольные группы
· SyntaxMode_Default = 0;режим по умолчанию - все флаги отключены
· SyntaxMode_AllowPrepositionStart = 0;выделять предложные группы (предлог + именная группа)
· SyntaxMode_AllowPrepositions = 0;разрешить предлоги внутри именных групп
· SyntaxMode_RestrictLastItem = 0;выделять только именные группы, заканчивающиеся на существительное или прилагательное
· SyntaxMode_All = 0;все из вышеперечисленных.
В конфигурационном файле допускаются комментарии. Единственное обязательное требование - они должны быть расположены в конце строки и после символа «;».
В результате работы программы в директории «02_dictionaries» создаются частотные словари в формате «dictionary_<имя словаря>.txt». Количество созданных файлов соответствует количеству файлов в директории 01_input_texts, названия словарей соответствуют названиям файлов, расположенных в директории 01_input_texts.
Таким образом, настраивая этот файл можно проводить частотный анализ, как по каждой отдельной части речи, так и по наборам из них, а также N-граммам, глагольным и именным группам. На выходе по каждому входному тексту имеется частотный словарь, включающий в себя только те признаки, которые указаны в конфигурационном файле. После построения частотных словарей, так же возможны их визуализация путем построения столбчатой диаграммы в файлах формата «.xls» и вычисление для частотных словарей коэффициента ранговой корреляции Спирмена.
Программа была модифицирована и протестирована. В процессе работы было обнаружено, что сумма всех частот в частотном словаре равнялась единице. Значит, программа вычисляла частоту по формуле:
где - общее число лемм, имеющих тот же признак, т.е. ту же часть речи.
Данная формула была скорректирована в соответствии с формулой (1.1.1).
Таким образом, в процессе работы над дипломным проектом было модифицировано, протестировано и исправлено программное обеспечение для анализа текстов.
1.3 Ранговый анализ
В основе рангового анализа лежит вычисление коэффициента ранговой корреляции Спирмена между частотными словарями. Такой анализ был проведен Вадимом Соломоновичем Баевским. Рассмотрим подробнее его исследование.
Вадим Соломонович Баевский, литературовед, историк, создатель Смоленской филологической школы, внес огромный вклад в математическое моделирование языковых явлений. В своей книге «Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы» он рассказывает об исследовании поэзии XIX-XX веков. Им были выбраны яркие представители русской поэзии того времени: Пушкин, Лермонтов, Ахматова, Блок, Высоцкий и другие, всего около двадцати. На основе частотных словарей поэтов Баевский определял сходство между поэтами. «Мы поставили перед собой задачу вычисления расстояний (в математическом смысле слова) между этими частотными словарями или, что почти одно и то же, между тематикой отдельных книг или всего творчества поэтов или, несколько более условно, между их художественными мирами. Мы хотим знать, насколько оригинальна тематика книги или, напротив, насколько она близка к тематике других книг того же автора или других авторов -- предшественников, современников, преемников». Частотный словарь строился для имен существительных. Стоит отметить, что объем исследуемых текстов каждого автора должен быть большим, чтобы быть пригодным для статистического анализа. Анализ проводился только по 30 самым часто употребляемым словам. При меньших значениях, статистика работала плохо, т.к. большая часть коэффициентов ранговой корреляции лежали в доверительной области, т.е. были случайными. При больших значениях, исследуемая область частотного словаря становится менее обозримой, ее труднее анализировать.
При анализе частотных словарей исследователями было установлено, что есть некая лексика присущая всем поэтам. В ней сконцентрированы основные темы поэзии: Бог, жизнь, смерть, человек, любовь, душа. В каждом словаре имелось всего несколько оригинальных слов, которые не встречаются у других поэтов. Более того, средний ранг оригинального слова был равен 19, т.е. оно не являлось часто употребляемым словом. В словарях Лермонтова, Гумилева и Тютчева было всего по одному оригинальному слову. Поэтому подход, чем оригинальнее, тем лучше, не имеет места.
Особый интерес представлял частотный словарь Пушкина. Будут ли в нем оригинальные слова? Он оказал значительное влияние на русскую литературу, следовательно, ожидалось, что наиболее частотные слова у других поэтов должны совпадать или почти совпадать со словами Пушкина. Исследование показало, что среди 30 частотных слов Пушкина только два слова не встречаются среди 30 частотных слов других поэтов. Значит, можно сделать вывод: Пушкин оказал значительное влияние на речь других поэтов. А так как проводился частотный анализ имен существительных, то Пушкин в значительной степени определил тематику поэзии XIX-XX веков.
Также при частотном анализе было обнаружено, что самыми поэтичными словами оказались: душа, день, сердце и ночь.
После этих предварительных наблюдений был проведен ранговый корреляционный анализ по Спирмену. На основе частотных словарей каждому слову в нем приписывается ранг. Затем вычисляется значение коэффициента ранговой корреляции для каждой из возможных пар поэтов. Ниже приведена таблица значений коэффициентов корреляции для ряда авторов.
Под 19 В понимается обобщенный частотный словарь поэзии первой трети XIX века. Жирным шрифтом отмечены значимые коэффициенты корреляции. Это означает, что связь между соответствующими поэтами существует.
Таблица 1.3.1. Коэффициенты ранговой корреляции.
Рылеев |
Пушкин |
Лермонтов (поэзия) |
Лермонтов лирика |
Баратынский |
Фет |
Тютчев |
19 В |
||
Грибое-дов «Горе от ума» |
0.21 |
0.27 |
0.55 |
0.30 |
0.36 |
0.17 |
0.35 |
0.22 |
|
Рылеев |
0.25 |
0.40 |
0.55 |
0.47 |
0.35 |
0.43 |
0.48 |
||
Пушкин |
0.39 |
0.31 |
0.32 |
0.32 |
0.34 |
0.42 |
|||
Лермон-тов (поэзия) |
0.54 |
0.50 |
0.42 |
0.46 |
0.47 |
||||
Лермон-тов (лирика) |
0.64 |
0.53 |
0.58 |
0.62 |
|||||
Баратын-ский |
0.46 |
0.50 |
0.57 |
||||||
Фет |
0.50 |
0.62 |
|||||||
Тютчев |
0.61 |
Оказалось, частотные словари поэтов-романтиков Рылеева, Лермонтова, Баратынского, Тютчева, Фета все связаны между собой попарно сильной корреляцией. Лирика Пушкина значимо коррелирует с лирикой М.Ю. Лермонтова.
Помимо этого, несмотря на то, что от книги к книге поэта наблюдается изменение тематики, взглядов поэта, между словарями книг одного поэта, как правило, существует сильная положительная корреляция, особенно между хронологически соседними. Например, для З. Гиппиуса.
Таблица 1.3.2. Коэффициент ранговой корреляции для З.Гиппиуса.
ЗГ1 |
ЗГ2 |
ЗГ3 |
||
ЗГ1 |
0.50 |
0.39 |
||
ЗГ2 |
0.40 |
|||
ЗГ3 |
Таким образом, частотный анализ и метрика Спирмена позволяют объективно обнаруживать сходство между поэтами.
Глава 2. Исследование применимости авторского инварианта к анализу поэзии
2.1 Авторский инвариант Фоменко
В данном главе рассматривается метод анализа текстов, разработанный Валентиной Поликарповной Фоменко и Тимофеем Григорьевичем Фоменко. Метод был разработан с целью определения авторства текста на основе некой его числовой характеристики. Если такова будет обнаружена, то она позволит ответить на вопросы, которыми давно задаются филологи: действительно ли диалоги Платона написаны одним человеком? Правда ли, что пьесы Шекспира - творения одного гения? Или же они написаны разными людьми? Таким образом, такая характеристика позволит определить плагиат в текстах и установить авторство. Эта характеристика получила название авторский инвариант. Более точное определение будет рассмотрено далее.
В.П. Фоменко и Т.Г. Фоменко исследовали прозаические тексты, и ими был обнаружен авторский инвариант. Им оказалась частота употребления автором служебных слов: частиц, предлогов и союзов.
К проблеме поиска авторского инварианта существовало несколько подходов. Так, например, структура языка различных авторов исследовалась при помощи отдельных служебных слов, в частности, предлога «в», частицы «не», или же при помощи длины предложений или слов. Однако эксперименты показали, что использование отдельных слов не позволяет обнаружить инвариант, так как при больших объемах текстов, оно начинает подчиняться общим законам языка, что не позволяет различить авторов.
Помимо проблемы нахождения такой характеристики, сложность заключается в установлении ее значимости. Действительно ли эта характеристика различает любые тексты или является просто навязанной начальными данными?
Дадим точное определение авторского инварианта. Под авторским инвариантом понимается количественная характеристика литературных текстов (некий параметр), которая:
1) Однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов";
2) Принимает существенно разные значения для произведений разных групп авторов.[3]
Из этого определения следует, что авторский инвариант позволяет установить «близость» авторов. Что может быть полезно в рекомендательных системах.
Обнаружение числовых характеристик, различающих разных авторов, - сложная задача. Дело в том, что когда человек пишет некий текст, то существенную роль играют не только подсознательные, но и сознательные факторы. Например, частота употребления автором редких и иностранных может, конечно, служить показателем его стиля. Однако этот показатель легко контролируется автором на сознательном уровне. В результате, как свидетельствуют конкретные подсчеты, использовать эту числовую характеристику в качестве авторского инварианта нельзя. Она сознательно контролируется автором, и писатель может легко менять ее от произведения к произведению.
Отсюда видно, что количественная оценка индивидуальных отличительных особенностей автора - весьма нетривиальная задача. Сформулируем точнее, какими свойствами должен обладать авторский инвариант.
Искомая числовая характеристика должна удовлетворять следующим естественным требованиям:
1) Она должна слабо контролироваться автором на сознательном уровне. Другими словами, она должна быть его "бессознательным параметром", автор не должен задумывается о нем. А если бы задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и типичное для него состояние.
2) Искомый параметр должен сохранять "постоянное значение" для произведений данного автора. То есть, слабо колебаться на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является инвариантом.
3) Наконец, параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.[3]
Третье условие важно. Ведь может случиться так, что некий параметр окажется слабо колеблющимся для произведений каждого отдельного писателя, однако в то же время принимает одно и то же значение, если вычислен для разных авторов. Другими словами, он не позволяет различать писателей.
Для того чтобы сделать вывод, что авторский инвариант найден, необходимо соблюдение всех трех вышеупомянутых условий.
2.2 Алгоритм поиска авторского инварианта
Пусть имеется несколько произведений одного автора. Если собрать их вместе, то получим то, что называется текстом автора. Таким образом, текст автора может состоять из нескольких его произведений, романов, повестей, рассказов. Теперь разобьем текст на несколько фрагментов с некоторым шагом. Например, через каждые две страницы берем фрагмент текста в 3000 слов. Количество слов во фрагменте назовем выборкой. Чем длиннее текст, тем больше фрагментов, тем лучше результаты анализа. Пронумеруем выборки в порядке возрастания. Для каждого фрагмента вычислим подозрительную на инвариант характеристику. Значение это характеристики отметим на следующем графике: по горизонтальной оси отметим номера выборок, а по вертикальной - значение характеристики. Соединим точки линиями.
Очевидно, получится некая ломаная. Если данная характеристика может служить авторским инвариантом, то, по второму свойству, ее значения должны слабо колебаться в разных фрагментах. Таким образом, ломаная должна быть практически горизонтальной линией. Если провести такой анализ для нескольких авторов, то в соответствии в третьим требованием, ломаные должны располагаться на различным уровнях, т.е. характеристика должна принимать разные значения для разных авторов. Или же, ломаные должны образовывать группы: значение параметра примерно одинаково в пределах одной группы, и существенно различно для разных групп. Авторы в одной группе признаются «близкими».
В.П. Фоменко и Т.Г. Фоменко было экспериментально установлено, что авторским инвариантом для прозы может служить частота употребления служебных слов. Действительно, эта характеристика слабо контролируется авторами. Удовлетворение двум другим требованиям было показано в ходе вычислений. В качестве объекта исследования ими были выбраны 27 писателей XIX-XX веков. Было показано, что объем фрагмента должен быть около 16 000 слов. Шаг не существенно влияет на результаты.
Рассмотрим подробнее эксперимент и результаты. В.П. Фоменко и Т.Г. Фоменко для обнаружения авторского инварианта выбрали следующие параметры: средняя длина предложений, средняя длина слов (слогов в слове), процент служебных слов, частота употребления существительных, глаголов, прилагательных, предлога «в», частицы «не» и количество служебных слов в предложении. Далее был применен описанный выше алгоритм. Величина выборки увеличивалась до тех пор, пока параметр не стабилизировался, т.е. пока ломаная не станет почти горизонтальной. При объеме выборки в 16000 слов был обнаружен авторский инвариант. Им оказалось количество служебных слов в выборке. Он удовлетворял всем трем требованиям: употребление предлогов, союзов и частиц трудно контролировать, параметр стабилизируется и принимает существенно разные значения для различных авторов. Другие параметры либо «склеивают всех авторов», т.е. их значения подчиняются общим законам языка, а не являются индивидуальной особенностью писателя, либо не стабилизируются.
Критерием стабилизации может служить небольшая величина отклонений от среднего значения:
где наибольшее значение параметра,
наименьшее значение параметра,
среднее значение параметра.
Приведем таблицу значений следующих параметров для Тургенева и Толстого.
3 - количество всех служебных слов (в процентах),
1 - количество слов в предложении,
2 - количество слогов в слове,
9 - количество служебных слов в предложении,
7 - частота употребления предлога "в" (в процентах),
8 - частота употребления частицы "не" (в процентах).
Таблица 2.2.1. Значения параметров для Тургенева.
параметры: |
3 |
1 |
2 |
9 |
7 |
8 |
|
Тургенев |
22,01 |
11,26 |
2,17 |
2,44 |
2,36 |
2,19 |
|
22,36 |
15,58 |
2,16 |
3,49 |
2,05 |
1,87 |
||
22,38 |
13,35 |
2,21 |
3,04 |
- |
- |
||
среднее значение |
22,24 |
13,4 |
2,17 |
2,98 |
2,2 |
2,04 |
|
отклонение |
0,016 |
0,322 |
0,023 |
0,35 |
0,14 |
0,16 |
Таблица 2.2.2. Значения параметров для Толстого.
параметры: |
3 |
1 |
2 |
9 |
7 |
8 |
|
Толстой |
23,67 |
13,13 |
2,11 |
3,09 |
2,1 |
2,05 |
|
23,34 |
20,75 |
2,15 |
4,79 |
2,56 |
1,72 |
||
23,45 |
14,27 |
2,28 |
3,35 |
2,38 |
1,67 |
||
23,58 |
18,93 |
2,16 |
4,62 |
2,46 |
1,87 |
||
23,78 |
14,86 |
2,15 |
3,64 |
2,74 |
1,88 |
||
23,35 |
16,33 |
2,19 |
3,8 |
2,71 |
1,93 |
||
23,77 |
14,23 |
2,11 |
3,47 |
2,15 |
2,17 |
||
23,82 |
15,24 |
2,11 |
5,75 |
2,19 |
2,07 |
||
23,77 |
14,97 |
2,2 |
3,42 |
2,49 |
1,75 |
||
среднее значение |
23,62 |
15,95 |
2,16 |
3,81 |
2,36 |
1,92 |
|
отклонение |
0,02 |
0,477 |
0,08 |
0,45 |
0,27 |
0,26 |
Очевидно, что наименьшими отклонениями обладают параметры 3 и 2, а именно - 0,016 и 0,023 для Тургенева и 0,020 и 0,08 для Толстого. Но параметр 2 не может служить авторским инвариантом, так как его значения для большинства разных авторов чрезвычайно близки. Например, 2,17 для Тургенева и 2,16 для Толстого. Поэтому параметр 2 не позволяет различать писателей. Не выполняется требование 3. Параметр, частота употребления служебных слов, может служить авторским инвариантом. Он не только стабилизируется, но и принимает заметно различные значения для разных авторов. Например, для Тургенева он равен 22,24, а для Толстого 23,62. Разность равна 1,38, что превышает колебания этого параметра в произведениях Тургенева и Толстого.
Приведем теперь таблицу значений параметров 3, 7 и 8 Достоевского, Леонова и Фадеева.
Таблица 2.2.3. Значения параметров для Достоевского.
параметры: |
3 |
7 |
8 |
|
Достоевский |
25,26 |
2,23 |
1,7 |
|
25,43 |
2,48 |
2,21 |
||
25,29 |
2,13 |
2,14 |
||
среднее значение |
25,32 |
2,38 |
2,02 |
|
отклонение |
0,007 |
0,15 |
0,25 |
Таблица 2.2.4. Значения параметров для Леонова.
параметры: |
3 |
7 |
8 |
|
Леонов |
23,11 |
2,97 |
1,81 |
|
23,04 |
2,58 |
2 |
||
среднее значение |
23,06 |
2,83 |
1,9 |
|
отклонение |
0,003 |
0,14 |
0,1 |
Таблица 2.2.5. Значения параметра для Фадеева.
параметры: |
3 |
7 |
8 |
|
Фадеев |
23,4 |
2,54 |
1,78 |
|
23,43 |
2,72 |
1,99 |
||
среднее значение |
23,4 |
2,62 |
1,89 |
|
отклонение |
0,002 |
0,07 |
0,11 |
Приведем таблицу значений параметров 3, 1, 2, 9 для Гончарова и Лескова.
Таблица 2.2.6. Значения параметров для Гончарова.
параметры: |
3 |
1 |
2 |
9 |
|
Гончаров |
25,13 |
11,67 |
2,09 |
2,92 |
|
24,88 |
13,16 |
2,03 |
3,31 |
||
24,98 |
13,72 |
2,06 |
3,68 |
||
25,47 |
15,05 |
2,1 |
3,58 |
||
среднее значение |
25,06 |
13,41 |
2,06 |
3,37 |
|
отклонение |
0,019 |
0,25 |
0,03 |
0,26 |
Таблица 2.2.7. Значения параметров для Лескова.
параметры: |
3 |
1 |
2 |
9 |
|
Лесков |
26,08 |
15,65 |
2,05 |
3,99 |
|
25,83 |
18,11 |
2,16 |
4,69 |
||
26,18 |
15,4 |
2,11 |
4,02 |
||
среднее значение |
26,01 |
16,58 |
2,11 |
4,28 |
|
отклонение |
0,01 |
0,16 |
0,05 |
0,163 |
Как видно из таблиц, параметр 3 имеет слабое отклонение от среднего значения, принимает различные средние значения для ряда авторов (авторы с близкими средними значениями признаются схожими). Более того, параметр 3 сложно контролировать. Поскольку параметр 3, процентное содержание всех служебных слов, удовлетворяет всем трем вышеупомянутым требованиям, он служит авторским инвариантом. Интересно выяснить, при каких объемах выборки он стабилизируется. Приведем таблицу, показывающую зависимость величины отклонения от среднего значения при разных выборках.
Таблица 2.2.8. Величины отклонений при разных объемах выборок.
Писатели |
Процент служебных слов |
Величина отклонения этого параметра от его среднего значения при следующих объемах выборок: |
||||
2000 |
4000 |
8000 |
16000 |
|||
Чулков |
22,15 |
0,064 |
0,004 |
- |
- |
|
Новиков |
23,57 |
0,136 |
0,019 |
- |
- |
|
Фонвизин |
23,62 |
0,069 |
0,013 |
0,001 |
- |
|
Радищев |
22,3 |
0,054 |
0,018 |
- |
- |
|
Карамзин |
19,44 |
0,051 |
0,014 |
0,003 |
- |
|
Крылов |
23,67 |
0,04 |
0,013 |
- |
- |
|
Гоголь |
23,65 |
0,169 |
0,066 |
0,019 |
0,013 |
|
Герцен |
22,71 |
0,165 |
0,109 |
0,025 |
0,024 |
|
Гончаров |
25,06 |
0,229 |
0,116 |
0,046 |
0,019 |
|
Тургенев |
22,24 |
0,126 |
0,069 |
0,04 |
0,016 |
|
Мельников-Печерский |
24,49 |
0,24 |
0,062 |
0,005 |
- |
|
Достоевский |
25,32 |
0,203 |
0,098 |
0,03 |
0,007 |
|
Салтыков-Щедрин |
24,56 |
0,173 |
0,042 |
0,016 |
- |
|
Лесков |
26,01 |
0,132 |
0,057 |
0,017 |
0,01 |
|
Толстой Л.Н. |
23,62 |
0,199 |
0,103 |
0,036 |
0,02 |
|
Горький |
22,15 |
0,201 |
0,109 |
0,02 |
0,009 |
|
Бунин |
24,64 |
0,143 |
0,027 |
0,013 |
- |
|
Новиков-Прибой |
21,1 |
0,129 |
0,09 |
0,049 |
- |
|
Федин |
21,2 |
0,151 |
0,064 |
0,028 |
0,019 |
|
Леонов |
23,08 |
0,147 |
0,049 |
0,014 |
0,003 |
|
Шишков |
20,6 |
0,152 |
0,115 |
0,019 |
- |
|
Фадеев |
23,4 |
0,184 |
0,111 |
0,018 |
0,002 |
Как видно из таблицы, стабилизация третьего параметра наступает одновременно для всех писателей при объеме выборки в 16000 слов.
Данному результату было найдено интересное приложение. Заключается оно в обнаружении плагиата. Известно, что филологи давно задаются вопросом, является ли Шолохов автором «Тихого Дона». Или же его написал казацкий писатель Крюков. В таблице приведены результаты анализа с использованием авторского инварианта.
Таблица 2.2.10. Количество служебных слов в произведениях Шолохова.
Произведения Шолохова |
Количество служебных слов (%) |
|
Ранние рассказы |
22,46 |
|
Тихий Дон, книги I и II, части 1-5 и начало части 6 в книге III |
19,55 |
|
Тихий Дон, продолжение книги III и вся книга IV, т.е. продолжение части 6 и части 7-8 |
22,69 |
|
Поднятая целина, книги I и II |
23,07 |
|
Поздние рассказы и повести |
24,37 |
|
Очерки, фельетоны, статьи, выступления |
23,35 |
Таблица 2.2.11. Количество служебных слов в произведениях Крюкова.
Произведения Крюкова |
Процент служебных слов |
|
Жажда |
21 |
|
Полчаса |
21,04 |
|
Мать |
21,17 |
|
Шаг на месте |
21,14 |
Можно отметить, что в таблице 2.2.11 процент служебных слов в книге I и II, части 1-5 и начало части 6 в книге III «Тихого Дона» заметно отличается от других произведений М.А. Шолохова. Статистические результаты, полученные в результате анализа авторского инварианта свидетельствуют , что части 1,2,3,4, 5 и в значительной мере часть 6 романа «Тихий Дон» написаны не М.А. Шолоховым. Однако процентное содержание служебных слов в «Тихом Доне» не совпадает и с Крюковым, но все же ближе к нему, чем к Шолохову. Авторы исследования подчеркивают, что это лишь результаты частотного анализа.
2.3 Применение авторского инварианта к поэзии
Может ли частота употребления служебных слов, инвариант для прозаических текстов, служить авторским инвариантом для поэзии? Данное исследование дает ответ на этот вопрос.
В качестве объекта исследования были выбраны десять поэтов XIX-XX веков: Пушкин А.С., Лермонтов М.Ю., Есенин С.А., Асадов Э.А., Гумилев Л.Н., Тютчев Ф.И., Фет А.А., Некрасов Н.А., Цветаева М.И. и Маяковский В.В. Далее был проведен анализ текстов в соответствии с вышеуказанным алгоритмом. Частота употребления служебных слов являлась подозрительной на инвариант характеристикой.
Объем выборки был выбран 16 000 слов. Шаг - 1 страница.
Был получен следующий график:
Рис. 2.3.1. Визуализация несостоятельности авторского инварианта В.П. Фоменко и Т.Г. Фоменко для поэзии.
Разные длины ломаных объясняются разными объемами исходных текстов: так как объем выборки фиксирован, а исходные тексты имеют различный объем, то он разбивается на разное число фрагментов, в данном случае, от трех до девяти.
Из графика видно, что значение частоты употребления служебных слов существенно отличается только для Асадова. Таким образом, данная характеристика не может быть авторским инвариантом для поэтических текстов. Она не обладает различающей способностью.
Значения доли служебных слов приведены в таблице.
Таблица 2.3.1. Частота употребления служебных слов.
Номер выборки |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
Пушкин |
0,251089 |
0,244005 |
0,225457 |
0,236122 |
0,254036 |
0,249314 |
||||
Лермон-тов |
0,273369 |
0,283574 |
0,291892 |
0,271301 |
||||||
Есенин |
0,255097 |
0,252094 |
0,278366 |
0,314644 |
||||||
Маяков-ский |
0,269237 |
0,256423 |
0,237998 |
|||||||
Асадов |
0,349926 |
0,349078 |
0,348279 |
0,328269 |
0,3333 |
|||||
Фет |
0,275066 |
0,266661 |
0,271396 |
0,262413 |
0,272272 |
0,283309 |
0,282528 |
|||
Гумилев |
0,257277 |
0,279228 |
0,276837 |
0,281485 |
0,273915 |
|||||
Некрасов |
0,27363 |
0,274376 |
0,264557 |
0,239537 |
||||||
Тютчев |
0,254522 |
0,283705 |
0,288591 |
|||||||
Цветаева |
0,260862 |
0,271967 |
0,26399 |
0,267037 |
0,255276 |
0,297001 |
0,253734 |
0,275387 |
0,254203 |
Среднее значение частоты служебных слов и отклонение приведены в таблице.
Таблица 2.3.2. Среднее значение и отклонение частоты служебных слов.
Среднее |
Отклонение |
||
Пушкин |
0,243337 |
0,117446 |
|
Лермонтов |
0,280034 |
0,07353 |
|
Есенин |
0,27505 |
0,227413 |
|
Маяковский |
0,254553 |
0,122721 |
|
Асадов |
0,34177 |
0,063367 |
|
Фет |
0,273378 |
0,060897 |
|
Гумилев |
0,273748 |
0,088432 |
|
Некрасов |
0,263025 |
0,132455 |
|
Тютчев |
0,275606 |
0,123615 |
|
Цветаева |
0,268157 |
0,16135 |
Средние значения параметра чрезвычайно близки для ряда поэтов, например для Фета и Гумилева, что не позволяет их различить. Для остальных авторов частота употребления служебных слов так же примерно одинакова. Также наблюдается слабая стабилизация параметра. Величины отклонений довольно большие. Что также видно на графике: ломаные не представляют собой горизонтальные линии.
Таким образом, частота употребления служебных слов не является авторским инвариантом для поэтических тестов. Это может быть связано с тем, что при составлении стихотворения автор сознательно выбирает даже предлоги, частицы и союзы, так как в стихе, в отличие от прозы, важно соблюдение ритма.
В следующей части главы будут рассмотрены другие частотные характеристики поэтических текстов с целью обнаружения авторского инварианта для поэзии.
2.4 Характеристики, подозрительные на инвариант
Целью ВКР является поиск авторского инварианта для поэтических текстов. В процессе анализа поэтических текстов, выяснилось, что авторский инвариант, предложенный В.П. Фоменко и Т.Г. Фоменко, не работает для поэзии. Поэтому требуется дополнительное исследование поэтических текстов.
В качестве подозрительных на инвариант характеристик были выбраны следующие:
- Частота употребления имен существительных
- Частота употребления именных групп
- Частота употребления глагольных групп
Характеристики выбирались таким образом, чтобы они удовлетворяли первому требованию - невозможность сознательного контроля.
Приведем таблицу и диаграмму для частоты имен существительных.
Рис.2.4.1. Частота употребления имен существительных.
Таблица 2.4.1. Частота употребления имен существительных.
Частота употребления имен существительных |
||||||||||
Номер выборки |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
Асадов |
0,323715 |
0,345959 |
0,338397 |
0,32275 |
0,3153 |
|||||
Есенин |
0,427105 |
0,401983 |
0,347467 |
0,322146 |
||||||
Фет |
0,349512 |
0,361187 |
0,343614 |
0,345922 |
0,3469 |
0,335 |
0,32723 |
|||
Гумилев |
0,3594 |
0,365374 |
0,368438 |
0,340842 |
0,3392 |
|||||
Лермонтов |
0,326596 |
0,315206 |
0,314022 |
0,344038 |
||||||
Маяковский |
0,415797 |
0,408538 |
0,405031 |
|||||||
Некрасов |
0,39449 |
0,395202 |
0,379386 |
0,397381 |
||||||
Пушкин |
0,358639 |
0,357872 |
0,365921 |
0,343262 |
0,3496 |
0,345 |
||||
Цветаева |
0,364678 |
0,378208 |
0,353052 |
0,389671 |
0,4048 |
0,38 |
0,3998 |
0,41308 |
0,4029... |
Подобные документы
Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.
дипломная работа [174,2 K], добавлен 09.07.2015Учение фоносемантики как науки и освещение теоретических проблем. Рассуждения учёных по звукоизобразительности. Сопоставительный анализ поэтических текстов немецких и русских авторов в аспекте фоносемантики и стилистики в сопоставлении с переводами.
дипломная работа [118,8 K], добавлен 17.01.2015Лирическая поэзия как род художественной литературы Основные проблемы и особенности переводов поэтических текстов. Место творчества А. Ахматовой в женской поэзии Серебряного века. Переводческие трансформации в переводе ее произведений на английский язык.
дипломная работа [119,9 K], добавлен 17.12.2013Трудности перевода поэтических текстов, понятие переводческой трансформации. Применение переводческих трансформаций при переводе с русского языка на японский на примере песни "Катюша". Трансформации по классификации В.Н. Комиссарова и А.Д. Швейцера.
курсовая работа [42,9 K], добавлен 10.11.2012Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.
дипломная работа [4,4 M], добавлен 14.02.2013Семантический потенциал слова город в словообразовательной и лексической системах русского языка. Содержание концепта "Москва" и "Петербург" в поэзии Серебряного века, отражающих представления носителей русской культуры о явлениях действительности.
дипломная работа [114,5 K], добавлен 26.02.2011Сон - прием авторского стиля Достоевского. Лексические единицы и стилистические средства, представляющие идиостиль автора. История перевода романа "Преступление и наказание" на иностранные языки. Сопоставительный анализ текстов оригинала и перевода.
курсовая работа [50,5 K], добавлен 19.12.2012Понятие и классификация лексических трансформаций, их общая характеристика, разновидности, отличительные особенности. Признаки поэзии как объекта перевода. Лексические трансформации при переводе произведений английских поэтов на русский язык, и наоборот.
курсовая работа [54,8 K], добавлен 11.05.2014Качественные и структурные особенности терминов. Выявление характерных черт функционирования терминов и путей их перевода на материале текстов по менеджменту. Определение трудностей при переводе терминов в рамках контекста, отбор их русских эквивалентов.
дипломная работа [273,4 K], добавлен 09.10.2013Классификация перевода по жанровой принадлежности оригинала. Эквивалентность при информативном переводе. Лексико-грамматические и стилистические характеристики специальных текстов. Переводческий анализ текстов прагматической направленности компании AES.
дипломная работа [97,5 K], добавлен 05.05.2008Исследование лексических и стилистических особенностей английской и русской публицистики. Изучение способов образования публицистических текстов. Анализ лексико-семантических средств в публицистическом тексте на основе газет "Вечерняя Казань" и "Times".
курсовая работа [48,7 K], добавлен 25.09.2015Становление теории вторичных текстов (ВТ), их классификация. Понятие ВТ как построенного на основе текста-источника с другими прагматическими целями и в другой коммуникативной ситуации. Сохранение в ВТ элементов когнитивно-семантической структуры текста.
статья [37,4 K], добавлен 23.07.2013Принципы стихотворного художественного эквивалентного перевода. Характеристики англоязычных песен. Проблема взаимодействия автора художественного текста и переводчика. Сопоставительный анализ текстов переводов песен групп "The Beatles" и "Depeche Mode".
дипломная работа [115,2 K], добавлен 06.11.2011Первый переводческий опыт Рахели Торпусман, известного израильского филолога и автора нескольких поэтических сборников. Баланс между буквальной точностью выбранных для перевода лексем и вольными отступлениями в русских переводах стихотворений Катулла.
реферат [478,1 K], добавлен 16.07.2016Связь между типом звука и смыслом слова. Главные особенности перевода ономатопов. Сущность звукоподражания в английском языке. Сравнение текстов стихотворного произведения "How the water comes down at Lodore" английского оригинала и русского перевода.
контрольная работа [28,0 K], добавлен 01.11.2013Специфика структуры и элементов рекламных текстов, их классификация. Концепт как основная единица когнитивной лингвистики. Понятия и классификации культурных концептов. Способы и средства реализации концептов в русских и английских рекламных текстах.
курсовая работа [118,4 K], добавлен 16.05.2012Теоретические аспекты использования эпиграмм, анаграмм. Понятие, признаки эпиграмм. Понятие и виды анаграмм. Лингвистические характеристики пословицы. Использование эпиграмм в русских и английских пословицах. Анаграммы в русских и английских пословицах.
дипломная работа [110,6 K], добавлен 30.10.2008Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.
дипломная работа [76,6 K], добавлен 29.03.2016Рассмотрение понятия предпереводческого анализа текста как многоаспектной аналитической деятельности по извлечению смысла оригинала и определению инварианта перевода. Ознакомление с синтаксическими, грамматическими и прагматическими стратегиями перевода.
курсовая работа [33,4 K], добавлен 24.04.2013Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.
курсовая работа [33,0 K], добавлен 10.04.2013