Лексические особенности русской прозы первой трети ХХ века (на материале частотных словарей)

Языковые особенности как основа понимания художественного текста. Частотный словарь: принципы составления и применения. Сравнительный анализ языка русского рассказа первой трети XX века. Гендерный аспект особенностей русской прозы начала XX века.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 14.07.2020
Размер файла 3,8 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

ЛЕКСИЧЕСКИЕ ОСОБЕННОСТИ РУССКОЙ ПРОЗЫ ПЕРВОЙ ТРЕТИ ХХ ВЕКА (НА МАТЕРИАЛЕ ЧАСТОТНЫХ СЛОВАРЕЙ)

Выпускная квалификационная работа - БАКАЛАВРСКАЯ РАБОТА

по направлению подготовки 45.03.01 «Филология»

образовательная программа «Филология»

Гукасян Мари Норайровна

Научный руководитель

Доцент,

Т.Ю. Шерстинова

И.О. Фамилия

Санкт-Петербург-2020

СОДЕРЖАНИЕ

текст художественный проза русский

ВВЕДЕНИЕ

ГЛАВА 1. ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ИССЛЕДОВАНИЯ

1.1 ЯЗЫКОВЫЕ ОСОБЕННОСТИ КАК ОСНОВА ПОНИМАНИЯ ХУДОЖЕСТВЕННОГО ТЕКСТА

1.2 ЛЕКСИЧЕСКИЕ ОСОБЕННОСТИ ХУДОЖЕСТВЕННОГО ТЕКСТА: КОРПУСНЫЕ ИССЛЕДОВАНИЯ

1.3 ЧАСТОТНЫЙ СЛОВАРЬ: ПРИНЦИПЫ СОСТАВЛЕНИЯ И ПРИМЕНЕНИЯ

1.4 ОСНОВА ИССЛЕДОВАНИЯ: КОРПУС РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ ХХ ВЕКА

1.5 МЕТОДИКА ИССЛЕДОВАНИЯ

ГЛАВА 2. ОБЩИЙ АНАЛИЗ ЧАСТОТНЫХ СЛОВАРЕЙ КОРПУСА РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ ХХ ВЕКА

2.1 ОБЩИЙ ЧАСТОТНЫЙ СЛОВАРЬ ЛЕММ

2.2 СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЯЗЫКА РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ XX ВЕКА

2.3 ГЕНДЕРНЫЙ АСПЕКТ ОСОБЕННОСТЕЙ РУССКОЙ ПРОЗЫ НАЧАЛА XX ВЕКА

ГЛАВА 3. СРАВНЕНИЕ ТРЕНДОВ ЧАСТОТЫ ИСПОЛЬЗОВАНИЯ ЧАСТОТНЫХ СЛОВ В ДИАХРОНИИ

3.1 ДИАХРОНИЧЕСКОЕ ИССЛЕДОВАНИЕ ЧАСТОТЫ ИСПОЛЬЗОВАНИЯ ЛЕКСИКИ С ПОМОЩЬЮ СЕРВИСА GOOGLE NGRAM VIEWER И ОПЦИИ «РАСПРЕДЕЛЕНИЕ ПО ГОДАМ» НКРЯ

3.2 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ СОЮЗА И

3.3 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ ПРЕДЛОГА В

3.4 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ ЧАСТИЦЫ НЕ

3.5 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ МЕСТОИМЕНИЯ ОН

3.6 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ СУЩЕСТВИТЕЛЬНОГО ЧЕЛОВЕК

3.7 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ СУЩЕСТВИТЕЛЬНОГО РУКА

ГЛАВА 4. КЛЮЧЕВАЯ ЛЕКСИКА РАССКАЗОВ ПЕРВОЙ ТРЕТИ ХХ ВЕКА

4.1 СУЩЕСТВИТЕЛЬНЫЕ, НАЗЫВАЮЩИЕ МУЖЧИН И ЖЕНЩИН

4.2 СУЩЕСТВИТЕЛЬНЫЕ, ОБОЗНАЧАЮЩИЕ ПРОФЕССИИ

4.3 КЛЮЧЕВАЯ ЛЕКСИКА ВОЕННОЙ И РЕЛИГИОЗНОЙ ТЕМАТИКИ

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ПРИЛОЖЕНИЯ

АННОТАЦИЯ

Предлагаются результаты исследования лексических особенностей русской прозы первой трети ХХ века, выполненного на материале Корпуса русского рассказа. Тексты 310 рассказов, написанные 300 разными авторами, прошли автоматическую обработку, были лемматизированы, отсортированы в соответствии с частотным распределением лемм. Помимо индивидуальных словарей каждого рассказа были составлены общие словари, а также словари отдельных периодов (1900 - 1913, 1914 - 1922, 1923 - 1930 гг.) и гендера автора. В результате проведенного исследования удалось сделать выводы о содержательной схожести верхних зон полученных частотных словарей, выделены наиболее частотные слова. Сопоставительный анализ с сервисами Google Ngram Viewer и НКРЯ показал, что распределение частотной лексики в рассказах в целом стилистически обусловлено и в ряде случаев совпадает с общеязыковым трендом. Также проведено извлечение ключевой лексики каждого временного периода, осуществлена ее категоризация. Выявлена корреляция между историческим периодом написания рассказов и изменениями ключевой лексики.

ВВЕДЕНИЕ

Развитие русской литературы первой трети ХХ века было противоречивым. На рубеже девятнадцатого и двадцатого столетий литература, как и искусство в целом, приобретает новые методы и приемы, что обусловлено переосмыслением ценностей. Во многом на процесс развития литературы в первой трети века оказывает влияние политика.

В этой связи анализ развития языка художественного текста начала ХХ века представляет особый интерес в рамках лингвистических исследований. Данная работа посвящена актуальной теме изучения особенностей русской прозы на лексическом уровне. Следует подчеркнуть, что анализ языка прозы основан на текстах жанра рассказа. Данное исследование дает начало для дальнейших работ по анализу лексических особенностей прочих прозаических жанров и сопоставлению получившихся результатов.

Объектом исследования является язык русского рассказа первой трети XX века, предметом - лексические особенности языка русского рассказа начала ХХ века, динамика его развития. Целью исследования является анализ лексических особенностей художественного языка на материале рассказов, написанных в первой трети двадцатого века.

В ходе работы корпус, служащий материалом для исследования, был формализован - приведен в формат частотных словарей. Для достижения поставленной цели были использованы такие методы интерпретации частотных словарей всей выборки, как базовые статистические меры, характеризующие выборку (объем выборки, количество однократных слов, коэффициент лексического разнообразия и пр.). Актуальность данного исследования объясняется тем фактом, что на данный момент корпусные исследования лексических особенностей прозы, основанные на анализе частотных словарей, в недостаточной степени развиты. Более того корпус, который служит материалом для данного исследования, уникален и обладает широким, но пока нереализованным потенциалом. Подобная работа не проводилась прежде, что подразумевает новизну полученных знаний по определению. С одной стороны, эта работа узконаправленна, поскольку основана на анализе лишь рассказов, однако с другой стороны, полученные результаты применимы к оценке языка художественного текста того времени в целом. Более того, выявленные тенденции отчасти применимы и к русскому языку в целом. В учебном пособии по частотным словарям П. М. Алексеев объясняет суть интерпретации частотных словарей следующим образом: «От наблюдений над текстом к обобщениям на уровне языка -- этот путь проходит индуктивная лингвистика текста, а частотные словари обеспечивают ее количественными данными о реальном употреблении лингвистических единиц в тексте» [Алексеев 1975: 16]. Вероятно, оценка лексических особенностей языка прозы не является новой задачей, но сочетание материала и методов ее решения представляют интерес и раскрывает возможности корпусных исследований. Предполагается, что частотные словари в первую очередь эффективны при изучении иностранных языков, однако они многофункциональны, что подтверждается результатами данного исследования.

Для достижений поставленной цели в исследования были решены следующие задачи:

1) изучение теоретического материала по анализу художественного языка посредством квантитативных методов

2) произведение анализа общего частотного словаря, сравнительного анализа подкорпусов рассказов на предмет лексических изменений с течением времени и на предмет различий в языке авторов-женщин и авторов-мужчин;

3) сопоставление тенденций развития языка прозы с языковыми тенденциями многожанровых текстовых корпусов на предмет выделения общеязыковых и стилистических (определенных жанровыми особенностями) изменений

4) извлечение ключевой лексики рассказов первой трети ХХ века по трем периодам, ее категоризация и сопоставительный анализ

Работа состоит из введения, четырех глав, заключений, списка использованных источников и приложений. Первая глава имеет реферативный характер и содержит сведения о теоретико-методологической основе данного исследования. Во второй главе содержится общая характеристика частотного распределения в полученных списках. В третьей главе производится сопоставительный анализ частотного распределения определенных лемм по данным Корпуса русского рассказа первой трети ХХ века и альтернативных сервисов, содержащих информацию о распределении частот в более объемных и разножанровых корпусах. В четвертой главе рассматривается ключевая лексика по разным периодам.

ГЛАВА 1. ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ИССЛЕДОВАНИЯ

1.1 Языковые особенности как основа понимания художественного текста

Язык - это фундамент, на котором строится текст. Понимание особенностей художественного языка - это ключ к пониманию самой художественной литературы. В. В. Виноградов утверждал, что в самом языке текста заложены смыслы, вкладываемые автором в произведение, его представление о мире и непосредственно о том, что является предметом описания: «Исследование стиля, поэтики писателя, его мировоззрения невозможно без основательного, тонкого знания его языка. Самый текст сочинений писателя может быть точно установлен и правильно прочитан только тем, кто хорошо знает или глубоко изучил язык этого писателя» [Виноградов 1989: 6]. Действительно, работы, посвященные индивидуальному авторскому стилю, всегда многочисленны и актуальны, а их методология обширна и разнообразна (см. напр. [Самохвалова 2019; Канищева 2016; Тельпов 2008]).

Однако при изучении авторского стиля перед исследователем неизбежно встает вопрос, что именно можно отнести к индивидуальным особенностям автора, а что - к общеязыковым, продиктованным условиями развития национального языка, ведь художественный текст всегда находится в рамках определенной эпохи: «Один из главных вопросов лингвистического изучения стиля писателя - это вопрос о соотношении языковых средств, используемых им, с национальным языком на данном этапе развития» [Карелова 2006: 28].

Таким образом, при анализе художественного текста необходимо учитывать, что смысл произведения во многом определяется языковыми особенностями автора, но при этом и на язык автора сильное влияние оказывает состояние языка как такового в конкретный период. Наконец, из этого вытекает третий аспект, важный для понимания сути художественного текста -динамический характер языка. Если допустить, что состояние языка зависит от исследуемых временных рамок (что безусловно, поскольку язык всегда находится в процессе развития, обусловленном как историческими событиями, происходящими в мире, так и способностью языка к саморазвитию), то следует вывод, что среди авторов, создающих художественные тексты в рамках одной эпохи, всегда будет наблюдаться некоторая корреляция вне зависимости от тематических полей, к которым условно можно отнести эти произведения [Валгина 2001]. Так, о языковых характеристиках художественного текста Г. Д. Ахметова пишет следующее: «Языковое пространство - это живая жизнь живого литературного текста, основные признаки которого - открытость, динамичность, самоорганизация, взаимодействие с другими литературными текстами» [Ахметова 2013: 9].

Итак, подводя итог, отметим еще раз, что в основе понимания художественного текста лежит понимание его языковых особенностей, которые, в свою очередь, обусловлены как характеристиками авторского стиля, так и состоянием национального языка (динамика развития национального языка в данной связи интересна не столько с точки зрения саморазвития, сколько с точки зрения социо-культурных процессов в обществе, под влиянием которых он находится).

А. И. Николаев пишет, что языковые особенности, характеризующие художественный текст, относятся не только к лексическому и синтаксическому уровням языка, но и к грамматике, словообразованию и фонетике [Николаев 2011:]. Однако в рамках данного исследования будет проанализирован лишь один аспект особенностей прозы - лексический. E. А. Стрельцова отмечает, что именно на лексическом уровне в наибольшей степени прослеживаются языковые особенности художественного текста [Стрельцова 2014: 137].

1.2 Лексические особенности художественного текста: корпусные исследования

Как было отмечено выше, вопросы характеристики индивидуального стиля автора нашли широкое освещение в исследованиях, посвященных литературоведению и языкознанию. Индивидуальный стиль характеризуют языковые особенности художественной литературы, среди которых Е. Б. Демидова и Ю. Б. Мартыненко выделяют, например, следующие: средства словообразования, используемые в стилистических целях, звуковое создание образности, синтаксические структуры (например, безличные предложения), языковые средства комического (юмор и ирония) и пр. [Демидова, Мартыненко 2019]. В рамках подобных исследований, безусловно, можно найти и основные сведения о лексических особенностях тех или иных авторов. Если говорить об исследованиях, направленных на изучение исключительно лексического аспекта языковых особенностей художественного текста, их существенным отличием от более общих работ является применение статистических методов анализа (см. напр. [Мухин, Филатова 2016; Шайкевич 2012]). Следует оговориться, что они, безусловно, используются не во всех исследованиях, но это характерно для многих работ. Также было бы несправедливо утверждать, что для анализа прочих языковых особенностей подобные методы неприменимы.

Статистические методы анализа художественного текста удобны в тех случаях, когда необходимо выделить общие лексические особенности, характерные для объемных текстов. При этом объем текстов не имеет в данном случае принципиального значения. Чем больше исследуемый массив данных, тем более явно выделяются тенденции и особенности. Если «ручная» обработка текста допустима при анализе небольших текстов - например, стихотворения, то в случае с исследованием более объемных жанров (рассказ, роман и пр.) такой метод окажется затруднительным. В таком случае применяется автоматическая обработка текста. При этом возможен анализ не только одного текста, но и текстовых корпусов, содержащих неограниченное количество произведений, создание которых стало доступным с развитием технологий. Лингвистические корпусы составляются в зависимости от целей исследования - они могут представлять тексты одного автора, тексты одного жанра, тексты одной эпохи и пр. Тем не менее следует отметить, что корпусные исследования зачастую подвергаются критике, поскольку многие лингвисты не считают корпусную лингвистику полноценным разделом языкознания, среди которых, например, Н. Хомский (подробнее см. [Борискина 2015]). Безусловно, корпусные исследования имеют ограничения, однако их возможности также достаточно обширны, и «любой большой корпус удивляет нас неожиданными открытиями, трудно улавливаемыми без обращения к реальному языковому материалу, с другой стороны, даже самые крупные корпуса не в состоянии отразить все возможное в языке» [Копотев, Мустайоки 2008: 12]. Любой корпус - это коллекция текстов, на основе которой проводятся операции по автоматической обработке текстов, в результате которых можно получить всевозможные статистические характеристики, широта которых в общем позволяет делать общеязыковые выводы (т.е. не ограниченные рамками представленных в анализируемом корпусе текстов): «Все статистические распределения можно посмотреть в терминах числа текстов, предложений, числа и нормированной доли словоупотреблений по соответствующей характеристике. <…> Они позволяют количественно описать поведение различных языковых единиц (фонемы, буквы, слова, конструкции), их сочетаемость с другими единицами, распределение по текстам разных жанров и т. п.» [Захаров 2015: 83].

Возвращаясь к вопросу анализа лексических особенностей художественных текстов в рамках корпусных исследований, отметим, что он возможен посредством составления частотных словарей, на основе которых представляется возможным делать выводы о частотном распределении слов в исследуемом корпусе. Сравнительный статистический анализ лексики позволяет выделять тенденции частотностей, характеризующих авторские и жанровые особенности и отделять их от трендов, обусловленных общеязыковым развитием. Например, среди возможных факторов снижении частот отдельных слов или групп слов А. Я. Шайкевич выделяет «лингвистические (долгосрочные) процессы устаревания слов, изменения внешней действительности, внутренние изменения в прозе, как в тематических пристрастиях, так и в структурных изменениях (например, в построении сюжета или в построении диалога)» [Шайкевич 2012: 126].

1.3 Частотный словарь: принципы составления и применения

Как было отмечено выше, лексические особенности художественных текстов удобно изучать посредством частотных словарей, созданных для корпусов текстов. Именно этот метод используется и в данном исследовании для выявления лексических особенностей прозы первой трети ХХ века. Прежде представляется важным определить, что именно подразумевается под понятием частотных словарей, каковы принципы их создания, какую информацию они содержат и к чему эта информация применима.

На сегодняшний день существует множество частотных словарей. Любой полноценный корпус включает и данные о частотности, как, например, Национальный корпус русского языка (НКРЯ) [НКРЯ]. Первые попытки создания частотных словарей были произведены достаточно давно, и этот инструмент языкового представления на сегодняшний день является общепринятым. В этой связи общая теоретическая информация о частотных словарях содержится во многих лингвистических исследованиях, учебниках по компьютерной или корпусной лингвистике. Например, во «Введении в компьютерную лингвистику» составители учебного пособия дают следующее определение: «Частотный словарь - это вид словаря, в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля, либо для одного автора» [Боярский, 2013: 22].

Очевидно, в первую очередь частотные словари представляют интерес в контексте изучения иностранного языка. Они дают возможность получить представление о наиболее активной лексике, достаточной для понимания и разговора на базовом уровне. Безусловно, это очень удобный метод изучения языка, но в действительности частотные словари обладают гораздо более широкими возможностями в совокупности со статистическими мерами анализа данных, а также при сопоставлении данных нескольких словарей. Еще 1991 году Джон Синклер писал о том, что первое применение компьютерно-вычислительной техники для анализа языковых корпусов позволило обнаружить новые данные о языке, которые должны быть включены в уже изданные описания языков [Sinclair, 1991: 137]. В действительности, частотные словари могут быть составлены для любых лексических единиц, представляющих некоторую совокупность. Так, как отмечено выше, они применимы к корпусам текстов, принадлежащих одному автору, авторам одной эпохи, к одному литературному жанру и пр. Это определяется принципами составления словарей.

Базовый частотный словарь содержит список всех лексических единиц корпуса и их абсолютные частоты (то есть количество раз, которое лексические единицы встретились по всей выборке). Эти данные позволяют определить, какие слова встретились чаще всего в тексте. Обычно частотные списки упорядочиваются по убыванию частоты (хотя могут в алфавитном порядке), каждой лексической единице присваивается ранг, определяющий порядковый номер единицы (иногда он также присваивается в соответствии с частотами - тогда единицам, имеющим один частотный показатель, присваивается и один ранговый показатель). Однако абсолютные частоты имеют очевидный недостаток - они говорят об особенностях анализируемого текста, но не позволяют проводить сравнительный анализ с другими словарями, что существенно сокращает функциональность словарей. По этой причине частотные словари так же сопровождаются информацией об относительной частоте. Относительные показатели - основные статистические величины, представляющие собой «деления одного абсолютного показателя на другой и выражает соотношение между количественными характеристиками» [Кашина и др. 2012: 49]. Например, рамках данного исследования это позволяет изучать динамику лексического развития русского рассказа. При сопоставлении с другими корпусами это помогло бы проследить жанровые особенности, общеязыковые особенности конкретного периода времени и пр. Ввиду возможной неравномерности выборок в лингвистических исследованиях используют показатель ipm (от англ. instances per million - случаи на миллион). Для его получения необходимо абсолютную частоту лексической единицы разделить на объем выборки и умножить на 1 000 000.

1.4 Основа исследования: Корпус русского рассказа первой трети ХХ века

Первая треть XX века в России - один из наиболее насыщенных трагическими событиями период в отечественной истории. В начале века Россия оказалась на пороге кризиса, требовались перемены. Это спровоцировало ряд последующих революционных движений, восстаний, переворотов и войн. Нестабильная обстановка, множество идейных течений, необходимость радикальных решений и действий - все это, безусловно, имело последствия не только в политической области, но и культурной. Язык и, как следствие, литература - наиболее чувствительные к изменениям аспекты культуры. По этой причине вышеупомянутые события оказали на эти аспекты сильное влияние. Для осознания этих последствий была создана Компьютерная антология русского рассказа первой трети ХХ века: «… для осознания масштабности <…> трансформаций языка необходимо применение строгих количественных методов, анализ представительного объема языкового материала на разных лингвистических уровнях и сравнение разных хронологических срезов в динамическом аспекте» [Мартыненко и др. 2018а: 98].

Данная работа продолжает серию исследований, основанных на Корпусе русского рассказа первой трети двадцатого века, где более подробно уже излагались принципы создания корпуса, методика и исследовательский потенциал (см. напр. [Мартыненко и др. 2018а; Мартыненко и др. 2018б]). Подчеркнем еще раз тот факт, что несмотря на то, что целью данного исследования является изучение лексических особенностей прозы, в его основе лежит анализ жанра рассказа. Составители Корпуса отмечают, что этот жанр в наибольшей степени показателен в контексте прослеживания социальных процессов: «<…> Эти волны позволяют выявить с помощью рассказа всплески и спады социальной динамики. То есть рассказ выступает в роли диагноста социальных процессов» [Мартыненко и др. 2018а: 99]. А. О. Гребенников и Т. Г. Скребцова также отмечают значимость жанра рассказа в условиях трагических исторических событий, связывая это с предположением о том, что в рассказе могут прослеживаться «сигналы» о наступлении кризисных ситуаций в виде стилистических изменений [Гребенников, Скребцова 2019: 85].

Данный корпус включает триста десять рассказов, написанных в период с 1900 по 1930 годы. Выборка производилась случайным образом, т.е. объем рассказов, тема, известность авторов не учитывались. Поскольку проследить динамику развития языка можно лишь в сравнении, в данной работе корпус условно разделен на три подкорпуса в соответствии с годами написания произведений. Как было отмечено, в течение тридцати указанных лет происходили многие важные исторические события, а потому предполагается, что вместе с ними менялся язык, менялись настроения в обществе, и это, безусловно, отражалось в литературе. Временные рамки подкорпусов для сравнительного анализа следующие: 1900-1913, 1914-1922, 1923-1930 гг.

1.5 Методика исследования

Данное исследование - результат анализа лексических особенностей русской прозы первой трети ХХ века. В качестве материала для данного исследования послужил Корпус русского рассказа первой трети ХХ века. Материал указывает на то, что особенности прозы в контексте данного исследования ограничиваются жанром рассказа. Безусловно, в дальнейшем подобное исследование может быть проведено на основе более репрезентативного корпуса, включающего иные прозаические жанры, что позволит провести сопоставительный межжанровый анализ для расширения полученных результатов.

Для проведения исследования требовалась подготовка материала. Часть корпуса, а именно 100 рассказов, написанных в период с 1900 по 1913 гг., уже была подготовлена к анализу частотного распределения лексики рассказов [Березина 2019]. В связи с этим лишь для части текстов (210), представленных в Корпусе русского рассказа, была произведена автоматическая обработка в программе MyStem [Mystem], основной функцией которой является морфологический анализ текстов. В рамках данного исследования программа использовалась для лемматизации всех текстов.

Полученные с помощью MyStem данные требовали упорядочения и создания точных списков словоформ и лемм для дальнейшего анализа. Для этих целей была использована базовая программа MS Excel. С помощью «умных» таблиц выдача MyStem была упорядочена, далее с помощью сводных таблиц были созданы отдельные таблицы для частотных словарей (по словоформам и леммам) таким образом, чтобы каждый рассказ был снабжен информацией о частотности словоформ и лемм (абсолютные частоты и относительные в ipm).

После создания частотных словарей для каждого рассказа по отдельности требовалось создать общий частотный словарь рассказов первой трети ХХ века, написанных в период с 1900 по 1930 гг. Для сопоставительного анализа распределения частот в рассказах по условным периодам первой трети ХХ века также были созданы три частотных словаря для рассказов, написанных в рамках следующих трех периодов: 1900 - 1913, 1914 - 1922, 1923 - 1930. Кроме того, были созданы два частотных словаря для рассказов, написанных мужчинами и женщинами, и сопоставлены в дальнейшем.

Поскольку первостепенной задачей является не получение массива данных (хотя это является значительной частью проделанной работы), а его интерпретация, для всех получившихся частотных словарей (как для отдельных по каждому рассказа, так и для общих) были просчитаны следующие статистические меры:

1) объем выборки (tokens)

2) объем выборки (types)

3) количество однократных слов (hapax)

4) количество многократных слов

5) индекс лексического разнообразия (TTR - types/tokens ratio)

6) соотношение суммы однократных слов и всей выборки

7) соотношение сумм однократных и многократных слов

Для большей наглядности при сравнительном анализе частотного распределения некоторых лемм по Корпусу русского рассказа с данными по более представительным корпусам (см. подробнее в главе 3) были построены графики с маркерами.

Для извлечения ключевой лексики и ее категоризации была использована программа AntConc [Anthony 2019], предназначенная для обработки корпусов текстов. В качестве анализируемого корпуса использовался один из трех частотных словарей, разделенных по условным периодам, а в качестве референсного - два оставшихся. Ключевая лексика в AntConc определяется по умолчанию с помощью функции логарифмического правдоподобия (подробнее см. [Anthony 2014]).

ГЛАВА 2. ОБЩИЙ АНАЛИЗ ЧАСТОТНЫХ СЛОВАРЕЙ КОРПУСА РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ ХХ ВЕКА

2.1 Общий частотный словарь лемм

В первую очередь, необходимо отметить, что материалом для данного исследования, как уже было сказано, послужил Корпус русского рассказа, состоящий из трехсот произведений и разделенный на три условных подкорпуса. Также, несмотря на то что при отборе текстов, вошедших в корпус, их объем не учитывался, для сбалансированности выборки при частотном анализе было принято решение сократить наиболее объемные из рассказов до 9000 слов. В их число вошли следующие девять рассказов: «Рассказ о семи повешенных» Л. Н. Андреева, «Пока» В. В. Муйжеля, «В чужой шкуре» П. А. Оленина-Волгаря, «Сосед» И. Д. Сургучева, «Закон яблока» Н. Н. Зарудина, «Гадюка» А. Н. Толстого, «Как Иван провел время» С. П. Подъячева, «Экзамен» В. Р. Гравишкиса, «За колючей проволокой» К. Я. Левина, «Черное золото» М. Г. Сивачева.

282 рассказа корпуса написаны авторами-мужчинами, 28 рассказов написаны авторами-женщинами. Объем всех рассказов составляет 1042794 словоупотреблений, 40791 лемма. Абсолютные частоты колеблются от 46566 до 1. Индекс лексического разнообразия (TTR) - 0,039. Количество однократных слов (гапакс) - 15283. Количество многократных слов - 25508. Соотношение суммы однократных слов и объема всей выборки - 0,0146. Соотношение сумм однократных слов и многократных - 0,0148. Подробную статистику по каждому рассказу выборки можно найти в приложении (см. прил. А). На основании получившихся данных по всем рассказам можно сделать общие выводы о том, что индекс лексического разнообразия уменьшается с увеличением текста, а также, что в меньших по объему текстах больший процент однократных слов. Для более глубокого анализа лексического разнообразия авторов следует ограничить выборку до схожих по объему рассказов, однако такой анализ может служить основой для отдельного исследования.

Для анализа лексических особенностей русского языка прозы первой трети XX века было составлено несколько частотных словарей. Прежде чем перейти к более предметному описанию данных также необходимо оговориться, что так называемые стоп-слова, обычно исключаемые при анализе частотных словарей и состоящие из служебных частей речи (таких как союз, предлог и пр.), в этой работе не использовались. В рамках данного исследование это не представляется логичным, поскольку при более глубоком анализе количественных данных в дальнейшем будет возможно определить индивидуальные авторские особенности и даже служебные части речи могут сказать многое о языке отдельных авторов.

Для начала рассмотрим частотный словарь всех рассказов, написанных в период с 1900 по 1930 годы (см. табл. 1). Поскольку словари достаточно объемные, данные в работе будут представлены частично, однако расширенные списки можно найти в приложении (см. прил. Б). В таблице 1 продемонстрирована верхняя зона наиболее активной лексики (50 наиболее частотных лемм) исследуемого периода. Как видно, каждой лемме присвоен ранг, абсолютная частота по всей выборке, а также частота в ipm. Самыми частотными леммами оказались следующие: и, в, не, он, на, я, быть, с, что, а. Примечательно, что их количество в сумме составляет примерно 18%, т. е. 1/5 всей выборки, а на верхнюю зону, в количестве 50 наиболее частотных лемм, приходится около 33,8%. Этот факт примечателен, поскольку всего в анализируемых текстах встретилась 40791 лемма. Необходимо отметить, что верхняя зона представлена в большей степени служебными частями речи, среди которых союзы, предлоги, частицы.

Таблица 1 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1900 по 1930 гг. (верхняя зона)

Ранг

Лемма

Кол-во

IPM

Ранг

Лемма

Кол-во

IPM

1

и

46566

44655

26

свой

4236

4062

2

в

26064

24994

27

от

4131

3961

3

не

19141

18355

28

так

4121

3951

Ранг

Лемма

Кол-во

IPM

Ранг

Лемма

Кол-во

IPM

4

он

18136

17391

29

из

3918

3757

5

на

18033

17292

30

мы

3811

3654

6

я

15883

15231

31

же

3700

3548

7

быть

12343

11836

32

да

3328

3191

8

с

11937

11447

33

сказать

3222

3089

9

что

11714

11233

34

говорить

3145

3015

10

а

10795

10351

35

глаз

3077

2950

11

она

9461

9072

36

рука

3047

2921

12

как

8224

7886

37

один

3043

2918

13

к

6550

6281

38

человек

3039

2914

14

у

5930

5686

39

его

2956

2834

15

то

5537

5309

40

только

2943

2822

16

по

5473

5248

41

о

2825

2709

17

это

5221

5006

42

еще

2798

2683

18

за

5202

4988

43

себя

2717

2605

19

ты

5189

4976

44

вот

2599

2492

20

они

5131

4920

45

который

2586

2479

21

но

4928

4725

46

когда

2502

2399

22

все

4596

4407

47

тот

2432

2332

23

вы

4519

4333

48

становиться

2420

2320

24

весь

4518

4332

49

мочь

2417

2317

25

этот

4406

4225

50

бы

2371

2273

2.2 Сравнительный анализ языка русского рассказа первой трети XX века

Поскольку, как уже было отмечено, язык чувствителен к любым изменениям «извне» и находится в постоянном развитии, для выявления лексических особенностей русского рассказа первой трети XX века необходим сравнительный частотный анализ. Именно по этому причине помимо общего словаря были составлены также три частотных словаря, соответствующих вышеуказанным временным периодам, статистическая информация о которых представлена ниже.

Таблица 2 - Статистика по первому периоду (1900 - 1913 гг.)

Статистическая мера

Показатель

объем выборки (tokens)

362423 словоупотребления

объем выборки (types)

21879 лемм

количество однократных слов (hapax)

8431

количество многократных слов

13448

индекс лексического разнообразия (TTR - types/tokens ratio)

0,06

соотношение суммы однократных слов и всей выборки

0,0232

соотношение сумм однократных и многократных слов

0,0238

Таблица 3 - Статистика по второму периоду (1914 - 1922 гг.)

Статистическая мера

Показатель

объем выборки (tokens)

284273 словоупотребления

объем выборки (types)

21611 лемм

количество однократных слов (hapax)

8885

количество многократных слов

12726

индекс лексического разнообразия (TTR - types/tokens ratio)

0,076

соотношение суммы однократных слов и всей выборки

0,031

соотношение сумм однократных и многократных слов

0,0322

Таблица 4 - Статистика по третьему периоду (1923 - 1930 гг.)

Статистическая мера

Показатель

объем выборки (tokens)

396098 словоупотребления

объем выборки (types)

28445 лемм

количество однократных слов (hapax)

11611

количество многократных слов

16834

индекс лексического разнообразия (TTR - types/tokens ratio)

0,071

соотношение суммы однократных слов и всей выборки

0,029

соотношение сумм однократных и многократных слов

0,03

Данные словари содержательно соответствуют общему, т. е. включают список 50 наиболее частотных лемм с рангом, абсолютной частотой, а также частотой в ipm для каждой из них. Так, удалось выяснить, что все три периода представлены практически идентичной верхней зоной наиболее частотных лемм, среди которых встречаются следующие: и, в, он, не, я, на, быть, что, с, она.

Однако, если обратить внимание на количественные данные, становится очевидно, что в то время, как на первые десять лемм первого периода приходится 19% выборки (см. табл. 5), то во втором периоде соответствующий показатель равен 18,5% (см. табл. 6), а в третьем - всего 16,4% (см. табл. 7). Отметим, что для общего словаря всей первой трети века этот показатель был равен 18%. В целом, следует отметить, что для третьего отрезка времени, ознаменованного ранним советским периодом, характерно появление множества новых слов, ввиду становления новых общественно-политических движений и организаций [Martynenko et al. 2019]. Это не могло не отразиться на частотности верхней зоны. Если же расширить рассматриваемые леммы до первых 50, окажется, что нижняя зона представлена большим разнообразием лемм. В процентном соотношении на первые по частотности 50 слов первого периода приходится 35,5%, во втором периоде этому показателю соответствует 34,2%, а в третьем периоде, вполне ожидаемо, - всего 32%. Предположительно, такая тенденция действительно может быть связана с развивающимся лексическим разнообразием с течением времени. Среди наиболее частотных слов (помимо отмеченного выше списка, состоящего преимущественно из служебных частей речи) во всех частотных списках встречаются следующие слова, вероятно, отражающие повествовательный характер рассказа, а также тематическое поле (предполагается, что в основе сюжета рассказа в первую очередь лежит интерес к человеку, его жизни): говорить, сказать, человек, глаз, рука, мочь, становится, знать.

Для большей наглядности в Приложении В представлена таблица с сопоставленными показателями частот.

Таблица 5 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1900 по 1913 гг. (верхняя зона)

Ранг

Лемма

Кол-во

IPM

Ранг

Лемма

Кол-во

IPM

1

и

17687

48802

26

вы

1602

4420

2

в

8799

24278

27

так

1493

4119

3

он

7320

20197

28

же

1401

3865

4

не

6600

18210

29

от

1352

3730

5

я

6122

16891

30

из

1300

3586

6

на

5662

15622

31

его

1210

3338

7

быть

4689

12937

32

да

1176

3244

8

что

4682

12918

33

который

1173

3236

9

с

4239

11696

34

мы

1168

3222

10

она

4196

11577

35

себя

1160

3200

11

а

3352

9248

36

сказать

1143

3153

12

как

3014

8316

37

один

1104

3046

13

к

2200

6070

38

человек

1088

3002

14

то

2106

5810

39

говорить

1076

2968

15

это

2055

5670

40

глаз

1071

2955

16

они

1979

5460

41

только

1061

2927

17

этот

1873

5167

42

о

1024

2825

18

у

1861

5134

43

рука

1009

2784

19

но

1837

5068

44

еще

1001

2761

20

ты

1812

4999

45

мой

938

2588

21

все

1786

4927

46

бы

932

2571

22

по

1750

4828

47

мочь

927

2557

23

свой

1670

4607

48

становиться

923

2546

24

за

1665

4594

49

такой

912

2516

25

весь

1653

4560

50

вот

888

2450

Таблица 6 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1914 по 1922 гг. (верхняя зона)

Ранг

Лемма

Кол-во

IPM

Ранг

Лемма

Кол-во

IPM

1

и

13386

47088

26

вы

1181

4154

2

в

6927

24367

27

от

1134

3989

3

не

5349

18816

28

этот

1079

3795

4

на

4965

17465

29

из

1074

3778

5

он

4936

17363

30

мы

1032

3630

6

я

3965

13947

31

говорить

1001

3521

7

быть

3345

11766

32

же

993

3493

8-9

с

3261

11471

33

да

950

3341

а

34

сказать

887

3120

10

что

3176

11172

35

человек

873

3070

11

она

2381

8375

36

только

865

3042

12

как

2118

7450

37

рука

847

2979

13

к

1920

6754

38

один

839

2951

14

у

1625

5716

39

о

828

2912

15

то

1579

5554

40-41

его

816

2870

16

ты

1508

5304

глаз

17

по

1488

5234

42

тот

743

2613

18

они

1428

5023

43

еще

736

2589

19

за

1418

4988

44

вот

723

2543

20

но

1413

4970

45

когда

719

2529

21

это

1357

4773

46

который

713

2508

22

все

1327

4668

47

становиться

694

2441

23

свой

1233

4337

48

себя

688

2420

24

весь

1193

4196

49

бы

638

2244

25

так

1183

4161

50

знать

620

2181

Таблица 7 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1922 по 1930 гг. (верхняя зона)

...

Ранг

Лемма

Кол-во

IPM

Ранг

Лемма

Кол-во

IPM

1

и

15493

39114

26

из

1544

3898

2

в

10338

26099

27

все

1483

3744

3

на

7406

18697

28

этот

1454

3670

4

не

7192

18157

29

так

1445

3648

5

он

5880

14844

30

свой

1333

3365

6

я

5796

14632

31

же

1306

3297

7

с

4437

11201

32

да

1202

3034

8

быть

4309

10878

33

сказать

1192

3009

9

а

4182

10557

34

рука

1191

3006

10

что

3856

9734

35

глаз

1190

3004

11

как

3092

7806

36

один

1100

2777

12

она

2884

7281

37

человек

1078

2721

13

у

2444

6170

38

говорить

1068

2696

14

к

2430

6134

39

еще

1061

2678

15

по

2235

5642

40

только

1017

2567

16

за

2119

5349

41

вот

988

2494

17

ты

1869

4718

42

о

973

2456

18

то

1852

4675

43

его

930

2347

19

это

1809

4567

44

когда

908

2292

20

вы

1736

4382

45

мочь

873

2204

21

они

1724

4352

46

себя

869

2193

22

но

1678

4236

47

такой

860

2171

23

весь

1672

4221

48

тот

840

2120


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.