Главная Коллекция "Revolution" Иностранные языки и языкознание Лексические особенности русской прозы первой трети ХХ века (на материале частотных словарей)

Лексические особенности русской прозы первой трети ХХ века (на материале частотных словарей)

Языковые особенности как основа понимания художественного текста. Частотный словарь: принципы составления и применения. Сравнительный анализ языка русского рассказа первой трети XX века. Гендерный аспект особенностей русской прозы начала XX века.

Рубрика	Иностранные языки и языкознание
Вид	дипломная работа
Язык	русский
Дата добавления	14.07.2020
Размер файла	3,8 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ОБРАЗОВАНИЯ

«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ

«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»

ЛЕКСИЧЕСКИЕ ОСОБЕННОСТИ РУССКОЙ ПРОЗЫ ПЕРВОЙ ТРЕТИ ХХ ВЕКА (НА МАТЕРИАЛЕ ЧАСТОТНЫХ СЛОВАРЕЙ)

Выпускная квалификационная работа - БАКАЛАВРСКАЯ РАБОТА

по направлению подготовки 45.03.01 «Филология»

образовательная программа «Филология»

Гукасян Мари Норайровна

Научный руководитель

Доцент,

Т.Ю. Шерстинова

И.О. Фамилия

Санкт-Петербург-2020

СОДЕРЖАНИЕ

текст художественный проза русский

ВВЕДЕНИЕ

ГЛАВА 1. ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ИССЛЕДОВАНИЯ

1.1 ЯЗЫКОВЫЕ ОСОБЕННОСТИ КАК ОСНОВА ПОНИМАНИЯ ХУДОЖЕСТВЕННОГО ТЕКСТА

1.2 ЛЕКСИЧЕСКИЕ ОСОБЕННОСТИ ХУДОЖЕСТВЕННОГО ТЕКСТА: КОРПУСНЫЕ ИССЛЕДОВАНИЯ

1.3 ЧАСТОТНЫЙ СЛОВАРЬ: ПРИНЦИПЫ СОСТАВЛЕНИЯ И ПРИМЕНЕНИЯ

1.4 ОСНОВА ИССЛЕДОВАНИЯ: КОРПУС РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ ХХ ВЕКА

1.5 МЕТОДИКА ИССЛЕДОВАНИЯ

ГЛАВА 2. ОБЩИЙ АНАЛИЗ ЧАСТОТНЫХ СЛОВАРЕЙ КОРПУСА РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ ХХ ВЕКА

2.1 ОБЩИЙ ЧАСТОТНЫЙ СЛОВАРЬ ЛЕММ

2.2 СРАВНИТЕЛЬНЫЙ АНАЛИЗ ЯЗЫКА РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ XX ВЕКА

2.3 ГЕНДЕРНЫЙ АСПЕКТ ОСОБЕННОСТЕЙ РУССКОЙ ПРОЗЫ НАЧАЛА XX ВЕКА

ГЛАВА 3. СРАВНЕНИЕ ТРЕНДОВ ЧАСТОТЫ ИСПОЛЬЗОВАНИЯ ЧАСТОТНЫХ СЛОВ В ДИАХРОНИИ

3.1 ДИАХРОНИЧЕСКОЕ ИССЛЕДОВАНИЕ ЧАСТОТЫ ИСПОЛЬЗОВАНИЯ ЛЕКСИКИ С ПОМОЩЬЮ СЕРВИСА GOOGLE NGRAM VIEWER И ОПЦИИ «РАСПРЕДЕЛЕНИЕ ПО ГОДАМ» НКРЯ

3.2 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ СОЮЗА И

3.3 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ ПРЕДЛОГА В

3.4 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ ЧАСТИЦЫ НЕ

3.5 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ МЕСТОИМЕНИЯ ОН

3.6 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ СУЩЕСТВИТЕЛЬНОГО ЧЕЛОВЕК

3.7 ДИНАМИЧЕСКИЙ ТРЕНД ЧАСТОТЫ ВСТРЕЧАЕМОСТИ СУЩЕСТВИТЕЛЬНОГО РУКА

ГЛАВА 4. КЛЮЧЕВАЯ ЛЕКСИКА РАССКАЗОВ ПЕРВОЙ ТРЕТИ ХХ ВЕКА

4.1 СУЩЕСТВИТЕЛЬНЫЕ, НАЗЫВАЮЩИЕ МУЖЧИН И ЖЕНЩИН

4.2 СУЩЕСТВИТЕЛЬНЫЕ, ОБОЗНАЧАЮЩИЕ ПРОФЕССИИ

4.3 КЛЮЧЕВАЯ ЛЕКСИКА ВОЕННОЙ И РЕЛИГИОЗНОЙ ТЕМАТИКИ

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ПРИЛОЖЕНИЯ

АННОТАЦИЯ

Предлагаются результаты исследования лексических особенностей русской прозы первой трети ХХ века, выполненного на материале Корпуса русского рассказа. Тексты 310 рассказов, написанные 300 разными авторами, прошли автоматическую обработку, были лемматизированы, отсортированы в соответствии с частотным распределением лемм. Помимо индивидуальных словарей каждого рассказа были составлены общие словари, а также словари отдельных периодов (1900 - 1913, 1914 - 1922, 1923 - 1930 гг.) и гендера автора. В результате проведенного исследования удалось сделать выводы о содержательной схожести верхних зон полученных частотных словарей, выделены наиболее частотные слова. Сопоставительный анализ с сервисами Google Ngram Viewer и НКРЯ показал, что распределение частотной лексики в рассказах в целом стилистически обусловлено и в ряде случаев совпадает с общеязыковым трендом. Также проведено извлечение ключевой лексики каждого временного периода, осуществлена ее категоризация. Выявлена корреляция между историческим периодом написания рассказов и изменениями ключевой лексики.

ВВЕДЕНИЕ

Развитие русской литературы первой трети ХХ века было противоречивым. На рубеже девятнадцатого и двадцатого столетий литература, как и искусство в целом, приобретает новые методы и приемы, что обусловлено переосмыслением ценностей. Во многом на процесс развития литературы в первой трети века оказывает влияние политика.

В этой связи анализ развития языка художественного текста начала ХХ века представляет особый интерес в рамках лингвистических исследований. Данная работа посвящена актуальной теме изучения особенностей русской прозы на лексическом уровне. Следует подчеркнуть, что анализ языка прозы основан на текстах жанра рассказа. Данное исследование дает начало для дальнейших работ по анализу лексических особенностей прочих прозаических жанров и сопоставлению получившихся результатов.

Объектом исследования является язык русского рассказа первой трети XX века, предметом - лексические особенности языка русского рассказа начала ХХ века, динамика его развития. Целью исследования является анализ лексических особенностей художественного языка на материале рассказов, написанных в первой трети двадцатого века.

В ходе работы корпус, служащий материалом для исследования, был формализован - приведен в формат частотных словарей. Для достижения поставленной цели были использованы такие методы интерпретации частотных словарей всей выборки, как базовые статистические меры, характеризующие выборку (объем выборки, количество однократных слов, коэффициент лексического разнообразия и пр.). Актуальность данного исследования объясняется тем фактом, что на данный момент корпусные исследования лексических особенностей прозы, основанные на анализе частотных словарей, в недостаточной степени развиты. Более того корпус, который служит материалом для данного исследования, уникален и обладает широким, но пока нереализованным потенциалом. Подобная работа не проводилась прежде, что подразумевает новизну полученных знаний по определению. С одной стороны, эта работа узконаправленна, поскольку основана на анализе лишь рассказов, однако с другой стороны, полученные результаты применимы к оценке языка художественного текста того времени в целом. Более того, выявленные тенденции отчасти применимы и к русскому языку в целом. В учебном пособии по частотным словарям П. М. Алексеев объясняет суть интерпретации частотных словарей следующим образом: «От наблюдений над текстом к обобщениям на уровне языка -- этот путь проходит индуктивная лингвистика текста, а частотные словари обеспечивают ее количественными данными о реальном употреблении лингвистических единиц в тексте» [Алексеев 1975: 16]. Вероятно, оценка лексических особенностей языка прозы не является новой задачей, но сочетание материала и методов ее решения представляют интерес и раскрывает возможности корпусных исследований. Предполагается, что частотные словари в первую очередь эффективны при изучении иностранных языков, однако они многофункциональны, что подтверждается результатами данного исследования.

Для достижений поставленной цели в исследования были решены следующие задачи:

1) изучение теоретического материала по анализу художественного языка посредством квантитативных методов

2) произведение анализа общего частотного словаря, сравнительного анализа подкорпусов рассказов на предмет лексических изменений с течением времени и на предмет различий в языке авторов-женщин и авторов-мужчин;

3) сопоставление тенденций развития языка прозы с языковыми тенденциями многожанровых текстовых корпусов на предмет выделения общеязыковых и стилистических (определенных жанровыми особенностями) изменений

4) извлечение ключевой лексики рассказов первой трети ХХ века по трем периодам, ее категоризация и сопоставительный анализ

Работа состоит из введения, четырех глав, заключений, списка использованных источников и приложений. Первая глава имеет реферативный характер и содержит сведения о теоретико-методологической основе данного исследования. Во второй главе содержится общая характеристика частотного распределения в полученных списках. В третьей главе производится сопоставительный анализ частотного распределения определенных лемм по данным Корпуса русского рассказа первой трети ХХ века и альтернативных сервисов, содержащих информацию о распределении частот в более объемных и разножанровых корпусах. В четвертой главе рассматривается ключевая лексика по разным периодам.

ГЛАВА 1. ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ИССЛЕДОВАНИЯ

1.1 Языковые особенности как основа понимания художественного текста

Язык - это фундамент, на котором строится текст. Понимание особенностей художественного языка - это ключ к пониманию самой художественной литературы. В. В. Виноградов утверждал, что в самом языке текста заложены смыслы, вкладываемые автором в произведение, его представление о мире и непосредственно о том, что является предметом описания: «Исследование стиля, поэтики писателя, его мировоззрения невозможно без основательного, тонкого знания его языка. Самый текст сочинений писателя может быть точно установлен и правильно прочитан только тем, кто хорошо знает или глубоко изучил язык этого писателя» [Виноградов 1989: 6]. Действительно, работы, посвященные индивидуальному авторскому стилю, всегда многочисленны и актуальны, а их методология обширна и разнообразна (см. напр. [Самохвалова 2019; Канищева 2016; Тельпов 2008]).

Однако при изучении авторского стиля перед исследователем неизбежно встает вопрос, что именно можно отнести к индивидуальным особенностям автора, а что - к общеязыковым, продиктованным условиями развития национального языка, ведь художественный текст всегда находится в рамках определенной эпохи: «Один из главных вопросов лингвистического изучения стиля писателя - это вопрос о соотношении языковых средств, используемых им, с национальным языком на данном этапе развития» [Карелова 2006: 28].

Таким образом, при анализе художественного текста необходимо учитывать, что смысл произведения во многом определяется языковыми особенностями автора, но при этом и на язык автора сильное влияние оказывает состояние языка как такового в конкретный период. Наконец, из этого вытекает третий аспект, важный для понимания сути художественного текста -динамический характер языка. Если допустить, что состояние языка зависит от исследуемых временных рамок (что безусловно, поскольку язык всегда находится в процессе развития, обусловленном как историческими событиями, происходящими в мире, так и способностью языка к саморазвитию), то следует вывод, что среди авторов, создающих художественные тексты в рамках одной эпохи, всегда будет наблюдаться некоторая корреляция вне зависимости от тематических полей, к которым условно можно отнести эти произведения [Валгина 2001]. Так, о языковых характеристиках художественного текста Г. Д. Ахметова пишет следующее: «Языковое пространство - это живая жизнь живого литературного текста, основные признаки которого - открытость, динамичность, самоорганизация, взаимодействие с другими литературными текстами» [Ахметова 2013: 9].

Итак, подводя итог, отметим еще раз, что в основе понимания художественного текста лежит понимание его языковых особенностей, которые, в свою очередь, обусловлены как характеристиками авторского стиля, так и состоянием национального языка (динамика развития национального языка в данной связи интересна не столько с точки зрения саморазвития, сколько с точки зрения социо-культурных процессов в обществе, под влиянием которых он находится).

А. И. Николаев пишет, что языковые особенности, характеризующие художественный текст, относятся не только к лексическому и синтаксическому уровням языка, но и к грамматике, словообразованию и фонетике [Николаев 2011:]. Однако в рамках данного исследования будет проанализирован лишь один аспект особенностей прозы - лексический. E. А. Стрельцова отмечает, что именно на лексическом уровне в наибольшей степени прослеживаются языковые особенности художественного текста [Стрельцова 2014: 137].

1.2 Лексические особенности художественного текста: корпусные исследования

Как было отмечено выше, вопросы характеристики индивидуального стиля автора нашли широкое освещение в исследованиях, посвященных литературоведению и языкознанию. Индивидуальный стиль характеризуют языковые особенности художественной литературы, среди которых Е. Б. Демидова и Ю. Б. Мартыненко выделяют, например, следующие: средства словообразования, используемые в стилистических целях, звуковое создание образности, синтаксические структуры (например, безличные предложения), языковые средства комического (юмор и ирония) и пр. [Демидова, Мартыненко 2019]. В рамках подобных исследований, безусловно, можно найти и основные сведения о лексических особенностях тех или иных авторов. Если говорить об исследованиях, направленных на изучение исключительно лексического аспекта языковых особенностей художественного текста, их существенным отличием от более общих работ является применение статистических методов анализа (см. напр. [Мухин, Филатова 2016; Шайкевич 2012]). Следует оговориться, что они, безусловно, используются не во всех исследованиях, но это характерно для многих работ. Также было бы несправедливо утверждать, что для анализа прочих языковых особенностей подобные методы неприменимы.

Статистические методы анализа художественного текста удобны в тех случаях, когда необходимо выделить общие лексические особенности, характерные для объемных текстов. При этом объем текстов не имеет в данном случае принципиального значения. Чем больше исследуемый массив данных, тем более явно выделяются тенденции и особенности. Если «ручная» обработка текста допустима при анализе небольших текстов - например, стихотворения, то в случае с исследованием более объемных жанров (рассказ, роман и пр.) такой метод окажется затруднительным. В таком случае применяется автоматическая обработка текста. При этом возможен анализ не только одного текста, но и текстовых корпусов, содержащих неограниченное количество произведений, создание которых стало доступным с развитием технологий. Лингвистические корпусы составляются в зависимости от целей исследования - они могут представлять тексты одного автора, тексты одного жанра, тексты одной эпохи и пр. Тем не менее следует отметить, что корпусные исследования зачастую подвергаются критике, поскольку многие лингвисты не считают корпусную лингвистику полноценным разделом языкознания, среди которых, например, Н. Хомский (подробнее см. [Борискина 2015]). Безусловно, корпусные исследования имеют ограничения, однако их возможности также достаточно обширны, и «любой большой корпус удивляет нас неожиданными открытиями, трудно улавливаемыми без обращения к реальному языковому материалу, с другой стороны, даже самые крупные корпуса не в состоянии отразить все возможное в языке» [Копотев, Мустайоки 2008: 12]. Любой корпус - это коллекция текстов, на основе которой проводятся операции по автоматической обработке текстов, в результате которых можно получить всевозможные статистические характеристики, широта которых в общем позволяет делать общеязыковые выводы (т.е. не ограниченные рамками представленных в анализируемом корпусе текстов): «Все статистические распределения можно посмотреть в терминах числа текстов, предложений, числа и нормированной доли словоупотреблений по соответствующей характеристике. <…> Они позволяют количественно описать поведение различных языковых единиц (фонемы, буквы, слова, конструкции), их сочетаемость с другими единицами, распределение по текстам разных жанров и т. п.» [Захаров 2015: 83].

Возвращаясь к вопросу анализа лексических особенностей художественных текстов в рамках корпусных исследований, отметим, что он возможен посредством составления частотных словарей, на основе которых представляется возможным делать выводы о частотном распределении слов в исследуемом корпусе. Сравнительный статистический анализ лексики позволяет выделять тенденции частотностей, характеризующих авторские и жанровые особенности и отделять их от трендов, обусловленных общеязыковым развитием. Например, среди возможных факторов снижении частот отдельных слов или групп слов А. Я. Шайкевич выделяет «лингвистические (долгосрочные) процессы устаревания слов, изменения внешней действительности, внутренние изменения в прозе, как в тематических пристрастиях, так и в структурных изменениях (например, в построении сюжета или в построении диалога)» [Шайкевич 2012: 126].

1.3 Частотный словарь: принципы составления и применения

Как было отмечено выше, лексические особенности художественных текстов удобно изучать посредством частотных словарей, созданных для корпусов текстов. Именно этот метод используется и в данном исследовании для выявления лексических особенностей прозы первой трети ХХ века. Прежде представляется важным определить, что именно подразумевается под понятием частотных словарей, каковы принципы их создания, какую информацию они содержат и к чему эта информация применима.

На сегодняшний день существует множество частотных словарей. Любой полноценный корпус включает и данные о частотности, как, например, Национальный корпус русского языка (НКРЯ) [НКРЯ]. Первые попытки создания частотных словарей были произведены достаточно давно, и этот инструмент языкового представления на сегодняшний день является общепринятым. В этой связи общая теоретическая информация о частотных словарях содержится во многих лингвистических исследованиях, учебниках по компьютерной или корпусной лингвистике. Например, во «Введении в компьютерную лингвистику» составители учебного пособия дают следующее определение: «Частотный словарь - это вид словаря, в котором лексические единицы характеризуются с точки зрения степени их употребительности в совокупности текстов, представительных либо для языка в целом, либо для отдельного функционального стиля, либо для одного автора» [Боярский, 2013: 22].

Очевидно, в первую очередь частотные словари представляют интерес в контексте изучения иностранного языка. Они дают возможность получить представление о наиболее активной лексике, достаточной для понимания и разговора на базовом уровне. Безусловно, это очень удобный метод изучения языка, но в действительности частотные словари обладают гораздо более широкими возможностями в совокупности со статистическими мерами анализа данных, а также при сопоставлении данных нескольких словарей. Еще 1991 году Джон Синклер писал о том, что первое применение компьютерно-вычислительной техники для анализа языковых корпусов позволило обнаружить новые данные о языке, которые должны быть включены в уже изданные описания языков [Sinclair, 1991: 137]. В действительности, частотные словари могут быть составлены для любых лексических единиц, представляющих некоторую совокупность. Так, как отмечено выше, они применимы к корпусам текстов, принадлежащих одному автору, авторам одной эпохи, к одному литературному жанру и пр. Это определяется принципами составления словарей.

Базовый частотный словарь содержит список всех лексических единиц корпуса и их абсолютные частоты (то есть количество раз, которое лексические единицы встретились по всей выборке). Эти данные позволяют определить, какие слова встретились чаще всего в тексте. Обычно частотные списки упорядочиваются по убыванию частоты (хотя могут в алфавитном порядке), каждой лексической единице присваивается ранг, определяющий порядковый номер единицы (иногда он также присваивается в соответствии с частотами - тогда единицам, имеющим один частотный показатель, присваивается и один ранговый показатель). Однако абсолютные частоты имеют очевидный недостаток - они говорят об особенностях анализируемого текста, но не позволяют проводить сравнительный анализ с другими словарями, что существенно сокращает функциональность словарей. По этой причине частотные словари так же сопровождаются информацией об относительной частоте. Относительные показатели - основные статистические величины, представляющие собой «деления одного абсолютного показателя на другой и выражает соотношение между количественными характеристиками» [Кашина и др. 2012: 49]. Например, рамках данного исследования это позволяет изучать динамику лексического развития русского рассказа. При сопоставлении с другими корпусами это помогло бы проследить жанровые особенности, общеязыковые особенности конкретного периода времени и пр. Ввиду возможной неравномерности выборок в лингвистических исследованиях используют показатель ipm (от англ. instances per million - случаи на миллион). Для его получения необходимо абсолютную частоту лексической единицы разделить на объем выборки и умножить на 1 000 000.

1.4 Основа исследования: Корпус русского рассказа первой трети ХХ века

Первая треть XX века в России - один из наиболее насыщенных трагическими событиями период в отечественной истории. В начале века Россия оказалась на пороге кризиса, требовались перемены. Это спровоцировало ряд последующих революционных движений, восстаний, переворотов и войн. Нестабильная обстановка, множество идейных течений, необходимость радикальных решений и действий - все это, безусловно, имело последствия не только в политической области, но и культурной. Язык и, как следствие, литература - наиболее чувствительные к изменениям аспекты культуры. По этой причине вышеупомянутые события оказали на эти аспекты сильное влияние. Для осознания этих последствий была создана Компьютерная антология русского рассказа первой трети ХХ века: «… для осознания масштабности <…> трансформаций языка необходимо применение строгих количественных методов, анализ представительного объема языкового материала на разных лингвистических уровнях и сравнение разных хронологических срезов в динамическом аспекте» [Мартыненко и др. 2018а: 98].

Данная работа продолжает серию исследований, основанных на Корпусе русского рассказа первой трети двадцатого века, где более подробно уже излагались принципы создания корпуса, методика и исследовательский потенциал (см. напр. [Мартыненко и др. 2018а; Мартыненко и др. 2018б]). Подчеркнем еще раз тот факт, что несмотря на то, что целью данного исследования является изучение лексических особенностей прозы, в его основе лежит анализ жанра рассказа. Составители Корпуса отмечают, что этот жанр в наибольшей степени показателен в контексте прослеживания социальных процессов: «<…> Эти волны позволяют выявить с помощью рассказа всплески и спады социальной динамики. То есть рассказ выступает в роли диагноста социальных процессов» [Мартыненко и др. 2018а: 99]. А. О. Гребенников и Т. Г. Скребцова также отмечают значимость жанра рассказа в условиях трагических исторических событий, связывая это с предположением о том, что в рассказе могут прослеживаться «сигналы» о наступлении кризисных ситуаций в виде стилистических изменений [Гребенников, Скребцова 2019: 85].

Данный корпус включает триста десять рассказов, написанных в период с 1900 по 1930 годы. Выборка производилась случайным образом, т.е. объем рассказов, тема, известность авторов не учитывались. Поскольку проследить динамику развития языка можно лишь в сравнении, в данной работе корпус условно разделен на три подкорпуса в соответствии с годами написания произведений. Как было отмечено, в течение тридцати указанных лет происходили многие важные исторические события, а потому предполагается, что вместе с ними менялся язык, менялись настроения в обществе, и это, безусловно, отражалось в литературе. Временные рамки подкорпусов для сравнительного анализа следующие: 1900-1913, 1914-1922, 1923-1930 гг.

1.5 Методика исследования

Данное исследование - результат анализа лексических особенностей русской прозы первой трети ХХ века. В качестве материала для данного исследования послужил Корпус русского рассказа первой трети ХХ века. Материал указывает на то, что особенности прозы в контексте данного исследования ограничиваются жанром рассказа. Безусловно, в дальнейшем подобное исследование может быть проведено на основе более репрезентативного корпуса, включающего иные прозаические жанры, что позволит провести сопоставительный межжанровый анализ для расширения полученных результатов.

Для проведения исследования требовалась подготовка материала. Часть корпуса, а именно 100 рассказов, написанных в период с 1900 по 1913 гг., уже была подготовлена к анализу частотного распределения лексики рассказов [Березина 2019]. В связи с этим лишь для части текстов (210), представленных в Корпусе русского рассказа, была произведена автоматическая обработка в программе MyStem [Mystem], основной функцией которой является морфологический анализ текстов. В рамках данного исследования программа использовалась для лемматизации всех текстов.

Полученные с помощью MyStem данные требовали упорядочения и создания точных списков словоформ и лемм для дальнейшего анализа. Для этих целей была использована базовая программа MS Excel. С помощью «умных» таблиц выдача MyStem была упорядочена, далее с помощью сводных таблиц были созданы отдельные таблицы для частотных словарей (по словоформам и леммам) таким образом, чтобы каждый рассказ был снабжен информацией о частотности словоформ и лемм (абсолютные частоты и относительные в ipm).

После создания частотных словарей для каждого рассказа по отдельности требовалось создать общий частотный словарь рассказов первой трети ХХ века, написанных в период с 1900 по 1930 гг. Для сопоставительного анализа распределения частот в рассказах по условным периодам первой трети ХХ века также были созданы три частотных словаря для рассказов, написанных в рамках следующих трех периодов: 1900 - 1913, 1914 - 1922, 1923 - 1930. Кроме того, были созданы два частотных словаря для рассказов, написанных мужчинами и женщинами, и сопоставлены в дальнейшем.

Поскольку первостепенной задачей является не получение массива данных (хотя это является значительной частью проделанной работы), а его интерпретация, для всех получившихся частотных словарей (как для отдельных по каждому рассказа, так и для общих) были просчитаны следующие статистические меры:

1) объем выборки (tokens)

2) объем выборки (types)

3) количество однократных слов (hapax)

4) количество многократных слов

5) индекс лексического разнообразия (TTR - types/tokens ratio)

6) соотношение суммы однократных слов и всей выборки

7) соотношение сумм однократных и многократных слов

Для большей наглядности при сравнительном анализе частотного распределения некоторых лемм по Корпусу русского рассказа с данными по более представительным корпусам (см. подробнее в главе 3) были построены графики с маркерами.

Для извлечения ключевой лексики и ее категоризации была использована программа AntConc [Anthony 2019], предназначенная для обработки корпусов текстов. В качестве анализируемого корпуса использовался один из трех частотных словарей, разделенных по условным периодам, а в качестве референсного - два оставшихся. Ключевая лексика в AntConc определяется по умолчанию с помощью функции логарифмического правдоподобия (подробнее см. [Anthony 2014]).

ГЛАВА 2. ОБЩИЙ АНАЛИЗ ЧАСТОТНЫХ СЛОВАРЕЙ КОРПУСА РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ ХХ ВЕКА

2.1 Общий частотный словарь лемм

В первую очередь, необходимо отметить, что материалом для данного исследования, как уже было сказано, послужил Корпус русского рассказа, состоящий из трехсот произведений и разделенный на три условных подкорпуса. Также, несмотря на то что при отборе текстов, вошедших в корпус, их объем не учитывался, для сбалансированности выборки при частотном анализе было принято решение сократить наиболее объемные из рассказов до 9000 слов. В их число вошли следующие девять рассказов: «Рассказ о семи повешенных» Л. Н. Андреева, «Пока» В. В. Муйжеля, «В чужой шкуре» П. А. Оленина-Волгаря, «Сосед» И. Д. Сургучева, «Закон яблока» Н. Н. Зарудина, «Гадюка» А. Н. Толстого, «Как Иван провел время» С. П. Подъячева, «Экзамен» В. Р. Гравишкиса, «За колючей проволокой» К. Я. Левина, «Черное золото» М. Г. Сивачева.

282 рассказа корпуса написаны авторами-мужчинами, 28 рассказов написаны авторами-женщинами. Объем всех рассказов составляет 1042794 словоупотреблений, 40791 лемма. Абсолютные частоты колеблются от 46566 до 1. Индекс лексического разнообразия (TTR) - 0,039. Количество однократных слов (гапакс) - 15283. Количество многократных слов - 25508. Соотношение суммы однократных слов и объема всей выборки - 0,0146. Соотношение сумм однократных слов и многократных - 0,0148. Подробную статистику по каждому рассказу выборки можно найти в приложении (см. прил. А). На основании получившихся данных по всем рассказам можно сделать общие выводы о том, что индекс лексического разнообразия уменьшается с увеличением текста, а также, что в меньших по объему текстах больший процент однократных слов. Для более глубокого анализа лексического разнообразия авторов следует ограничить выборку до схожих по объему рассказов, однако такой анализ может служить основой для отдельного исследования.

Для анализа лексических особенностей русского языка прозы первой трети XX века было составлено несколько частотных словарей. Прежде чем перейти к более предметному описанию данных также необходимо оговориться, что так называемые стоп-слова, обычно исключаемые при анализе частотных словарей и состоящие из служебных частей речи (таких как союз, предлог и пр.), в этой работе не использовались. В рамках данного исследование это не представляется логичным, поскольку при более глубоком анализе количественных данных в дальнейшем будет возможно определить индивидуальные авторские особенности и даже служебные части речи могут сказать многое о языке отдельных авторов.

Для начала рассмотрим частотный словарь всех рассказов, написанных в период с 1900 по 1930 годы (см. табл. 1). Поскольку словари достаточно объемные, данные в работе будут представлены частично, однако расширенные списки можно найти в приложении (см. прил. Б). В таблице 1 продемонстрирована верхняя зона наиболее активной лексики (50 наиболее частотных лемм) исследуемого периода. Как видно, каждой лемме присвоен ранг, абсолютная частота по всей выборке, а также частота в ipm. Самыми частотными леммами оказались следующие: и, в, не, он, на, я, быть, с, что, а. Примечательно, что их количество в сумме составляет примерно 18%, т. е. 1/5 всей выборки, а на верхнюю зону, в количестве 50 наиболее частотных лемм, приходится около 33,8%. Этот факт примечателен, поскольку всего в анализируемых текстах встретилась 40791 лемма. Необходимо отметить, что верхняя зона представлена в большей степени служебными частями речи, среди которых союзы, предлоги, частицы.

Таблица 1 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1900 по 1930 гг. (верхняя зона)

Ранг	Лемма	Кол-во	IPM	Ранг	Лемма	Кол-во	IPM
1	и	46566	44655	26	свой	4236	4062
2	в	26064	24994	27	от	4131	3961
3	не	19141	18355	28	так	4121	3951
Ранг	Лемма	Кол-во	IPM	Ранг	Лемма	Кол-во	IPM
4	он	18136	17391	29	из	3918	3757
5	на	18033	17292	30	мы	3811	3654
6	я	15883	15231	31	же	3700	3548
7	быть	12343	11836	32	да	3328	3191
8	с	11937	11447	33	сказать	3222	3089
9	что	11714	11233	34	говорить	3145	3015
10	а	10795	10351	35	глаз	3077	2950
11	она	9461	9072	36	рука	3047	2921
12	как	8224	7886	37	один	3043	2918
13	к	6550	6281	38	человек	3039	2914
14	у	5930	5686	39	его	2956	2834
15	то	5537	5309	40	только	2943	2822
16	по	5473	5248	41	о	2825	2709
17	это	5221	5006	42	еще	2798	2683
18	за	5202	4988	43	себя	2717	2605
19	ты	5189	4976	44	вот	2599	2492
20	они	5131	4920	45	который	2586	2479
21	но	4928	4725	46	когда	2502	2399
22	все	4596	4407	47	тот	2432	2332
23	вы	4519	4333	48	становиться	2420	2320
24	весь	4518	4332	49	мочь	2417	2317
25	этот	4406	4225	50	бы	2371	2273

2.2 Сравнительный анализ языка русского рассказа первой трети XX века

Поскольку, как уже было отмечено, язык чувствителен к любым изменениям «извне» и находится в постоянном развитии, для выявления лексических особенностей русского рассказа первой трети XX века необходим сравнительный частотный анализ. Именно по этому причине помимо общего словаря были составлены также три частотных словаря, соответствующих вышеуказанным временным периодам, статистическая информация о которых представлена ниже.

Таблица 2 - Статистика по первому периоду (1900 - 1913 гг.)

Статистическая мера	Показатель
объем выборки (tokens)	362423 словоупотребления
объем выборки (types)	21879 лемм
количество однократных слов (hapax)	8431
количество многократных слов	13448
индекс лексического разнообразия (TTR - types/tokens ratio)	0,06
соотношение суммы однократных слов и всей выборки	0,0232
соотношение сумм однократных и многократных слов	0,0238

Таблица 3 - Статистика по второму периоду (1914 - 1922 гг.)

Статистическая мера	Показатель
объем выборки (tokens)	284273 словоупотребления
объем выборки (types)	21611 лемм
количество однократных слов (hapax)	8885
количество многократных слов	12726
индекс лексического разнообразия (TTR - types/tokens ratio)	0,076
соотношение суммы однократных слов и всей выборки	0,031
соотношение сумм однократных и многократных слов	0,0322

Таблица 4 - Статистика по третьему периоду (1923 - 1930 гг.)

Статистическая мера	Показатель
объем выборки (tokens)	396098 словоупотребления
объем выборки (types)	28445 лемм
количество однократных слов (hapax)	11611
количество многократных слов	16834
индекс лексического разнообразия (TTR - types/tokens ratio)	0,071
соотношение суммы однократных слов и всей выборки	0,029
соотношение сумм однократных и многократных слов	0,03

Данные словари содержательно соответствуют общему, т. е. включают список 50 наиболее частотных лемм с рангом, абсолютной частотой, а также частотой в ipm для каждой из них. Так, удалось выяснить, что все три периода представлены практически идентичной верхней зоной наиболее частотных лемм, среди которых встречаются следующие: и, в, он, не, я, на, быть, что, с, она.

Однако, если обратить внимание на количественные данные, становится очевидно, что в то время, как на первые десять лемм первого периода приходится 19% выборки (см. табл. 5), то во втором периоде соответствующий показатель равен 18,5% (см. табл. 6), а в третьем - всего 16,4% (см. табл. 7). Отметим, что для общего словаря всей первой трети века этот показатель был равен 18%. В целом, следует отметить, что для третьего отрезка времени, ознаменованного ранним советским периодом, характерно появление множества новых слов, ввиду становления новых общественно-политических движений и организаций [Martynenko et al. 2019]. Это не могло не отразиться на частотности верхней зоны. Если же расширить рассматриваемые леммы до первых 50, окажется, что нижняя зона представлена большим разнообразием лемм. В процентном соотношении на первые по частотности 50 слов первого периода приходится 35,5%, во втором периоде этому показателю соответствует 34,2%, а в третьем периоде, вполне ожидаемо, - всего 32%. Предположительно, такая тенденция действительно может быть связана с развивающимся лексическим разнообразием с течением времени. Среди наиболее частотных слов (помимо отмеченного выше списка, состоящего преимущественно из служебных частей речи) во всех частотных списках встречаются следующие слова, вероятно, отражающие повествовательный характер рассказа, а также тематическое поле (предполагается, что в основе сюжета рассказа в первую очередь лежит интерес к человеку, его жизни): говорить, сказать, человек, глаз, рука, мочь, становится, знать.

Для большей наглядности в Приложении В представлена таблица с сопоставленными показателями частот.

Таблица 5 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1900 по 1913 гг. (верхняя зона)

Ранг	Лемма	Кол-во	IPM	Ранг	Лемма	Кол-во	IPM
1	и	17687	48802	26	вы	1602	4420
2	в	8799	24278	27	так	1493	4119
3	он	7320	20197	28	же	1401	3865
4	не	6600	18210	29	от	1352	3730
5	я	6122	16891	30	из	1300	3586
6	на	5662	15622	31	его	1210	3338
7	быть	4689	12937	32	да	1176	3244
8	что	4682	12918	33	который	1173	3236
9	с	4239	11696	34	мы	1168	3222
10	она	4196	11577	35	себя	1160	3200
11	а	3352	9248	36	сказать	1143	3153
12	как	3014	8316	37	один	1104	3046
13	к	2200	6070	38	человек	1088	3002
14	то	2106	5810	39	говорить	1076	2968
15	это	2055	5670	40	глаз	1071	2955
16	они	1979	5460	41	только	1061	2927
17	этот	1873	5167	42	о	1024	2825
18	у	1861	5134	43	рука	1009	2784
19	но	1837	5068	44	еще	1001	2761
20	ты	1812	4999	45	мой	938	2588
21	все	1786	4927	46	бы	932	2571
22	по	1750	4828	47	мочь	927	2557
23	свой	1670	4607	48	становиться	923	2546
24	за	1665	4594	49	такой	912	2516
25	весь	1653	4560	50	вот	888	2450

Таблица 6 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1914 по 1922 гг. (верхняя зона)

Ранг	Лемма	Кол-во	IPM	Ранг	Лемма	Кол-во	IPM
1	и	13386	47088	26	вы	1181	4154
2	в	6927	24367	27	от	1134	3989
3	не	5349	18816	28	этот	1079	3795
4	на	4965	17465	29	из	1074	3778
5	он	4936	17363	30	мы	1032	3630
6	я	3965	13947	31	говорить	1001	3521
7	быть	3345	11766	32	же	993	3493
8-9	с	3261	11471	33	да	950	3341
	а			34	сказать	887	3120
10	что	3176	11172	35	человек	873	3070
11	она	2381	8375	36	только	865	3042
12	как	2118	7450	37	рука	847	2979
13	к	1920	6754	38	один	839	2951
14	у	1625	5716	39	о	828	2912
15	то	1579	5554	40-41	его	816	2870
16	ты	1508	5304		глаз
17	по	1488	5234	42	тот	743	2613
18	они	1428	5023	43	еще	736	2589
19	за	1418	4988	44	вот	723	2543
20	но	1413	4970	45	когда	719	2529
21	это	1357	4773	46	который	713	2508
22	все	1327	4668	47	становиться	694	2441
23	свой	1233	4337	48	себя	688	2420
24	весь	1193	4196	49	бы	638	2244
25	так	1183	4161	50	знать	620	2181

Таблица 7 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1922 по 1930 гг. (верхняя зона)

...

Ранг	Лемма	Кол-во	IPM	Ранг	Лемма	Кол-во	IPM
1	и	15493	39114	26	из	1544	3898
2	в	10338	26099	27	все	1483	3744
3	на	7406	18697	28	этот	1454	3670
4	не	7192	18157	29	так	1445	3648
5	он	5880	14844	30	свой	1333	3365
6	я	5796	14632	31	же	1306	3297
7	с	4437	11201	32	да	1202	3034
8	быть	4309	10878	33	сказать	1192	3009
9	а	4182	10557	34	рука	1191	3006
10	что	3856	9734	35	глаз	1190	3004
11	как	3092	7806	36	один	1100	2777
12	она	2884	7281	37	человек	1078	2721
13	у	2444	6170	38	говорить	1068	2696
14	к	2430	6134	39	еще	1061	2678
15	по	2235	5642	40	только	1017	2567
16	за	2119	5349	41	вот	988	2494
17	ты	1869	4718	42	о	973	2456
18	то	1852	4675	43	его	930	2347
19	это	1809	4567	44	когда	908	2292
20	вы	1736	4382	45	мочь	873	2204
21	они	1724	4352	46	себя	869	2193
22	но	1678	4236	47	такой	860	2171
23	весь	1672	4221	48	тот	840	2120

Страница:

дипломная работа "Лексические особенности русской прозы первой трети ХХ века (на материале частотных словарей)" скачать

Подобные документы

Отражение активных процессов русского языка в прозе первого десятилетия XXI века (лексика, синтаксис)
Исследование лексических и синтаксических языковых процессов в русской прозе начала ХХI века. Анализ сущности активных процессов в языке современной прозе. Приемы интертекстуальности в языковой композиции. Лексико-синтаксические особенности текстов прозы.

дипломная работа [84,7 K], добавлен 18.06.2017
Особенности русско-французского билингвизма женщин-дворянок первой половины XIX века
Историческая двуязычность русской культуры. Изучение речи российских женщин-дворянок начала XIX века на материале писем. Специфика культурно-языковой ситуации, развитие и особенности эпистолярного жанра.

дипломная работа [54,7 K], добавлен 14.06.2007
Научный стиль. Виды компрессии текста
Формирование языка русской науки в первой трети XVIII в. Сфера применения научного стиля. Логичность, последовательность, ясность и точность научной речи. Насыщенность терминами и использование абстрактной лексики. Языковые средства научного стиля.

контрольная работа [28,7 K], добавлен 12.10.2009
Словари русского языка
История словарей, их функции. Сущность толкового и терминологического их видов. Систематизация неологизмов, иностранных слов, переводческих терминов, фразеологизмов. Анализ нового в русской лексике. Использование словарей для проверки орфографии.

презентация [581,0 K], добавлен 26.10.2014
Стилистические особенности перевода с английского языка на русский (на материале художественного текста-сказки "Винни пух и все-все-все")
Характеристика стилистических особенностей художественного текста. Стиль детской литературы. Приемы перевода художественного текста для придания эмоционального эффекта. Эмоциональная выразительность языка перевода произведения "Винни Пух и все-все-все".

курсовая работа [87,2 K], добавлен 24.10.2014
Характер изменений в системе русского языка конца XX века
Рассмотрение особенностей лексикографического описания значения слов в "Толковом словаре современного русского языка". Характер языкового изменения века - использование как традиционных, так и ранее находящихся на периферии моделей образования слов.

реферат [32,5 K], добавлен 20.03.2011
Анализ языковых средств объективации концепта "Город" в системе поэтических текстов поэзии Серебряного века
Семантический потенциал слова город в словообразовательной и лексической системах русского языка. Содержание концепта "Москва" и "Петербург" в поэзии Серебряного века, отражающих представления носителей русской культуры о явлениях действительности.

дипломная работа [114,5 K], добавлен 26.02.2011
Семантико-когнитивные, языковые и гендерные способы аттракции на материале англоязычного и русскоязычного дискурса знакомств
Особенности электронного дискурса. Типы информации в тексте знакомств. Когнитивный и гендерный аспекты исследования дискурса. Гендерно-языковые особенности дискурса знакомств. Сравнительный анализ английского и русского дискурса с позиции аттракции.

курсовая работа [40,1 K], добавлен 02.01.2013
Особенности языка М.А. Шолохова и перевод
Особенности художественного текста. Его адекватный и эквивалентный перевод. Проблема изучения коннотаций. Творчество М.А. Шолохова и его место в мировой литературе. Изучение коннотативно-окрашенных элементов прозы писателя и анализ способов их перевода.

дипломная работа [84,1 K], добавлен 13.10.2015
Значение словарей в жизни человека
Русская лексикография и составление словарей. Классификация словарей: этимологические, толковые, синонимические, фразеологические, орфографические и словари трудностей русского языка. Исследование известных словарных изданий. Издание словарей-библиотек.

дипломная работа [31,7 K], добавлен 07.05.2009
Словарная разработка русской фразеологии
Фразеологизм: сущность и понятие. Классификация единиц фразеологического состава. Лексикографическая разработка русской фразеологии. Словари фразеологизмов русского языка. Идеографический словарь. Словарь крылатых слов. Российская лексикография.

реферат [8,4 M], добавлен 31.05.2008
Языковые формулы русской волшебной сказки и их перевод на французский язык
Специфика русской волшебной сказки как универсального жанра русского фольклора. Волшебная сказка - особенности и языковые формулы. Понятие и виды мотивов в русской волшебной сказке. Трансформации при переводе русской волшебной сказки на французский язык.

курсовая работа [49,1 K], добавлен 21.09.2016
Лексические трансформации на материале произведения Дж. Фоера "Жутко громко и запредельно близко"
Знакомство с лексическими трансформациями в переводе художественного текста. Анализ словарного состава английского языка. Рассмотрение особенностей лексических трансформаций на материале произведения Дж. Фоера "Жутко громко и запредельно близко".

курсовая работа [107,7 K], добавлен 19.06.2015
Изучение синонимических средств и выявление принципов составления синонимических словарей английского языка
Понятие о синонимах. Функции, значение синонимов в языке. Группировка слов и словосочетаний, носящая системный характер. Выявление значения синонимических средств. Принципы составления синонимических словарей английского языка. Активность. Двуязычность.

научная работа [18,5 K], добавлен 25.02.2009
Грамматическая система итальянского языка XV в.
Характерные черты итальянского языка, периоды его формирования, развитие грамматики. Особенности фонетики и фонологии. Формы глагола. Становление итальянского языка и фонетические описания в грамматиках первой половины XVI века. Труд по физиологии речи.

курсовая работа [1,1 M], добавлен 23.06.2015
Нормативные словари русского языка и их использование в школьной практике
Знакомство с процессом развития речи младших школьников. Характеристика основных лингвистических словарей русского языка. Нормированность речи как ее соответствие литературно-языковому идеалу. Анализ типов норм современного русского литературного языка.

дипломная работа [130,1 K], добавлен 11.02.2014
Гендерные особенности речевого поведения японцев
Дифференциация языка по полу говорящего. Особенности мужской и женской речи в языках мира. Фонетические и лексические особенности речи на материале японского языка. Новые тенденции в японском языке и их влияние на дальнейшее развитие японского языка.

дипломная работа [1,1 M], добавлен 22.06.2012
Русско-французский билингвизм в языковой культуре российских дворян первой половины XIX века
Билингвизм как культурный феномен. Проблематика билингвизма в лингвистике. Коммуникативные ситуации и речевой этикет в условиях русско-французского двуязычия русских дворян начала XIX века. Эпистолярный жанр и эпистолярная традиция в Европе и в России.

диссертация [202,4 K], добавлен 01.04.2011
Роль Ломоносова в развитии научного стиля и формировании научной терминологии
Понятие научного стиля. Русский литературный язык второй половины XVIII века. Роль Ломоносова в формировании русского языка. Собирание словарных материалов для исторического изучения русского языка. Обогащение русской терминологической лексики.

реферат [18,6 K], добавлен 18.11.2006
Речевая структура прозы А.П. Чехова на примере текста новеллы "Хамелеон"
Особенности художественной прозы А.П. Чехова. Понятие текста как единого целого. Исследование отдельных грамматических единиц (падежных и глагольных форм, союзов, частиц, предлогов) в тексте новеллы "Хамелеон". Употребление частиц, глагольная лексика.

курсовая работа [116,0 K], добавлен 26.10.2014

Другие документы, подобные "Лексические особенности русской прозы первой трети ХХ века (на материале частотных словарей)"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Лексические особенности русской прозы первой трети ХХ века (на материале частотных словарей)

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

ВВЕДЕНИЕ

1.1 Языковые особенности как основа понимания художественного текста

1.2 Лексические особенности художественного текста: корпусные исследования

1.3 Частотный словарь: принципы составления и применения

1.4 Основа исследования: Корпус русского рассказа первой трети ХХ века

1.5 Методика исследования

ГЛАВА 2. ОБЩИЙ АНАЛИЗ ЧАСТОТНЫХ СЛОВАРЕЙ КОРПУСА РУССКОГО РАССКАЗА ПЕРВОЙ ТРЕТИ ХХ ВЕКА

2.1 Общий частотный словарь лемм

2.2 Сравнительный анализ языка русского рассказа первой трети XX века

Таблица 2 - Статистика по первому периоду (1900 - 1913 гг.)

Таблица 3 - Статистика по второму периоду (1914 - 1922 гг.)

Таблица 4 - Статистика по третьему периоду (1923 - 1930 гг.)

Для большей наглядности в Приложении В представлена таблица с сопоставленными показателями частот.

Таблица 5 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1900 по 1913 гг. (верхняя зона)

Таблица 6 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1914 по 1922 гг. (верхняя зона)

2870

Таблица 7 - Фрагмент частотного списка лемм Корпуса русского рассказа с 1922 по 1930 гг. (верхняя зона)

Подобные документы