Диалектная лексика

Измерение лексической диалектности носителей. Совершенствование словаря нераспознанных лексем и создание грамматического словаря на основе всех слов корпуса. Сравнение лексических и фонетических показателей. Улучшение интерфейса для работы со словарем.

Рубрика Иностранные языки и языкознание
Вид курсовая работа
Язык русский
Дата добавления 01.07.2017
Размер файла 106,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ДИАЛЕКТНАЯ ЛЕКСИКА

Оглавление

Введение

1. Измерение диалектности

1.1 Обзор существующих подходов

1.2 Измерение диалектности

1.3 Сравнение лексических и фонетических показателей

1.4 Частотный список

2. Работа над словарем нераспознанных лексем

3. Создание грамматического словаря

Заключение

Список использованных источников и литературы

Приложение 1

Приложение 2

Введение

В данной работе можно выделить три задачи, которые необходимы для дальнейших исследований, основанных на Устьянском корпусе. В них входят измерение лексической диалектности всех носителей, совершенствование словаря нераспознанных лексем и создание грамматического словаря на основе всех слов корпуса.

Все эти задачи имеют практическое значение.

Первая задача, измерение диалектности, необходима для того, чтобы увидеть, какие поколения и носители более диалектны. Это в свою очередь может помочь исследователям устьянского диалекта, так как создаст возможность получить готовую информацию о лексической диалектности носителей. В основе этой задачи лежит гипотеза о том, что старшее поколение более диалектное. Проблема состоит в том, что невозможно точно определить, какое поколение считать более консервативным. Для этого и нужен автоматическое измерение диалектности, чтобы понять, какое поколение использует больше диалектных слов. Кроме того, были рассмотрены некоторые работы по диалектометрии, а также работа (Daniel et al. 2017), результаты которой сравнивались с результатами измерения лексической диалектности.

Совершенствование словаря нераспознанных лексем также важно для будущих исследований на основе корпуса, так как в нем имеются определения слов, которые встречаются в корпусе. Работа над словарем началась ещё в прошлом году, но осталось ещё некоторое количество нерешенных проблем. Так, собственные толкования в словаре были неточными, и для их уточнения была совершена поездка в поселок Октябрьский Архангельской области. Кроме того, были сделаны некоторые улучшения интерфейса для более удобной работы со словарем.

Наконец, грамматический словарь будет полезен для исследователей, так как будет возможность увидеть парадигмы для всех слов, представленных в корпусе.

Для всех представленных выше задач использовались разные методы, в основном программные. Для первой задачи была написана программа на языке Python, которая считает количество диалектных слов во всех текстах корпуса. Для грамматического словаря использовалась программа, преобразующая данные из таблицы excel в html-разметку. Кроме того, использовалась программа автоматического морфологического анализа русских письменных текстов Mystem, разработанная компанией Яндекс. Систематизирование данных производилось в программе Microsoft Excel. Для совершенствования словаря нераспознанных лексем не использовалось никаких новых программных методов. Данные собирались в поселке Октябрьский и далее систематизировались в программе Microsoft Excel. Затем данные были преобразованы в html-разметку с помощью программы на языке Python, которая использовалась для первой версии словаря.

В первой главе описана процедура измерения диалектности, во второй - работа над совершенствованием словаря нераспознанных лексем, и, наконец, в третьей главе описан процесс создания грамматического словаря.

1. Измерение диалектности

Первая задача данной работы состоит в измерении лексической диалектности говорящих. Диалектность здесь понимается как количество диалектных слов, употреблявшихся носителем. При исследованиях диалектных особенностей зачастую необходимы данные только наиболее "диалектных" поколений, так как именно в их речи определенные черты ярко выражены. Принято считать, что самое старшее поколение носителей является более диалектным, не опираясь при этом на точные цифры. Задача, поставленная в данном разделе, состоит в том, чтобы получить точные данные о диалектности носителей устьянского говора.

1.1 Обзор существующих подходов

Существует такое направление диалектологии, как диалектометрия. Это метод статистического анализа диалектных данных, при помощи которого можно измерить языковую близость диалектов определенной территории. Несмотря на то, что данный раздел нельзя полностью отнести к диалектометрии, так как использованные в работе статистические методы гораздо проще, и основной подсчет диалектности выполнялся в программе на языке Python, хотелось бы остановиться на существующих подходах в диалектометрии, чтобы оценить разницу в задачах и методах их решения.

Для обзора существующих подходов была выбрана работа (Nerbonne, Kretzschmar 2003), так как она содержит материалы, представленные на конференции Methods in Dialectology XI в 2002 году. Таким образом, сама статья является обзором некоторых методов в диалектометрии. Всего в статье представлено 6 работ со специальной сессии, проведенной во время конференции. Это работы (Heeringa, Braun 2003), (Kondrak 2003), (Heeringa, Gooskens 2003), (Speelman et al.2003), (Nerbonne, Kleiweg 2003), (Palander et al. 2003).

В статье (Heeringa, Braun 2003) измеряется расстояние между диалектами (dialect distances). Измерение расстояний может быть основано на сравнение слов, которое в свою очередь должно быть основано на сравнении звуков. В работе используется алгоритм Левенштейна для сравнения слов с двумя вариантами произношения. Данная техника применялась на 360 диалектах нидерландского языка для измерения верности фонетических транскрипций. При классификации диалектов было получено деление, схожее с делением в традиционных диалектологическими картами. Кроме того, исследование показало, что использование логарифмических расстояний между звуками (logarithmic sound distances) улучшаает результаты по сравнению с использованием постоянных расстояний между звуками (constant sound distances).

В работе (Kondrak 2003) использовался тот же алгоритм для измерения расстояния между строками, что и в предыдущей статье, для выравнивания строк. Такие выравнивания, по мнению автора, полезны для того, чтобы проверять работоспособность алгоритма. Кроме того, выравнивание - это запись регулярных соответствий того типа, который лингвисты приводят в качестве доказательства, когда приписывают историческое родство двум переменным (либо генеалогическое, либо контактное).

Работа (Heeringa, Gooskens 2003) фокусируется на измерении разницы в произношении, основываясь не на фонетических транскрипциях, а на звуковых записях. С этим подходом связано достаточное количество проблем (записи должны быть сделаны в одинаковых условиях, нужно абстрагироваться от нелингвистических характеристик вроде высоты тона, исправлять разницу в скорости речи и разбить запись на сегменты). Авторы работы по мере возможностей преодолели указанные проблемы и преобразовали алгоритм Левенштейна для того, чтобы получить меру акустической разницы с помощью расстояния простой кривой.

Авторы работы (Speelman et al. 2003) фокусируются на технике использования относительной частоты слов, которые могут рассматриваться как альтернативные лексикализации) как способ измерения разницы между переменными. Цель работы - показать преимущества использования профилей (собрание информации о частотности) по сравнению с использованием частот без ссылок на альтернативы. Авторы сравнивают голландский и фламандский нидерландский и собирали информацию о частотности из газет, интернет-чатов и форумов. Они показали, что разумный выбор профилей приводит к такому измерению расстояния, при котором материалы из чатов и газет четко различаются, а частота без ссылок на альтернативы менее успешна.

Работа (Nerbonne, Kleiwig 2003) основана на лингвистическом атласе штатов Средней и Южной Атлантики. Авторы применяют понятие расстояний Seguy в категориальных данных, чтобы проверить, прав ли был Курат в постулировании понятия "Midland" в данных атласа. В статье используются две методики: обработка анкет, для которых было записано больше одного ответа, и способ обработки связанных, но не идентичных ответов, для чего использовалось измерения расстояния между строками. Результат подтверждает правоту Курата, хотя авторы отмечают, что анализ зависит от кластеризации.

Авторы работы (Palander et al. 2003) интересуются тем, что происходит в диалектах на границах между диалектными областями. Они сосредотачиваются на финских диалектах, на которых говорят жители Карелии и Саво вблизи российской границы. В качестве основы для работы выбраны десять лингвистических переменных, и работа основывается не на относительных частотах, а скорее на логарифмах отношений правдоподобия, которые они считают предпочтительными математически. В основе анализа лежит сравнение средних значений признаков в округах (parishes) и значений в речи отдельных говорящих. Авторы показывают, что различия между отдельными говорящими очень велики в переходных областях, настолько велики, что эти говорящие фактически ближе к другим приходам по свойствам, которые были исследованы.

Таким образом, видно, что для решения различных диалектометрических задач могут использоваться самые разнообразные методы, и это направление диалектологии активно развивается по настоящее время.

1.2 Измерение диалектности

Для измерения диалектности использовались программа https://github.com/dkalashnikova/dialectCount на языке Python, список диалектных слов, полученный в работе (Калашникова 2016) и все тексты Устьянского звукового корпуса, предоставленные Рупрехтом фон Вальденфельсом.

Программа для измерения диалектности получилась довольно масштабной, так как нужно было учитывать много разных аспектов. Например, требовалось решить, что считать словом и что включать в конечный список слов. Среди текстов существовали слова, содержащие дефис, вроде "давным-давно", "кто-нибудь". В случае с частицами "-то", "-либо", "-нибудь", было решено считать их за одно слово, а в остальных случаях делить на разные. Кроме того, существовал "мусор" вроде "оборванных" слов, примечаний расшифровщиков и слов, которые расшифровщик не расслышал. Такие случаи были удалены с помощью программы.

Отдельно стоит отметить и некоторые ограничения данной программы. Так, программа работает на данных, полученных в ходе предыдущей работы над словарем нераспознанных лексем (Калашникова 2016). Список диалектных лексем, оставшийся с прошлого года, не обновлялся, поэтому допустимы погрешности в расчетах в силу того, что корпус пополнился новыми текстами, а список остался прежним. Кроме того, в список входили только нераспознанные лексемы, поэтому, например, в списке диалектных слов отсутствует слово "бают", но присутствует слово "бает". Это происходит потому, что внутренний морфологический анализатор корпуса включил слово "бает" в список неизвестных, а, следовательно, нераспознанных слов. Любопытно, что слову "бают" парсер приписал правильную лексему "баять". В списке нераспознанных слов не было дубликатов, то есть все словоформы уникальны. Грамматическая омонимия не учитывалась, так как различение разных форм - задача куда более сложная. Диалектные слова представляли собой список всех словоформ, представленных в списке нераспознанных лексем, впоследствии помеченных как диалектные. Например, в списке последовательно идут слова "аржаная", "аржаной", "аржаные", и каждое слово считалось программой за уникальное вхождение.

В конечном итоге, программа получала на "вход" список диалектных слов в формате txt и тексты всех носителей. Далее программа для каждого информанта искала диалектные слова из списка в текстах данного конкретного говорящего. Результаты записывались в текстовый файл, отдельный для каждого носителя, где указывались количество диалектных слов, общее количество слов для данного информанта, список диалектных слов с количеством употреблений. Тексты интервью для удобства анализа были записаны в отдельные файлы. Кроме того, общие данные по всем информантам были записаны в таблицу csv.

С помощью программы был обработан 171 текст из корпуса для 73 информантов. Общее количество слов для всех носителей - 501536. Список диалектных слов состоял из 1642 употреблений. Диалектностью считалось отношение диалектных слов к общему количеству слов определенного информанта. Результаты измерения можно увидеть в таблице 1. Для более удобного представления данных диалектность указана в процентах.

Таблица 1. Диалектность информантов (по убыванию диалектности).

Информант

Количество диалектных слов

Общее количество слов

Диалектность, %

мит1926 Здесь и далее данные информанта указываются в следующем виде: инициалы + год рождения. Исключения составляют случаи, когда информанты не предоставляли данных о годе рождения (например, ахш, нхм) или имени (xxx1956). Кроме того, есть такие информанты как «Сноха», «Дима (внук)», «wife», «default», «xxx» и «xxx2», данные которых не приведены к общему виду.

136

6001

2,266288952

епл1926

212

10655

1,989676208

еве1950

92

4648

1,979345955

авм1922

325

17660

1,840317101

анс1925

363

20349

1,783871443

пфп1928

457

25950

1,761078998

сек1930

405

23136

1,750518672

авч1930

71

4125

1,721212121

лпп1928

43

2915

1,475128645

авт1928

73

4956

1,472962066

мик1922

160

11044

1,448750453

впч1930

19

1349

1,408450704

аит1954

146

10751

1,358013208

лсо1941

289

21471

1,346001584

мпс1935

136

10420

1,305182342

звк1941

10

782

1,278772379

мгб1949

181

15240

1,187664042

нпо1954

70

6114

1,144913314

опш1935

126

11018

1,143583227

ляп1953

71

6517

1,08945834

кип1931

37

3744

0,988247863

ппп1955

80

8524

0,938526513

егп1928

165

18634

0,885478158

мдн1933

151

17349

0,870367168

няе1952

30

3532

0,849377123

иип1951

63

7516

0,838211815

нвт1952

121

14648

0,826051338

вкч1966

59

7734

0,76286527

ппп1947

40

5637

0,709597304

офш1952

79

11189

0,706050585

ндо1958

84

12275

0,684317719

лгп1947

143

21055

0,679173593

анп1929

10

1498

0,667556742

нвл1939

17

2730

0,622710623

тан1937

18

3298

0,545785324

юап1969

7

1414

0,495049505

пнп1950

17

3585

0,474198047

ипм1956

28

6557

0,427024554

фдл1954

7

1700

0,411764706

вап1963

41

10778

0,380404528

нвп1958

1

271

0,36900369

нап1974

14

3987

0,351141209

ннт1960

38

13190

0,288097043

лнп1952

13

5760

0,225694444

свп1975

16

7307

0,218968113

нис1958

5

2338

0,213857998

мяп1951

25

12464

0,200577664

нпо1965

30

14959

0,200548165

гвп1949

22

10976

0,200437318

ффп1952

15

7603

0,197290543

нфм1961

22

11628

0,189198486

ави1958

4

2156

0,185528757

гбс1951

2

1252

0,159744409

свп1970

6

4113

0,14587892

вдк1947

9

6290

0,143084261

xxx

1

761

0,131406045

ент1968

6

4567

0,131377272

ваб1971

5

4370

0,114416476

няр1948

0

799

0

ххх1956

0

440

0

ввс1956

0

17

0

афш1958

0

1397

0

аэи1973

0

59

0

иит1991

0

410

0

анп1995

0

3669

0

всп1996

0

1689

0

default

0

3

0

xxx2

0

35

0

wife

0

39

0

Дима (внук)

0

57

0

Сноха

0

17

0

ахш

0

67

0

нxм

0

348

0

Всего

4816

501536

В таблице 1 приведены данные для всех информантов. Данные отсортированы по возрастанию уровня диалектности. Эту же таблицу, отсортированную по годам рождения, можно увидеть в Приложении 1. Из таблицы видно, что есть 15 информантов, не использующих диалектные слова вообще. Среди них вполне закономерно представители молодого поколения, но есть и носители 1948, 1956, 1958, 1973 годов рождения. Кроме того, есть носители с неуказанным годом рождения. Самое большое число диалектных слов употребляет информант пфп1928 (457 слов), но при этом носитель не является самым диалектным (1,76%). Самыми диалектными носителями являются мит1926 (2,27%), епл1926 (1,99%) и еве1950 (1,98%). При этом еве1950 несколько выбивается из гипотезы о том, что самое старое поколение более диалектно. Если принять за наибольшую диалектность показатели от 1,36% до 2,27%, то получится, что носители до 1930 года рождения действительно используют больше диалектных слов в своей речи, как и предполагалось. Однако здесь есть исключения: у информанта еве1950 процент диалектности равен 1,98, у мик1922 - 1,45%, а у аит1954 - 1,36%. Получается, что в группу наиболее диалектных информантов входят два информанта 1950-х годов рождения, что опять же несколько противоречит гипотезе. Далее следуют группы со средними показателями диалектности (от 0,47% до 1,35%) и низкими (меньше 0,43%). В группе со средними показателями невозможно выделить никакой закономерности между возрастом носителя и количеством диалектных слов. В эту группу входят носители 1922, 1928, 1929 годов рождения, наряду с носителями 30-х, 40-х, 50-х и 60-х годов рождения. В группе же с низкими показателями диалектности уже нет информантов младше 1947 года. Низкие показатели имеют информанты от 1947 до 1996 года рождения. Нулевая диалектность у носителей от 1948 года рождения до 1996 года.

На графике 1 показано распределение диалектности в зависимости от года рождения носителей. Данный график показывает, что год рождения носителей действительно влияет на их диалектность. Так, информанты до 1930-х годов имеют наиболее высокую диалектность, далее идут информанты от 1930-х до 1970-х годов рождения, и наконец, самые молодые носители.

График 1. Распределение диалектности в зависимости от года рождения.

Кроме того, на выборке из 66 информантов (для тех, у кого был указан год рождения), был проведен анализ взаимосвязи диалектности и года рождения. Для этого был посчитан коэффициент корреляции Пирсона, который в данном случае равен -0,736. Это свидетельствует о том, что между годом рождения и диалектностью присутствует значимая обратная связь, то есть диалектность действительно зависит от года рождения, что и было указано выше.

И наконец, была построена парная линейная регрессия с использованием метода наименьших квадратов для выявления данной взаимосвязи. В качестве зависимой переменной использовалась диалектность. В таблице 2 приведены параметры и показатели качества модели линейной регрессии.

Таблица 2.Параметры и показатели качества модели линейной регрессии.

Переменная

Коэффициент

Среднеквадратическое отклонение (СКО)

t-статистика

p-value

Константа

52,5917

6,0065

8,756

0,0000

Год рождения

-0,0266

0,00308

-8,633

0,0000

R-квадрат

0,5419

Скорректированный R-квадрат

0,5346

F-статистика

74,53

0,0000

СКО ошибок регрессии

0,4243

По результатам видно, что построенная регрессионная модель как в целом, так и каждый из ее коэффициентов являются статистически значимыми на уровне значимости 0,05. Таким образом, можно сделать вывод о том, что в среднем увеличение года рождения на единицу приводит к снижению диалектности на 0,0265. Коэффициент детерминации равен 0,5419, а значит, 54,2% вариации диалектности может быть объяснено при помощи данной модели. Построенная модель на графике 2 представлена красной линией.

График 2. Модель линейной регрессии.

Таким образом, видно, что старшие носители действительно используют больше диалектной лексики. При этом есть и инноваторы (использующие более литературную лексику) и консерваторы (использующие диалектную лексику). К инноваторам можно отнести представителей старшего поколения, но с относительно низкими показателями диалектности. Это носители мпс1935 (1,31%), опш1935 (1,14%), кип1931 (0,99%), егп1928(0,89%), мдн1933 (0,87%), анп1929 (0,67%). К консерваторам относятся представители более молодого поколения с достаточно высокой диалектностью: еве1950 (1,98%) и аит1954 (1,36%).

1.3 Сравнение лексических и фонетических показателей

До сих пор рассматривалась только лексическая диалектность носителей, но это не единственный способ измерения диалектности. Диалектность носителей можно измерить, опираясь на фонетический материал. Сравнивая результаты работ, основанных на фонетическом материале, можно увидеть, отличаются ли показатели лексической диалектности от фонетической.

В работе (Левин 2014) приведены данные о том, какое поколение сохранило в своей речи хотя бы частично реализацию рефлекса *к как [и], что является диалектным вариантом (литературный вариант - реализация рефлекса как [е]). В статье рассмотрены следующие случаи:

- реализация *к как [и] у информантов старшего поколения;

- реализация *к как [и] в глаголах с тематическим гласным, восходящим к *к у информантов старшего поколения;

- реализация *к как [и] у информантов разных поколений;

- реализация *к как [и] в глаголах с тематическим гласным, восходящим к *к у информантов разных поколений.

Кроме того, была рассмотрена связь частотности перехода *к в [и] и пола говорящего.

В первом случае были рассмотрены данные четырех информантов: авм1922, анс1925, пфп1928 и егп1928. Для всех информантов, кроме егп1928, в 78-84% случаев рефлекс реализуется как [и]. У егп1928 диалектный вариант встречается в 44% случаев. Самая большая сохранность диалектной черты - у информанта пфп1928 (84%). В случае с тематическими глаголами наблюдается более сильный сдвиг к литературному варианту.

В случае с разными поколениями было установлено, что реализация *к как [и] присуща более старшему поколению. Однако здесь тоже есть свои исключения. Так, у информантов егп1928 и кип1931 отмечена относительно низкая доля перехода (44% и 46% соответственно), в то время как у еве1950 (61%) доля перехода достаточно высока. В основном же доля перехода уменьшается с уменьшением возраста информантов. В случае с тематическим гласным глаголов формы ведут себя по-разному. В настоящем времени у информантов 1922-1928 годов рождения отмечена низкая доля перехода, а в прошедшем - высокая. У молодых информантов диалектные формы встречаются, например, есть переход в настоящем времени у офш1952, но доля переходов ниже, чем у старшего поколения.

Сравнение реализаций *к как [и] у информантов разного пола не дало каких-либо значимых результатов из-за недостаточного количества данных. Однако отмечено, что у информантов мужского пола разброс в сохранности диалекта меньше (от 13% до 30%), чем у информантов женского пола (от 6% до 61%).

Таким образом, статья подтвердила, что старшее поколение (до 1930 года рождения) сохраняет больше диалектных черт. Однако, так как и в данном случае есть исключения, было бы интересно посмотреть на данные этих информантов, которые приведены выше. В статье указано, что у информантов егп1928 и кип1931 доля перехода ниже, чем у других информантов этого поколения. Действительно, у егп1928 диалектность составляет 0,89%, что почти на процент ниже диалектности других информантов этого поколения. У кип1931 диалектность тоже сравнительно невысока - всего 0,99%. Диалектность информанта еве1950, как было отмечено выше, одна из самых высоких - 1,98%, что подтвердилось в статье (доля перехода - 61%). Кроме того, у информанта пфп1928 была отмечена самая большая сохранность диалектного варианта реализации рефлекса, однако диалектность этого информанта не самая высокая (1,76%), хотя сам информант входит в число носителей с высоким показателем диалектности.

Невозможно с уверенностью утверждать, от чего зависит диалектность конкретных носителей. Если посмотреть на метаданные к устьянскому корпусу, можно увидеть, что у информантов пфп1928 и егп1928 образование состоит из 4 классов, а у кип1931 и еве1950 - из 7 классов. Тем не менее, у егп1928 и кип1931 диалектность заметно меньше, чем у пфп1928 и еве1950. Таким образом, можно сделать вывод, что уровень образования не всегда влияет на диалектность носителей.

Кроме того, в работе (Daniel et al. submitted) были рассмотрены 11 переменных (включая описанную выше):

1. Возвратный постфикс -се вместо -ся (мылсе/мылся).

2. Возвратный постфикс -ся/-се вместо -сь (мылася (мыласе)/мылась).

3. Постпозитивная частица -от вместо -то (дом-от/дом-то).

4. Постпозитивная частица -ту вместо -то (жену-ту/жену-то).

5. Окончание -а/-аа и -у/-уу у прилагательных женского рода, единственного числа в именительном и винительном падежах вместо литературных -ая и -ую.

6. Отсутствие начальной "н" у местоимений третьего лица после предлогов (у его/у него).

7. Окончание -е у местоимений третьего лица и числительного "один" в именительном падеже множественного числа вместо окончания -и (оне/они, одне/одни).

8. Ударный [е] на месте этимологического *а между мягкими согласными (петеро/пятеро).

9. Реализация [е] как [и] на месте этимологического *к (сияли/сеяли).

10. Реализация глухого мягкого фрикативного согласного как "штш" или "ш" вместо "щ" (женштшина/женщина).

11. Реализация "к" как "х" перед "т" (хто/кто).

В статье рассмотрены данные 34 информантов, живших в одной деревне или в близком соседстве, во избежание диалектной неоднородности; все эти информанты были оценены с точки зрения диалектности в настоящей работе. Было показано, что для всех переменных существует корреляция между возрастом говорящего и степенью сохранения диалекта и некоторые диалектные признаки уходят из речи носителей быстрее, чем другие. В работе использовалась логистическая регрессионная модель для того, чтобы показать, что с уменьшением возраста информанта диалектных черт в его речи действительно становится меньше и динамику этого уменьшения (так как не для всех переменных утрата диалектной черты происходит с одной скоростью). Результатом исследования стало ещё и то, что некоторые переменные (такие как 2 и 5 в списке выше) имеют предсказанный низкий уровень сохранения диалекта уже у самых старых информантов. Это свидетельствует о том, что изменение переменной начало происходить, вероятно, ещё раньше.

В целом, статья подтвердила начальную гипотезу и результаты исследования в данном разделе: более старшее поколение информантов действительно более диалектно.

Таким образом, результаты анализа лексической диалектности в целом соответствуют результатам анализа фонетической диалектности у носителей устьянского говора.

1.4 Частотный список

На основе списка диалектных слов и текстов корпуса был создан частотный список, состоящий из 1642 вхождений. Помимо частотности в нем указано количество информантов, употребивших то или иное слово. Это было сделано для того, чтобы можно было увидеть не только частоту употребления слова, но и его "популярность" среди носителей. В таблице 3 представлены первые 62 наиболее частотных словоформы. Более полных список (100 вхождений) - в Приложении 2.

Таблица 3. Частотный список

Словоформа

Количество употреблений

Количество информантов

эво

374

37

дедко

125

18

робили

106

16

сейгод

89

24

робил

86

20

порато

74

24

робит

72

17

экой

71

21

робила

65

20

тамоки

62

8

эко

60

19

этто

55

14

эва

45

16

робят

39

10

люля

33

1

тутоки

32

8

починок

31

5

мезонька

30

6

видко

29

15

экого

29

11

проводины

28

10

угор

27

13

угоре

27

17

евонная

26

12

нали

25

14

мезоньки

23

4

божатка

22

5

евонный

22

14

зароды

22

11

эвон

22

9

ноне

21

3

откуль

20

6

гонили

19

13

ростили

19

11

двоимя

17

11

поветь

17

10

примерли

17

4

оттуль

16

7

эких

16

13

бает

15

4

ревит

15

6

тогды

15

7

запань

14

4

евонные

13

10

никуды

13

7

перёд

13

8

щёлок

13

3

зарод

12

7

садим

12

5

выгонить

11

4

заробишь

11

6

поробила

11

6

церквы

11

5

дерёва

10

4

дровнях

10

7

зобеньки

10

3

кудреватый

10

2

недалёко

10

10

пестерь

10

3

робишь

10

3

Из таблицы видно, что наиболее частотным словом является "эво" (374 употребления). Кроме того, оно употребляется максимальным количеством информантов (37 информантов). С большой вероятностью "эво" и "эва" являются одним словом, записанным по-разному. Кроме того, "тогды" могло быть гораздо частотнее, но в некоторых текстах оно может быть записано как "тогда". Далее идут слова "дедко" и "робили" (125 и 106 вхождений соответственно). Примечательно, что слово "люля" можно назвать относительно частотным (33 употребления), однако употреблялось оно только одним информантом (епл1926). Это связано с тем, что данное слово употреблялось в песнях, а сама говорящая ездила выступать с фольклорным ансамблем "Устьянские бабушки" в разные города. В примере (1) приведен отрывок песни, исполненный егп1926.

(1) Да. Эх, не <?> Знаком <?> отмечаются места, где слова информанта невозможно разобрать. стоит на берегу да во <? > Люля - люля - люля - лю, да - а середня стоит на берегу. А Михеюшка - то в ямочке, ой, Горка на поляночке. Ох, ля - люля - люля - люля - лю, да ой и Горка на поляночке. А в Пушкине бани на боку, а <? > не курят табаку да вот, ля - люля - люля - люля - лю, да <? > не курят табаку. Под Коростиной река глубока, а под Корякиной крутые берега. Да вот, ля - люля - люля - люля - лю, да под Корякиной крутые берега. http://parasolcorpus.org/Pushkino/context_xml_byTimeID.php?&from=2350922&file=20130704e-epl&to=2356090

Таким образом, исходя из количества повторов, вполне очевидно, почему у слова "люля" достаточно высокое количество употреблений.

В основном частотными являются местоимения или наречия, например, "евонный", "экой", "этта", "тогды", "тутоки".

Кроме того, любопытно посмотреть на распределение частот употребления у форм слова "робить", так как парадигма этого глагола в этом списке представлена достаточно полно по сравнению с остальными глаголами. На данном этапе не рассматриваются дериваты от глагола "робить", хотя такие присутствуют в списке. В таблице 4 приведены частотные данные для всех вошедших в список форм.

Таблица 4. Частотный список для лексемы "робить".

слово

количество употреблений

количество информантов

робили

106

16

робил

86

20

робит

72

17

робила

65

20

робят

30

-

робишь

10

3

роблю

6

4

робим

3

2

робило

1

1

роблено

1

1

В таблице не учтена форма "робиться" с нулевой частотностью, так как запрос формы в корпусе показал, что данная форма отсутствует. Кроме того, существовали некоторые проблемы со словом "робят". В силу того, что грамматическая омонимия на данном этапе работы не снималась, в общем частотном списке слово "робят" может быть как формой глагола "робить", так и формой слова "робята". К сожалению, разграничить эти два слова автоматически не представляется возможным. Однако для таблицы 4 были просмотрены все употребления слова "робят" и случаи, когда это слово являлось формой существительного, не заносились в таблицу. По этой причине, невозможно точно сказать, какое количество информантов использовало данное слово в качестве глагола.

Таким образом, из таблицы видно, что наиболее часто употребляется форма "робили" (106 вхождений). Далее идут формы с меньшим показателем частотности: от 10 до 86. Самыми редко употребляемыми формами являются "робило" и "роблено", по одному употреблению.

2. Работа над словарем нераспознанных лексем

Результатом работы (Калашникова 2016) стал словарь нераспознанных лексем устьянского корпуса http://pushkinodict.pe.hu/uncategorized.html . Работа над ним происходила в несколько этапов так, что из всего списка нераспознанных корпусом лексем остались только слова, отмеченные как "диалектные" и "диалектные формы". В конечном словаре осталось 1786 вхождения, включая формы, которые прописывались отдельно. Уникальных лексем 1153. В словаре приведены толкования из "Устьянского народного словаря", созданного местными краеведами, и "Архангельского областного словаря" (АОС), созданного кафедрой русского языка филологического факультета МГУ. Так как АОС на момент работы существовал только в 15 томах, толкования из него приводились только для слов до буквы "З". Для 753 лексем не было толкований ни в одном из двух словарей, поэтому приходилось устанавливать значения этих слов исходя из контекстов. Но не для всех лексем значение в контексте было эксплицитно. Такие слова были помечены в словаре вопросительным знаком. Для некоторых вхождений толкования были не совсем точными, так как установить абсолютно точное значение для каждого слова было невозможно. Такие случаи в словаре тоже были отмечены.

Задача совершенствования словаря нераспознанных лексем состояла в том, чтобы исправить существующие толкования, предложенные автором дипломной работы, на более точные. Сделать это, основываясь только на контекстах, было невозможно. Поэтому была организована поездка в поселок Октябрьский Архангельской области (апрель 2017 года), где была возможность побеседовать с одним из редакторов "Устьянского народного словаря" Дмитрием Дмитриевичем Пушкиным Автор работы выражает глубокую благодарность Д.Д. Пушкину, а также А.А. Истомину и В.П. Мамонову за оказанную помощь в обновлении толкований для словаря. . Несмотря на то, что данные для корпуса записывались в деревнях Устьянского района, поездка в деревню не требовалась для уточнения толкований слов, так как Дмитрий Дмитриевич имеет обширные знания диалекта и был способен объяснить нужные слова.

Д.Д. Пушкин родился в 1946 году в небольшой (из трех домов) деревушке Мурашово в Устьянском районе Архангельской области. Практически все время, за исключением 2,5 лет службы в армии и 2 лет очной учебы в Вологде, проживал в Устьянском районе, поэтому знает практически все населенные пункты, жизнь, быт, традиции и особенности местного диалекта.

В 1965 году Дмитрий Дмитриевич окончил Строевскую среднюю школу в Устьянском районе и начал работать трактористом в местном совхозе. После службы в армии в 1968 году был выдвинут на комсомольскую работу на должность заведующим орготделом Устьянского райкома ВЛКСМ. В 1970 году начал обучение в Вологодскую совпартшколе, получил диплом с отличием по специальности "экономист-организатор сельскохозяйственного производства". В 1972 году был избран штатным секретарем партийного комитета совхоза "Орловский", где проработал 11 лет. В этот период окончил с отличием Заочную Высшую партийную школу при ЦК КПСС. В 1983 году был переведен на работу в Устьянский райком КПСС в посёлок Октябрьский, работал инструктором орготдела, затем инструктором сельхозотдела, а с 1985 года - заведующим сектором партучета райкома партии. В 1991-2000 гг. был старшим экономистом, заместителем директора филиала Росгосстраха в Устьянском районе. В 2000-2005 гг. работал председателем комитета по защите прав потребителей администрации муниципального образования "Устьянский район". С 2013 года сотрудничает с Устьянским краеведческим музеем и редакторской группой по составлению "Устьянского народного словаря"

Дмитрий Дмитриевич предоставил автору данной работы обновленную версию "Устьянского народного словаря", в которую были добавлены 2899 слов. Это значительно упростило работу над словами, так как некоторые из них уже были добавлены в "Устьянский народный словарь", требовалось лишь добавить эти толкования в словарь нераспознанных лексем.

Перед поездкой были подготовлены два списка слов в виде таблиц в Microsoft Excel. В первый список вошли слова, толкований для которых не было вообще, или слова с неточными значениями. В этот список вошли 226 слов. Второй список включал в себя оставшиеся слова, для которых значение устанавливалось на основе контекста, но для большей уверенности в правильности их можно было уточнить. Этот список состоит из 527 слов. Работа с Дмитрием Дмитриевичем происходила в два этапа: сначала внимательно рассматривался первый список слов, а затем второй, но не так углубленно, так как значения были достаточно точными. Каждое слово из первого списка просматривались в корпусе, но даже несмотря на наличие контекстов, для некоторых слов всё ещё было затруднительно установить толкование. Таких слов было 37 и в дальнейшем они были собраны в отдельный файл с приведенными контекстами, для дальнейшего обсуждения с остальными редакторами Устьянского словаря. Примечательно, что все эти слова в корпусе помечались треугольными скобками, что свидетельствует о том, что слово могло быть неправильно затранскрибировано (либо плохое качество записи, и слова просто не слышно, либо расшифровщик текста был не уверен в том, что он услышал). В этот список вошли следующие лексемы: вдуть, вила, выгоразить, гряной, делок, едава, забубны, заворошить, закумный, знацевать, золовья, колуга, молодить, набудовать, натураситься, овочпункт, побонить, подвалка, полгруда, привсказаться, прокупь, пупыркать, пыхлый, пяленый, россвоить, сетурч, смеить, снашивать, стерплить, ступер, теплушка, толдом, угоренка, ухруваться, черня, шпар, якаток.

Но, тем не менее, редакторами словаря А.А. Истоминым, В.П. Мамоновым, совместно с Д.Д. Пушкиным, впоследствии была предпринята попытка объяснить эти слова. Для некоторых слов были предложены варианты исправления, когда авторы считали, что слово записано неправильно, но по контексту подходит другое, употребляющееся в диалекте, слово. Все уточненные толкования были добавлены в словарь и помечены, чтобы было понятно, кто предложил то или иное толкование.

Среди оставшихся слов 45 имели те или иные толкования в "Устьянском народном словаре", хотя и не были включены в словарь нераспознанных лексем. Это произошло в силу двух причин:

1. Слова относились к новым статьям, которых не было в той версии словаря, которая использовалась при создании словаря нераспознанных лексем;

2. Не всегда было понятно, к какой словарной статье относится то или иное слово. И в данном случае, именно то, что Д.Д. Пушкин является одним из редакторов "Устьянского народного словаря" сыграло огромную роль, так как он мог подсказать, где следует искать определенное слово. К таким словам относились лексемы взверескивать, выпархивать, вязочка, грестись, дерёвко, дильно, домовище, задолить, заклади, запаливать, засбоить, зафуки, зачалить, инье, лишки, льнище, молодуха, мороковать, наодаться, наробленный, наспускать, нять, опушеный, орушник, парюш, паствица, пахнучий, повоз, поддегрёбок, полонья, поманить, постилальник, поутов, поцанки, пошоркать, приворотить, прожихровать, прядино, пушеный, рясот, скрапать, треплить, черень, чернь, шалять, этака.

Для 103 слов какое-то подобие толкований имелось, но они были совершенно неточные, требовавшие исправления. Толкования 39 слов были одобрены Д.Д. Пушкиным, остальные же исправлялись. Среди одобренных были толкования следующих лексем: бороть, бурашек, заварник, заварничек, избуреть, криплен, лишко, лытяный, мел, наболтить, навозьм, неработник, облеваться, обтерепенькать, партейцы, патраки, повсесть, понаслышке, поплощить, поробленный, посолить, потиптопывать, пустош, разбегать, растакой, растоперить, решёто, скрепать, страмный, суземый, тончива, тятька, уголенка, церковный, чёго, чимерица, шестера.

Работа над вторым списком слов проходила быстрее, контексты рассматривались только для сложных случаев. В основном, толкования были одобрены Д.Д. Пушкиным и оставлены без изменений, но для 45 лексем были предложены уточнения для того, чтобы определения были более полными. Это лексемы голавль, детко, икаться, исачить, корет, кострик, набруснить, насбираться, насымать, невершенный, нежитый, неимачий, нинабудь, обжигать, одонок, онучка, отечь, отсмотреть, пекариха, перед, пестик, побегаться, поверать, подти, поинтересовать, полсадовника, поскрёбыш, прясница, пялина, разэтовать, раскрежевать, распархивать, ременник, роститься, сволочь, скать, сновальня, тамба, туесье, тюды, тюрюк, упружиться, шизякнуться, штормовщина, яз. Все уточнения так же были добавлены в словарь. В ходе работы над списками слов было принято решение добавить в словарь ссылки на полные контексты для всех имеющихся примеров. Это было сделано из-за того, что исходя из примеров, приведенных в словаре, было сложно понять, о чем идет речь. С ссылками на контексты пользователь может сразу же получить доступ к более полному тексту для понимания употребления того или иного слова. Кроме того, в процессе добавления гиперссылок на контексты было обнаружено, что некоторые слова уже не находятся в корпусе (либо они были исправлены и их нужно искать по другому запросу, либо произошла техническая ошибка). В таких случаях вхождение с данным словом удалялось из словаря.

В конце работы над словарем был изменен интерфейс сайта, где данный словарь находится. Это было сделано для того, чтобы впоследствии был более удобный доступ как к словарю нераспознанных лексем, так и к грамматическому словарю. Была создана главная страница, с которой можно перейти к обоим словарям, добавлено описание проекта, и сам сайт переименован в "Словари на основе Устьянского звукового корпуса" http://pushkinodict.pe.hu/index.html .

3. Создание грамматического словаря

Заключительным этапом данной работы было создание грамматического словаря на основе всех текстов корпуса http://pushkinodict.pe.hu/grammar.html . Были взяты все слова в корпусе, а не только диалектные по той причине, что представление парадигм всех слов в корпусе гораздо полезнее в практическом смысле. Будущие исследователи могут использовать получившийся грамматический словарь, чтобы увидеть, парадигмы каких слов представлены в корпусе более полно. лексема словарь диалектность интерфейс

Создание грамматического словаря велось в несколько этапов. Для начала необходимо было выбрать программу морфологического анализа текста. В настоящее время существует достаточно большое количество анализаторов. В работе (Ляшевская и др. 2010) показан процесс оценки различных парсеров русского языка. Анализаторы оценивались по нескольким направлениям (дорожкам): "лемматизация", "POS", "морфология", "редкие слова", "дизамбигуация: леммы" и "дизамбигуация: POS". В тестовых дорожках приняли участие такие морфологические анализаторы, как АОТ, ARME, Crosslator, FSTMorph, Libmorphus, Mocky, Mystem, Polymorph, Pymorphy, RDMA_IAI, Semantarus Morpho, Starling, TextAn. Каждый анализатор оценивался по нескольким дорожкам. К сожалению, результаты данной оценки не эксплицитны, так как в конечных таблицах не приводятся названия парсеров. В силу того, что результаты оценки получить не удалось, было решено искать анализатор другими способами. Так, было обнаружено, что для разметки Национального корпуса русского языка использовались два анализатора: Mystem и Dialing (АОТ). В работе (Сичинава 2002) было подробно описано, как размечались тексты для Национального корпуса русского языка с помощью анализатора Mystem. Сначала тексты размечались программой, затем пропускались через фильтр Gram.bat, написанный на языке Perl, а после этого омонимия снималась вручную, с помощью программы GRAMEDIT (написанная на языке макросов Microsoft Word). Про использование анализатора Dialing не было найдено информации, поэтому было принято решение использовать Mystem.

Программа Mystem, разработанная Ильей Сегаловичем и Виталием Титовым (Segalovich 2003), использует грамматический словарь А.А. Зализняка для предугадывания неизвестных или редких слов. Программа предоставляет несколько способов вывода информации, как с грамматической информацией, так и без неё. Кроме того, благодаря функции предугадывания слов, анализатор предлагает возможные варианты разбора неизвестных слов (не входящих в словарь А.А. Зализняка), что, безусловно, удобно, так как среди текстов в корпусе присутствуют слова, которые не входят в литературный русский язык.

Для разбора использовался неразмеченный файл с текстами всего корпуса. В файле находились только ответы информантов, так как речь интервьюеров в данном случае не нужна. Программа построчно обработала файл, выводя грамматическую информ...


Подобные документы

  • Концепция словаря. Лексикографический параметр как способ лексикографической интерпретации какого-то структурного элемента. Элементы авторской установки словаря. Тематический порядок расположения лексических статей. Фонетическая характеристика вокабулы.

    презентация [1,7 M], добавлен 22.11.2013

  • Понятие системности словаря (структурные типы слов, семантическая и стилистическая дифференциация лексики). Пути развития и пополнения словарного состава языка. Свободные словосочетания и фразеологические единицы.

    шпаргалка [40,2 K], добавлен 22.08.2006

  • Постать Б. Грінченка як різнопланового діяча. Традиційні методи упорядкування довідкових видань. Основна організаційно-творча робота над "Словарем української мови". Використання "Словаря української мови" Бориса Грінченка у сучасній лексикографії.

    курсовая работа [1,1 M], добавлен 10.06.2011

  • Проблема формирования словника кросскультурного терминологического словаря. Лингвистический, логико-понятийный, лексикографический подходы к объективному отбору лексических единиц, их достоинства и недостатки. Составление системной классификации терминов.

    статья [222,2 K], добавлен 20.08.2013

  • Понятие "общественно-политическая лексика". Слова и словосочетания, принадлежащие к ядру ОПЛ. Общеупотребительная лексика как костяк общенационального литературного словаря. Клише и штампы как речевые стереотипы. Стилистически окрашенная лексика.

    курсовая работа [35,3 K], добавлен 05.05.2009

  • Лексика с точки зрения ее происхождения и употребления. Исследование лексикона учащихся 8-11 классов МКОУ "Буравцовская СОШ" и определение путей пополнения словарного запаса школьников. Создание школьного словаря современного молодежного сленга.

    курсовая работа [102,0 K], добавлен 11.01.2015

  • История создания "Толкового словаря живого великорусского языка" В. Даля. Содержание словаря: основные условные сокращения, орфоэпия, лексика литературного языка и местных диалектов; афоризмы с толкованием; иностранные термины; грамматические трудности.

    презентация [1,1 M], добавлен 16.02.2014

  • Определение "варваризмов" как иноязычных слов и выражений, используемых в речи при описании реалий и обычаев других народов. Создание словаря для облегчения понимания поэтического языка Пушкина и толкования иноязычных слов. Структура словарной статьи.

    контрольная работа [14,9 K], добавлен 26.12.2011

  • Терминология - словарное ядро языка науки. Систематизация терминологической лексики, упорядочение и унификация. Формирование словника словаря терминов. Словарь военной терминологии периода Второй мировой войны (на основе "Дневника боевых действий").

    курсовая работа [80,0 K], добавлен 19.12.2015

  • Выборка лексических единиц согласно оценочной шкале утилитарной оценки. Анализ слов, имеющих утилитарную оценку подгруппы "полезный", выбранных методом сплошной выборки с целью сравнения грамматического распределения лексики в русском и английском языках.

    реферат [20,6 K], добавлен 27.10.2012

  • Сущность слова, его многозначность. Особенности лексических средств. Лексика с точки зрения употребления и происхождения. Анализ ошибок в употреблении синонимов и паронимов. Речевые ошибки, возникающие при нарушении правил лексической сочетаемости.

    курсовая работа [43,3 K], добавлен 07.06.2011

  • Особенность словарной работы в школе. Работа учащихся над словарем. Организация уроков русского языка в начальных классах при проведении лексической работы. Организация практической деятельности по лексической работе. Формирование фонематического слуха.

    курсовая работа [55,6 K], добавлен 10.08.2013

  • Детские годы Ожегова и обучение в Петроградском университете. Работа над толковым словарем совместно с Ушаковым. Отбор лексического и фразеологического материала для краткого словаря. Исследование истории русского литературного языка и социолингвистики.

    реферат [19,1 K], добавлен 04.03.2010

  • Парадигматические отношения в лексической системе современного русского языка. Типы контекстов и соотношение факторов, влияющих на формирование лексических значений слов в их контекстном окружении. Сочетаемость исследуемых лексических единиц и их функции.

    дипломная работа [90,3 K], добавлен 11.10.2014

  • Выполнение высококвалифицированных переводов. Правильное и полное понимание текста и его значение для перевода. Особенности двуязычных словарей. Сочетания слов в словарях. Переводы однозначного слова при помощи двух или более слов, близких по значению.

    лекция [42,9 K], добавлен 30.10.2013

  • Особенности словаря молодежного социолекта, понятия "сленг" и "жаргон"; стилистические кластеры сниженной лексики, причины употребления. Выявление функциональной нагрузки и источников пополнения сниженной лексики немецкого языка в молодежном сленге.

    курсовая работа [45,9 K], добавлен 06.03.2012

  • Экстралингвистические основы изучения говора села Шабельское, методы сбора диалектного материала. Общая характеристика кубанских говоров. Интровертный словарь говора как источник диалектного материала. Типология диалектизмов и микротопонимы в говоре.

    дипломная работа [189,5 K], добавлен 10.11.2015

  • Применение английских слов в японском языке, создание алфавита "катакана" для написания заимствованных слов. Возникновение неологизмов на основе английской лексики. Использование структурных моделей англицизмов и распространенные способы словообразования.

    статья [21,2 K], добавлен 19.12.2010

  • Изучение состава морской речи: терминов, языковой экономии и жаргона. Специфика команд и приказов на флоте, а также лексикона моряков. Структура языка и словообразование в нём. Создание немецко-русского словаря морской терминологии, разбитого по темам.

    курсовая работа [58,4 K], добавлен 27.12.2011

  • Сопоставление лексем с партитивной семантикой, обозначающих отношения "части и целого" в русском и польском языках. Выявление фонетических и грамматических особенностей партитив. Грамматические особенности и распределение лексем по семантическим группам.

    курсовая работа [47,7 K], добавлен 10.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.