Исследование частотных свойств биграмм якутского языка в газетном корпусе

Исследование машинного газетного корпуса якутского языка. Численные данные об объеме и источниках корпуса. Изучение частотных свойств биграмм, описание таблицы наиболее часто употребляемых словосочетаний. Категоризация текста и выявление возможных ошибок.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 19.12.2017
Размер файла 16,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Северо-Восточный федеральный университет им. М.К. Аммосова

Исследование частотных свойств биграмм якутского языка в газетном корпусе

кандидат технических наук, доцент

Леонтьев Ньургун Анатольевич

Протопопова Валентина Федоровна

Аннотация

В данной статье рассматривается газетный корпус якутского языка. Приводятся численные данные о объеме и источниках корпуса. Исследуются частотные свойства биграмм, выводится таблица наиболее часто употребляемых словосочетаний. Проведен анализ полученных результатов по их виду.

Ключевые слова: языковой корпус, якутский язык, частотная таблица, N-грамма, база данных

Частотные словари для естественных языков создаются в различных целях, обычно применяются данные таблицы для выявления связей между элементами, для систем коррекции текста. Существуют таблицы для английского языка и других основных языков мира, в том числе и для русского языка [1]. Биграммы или 2-граммы для обработки текстов применяются давно, исследователями были составлены биграммы для наиболее распространенных языков, в том числе и для русского языка. Например, проект национальный корпус языка по адресу www.ruscorpora.ru., имеет в составе таблицы N-грамм, до 6-грамм включительно. Кроме того, создаются машинные корпуса языков народов России, которые тоже имеют свои результаты [2-3].

Якутский язык или язык Саха, является языков народа Саха (якутов) и относиться к тюркской группе языков, по типу агглютинативным языкам, то есть слова создаются с помощью суффиксов, из-за этого число возможных вариантов словоформ увеличен по отношении к русскому языку. Для развития языка необходимо развивать средства компьютерной обработки и анализа.

Газетный корпус якутского языка создается в рамках проекта по автоматизированной обработке якутского языка. Газетный корпус состоит из более 21 тыс. статей охватывающий период от 2006 года до 2015 год. Тексты взяты с сайтов республиканских газет «Кыым», «Саха Сирэ», газет «Аартык.ру» и «Sakhalife». Запись ведется в кодировке UTF8 стандарта Unicode, так как данный стандарт поддерживает национальные якутские буквы.

С момента создания сайта корпус расширен до 12 млн. слов, состоит из почти 400 тыс. словоупотреблений [1]. Ведутся работы по создании разметки якутского языка для корпуса и морфологическому анализу. Разметка якутского языка создается в рамках интернациональной разметки тюркских языков.

Частоты употребления символов составлены в работах [4-5] и частотный словарь словоупотреблений составлен в работе [6].

Для расчета биграмм был обработан весь массив текста газетного корпуса. Для хранения биграмм была создана база данных с двумя полями: поле строкового типа для хранения биграммы и целочисленное поле для частоты употребления биграммы. Использовалась база данных MySQL и язык программирования PHP. В каждом тексте был произведен поиск двух соседних слов, в случае, когда они не разделялись через запятые или иные знаки препинания, происходил запись в базу данных. Всего записей получено 4 млн.239 тыс. В таблице 1 приводятся частотная таблица биграмм отсортированная по наиболее часто встречаемым элементам с индексом MI. Данный индекс показывает, насколько реже встречается данное словосочетание по сравнении с наиболее часто встречаемым.

Таблица 1. Частотная таблица биграмм.

Биграмма

Частота

ИндексMI

1

ол эрээри

11245

1

2

ол курдук

10762

1,04488013

3

саха сирин

10411

1,08010758

4

ол и?ин

7784

1,44463001

5

туох да

7439

1,51162791

6

саха сиригэр

6608

1,70172518

7

аан дойду

5844

1,92419576

8

биллэн турар

5634

1,99591764

9

гынан баран

5480

2,0520073

10

хас биирдии

5201

2,16208421

11

хас да

5110

2,20058708

12

ол аата

4992

2,25260417

13

ол гынан

4612

2,43820468

14

т??? да

4343

2,58922404

15

ити курдук

4200

2,67738095

16

ол да

4011

2,80354026

17

да буоллар

3744

3,00347222

18

дии саныыбын

3565

3,1542777

19

ким да

3511

3,20279123

20

ол и?игэр

3511

3,20279123

21

син биир

3329

3,37789126

22

ону та?ынан

3231

3,48034664

23

хайаан да

3177

3,53950268

24

ол эбэтэр

3174

3,54284814

25

ха?ан да

3067

3,6664493

26

бастатан туран

2966

3,79130142

27

икки ардыларынаа?ы

2903

3,87357906

28

туох эрэ

2879

3,90587009

29

то?о диэтэххэ

2633

4,27079377

30

да суох

2571

4,37378452

31

инньэ гынан

2505

4,48902196

32

дьиэ кэргэн

2478

4,53793382

33

эр ки?и

2475

4,54343434

34

аан бастаан

2412

4,66210614

35

эрэ буолбакка

2401

4,68346522

36

буолуон с?п

2361

4,76281237

37

ким эрэ

2334

4,81790917

38

тугу да

2280

4,93201754

39

да и?ин

2223

5,05847953

40

биир да

2158

5,21084337

41

билигин да

2156

5,21567718

42

сыл устата

2152

5,22537175

43

бу к?ннэргэ

2099

5,35731301

44

ханна да

1979

5,68216271

45

хомойуох и?ин

1962

5,73139653

46

ханнык ба?арар

1961

5,73431922

47

хайдах эрэ

1950

5,76666667

48

ханнык да

1890

5,94973545

49

ол т?м?гэр

1861

6,0424503

50

буолан баран

1842

6,10477742

машинный газетный якутский биграмма

Заключение

В ходе исследования машинного газетного корпуса якутского языка получена частотная таблица биграмм якутского языка. В данных биграммах преобладают повествовательные словосочетания, что обусловлено характером газетного корпуса. Также в результатах имеется словосочетания с следующей основой «Саха сирэ», что переводится как «Якутия», что тоже обусловлено характером местных новостей. Словосочетание «Аан дойду», что обозначает «Мир», «Всемирный» также присутствует в данной таблице. Полученная таблица может быть полезна для выделения категоризации текста, выявление возможные ошибки.

Список литературы

1. Ляшевская О. Н. , Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009, с.1112

2. Салчак А.Я., Байыроол А.В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образования - №6 - 2013- с.408-409

3. Сиразитдинов З.А., Полянин А.И. О состоянии корпусных разработок башкирского языка // Актуальные проблемы диалектологии языков народов России - 2013 - с.232-236

4. Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference “Turkic Languages Prosessing: TurkLang-2015”- 2015 - p.233-235

5. Протопопова В.Ф. Частотная таблица символов якутского языка с учетом диграфов и дифтонгов // Информационно-телекоммуникационные системы и технологии. Материалы Всероссийской научно-практической конференции. Кемерово - 2014 - с.141-142

6. Леонтьев Н.А. Частоты употребления букв якутского языка в газетном корпусе. // Современные научные исследования и инновации, Москва - №7(39), - 2014- с.83-86

7. Леонтьев Н.А. Частотный словарь якутского языка по материалам газетного корпуса // Язык и культура. Новосибирск - №13 - 2014 - с.57-60.

Размещено на Allbest.ru

...

Подобные документы

  • Функциональный стиль в современной лингвистике. Рассмотрение основных характеристик газетно-публицистического стиля. Межуровневая категоризация стилистических средств в английском и узбекском газетном тексте, словообразовательные характеристики статьи.

    диссертация [182,5 K], добавлен 18.08.2011

  • Функции газетного текста. Особенности композиционно-смысловой и синтаксической структуры статей английских газет. Средства реализации краткости в газетном стиле английского языка. Проявление компрессии на уровне синтаксических и лексических единиц.

    дипломная работа [83,0 K], добавлен 19.05.2014

  • Изучение структурно-семантической характеристики фразеологизмов, отличий пословиц от поговорок. Исследование наиболее часто употребляемых пословиц и поговорок английского языка, основных трудностей перевода на русский язык и способов их преодоления.

    курсовая работа [61,8 K], добавлен 31.03.2012

  • Исследование истории происхождения корейского языка, его особенностей и словарного состава. Характеристика языковых свойств корейского языка, причин его создания, сходства с другими иностранными языками. Агглютинативные аффиксы и музыкальное ударение.

    статья [31,3 K], добавлен 03.12.2014

  • Изучение языковых особенностей современного французского газетного текста. Способы работы с ним на уроках французского языка в школе на старшем этапе обучения. Жанры газетных текстов. Разработка комплекса упражнений для работы с аутентичным текстом.

    дипломная работа [1,5 M], добавлен 22.07.2017

  • Ознакомление с особенностями использования языковых средств газетного текста в манипулировании сознанием реципиента. Анализ лексических средств создания образа России в газетном тексте. Изучение процесса передачи образа России в переводе газетного текста.

    дипломная работа [110,6 K], добавлен 11.08.2017

  • Текст как формально-логическое образование. Основные методы криптоанализа. Метод частотного анализа текста. Показатель частоты встречаемости буквы алфавита. Частотные характеристики биграмм. Определение ранжирования данных. Определение контент-анализа.

    реферат [280,3 K], добавлен 28.09.2011

  • Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.

    дипломная работа [95,5 K], добавлен 07.11.2013

  • Исследование лексико-фразеологического корпуса неофициальной жаргонной речи студентов Томского государственного университета. Анализ этимологии и толкование отдельных жаргонных единиц. Выявление источников пополнения и образования студенческого жаргона.

    контрольная работа [24,8 K], добавлен 20.01.2012

  • Анализ особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Характеристика научно-технического языка. Анализ текста и выявление влияния контекста на перевод медицинских терминов.

    дипломная работа [159,6 K], добавлен 28.10.2012

  • Понятие о синонимах. Функции, значение синонимов в языке. Группировка слов и словосочетаний, носящая системный характер. Выявление значения синонимических средств. Принципы составления синонимических словарей английского языка. Активность. Двуязычность.

    научная работа [18,5 K], добавлен 25.02.2009

  • Лингвокультурологический аспект изучения лексики. Система военной лексики якутского языка. Семантическая классификация номинаций и системные отношения в лексике военного дела якутов. Изучение мифологических основ религиозных верований народа саха.

    диссертация [212,0 K], добавлен 04.06.2021

  • Нынешняя реформа по упрощению русского языка уже третья по счету в этом веке. Каждая принесла значительные изменения в правописании. Исследование нового свода правил правописания русского языка и анализ возможных трудностей в обучении школьников.

    доклад [11,5 K], добавлен 24.02.2008

  • Описание характерных особенностей нонсенса и его отличий от родственных понятий: абсурд, сарказм. Поэзия нонсенса в творчестве Э. Лира и С. Миллигана. Анализ основных проблем, которые возникают при переводе поэзии нонсенса с английского языка на русский.

    дипломная работа [173,3 K], добавлен 19.10.2013

  • Определение фонетики. Изучение фонетической системы русского языка, которая состоит из значимых единиц речи - слов, форм слова, словосочетаний и предложений, для передачи и различения которых служат фонетические средства языка: звуки, ударение, интонация.

    реферат [122,0 K], добавлен 06.12.2010

  • Исследование особенностей русского языка в историческом периоде России с октября 1917 по август 1991 годов. Изменение стилистических свойств некоторых слов русского языка; отличительные черты советской речевой практики. Термины: понятие, классификация.

    контрольная работа [28,1 K], добавлен 12.09.2012

  • Коммуникативный аспект функции языка. Стилистическая диагностика текста и исследование языка Интернета. Характеристика исследуемого материала веблогов и форумов. Особенности методики их анализа, результаты исследований. Изучение параметров текстов.

    курсовая работа [27,3 K], добавлен 10.11.2009

  • Изучение лингвистических аспектов межъязыковой речевой деятельности. Понятие теории переводческого несоответствия как основы оценки его качества. Выделение релевантных явлений в системе языка оригинала. Виды ошибок в зависимости от жанра текста.

    курсовая работа [75,1 K], добавлен 14.08.2011

  • Изучение этноспецифических особенностей концепта "Mobilitаt" на материале современного немецкого языка с помощью методов когнитивной лингвистики и смежных с ней дисциплин. Анализ корпуса языковых средств, выступающих в качестве репрезентации концепта.

    дипломная работа [1,3 M], добавлен 13.05.2012

  • Понятие функционального стиля в современной лингвистике. Исследование специфики межуровневых стилистических средств газетного-публицистического текста, их отличие от художественного. Словообразование в газетной статье в английском и в узбекском языках.

    диссертация [205,5 K], добавлен 17.08.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.