Исследование частотных свойств биграмм якутского языка в газетном корпусе
Исследование машинного газетного корпуса якутского языка. Численные данные об объеме и источниках корпуса. Изучение частотных свойств биграмм, описание таблицы наиболее часто употребляемых словосочетаний. Категоризация текста и выявление возможных ошибок.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 19.12.2017 |
Размер файла | 16,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Северо-Восточный федеральный университет им. М.К. Аммосова
Исследование частотных свойств биграмм якутского языка в газетном корпусе
кандидат технических наук, доцент
Леонтьев Ньургун Анатольевич
Протопопова Валентина Федоровна
Аннотация
В данной статье рассматривается газетный корпус якутского языка. Приводятся численные данные о объеме и источниках корпуса. Исследуются частотные свойства биграмм, выводится таблица наиболее часто употребляемых словосочетаний. Проведен анализ полученных результатов по их виду.
Ключевые слова: языковой корпус, якутский язык, частотная таблица, N-грамма, база данных
Частотные словари для естественных языков создаются в различных целях, обычно применяются данные таблицы для выявления связей между элементами, для систем коррекции текста. Существуют таблицы для английского языка и других основных языков мира, в том числе и для русского языка [1]. Биграммы или 2-граммы для обработки текстов применяются давно, исследователями были составлены биграммы для наиболее распространенных языков, в том числе и для русского языка. Например, проект национальный корпус языка по адресу www.ruscorpora.ru., имеет в составе таблицы N-грамм, до 6-грамм включительно. Кроме того, создаются машинные корпуса языков народов России, которые тоже имеют свои результаты [2-3].
Якутский язык или язык Саха, является языков народа Саха (якутов) и относиться к тюркской группе языков, по типу агглютинативным языкам, то есть слова создаются с помощью суффиксов, из-за этого число возможных вариантов словоформ увеличен по отношении к русскому языку. Для развития языка необходимо развивать средства компьютерной обработки и анализа.
Газетный корпус якутского языка создается в рамках проекта по автоматизированной обработке якутского языка. Газетный корпус состоит из более 21 тыс. статей охватывающий период от 2006 года до 2015 год. Тексты взяты с сайтов республиканских газет «Кыым», «Саха Сирэ», газет «Аартык.ру» и «Sakhalife». Запись ведется в кодировке UTF8 стандарта Unicode, так как данный стандарт поддерживает национальные якутские буквы.
С момента создания сайта корпус расширен до 12 млн. слов, состоит из почти 400 тыс. словоупотреблений [1]. Ведутся работы по создании разметки якутского языка для корпуса и морфологическому анализу. Разметка якутского языка создается в рамках интернациональной разметки тюркских языков.
Частоты употребления символов составлены в работах [4-5] и частотный словарь словоупотреблений составлен в работе [6].
Для расчета биграмм был обработан весь массив текста газетного корпуса. Для хранения биграмм была создана база данных с двумя полями: поле строкового типа для хранения биграммы и целочисленное поле для частоты употребления биграммы. Использовалась база данных MySQL и язык программирования PHP. В каждом тексте был произведен поиск двух соседних слов, в случае, когда они не разделялись через запятые или иные знаки препинания, происходил запись в базу данных. Всего записей получено 4 млн.239 тыс. В таблице 1 приводятся частотная таблица биграмм отсортированная по наиболее часто встречаемым элементам с индексом MI. Данный индекс показывает, насколько реже встречается данное словосочетание по сравнении с наиболее часто встречаемым.
Таблица 1. Частотная таблица биграмм.
№ |
Биграмма |
Частота |
ИндексMI |
|
1 |
ол эрээри |
11245 |
1 |
|
2 |
ол курдук |
10762 |
1,04488013 |
|
3 |
саха сирин |
10411 |
1,08010758 |
|
4 |
ол и?ин |
7784 |
1,44463001 |
|
5 |
туох да |
7439 |
1,51162791 |
|
6 |
саха сиригэр |
6608 |
1,70172518 |
|
7 |
аан дойду |
5844 |
1,92419576 |
|
8 |
биллэн турар |
5634 |
1,99591764 |
|
9 |
гынан баран |
5480 |
2,0520073 |
|
10 |
хас биирдии |
5201 |
2,16208421 |
|
11 |
хас да |
5110 |
2,20058708 |
|
12 |
ол аата |
4992 |
2,25260417 |
|
13 |
ол гынан |
4612 |
2,43820468 |
|
14 |
т??? да |
4343 |
2,58922404 |
|
15 |
ити курдук |
4200 |
2,67738095 |
|
16 |
ол да |
4011 |
2,80354026 |
|
17 |
да буоллар |
3744 |
3,00347222 |
|
18 |
дии саныыбын |
3565 |
3,1542777 |
|
19 |
ким да |
3511 |
3,20279123 |
|
20 |
ол и?игэр |
3511 |
3,20279123 |
|
21 |
син биир |
3329 |
3,37789126 |
|
22 |
ону та?ынан |
3231 |
3,48034664 |
|
23 |
хайаан да |
3177 |
3,53950268 |
|
24 |
ол эбэтэр |
3174 |
3,54284814 |
|
25 |
ха?ан да |
3067 |
3,6664493 |
|
26 |
бастатан туран |
2966 |
3,79130142 |
|
27 |
икки ардыларынаа?ы |
2903 |
3,87357906 |
|
28 |
туох эрэ |
2879 |
3,90587009 |
|
29 |
то?о диэтэххэ |
2633 |
4,27079377 |
|
30 |
да суох |
2571 |
4,37378452 |
|
31 |
инньэ гынан |
2505 |
4,48902196 |
|
32 |
дьиэ кэргэн |
2478 |
4,53793382 |
|
33 |
эр ки?и |
2475 |
4,54343434 |
|
34 |
аан бастаан |
2412 |
4,66210614 |
|
35 |
эрэ буолбакка |
2401 |
4,68346522 |
|
36 |
буолуон с?п |
2361 |
4,76281237 |
|
37 |
ким эрэ |
2334 |
4,81790917 |
|
38 |
тугу да |
2280 |
4,93201754 |
|
39 |
да и?ин |
2223 |
5,05847953 |
|
40 |
биир да |
2158 |
5,21084337 |
|
41 |
билигин да |
2156 |
5,21567718 |
|
42 |
сыл устата |
2152 |
5,22537175 |
|
43 |
бу к?ннэргэ |
2099 |
5,35731301 |
|
44 |
ханна да |
1979 |
5,68216271 |
|
45 |
хомойуох и?ин |
1962 |
5,73139653 |
|
46 |
ханнык ба?арар |
1961 |
5,73431922 |
|
47 |
хайдах эрэ |
1950 |
5,76666667 |
|
48 |
ханнык да |
1890 |
5,94973545 |
|
49 |
ол т?м?гэр |
1861 |
6,0424503 |
|
50 |
буолан баран |
1842 |
6,10477742 |
машинный газетный якутский биграмма
Заключение
В ходе исследования машинного газетного корпуса якутского языка получена частотная таблица биграмм якутского языка. В данных биграммах преобладают повествовательные словосочетания, что обусловлено характером газетного корпуса. Также в результатах имеется словосочетания с следующей основой «Саха сирэ», что переводится как «Якутия», что тоже обусловлено характером местных новостей. Словосочетание «Аан дойду», что обозначает «Мир», «Всемирный» также присутствует в данной таблице. Полученная таблица может быть полезна для выделения категоризации текста, выявление возможные ошибки.
Список литературы
1. Ляшевская О. Н. , Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009, с.1112
2. Салчак А.Я., Байыроол А.В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образования - №6 - 2013- с.408-409
3. Сиразитдинов З.А., Полянин А.И. О состоянии корпусных разработок башкирского языка // Актуальные проблемы диалектологии языков народов России - 2013 - с.232-236
4. Leontiev N.A. The newspaper corpus of the yakut language // Proceeding of the International Conference “Turkic Languages Prosessing: TurkLang-2015”- 2015 - p.233-235
5. Протопопова В.Ф. Частотная таблица символов якутского языка с учетом диграфов и дифтонгов // Информационно-телекоммуникационные системы и технологии. Материалы Всероссийской научно-практической конференции. Кемерово - 2014 - с.141-142
6. Леонтьев Н.А. Частоты употребления букв якутского языка в газетном корпусе. // Современные научные исследования и инновации, Москва - №7(39), - 2014- с.83-86
7. Леонтьев Н.А. Частотный словарь якутского языка по материалам газетного корпуса // Язык и культура. Новосибирск - №13 - 2014 - с.57-60.
Размещено на Allbest.ru
...Подобные документы
Функциональный стиль в современной лингвистике. Рассмотрение основных характеристик газетно-публицистического стиля. Межуровневая категоризация стилистических средств в английском и узбекском газетном тексте, словообразовательные характеристики статьи.
диссертация [182,5 K], добавлен 18.08.2011Функции газетного текста. Особенности композиционно-смысловой и синтаксической структуры статей английских газет. Средства реализации краткости в газетном стиле английского языка. Проявление компрессии на уровне синтаксических и лексических единиц.
дипломная работа [83,0 K], добавлен 19.05.2014Изучение структурно-семантической характеристики фразеологизмов, отличий пословиц от поговорок. Исследование наиболее часто употребляемых пословиц и поговорок английского языка, основных трудностей перевода на русский язык и способов их преодоления.
курсовая работа [61,8 K], добавлен 31.03.2012Исследование истории происхождения корейского языка, его особенностей и словарного состава. Характеристика языковых свойств корейского языка, причин его создания, сходства с другими иностранными языками. Агглютинативные аффиксы и музыкальное ударение.
статья [31,3 K], добавлен 03.12.2014Изучение языковых особенностей современного французского газетного текста. Способы работы с ним на уроках французского языка в школе на старшем этапе обучения. Жанры газетных текстов. Разработка комплекса упражнений для работы с аутентичным текстом.
дипломная работа [1,5 M], добавлен 22.07.2017Ознакомление с особенностями использования языковых средств газетного текста в манипулировании сознанием реципиента. Анализ лексических средств создания образа России в газетном тексте. Изучение процесса передачи образа России в переводе газетного текста.
дипломная работа [110,6 K], добавлен 11.08.2017Текст как формально-логическое образование. Основные методы криптоанализа. Метод частотного анализа текста. Показатель частоты встречаемости буквы алфавита. Частотные характеристики биграмм. Определение ранжирования данных. Определение контент-анализа.
реферат [280,3 K], добавлен 28.09.2011Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.
дипломная работа [95,5 K], добавлен 07.11.2013Исследование лексико-фразеологического корпуса неофициальной жаргонной речи студентов Томского государственного университета. Анализ этимологии и толкование отдельных жаргонных единиц. Выявление источников пополнения и образования студенческого жаргона.
контрольная работа [24,8 K], добавлен 20.01.2012Анализ особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Характеристика научно-технического языка. Анализ текста и выявление влияния контекста на перевод медицинских терминов.
дипломная работа [159,6 K], добавлен 28.10.2012Понятие о синонимах. Функции, значение синонимов в языке. Группировка слов и словосочетаний, носящая системный характер. Выявление значения синонимических средств. Принципы составления синонимических словарей английского языка. Активность. Двуязычность.
научная работа [18,5 K], добавлен 25.02.2009Лингвокультурологический аспект изучения лексики. Система военной лексики якутского языка. Семантическая классификация номинаций и системные отношения в лексике военного дела якутов. Изучение мифологических основ религиозных верований народа саха.
диссертация [212,0 K], добавлен 04.06.2021Нынешняя реформа по упрощению русского языка уже третья по счету в этом веке. Каждая принесла значительные изменения в правописании. Исследование нового свода правил правописания русского языка и анализ возможных трудностей в обучении школьников.
доклад [11,5 K], добавлен 24.02.2008Описание характерных особенностей нонсенса и его отличий от родственных понятий: абсурд, сарказм. Поэзия нонсенса в творчестве Э. Лира и С. Миллигана. Анализ основных проблем, которые возникают при переводе поэзии нонсенса с английского языка на русский.
дипломная работа [173,3 K], добавлен 19.10.2013Определение фонетики. Изучение фонетической системы русского языка, которая состоит из значимых единиц речи - слов, форм слова, словосочетаний и предложений, для передачи и различения которых служат фонетические средства языка: звуки, ударение, интонация.
реферат [122,0 K], добавлен 06.12.2010Исследование особенностей русского языка в историческом периоде России с октября 1917 по август 1991 годов. Изменение стилистических свойств некоторых слов русского языка; отличительные черты советской речевой практики. Термины: понятие, классификация.
контрольная работа [28,1 K], добавлен 12.09.2012Коммуникативный аспект функции языка. Стилистическая диагностика текста и исследование языка Интернета. Характеристика исследуемого материала веблогов и форумов. Особенности методики их анализа, результаты исследований. Изучение параметров текстов.
курсовая работа [27,3 K], добавлен 10.11.2009Изучение лингвистических аспектов межъязыковой речевой деятельности. Понятие теории переводческого несоответствия как основы оценки его качества. Выделение релевантных явлений в системе языка оригинала. Виды ошибок в зависимости от жанра текста.
курсовая работа [75,1 K], добавлен 14.08.2011Изучение этноспецифических особенностей концепта "Mobilitаt" на материале современного немецкого языка с помощью методов когнитивной лингвистики и смежных с ней дисциплин. Анализ корпуса языковых средств, выступающих в качестве репрезентации концепта.
дипломная работа [1,3 M], добавлен 13.05.2012Понятие функционального стиля в современной лингвистике. Исследование специфики межуровневых стилистических средств газетного-публицистического текста, их отличие от художественного. Словообразование в газетной статье в английском и в узбекском языках.
диссертация [205,5 K], добавлен 17.08.2011