Алгоритм анализа текстов по статистическим параметрам

Исследование методов и алгоритмов анализа. Возможности использования статистических параметров текстов в качестве авторской характеристики. Алгоритм определения статистических параметров текста, позволяющий выполнить компьютерную обработку текстов.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 09.09.2021
Размер файла 276,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Алгоритм анализа текстов по статистическим параметрам

Сергеева Л.А.

старший преподаватель каф. «Информатика»

(ТОГУ)

Аннотация

статистический параметр алгоритм текст

В статье анализируются существующие методы и алгоритмы анализа, рассматривается возможность использования статистических параметров текстов в качестве авторской характеристики. Выбирается алгоритм определения статистических параметров текста, позволяющий выполнить компьютерную обработку текстов и обеспечивающий повышение точности аутентификации при оптимизации размера выборки текстов.

Ключевые слова: обработка текста, компьютерная лингвистика, статистический анализ, аутентификация, алгоритм обработки, компьютерная программа.

Title: Analysis Algorithm of Texts on Statistical Parameters Authors' affiliation:

Sergeeva L.A. - Pacific National University, Khabarovsk, Russian Federation

Abstract

In the paper the existing methods and analysis algorithms are analyzed, the possible use of statistical parameters of texts as author's characteristic is considered. The determination algorithm of statistical parameters of the text allowing one to execute computer processing of texts and providing an increase in accuracy of authentication at the optimization of the amount of text selection is chosen.

Keywords: processing of texts, computational linguistics, statistical analysis, authentication processing algorithm, computer program.

Введение

Рубеж прошлого и текущего веков отмечен бурным ростом количества информации. Этот всплеск в большей степени связан с развитием глобальной компьютерной сети Интернет. Такой объем информации, в частности, текстов, представленных на естественном языке, диктует необходимость их автоматической обработки. Этот рост активизирует развитие новых отраслей, таких как компьютерная (математическая) лингвистика и, в частности, статистическая лингвистика.

В рамках таких наук как лингвистика, герменевтика, семиотика и культурология в основном исследуются литературные тексты. При этом в литературоведческой дисциплине филологии текст часто рассматривается и изучается как система высказываний, обладающих единым смыслом, как отношение между текстом и культурным контекстом, как произведение письменности в целях установления их особой организации, а также как форма передачи информации [1]. Часто текст, не только литературный, но и иного характера, представляют как единство особого способа и правил организации устной или письменной речевой деятельности, обладающее разнообразной смысловой структурой, порождающей новые смыслы [2].

Однако, к любому тексту можно подойти принципиально с иной стороны. Если рассматривать текст, как формально-логическое образование, то тогда его можно исследовать формализованными методами. Статистический принцип частотного распределения признаков, которые образуют новые смыслы во взаимосвязи, и может выступать методологической основой автоматизированного исследования текстов с целью определения авторства.

Теоретические основы

Одними из первых исследователей в сфере применения статистических методов к анализу литературных текстов стали А.А. Марков и Н.А. Морозов. А.А. Марков провел исследование текста «Евгения Онегина», иллюстрирующего связь испытаний в цепь [3]. Его подход дает возможность сравнить соответствующие вероятности текстов «известного» и «неизвестного» автора. Однако данный метод может иметь ограничения, т.к. на вероятностные характеристики, анализируемого текста сильно влияет его объем и погрешность вычислений может оказаться достаточно большой. Н.А. Морозов в своей работе для определения индивидуального стиля автора, предложил методику оценки частотности использования различных служебных частиц речи в анализируемом тексте [4].

Хотя литературные произведения нельзя в полной мере считать представлением марковского процесса, тем не менее, существуют различные методы, модифицирующие данный процесс, с возможностью применения его к анализу литературных произведений. Примером может служить работа Д.В. Хмелева, который предложил в качестве уточняющего инструмента для анализа использовать функцию максимального правдоподобия, которая базируется на информационной энтропии попарных буквенных сочетаний [5].

В любом языке имеются некоторые устойчивые числовые статистические характеристики, которые практически не изменяются при переходе от одного осмысленного текста к другому. В частности, такой характеристикой является распределение вероятностей символов языка, т.е. пределов частот их появления при бесконечном увеличении объёма текста. Экспериментально получено, что при объёме текста в 30 и более тысяч знаков частоту появления символа можно считать его вероятностью [6].

Задачи по разработке компьютерных программ для автоматической обработки текстов естественных языков актуальны в связи с возникновением необходимости анализа текстов на предмет определения авторства. Для решения такой задачи необходимо провести анализ (определить ряд статистических характеристик) текстов известных авторов, чтобы сопоставить полученные данные с известными.

Основной задачей исследования текстов является эмпирическое определение частот встречаемости букв и их сочетаний в печатном тексте. Цель работы классифицировать тексты в соответствии с заданным признаком - автор. Для классификации необходимо определить функционалы, которые могли бы в этом помочь. Проблема состоит в том, как, обойтись без анализа синтаксиса, литературных приемов или схемы взаимодействий персонажей, т.е., не занимаясь литературоведением, определить наиболее вероятного автора условно неизвестного текста.

Некоторые программные комплексы аутентификации, не всегда гарантируют точный результат, т.к. в основном математический и лингвистический аппарат используемых методов несовершенен. Многие программы уже не актуальны, не сопровождаются разработчиками, работают только в демонстрационном режиме или направлены на решение мелких статистических задач.

В связи с этим, задача разработки методики, в которой будут учтены недостатки существующих подходов, является актуальной.

Данное исследование сосредоточено на исследовании статистических свойств используемых наборов символов текста и методов их анализа. Это исследование может быть полезным при изучении не только отдельных произведений в плане аутентификации, но и исследования некоторой более общей совокупности - русского языка (понимаемого в работе как литературный язык), при изучении связи языка и мышления, а также при сравнении между собой различных языков.

Для данного исследования выбраны статистические свойства текстов, написанных на русском языке, входящем в группу европейских языков и использован инструмент анализа, представляющий собой частотный анализ функции распределения текста по тем символам (буквам), из которых состоит тот или иной алфавит, а также по сочетаниям этих символов.

В работе анализируются некоторые литературные произведения, т.е. авторские тексты в плане частоты встречаемости букв и буквосочетаний. Буквы и звуки образуют разные множества, букв алфавита русского языка 33 (или 32, если считать е и ё, за одну букву), а звуков в русской речи 42, из них 6 гласных и 36 согласных. Поскольку литературные произведения написаны не в звуковой транскрипции поэтому будут анализироваться печатные тексты.

Инструментом анализа также будет являться плотность функции распределения текста по тем символам, из которых состоит алфавит, а также по сочетаниям этих символов, в работе это совокупность эмпирических частот встречаемости букв и их сочетаний в определенном тексте.

Функция распределения, т.е. частота появления по выбранному порядку упорядочивания k-го символа при n равном количеству символов в исследуем алфавите языка, определяется формулой:

Постоянная нормировки при этом будет определятся из условия:

что дает

Анализ частотных характеристик

Для проведения анализа частотных характеристик текстов разных авторов был разработан алгоритм и программа на языке объектно-ориентированного программирования MS Visual Basic 2010. Цель данной программы состояла в оптимизации работы с внешними файлами заданного формата, содержащими различные тексты, выполнении вычислений статистических характеристик текстов и автоматизации процесса построения различных диаграмм частотных и вероятностных характеристик анализируемых текстов.

Для тестирования разработанного приложения и последующего этапа анализа полученных характеристик, были выбраны тексты произведений русской литературы девятнадцатого века Н.В. Гоголя, Ф.М. Достоевского, Л.Н. Толстого и И.С. Тургенева и других авторов. Из произведений данных авторов были рассмотрены тексты объемом примерно в 30 тыс. слов в количестве по 10 произведений каждого автора.

Для начальной компьютерной обработки каждое произведение было подготовлено и представлено в виде текстового файла. Для проведения корректного анализа из электронной версии текста исключались некоторые специальные символы, которые могут встречаться в текстах, созданных в различных текстовых редакторах. Например, при автоматическом выравнивании по ширине в тест могут добавляться лишние пробелы, по которым в принципе можно определять количество слов в предложении или символы переносов в словах, появляющиеся в текстах при автоматической расстановке переносов или другие спецсимволы. Далее разработанный и реализованный алгоритм в подготовленном тексте определяет частоту повторений различных символов, количество слов в общем тексте, среднее количество слов в предложении каждого автора, вычисляет математическое ожидание, среднеквадратичное отклонение и дисперсию по каждому произведению, а также средние характеристики по каждому автору.

Полученные в результате проведённого исследования результаты представлены на рис. 1 и 2. Частотная характеристика по символам алфавита естественного языка (в данном случае это русский язык) некоторых авторов приведена на рис.1, а распределение расстояний между всеми текстами при двух способах упорядочения букв (алфавитном и частоте встречаемости) приведено на рис. 2.

Представленные на рис. 1 средние авторские частотные характеристики Гоголя, Достоевского, Толстого и Тургенева и средняя частотная характеристика библиотеки, которая лежит в этом же диапазоне, очевидно не пригодна для определения авторства текстов, но может служить вспомогательным инструментом анализа.

Рис. 1. Средние авторские частотные характеристики при упорядочении букв по частоте встречаемости букв

Рис. 2. Распределение расстояний между всеми текстами при двух способах упорядочения букв

Если же анализировать общее распределение между всем массивом текстов, то здесь, наоборот можно сделать вывод, что упорядоченность букв по частоте их встречаемости в тексте в большей степени, чем упорядоченность по алфавиту, характеризует язык как таковой: соответствующие распределения устойчивы по отношению к произведениям разных авторов и имеют малую дисперсию. Для выбора между этими двумя способами упорядочения в задаче идентификации автора, надо определить, в каком случае ошибка будет меньше, а в каком она не соответствует заданным критериям.

Заключение

В работе по выявлению зависимостей и связей единиц текста разных авторов проведенное исследование является начальной точкой. Полученные результаты помогут интерпретировать текст с точки зрения привязки к конкретному автору.

Представления о единице текста, т.е. о том, что является эквивалентом исследуемых переменных в эксперименте и является главным моментом, который связывает почти все методики анализа текста. Символьные единицы языка, выбранные для анализа, определили статистику, что позволит далее перейти к более сложному анализу лингвистических форм, для которого необходимо будет создать различные словари и банки данных по анализируемым авторам и произведениям.

Библиографические ссылки

1. Аверьянов Л.Я. Контент анализ: учеб. пособие. М.: КНОРУС, 2009. 456 с.

2. Культурология: учебник для вузов / под ред. Ю.Н. Солонина, Е.Э. Суровой СПб.: Дом Питер, 2014.

3. Марков А.А. Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь // Известия Императорской академии наук. Сер. VI. 1913. Т. Х, № 3. С. 153.

4. Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного известного автора. Стилеметрический этюд // Известия отд. русского языка и словесности Императорской академии наук. 1915. Т. 20, кн. 4.

5. Хмелев Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер. 9: филология. 2000. № 2. С. 115.

6. Орлов Ю.Н. Методика определения оптимального объема выборки нестационарного временного ряда // ИТВС. 2008. № 3.

Размещено на Allbest.ru

...

Подобные документы

  • Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.

    курсовая работа [46,9 K], добавлен 22.05.2015

  • Становление теории вторичных текстов (ВТ), их классификация. Понятие ВТ как построенного на основе текста-источника с другими прагматическими целями и в другой коммуникативной ситуации. Сохранение в ВТ элементов когнитивно-семантической структуры текста.

    статья [37,4 K], добавлен 23.07.2013

  • Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.

    дипломная работа [4,4 M], добавлен 14.02.2013

  • Характерные черты и особенности построения креолизованного текста в комиксах. Исследование паралингвистических средств в тексте как основной единицы языковой коммуникации. Место креолизованных текстов в системе текстов, их структурные особенности.

    курсовая работа [727,2 K], добавлен 30.10.2014

  • Коммуникативный аспект функции языка. Стилистическая диагностика текста и исследование языка Интернета. Характеристика исследуемого материала веблогов и форумов. Особенности методики их анализа, результаты исследований. Изучение параметров текстов.

    курсовая работа [27,3 K], добавлен 10.11.2009

  • Понятия "содержание" и "форма" при переводе музыкально-поэтических текстов. Сопоставительный анализ текстов оригинала (подлинника) и перевода. Лексические и грамматические трансформации при переводе музыкально-поэтических текстов песен Джона Леннона.

    дипломная работа [174,2 K], добавлен 09.07.2015

  • Понятие "перевод". Основные типы переводческих ошибок. Характеристика концепций предпереводческого анализа, различные точки зрения на выполнение и технику перевода. Применение предпереводческого анализа текста на практике (в ходе анализа текстов).

    научная работа [172,9 K], добавлен 11.09.2012

  • Принципы стихотворного художественного эквивалентного перевода. Характеристики англоязычных песен. Проблема взаимодействия автора художественного текста и переводчика. Сопоставительный анализ текстов переводов песен групп "The Beatles" и "Depeche Mode".

    дипломная работа [115,2 K], добавлен 06.11.2011

  • Структурно-содержательные особенности медийных текстов. Характеристика современного медиадискурса. Анализ синтагматических и лингвостилистических особенностей корпуса текстов группы передовых редакторских статей в качественной и популярной прессе.

    дипломная работа [76,6 K], добавлен 29.03.2016

  • Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.

    курсовая работа [33,0 K], добавлен 10.04.2013

  • История изучения стилеметрии - прикладной филологической дисциплины, занимающейся измерением стилевых характеристик с целью систематизации и упорядочения текстов и их частей. Объект и предмет стилеметрии, методы анализа филолого-статистических данных.

    реферат [334,2 K], добавлен 12.04.2015

  • Черты научного стиля, которые отличают его от других стилей английского языка. Функции и признаки текстов научного стиля, их разновидности. Исследование основных лексических, грамматических и стилистических особенностей текстов английской научной речи.

    курсовая работа [603,0 K], добавлен 21.04.2015

  • Структурированная система методов лингвокультурологического анализа, приведенная Г. Алимжановой. Методика доминантного анализа. Метод сжатия конкорданса, предполагающий учет всех употреблений анализируемого слова в пределах определенного корпуса текстов.

    доклад [28,7 K], добавлен 03.06.2014

  • Закономерности семантической и структурной организации текстов, их классификация и типы. Сущность монологических и диалогических, устных и письменных текстов. Виды кулинарных рецептов, их лингвистические, национальные особенности и культурная специфика.

    курсовая работа [56,8 K], добавлен 23.03.2010

  • Классификация, характерные и стилистические особенности рекламных текстов. Приемы параллелизма и повтора. Наиболее частые трудности, возникающие при переводе рекламных текстов. Интересные примеры перевода из публицистической продукции и сети Интернет.

    курсовая работа [46,8 K], добавлен 18.04.2011

  • Понятие и основные приемы выдвижения текстов народной сказки. Особенности приемов выдвижения текстов народной сказки. Классификация контраста как семантико-функциональной основы текста короткого рассказа. Типы контраста в образной системе текста.

    курсовая работа [36,5 K], добавлен 15.12.2016

  • "Метаязык" как понятие в лингвистике и переводоведении. Особенности научного стиля и обзор классификаций текстов. Жанр телепередач и прагматический аспект перевода научных текстов. Особенности перевода французских текстов научно-популярного подстиля.

    курсовая работа [44,2 K], добавлен 06.03.2015

  • Изучение лексико-грамматических и стилистических особенностей перевода военных текстов. Текстуальные категории военных текстов. Выявление специфических приемов перевода, используемых для передачи текстов военного характера с английского языка на русский.

    дипломная работа [94,1 K], добавлен 20.05.2015

  • Классификация перевода по жанровой принадлежности оригинала. Эквивалентность при информативном переводе. Лексико-грамматические и стилистические характеристики специальных текстов. Переводческий анализ текстов прагматической направленности компании AES.

    дипломная работа [97,5 K], добавлен 05.05.2008

  • Рекламные тексты, их классификация. Лингвостилистические особенности рекламных текстов. Определение понятия "аллюзия". Виды, механизм действия аллюзий. Аллюзии в английской и американской рекламе. Анализ англоязычных рекламных текстов на наличие аллюзий.

    научная работа [71,7 K], добавлен 25.02.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.