Разработка метода и программного обеспечения для проведения авторской атрибуции русскоязычных текстов
Требования к функционалу программной реализации, предварительная обработка текстовых данных. Программная реализация, описание логической структуры. Зависимость качества от числа авторов и от объёма текстов. Особенности и значение индексации документов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 05.08.2018 |
Размер файла | 1,3 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
15
0.6
0.66
0.6
0.58
10
0.7
0.83
0.7
0.71
5
0.73
0.81
0.73
0.75
2
1
1
1
1
3.4 Зависимость качества от объёма текстов
В ходе исследования предложенного метода было также проведено исследование зависимости качества алгоритма от размера текстов на обучающей и тестовой выборках. По результатам предыдущих экспериментов лучшим методом АА стал наивный байесовский классификатор с использованием необработанной комбинации признаков «мешок слов» и распределение 5-грамм. После оптимизации данный подход продемонстрировал точность порядка 95 % на тестовой выборке, состоящей из 20 авторов.
Исследование зависимости качества алгоритма от размера текстов выборки было проведено на лучшем методе, описанном выше. Были исследованы зависимости следующих метрик качества: достоверность, точность, полнота, f1-мера. Размеры текстов на обучающей и тестовой выборках менялись в диапазоне от 60 000 до 1500 символов с шагом в 1500 символов. На каждой итерации были вычислены вышеописанные метрики качества, по результатам проверки всего диапазона размера текстов были построены графики, демонстрирующие зависимость. Результаты данного исследования приведены на рисунках 6-9.
Как видно из приведённых графиков все метрики демонстрируют схожую тенденцию - снижение величины самой метрики качества при уменьшении размеров текстовых документов. Величина всех метрик качества каждого классификатора достигает максимума и не уменьшается на диапазоне 50-60 тысяч символов, при размере текстов меньше 50 тысяч наблюдается серьёзное падение всех метрик качества классификатора. Согласно требованиям, к реализуемому методу, описанным в разделе 2.1. данной работы, метод должен демонстрировать качество не ниже 75 %, данный результат может быть достигнут при использовании текстовой выборки, где размер каждого текста составляет не менее 15 тысяч символов.
Найденная зависимость является вполне закономерной [23], так как чем меньше данных имеет классификатор, тем чаще он ошибается, однако на выборке, где размер текстов составляет порядка 1500-3000 символов наблюдается серьёзный рост качества метода примерно на 15-20 %. Данный эффект может быть объяснён тем фактом, что текстовые документы не были очищены от издательской информации, среди которой числится имя автора, название произведения, краткая аннотация, предисловие, описание произведения. Вероятнее всего при небольших объёмах исследуемых текстов не удаленная издательская информация оказывает существенное влияние на точность АА. Данный факт был дополнительно проверен, все тексты были очищены от второстепенной информации, в результате чего при повторном эксперименте в диапазоне 1500-3000 символов не наблюдается резкого скачка качества классификатора.
Рисунок 6. Зависимость достоверности метода от размера текстов
Рисунок 7. Зависимость точности метода от размера текстов
Рисунок 8. Зависимость полноты алгоритма от размера текстов
Рисунок 9. Зависимость f1-меры от размера текстов
В результате поставленного эксперимента по исследованию зависимости качества классификатора от размера текстов исходных выборок можно сделать вывод о том, что оптимальный размер каждого текста в задачах АА должен составлять не менее 40 тысяч символов, именно при таких значениях наблюдается наибольшее качество предложенного метода, полученные данные совпадают с большинством других исследований в области АА [5, 6, 8, 9]. В поставленных экспериментах разработанный метод продолжает демонстрировать достаточно высокий показатель качества - более 75 % на выборках с размером текстов от 15 тысяч символов и более. Также данный эксперимент показал важность предварительной очистки текстовых документов от различной служебной информации, не имеющей отношения к творчеству автора - данная информация может серьёзно зашумлять результаты, особенно при исследовании текстов размером менее 5000 символов.
3.5 Выводы по апробации
В ходе апробации были проведены эксперименты над различными модификациями метода, соответствующими различным подходам в задаче АА. В ходе эксперимента были изучены модификации метода с применением различных признаковых описаний текстов, алгоритмов предварительной обработки признаков и алгоритмов классификации данных. В результате эксперимента была выделена модификация метода, демонстрирующая лучший результат в задаче АА, ей оказалась следующая связка последовательных этапов обработки данных.
· Предварительная обработка текстов: понижение регистра символов.
· Признаковое описание: комбинация признаков распределения слов и распределения 5-грамм символов текста.
· Предварительная обработка признаков: без предварительной обработки.
· Алгоритм классификации: наивный байесовский классификатор.
· Параметры классификатора: б=0,01.
Также в результате экспериментов была определена минимальная длина исследуемых текстов, при которой достигается максимальное качество по всем метрикам, - 45 тысяч символов. При большей длине лучшего качества алгоритм не достигает.
Заключение
Результатом данной работы является реализованный программный метод для проведения авторской атрибуции русских литературных произведений. Разработанное ПО выполняет следующие функции:
- считывание выборки текстовых файлов;
- предварительная обработка текстовых данных;
- определение множества признаков на каждом текстовом файле;
- нормализация и стандартизация текстовых признаков;
- проведение анализа авторской атрибуции текстов при помощи методов классификации;
- определение наиболее точных методов классификации;
- определение оптимального набора текстовых признаков;
- определение оптимальной длины исследуемых текстов.
Для тестирования разработанного метода была собрана экспериментальная выборка из 120 русских литературных произведений 20 различных авторов. На данной выборке была проведена экспериментальная апробация предложенного метода, в результате чего была определена лучшая модификация предложенного метода АА, которая впоследствии была оптимизирована гиперпараметрами. Наилучший реализованный подход показал среднее качество в 92 % на всей текстовой выборке. Также было исследовано поведение лучшей модификации на выборках разных размеров, была получена зависимость качества от размера текстов в экспериментальной выборке и определена оптимальная длина исследуемого текста - 45000 символов и минимальная длина - 15000 символов, на которой достигается требуемая точность в 75 %. В результате проверки зависимости качества алгоритма от числа авторов в выборке была найдена зависимость по уменьшению качества метода при увеличении количества классов авторов, однако оптимального количества исследуемых авторов найдено не было, что связано с ограничениями тестовой выборки. Исходя из представленных данных, можно утверждать, что требования, предъявляемые к данной работе, были выполнены полностью.
Перспективным направлением продолжения данной работы может являться попытка сокращения размерности признакового описания текстов для последующего применения новых алгоритмов классификации, такие как случайные леса, градиентный бустинг, нейронные сети. Также в данный момент развивается направление по извлечению новых признаков из текстовых документов, среди которых находятся морфологические конструкции текста [24], использование таких признаков могло бы позволить решать задачу АА на более высоком уровне применительно к большому числу текстовых документов и классов авторов.
Список литературы
1. Хмелёв Д. В. Распознавание автора текста с использованием цепей А.А. Маркова//Вестник МГУ. Сер. 9, Филология. 2000. N02. С.115-126.
2. Батура Т. В. Методы определения авторского стиля текстов и их программная реализация. // Программные системы и вычислительные методы. 2014. № 2. C. 197-216. DOI: 10.7256/2305-6061.2014.2.11705
3. Хмелёв Д. В. Классификация и разметка текстов с использованием методов сжатия данных // Всё о сжатии данных, изображений и видео. 2003. URL: http://compression.ru/download/articles/classif/intro.html (дата обращения: 13.04.2018)
4. Рогов А. А., Гурин Г. Б., Котов А. А., Сидоров Ю. В., Суровцова Т. Г. Программный комплекс СМАЛТ // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Х Всероссийской научной конференции «RCDL'2008». Дубна, 2008. С. 155-160.
5. Тимашев А. Н. Атрибутор // Текстология. ru. 1999-2007. URL: http://www.textology.ru/atr_resum.html (дата обращения: 13.04.2018)
6. Шевелёв О. Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Автореф. дис. канд. тех. наук. Томск, 2006. 18 с.
7. Романов А. С., Мешчеряков Р.В. Идендификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интерактивные технологии: По материалам ежегодной международной конференции «Диалог 2009», 2009, №15. С.432-437
8. Rajul J. «Feature Selection for Effective Text Classification using Semantic Information» // International Journal of Computer Applications, 2015, Vol. 113.
9. Wayne F. «Nested Cross Validation: When (Simple) Cross Validation is not Enough» // Elder Research Data Science & Predictive Analytics, 2014, URL: https://www.elderresearch.com/company/blog/nested-cross-validation (Дата обращения 15.04.2018)
10. Luyckx K., Daelemans W., «Authorship Attribution and Verification with Many Authors and Limited Data»// Proceedings of the 22nd International Conference on Computational Linguistics, pp. 513-520, Manchester, 2015.
11. Bozkurt L., О. Baglэoglu, E. Uyar, «Authorship Attribution Performance of various features and classification methods» // Bilkent University Ankara, Turkey, 2007.er-Verlag, 1998.
12. Eder М., "Style-Markers in Authorship Attribution A Cross-Language Study of the Authorial Fingerprint" // Studies in Polish Linguistics, vol. 6, no. 1732-8160, pp. 99-114, 2011.
13. Raschka S. «About Feature Scaling and Normalization» // sebastianraschka, 2014, URL: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html (Дата обращения 15.04.2018)
14. «Tf-idf weighting» // nlp.stanford.edu, 2008, URL: https://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html (Дата обращения 15.05.2018)
15. «Наивный байесовский классификатор» // bazhenov.me, 2012, URL: http://bazhenov.me/blog/2012/06/11/naive-bayes.html (Дата обращения 18.05.2018)
16. Hastie T. «The Elements of Statistical Learning. Data Mining, Inference and Prediction» // Stanford, USA, California, 2008, 745 с.
17. «Машина опорных векторов» // machinelearning.ru, URL: http://www.machinelearning.ru/wiki/index.php?title=SVM#.D0.9C.D0.B0.D1.88.D0.B8.D0.BD.D0.B0_.D0.BE.D0.BF.D0.BE.D1.80.D0.BD.D1.8B.D1.85_.D0.B2.D0.B5.D0.BA.D1.82.D0.BE.D1.80.D0.BE.D0.B2_.D0.B2_.D0.B7.D0.B0.D0.B4.D0.B0.D1.87.D0.B0.D1.85_.D0.BA.D0.BB.D0.B0.D1.81.D1.81.D0.B8.D1.84.D0.B8.D0.BA.D0.B0.D1.86.D0.B8.D0.B8, (Дата обращения 19.05.2018)
18. Brownlee J. «Classification Accuracy is Not Enough: More Performance Measures You Can Use» // Machine Learning Mastery, 2014, URL: https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use (Дата обращения 19.05.2018)
19. Joshi R., «Accuracy, Precision, Recall & F1 Score: Interpretation of Performance Measures» // Exsilio Solutions, 2016, URL: http://blog.exsilio.com/all/accuracy-precision-recall-f1-score-interpretation-of-performance-measures/ (Дата обращения 19.05.2018)
20. «Морфологический анализатор pymorphy2», 2015, URL: https://pymorphy2.readthedocs.io/en/latest/ (Дата обращения 19.05.2018)
21. «sklearn decomposition PCA» // Scilit Learn, URL: http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html (Дата обращения 19.05.2018)
22. «sklearn.base: Base classes and utility functions» // Scilit Learn, URL: http://scikit-learn.org/stable/modules/classes.html (Дата обращения 19.05.2018)
23. Aurangzeb K., Baharum B., Hong L., Khairullah K.: «A Review of Machine Learning Algorithms for Text-Documents Classification», журнал «Advances In Information Technology», № 1, 2010.
24. Suganya S., Gomathi C., «Syntax and Semantics based Efficient Text Classification Framework», Международный журнал «Computer Applications», № 65, 2013.
25. Кожина М. Н., «Энциклопедический словарь русского языка» // изд. 2-е, стереотипное. -- М.: ФЛИНТА, 2011, 694 с.
ПРИЛОЖЕНИЕ A - Листинг программы
Размещено на Allbest.ru
...Подобные документы
Область применения и требования создаваемого Web-приложения. Требования к техническому и программному обеспечению. Разработка структуры Web-приложения и выбор средств программной реализации. Программная реализация Web-приложения. Структура базы данных.
дипломная работа [1,4 M], добавлен 03.06.2014Описание ДСМ-метода автоматического порождения гипотез. Исследование результатов влияния компонентов ДСМ-метода на качество определения тональности текстов. Алгоритм поиска пересечений. N-кратный скользящий контроль. Программная реализация ДСМ-метода.
курсовая работа [727,0 K], добавлен 12.01.2014Общие сведения о платформе Microsoft NET Framework. Разработка приложения "Поставка и реализация программного обеспечения", содержащего базу данных о каталогах адресов в Internet. Описание логической структуры. Требования к техническому обеспечению.
курсовая работа [2,4 M], добавлен 28.06.2011Морфологические анализаторы (морфологизаторы) на различных языках программирования. Анализ методов и технологий автоматической обработки ЕЯ-текстов. Разработка модуля графематического анализа и создания таблицы лексем. Программная реализация классов.
дипломная работа [3,0 M], добавлен 06.03.2012Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.
презентация [75,0 K], добавлен 13.08.2013Особенности метода неопределенных множителей Лагранжа, градиентного метода и метода перебора и динамического программирования. Конструирование алгоритма решения задачи. Структурная схема алгоритма сценария диалога и описание его программной реализации.
курсовая работа [1010,4 K], добавлен 10.08.2014Общая характеристика и функциональное назначение проектируемого программного обеспечения, требования к нему. Разработка и описание интерфейса клиентской и серверной части. Описание алгоритма и программной реализации приложения. Схема базы данных.
курсовая работа [35,4 K], добавлен 12.05.2013Анализ предметной области объекта автоматизации "Компьютерные курсы". Обзор информационных технологий, подходящих для разработки информационной системы. Требования к разрабатываемой базе данных и ее проектирование, особенности ее программной реализации.
курсовая работа [369,8 K], добавлен 30.05.2013Целые числа в позиционных системах счисления. Недостатки двоичной системы. Разработка алгоритмов, структур данных. Программная реализация алгоритмов перевода в различные системы счисления на языке программирования С. Тестирование программного обеспечения.
курсовая работа [593,3 K], добавлен 03.01.2015Проектирование базы данных, информационной подсистемы PLC-Tester, модуля тестирования и web-приложения. Разработка логической структуры программного продукта и общие требования к техническому обеспечению. Запуск программы и описание тестовых прогонов.
дипломная работа [3,2 M], добавлен 30.06.2011Программная и техническая характеристика информационных систем предприятия. Требования к информационной и программной совместимости. Проектирование программного обеспечения с использованием специализированных программных пакетов. Разработка базы данных.
отчет по практике [1,3 M], добавлен 11.04.2019Проектирование программного модуля: сбор исходных материалов; описание входных и выходных данных; выбор программного обеспечения. Описание типов данных и реализация интерфейса программы. Тестирование программного модуля и разработка справочной системы.
курсовая работа [81,7 K], добавлен 18.08.2014Основные подходы к решению проблем управления электронным документооборотом. Разработка информационной системы для работы с базой данных (БД). Проектирование логической структуры БД, программная реализация. Тестирование и отладка программного средства.
курсовая работа [1,3 M], добавлен 06.01.2013Разработка интерфейса справочно-расчетного программного обеспечения. Расчетно-графический модуль. Решение задачи динамического моделирования в системе MATLAB/Simulink. Программная реализация, результаты моделирования системы на текстовых примерах.
курсовая работа [2,6 M], добавлен 01.12.2014Функциональные характеристики программы форматирования текстовых файлов, требования к ее интерфейсу и данным. Схема взаимодействия компонентов системы, выбор среды исполнения и программная реализация алгоритмов. Тестирование и оценка качества программы.
курсовая работа [61,1 K], добавлен 25.07.2012Решение проблемы учета и анализа накладных, используемых организацией для учета поставок и продаж товара потребителям. Разработка информационного обеспечения, определение логической структуры базы данных. Описание реализации отдельных модулей задачи.
курсовая работа [267,4 K], добавлен 01.03.2010Понятие программной инженерии как применения определенного систематического измеримого подхода при разработке, эксплуатации и поддержке программного обеспечения. Модели процесса разработки программного обеспечения. Управление программными проектами.
презентация [870,6 K], добавлен 12.11.2014Описание структуры обучающего блока. Проектирование его алгоритма и лингвистического и информационного обеспечения. Организация его взаимодействия с базой данных. Разработка графического интерфейса. Программная реализация основных функций приложения.
дипломная работа [2,1 M], добавлен 20.12.2015Анализ предметной области и разработка структуры информационой системы (ИС) "Кадры". Описание информационных процессов. Разработка структуры БД и структуры ИС. Разработка структуры базы данных и интерфейсов. Реализация и тестирование ИС "Кадры".
курсовая работа [1,2 M], добавлен 06.01.2008Разработка программного продукта для психолингвистического анализа текстов. Предметная область, основные требования. Анализ рабочих процессов отдела рекламно-выставочной и издательской деятельности. Оценка эффективности проекта и стоимости владения.
дипломная работа [3,1 M], добавлен 12.10.2015