Разработка системы поддержки принятия решений для рубрикации научных текстов

Проект системы поддержки принятия решений для рубрикации научных текстов с учетом их особенностей. Исследование искусственных нейронных сетей, логистической регрессии. Анализ данных, извлечение признаков из текстов, разработка настольного приложения.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 02.09.2018
Размер файла 2,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Классификатор на основе метода опорных векторов показал лучшие результаты на данном рубрикаторе. При этом качество остальных моделей значительно ниже. Нейронные сети прямого распространения с 1 и 2 скрытыми слоями и с LSTM-слоем показали второй по качеству результат при микро-усреднении, логистическая регрессия - при макро-усреднении. Случайный лес при обоих подходах к усреднению показал самые низкие результаты.

Таблица 2

Результаты тестирования классификаторов для кодов тематических отделов

Классификатор

Усреднение

Доля правильных ответов

Точность

Полнота

F-мера

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

Логистическая регрессия

Микро

0,94

0,93

0,90

0,77

0,59

0,49

0,53

0,71

0,80

0,62

0,64

0,60

Макро

0,94

0,93

0,90

0,72

0,55

0,45

0,51

0,70

0,79

0,58

0,60

0,56

Случайный лес

Микро

0,93

0,92

0,88

0,72

0,55

0,43

0,50

0,67

0,78

0,59

0,60

0,55

Макро

0,93

0,92

0,88

0,73

0,55

0,42

0,39

0,57

0,70

0,50

0,53

0,51

ИНС прямого распространения с 1 скрытым слоем

Микро

0,94

0,93

0,90

0,80

0,60

0,47

0,57

0,76

0,85

0,67

0,67

0,60

Макро

0,94

0,93

0,90

0,78

0,58

0,45

0,51

0,71

0,82

0,60

0,63

0,57

ИНС прямого распространения с 2 скрытыми слоями

Микро

0,94

0,93

0,90

0,80

0,61

0,48

0,56

0,75

0,85

0,66

0,68

0,61

Макро

0,94

0,93

0,90

0,78

0,59

0,46

0,51

0,71

0,82

0,60

0,64

0,58

Метод опорных векторов

Микро

0,95

0,94

0,91

0,82

0,64

0,50

0,59

0,77

0,87

0,69

0,70

0,64

Макро

0,95

0,94

0,91

0,80

0,61

0,48

0,55

0,74

0,85

0,65

0,67

0,61

Рекуррентная ИНС с LSTM-слоем

Микро

0,95

0,91

0,86

0,80

0,52

0,39

0,60

0,78

0,87

0,68

0,63

0,54

Макро

0,95

0,91

0,86

0,77

0,49

0,37

0,54

0,75

0,85

0,63

0,59

0,50

Таблица 3

Результаты тестирования классификаторов для кодов реферативных журналов

Классификатор

Усреднение

Доля правильных ответов

Точность

Полнота

F-мера

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

Логистическая регрессия

Микро

0,99

0,99

0,98

0,49

0,36

0,29

0,33

0,49

0,59

0,39

0,42

0,39

Макро

0,99

0,99

0,98

0,46

0,36

0,29

0,35

0,51

0,60

0,37

0,40

0,37

Случайный лес

Микро

0,99

0,99

0,98

0,45

0,35

0,29

0,23

0,39

0,49

0,23

0,36

0,37

Макро

0,99

0,99

0,98

0,36

0,31

0,26

0,20

0,33

0,42

0,31

0,30

0,30

ИНС прямого распространения с 1 скрытым слоем

Микро

0,99

0,99

0,98

0,47

0,37

0,30

0,24

0,40

0,51

0,32

0,39

0,38

Макро

0,99

0,99

0,98

0,41

0,34

0,28

0,20

0,34

0,43

0,23

0,31

0,32

ИНС прямого распространения с 2 скрытыми слоями

Микро

0,99

0,99

0,98

0,46

0,36

0,30

0,25

0,41

0,52

0,32

0,39

0,38

Макро

0,99

0,99

0,98

0,40

0,33

0,28

0,22

0,35

0,45

0,25

0,32

0,32

Метод опорных векторов

Микро

0,99

0,99

0,99

0,61

0,48

0,38

0,36

0,54

0,65

0,45

0,51

0,48

Макро

0,99

0,99

0,99

0,54

0,44

0,36

0,33

0,50

0,60

0,40

0,46

0,44

Рекуррентная ИНС с LSTM-слоем

Микро

0,99

0,98

0,98

0,49

0,36

0,28

0,33

0,50

0,59

0,39

0,42

0,38

Макро

0,99

0,98

0,98

0,47

0,36

0,28

0,34

0,49

0,59

0,37

0,40

0,37

Таблица 4

Результаты тестирования классификаторов для кодов ГРНТИ

Классификатор

Усреднение

Доля правильных ответов

Точность

Полнота

F-мера

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

1 ответ

2 ответа

3 ответа

Логистическая регрессия

Микро

0,99

0,99

0,99

0,41

0,31

0,25

0,28

0,43

0,53

0,33

0,36

0,34

Макро

0,99

0,99

0,99

0,29

0,23

0,19

0,29

0,42

0,50

0,24

0,25

0,24

Случайный лес

Микро

0,99

0,99

0,99

0,43

0,32

0,26

0,19

0,34

0,44

0,27

0,33

0,32

Макро

0,99

0,99

0,99

0,15

0,16

0,14

0,06

0,12

0,17

0,06

0,11

0,13

ИНС прямого распространения с 1 скрытым слоем

Микро

0,99

0,99

0,99

0,46

0,35

0,28

0,25

0,40

0,49

0,32

0,38

0,36

Макро

0,99

0,99

0,99

0,16

0,14

0,13

0,08

0,14

0,18

0,09

0,12

0,13

ИНС прямого распространения с 2 скрытыми слоями

Микро

0,99

0,99

0,99

0,46

0,36

0,29

0,27

0,42

0,52

0,34

0,38

0,37

Макро

0,99

0,99

0,99

0,19

0,18

0,16

0,09

0,16

0,22

0,11

0,15

0,16

Метод опорных векторов

Микро

0,99

0,99

0,99

0,62

0,46

0,36

0,37

0,55

0,65

0,46

0,51

0,47

Макро

0,99

0,99

0,99

0,41

0,35

0,28

0,20

0,33

0,42

0,25

0,32

0,32

Рекуррентная ИНС с LSTM-слоем

Микро

0,99

0,99

0,99

0,45

0,33

0,25

0,31

0,46

0,54

0,37

0,38

0,35

Макро

0,99

0,99

0,99

0,15

0,11

0,08

0,11

0,16

0,20

0,11

0,13

0,11

7.4 Вывод по анализу результатов

Из всех тестируемых моделей машинного обучения классификатор на основе метода опорных векторов оказался значительно лучше других в рамках поставленной задачи, показывая самые высокие результаты по всем метрикам качества. При этом для всех рубрикаторов оптимальным размером рекомендации оказались два ответа для кодов отделов, один ответ для кодов РЖ и три ответа для ГРНТИ. Тем не менее, подход со строгим количеством ответов является не самым перспективным и вскоре будет заменен анализом вероятностей ответов и выбором одного или нескольких ответов на основании этих показателей, при этом ожидается рост качества по F-мере.

Доля правильных ответов является наиболее важной метрикой оценки качества для анализа возможностей классификатора обрабатывать реальный поток получаемых текстов, во всех случаях для двух ответов она была на уровне 0,94 и выше. Несмотря на слабое распознавание тем с небольшим количеством текстов в обучающей выборке, классификаторы хорошо адаптируются под имеющиеся данные и уже на этом этапе могут использоваться для увеличения эффективности труда специалистов, которые занимаются ручной рубрикацией текстов.

Заключение

В ходе создания базиса для разработки системы поддержки принятия решений для ВИНИТИ РАН была решена задача анализа обучающих данных. Было установлено, что выборка аннотаций научных публикаций содержит тексты, неравномерно распределенные по рубрикам, что может снизить качество классификации. Были предложены альтернативные интерпретации решаемой задачи, соответствующие регрессии в пространстве вероятностей. Было предположено, что для оценки качества СППР более показательными будут метрики качества, основанные на правильности предсказания моделью одной, двух или трех рубрик с наибольшими вероятностями, а также усредненные по микро- и макро_подходам.

Полный цикл анализа текста системой состоит из этапов предобработки текста, извлечения признаков и классификации. Предобработка текстов включает в себя удаление элементов разметки, перевод символов в нижний регистр, удаление стоп-слов и лемматизацию. Для обоснования выбора метода извлечения признаков был проведен обзор методов и выполнен ряд экспериментов по обучению моделей с фиксированными гиперпараметрами. Было установлено, что векторы размерности 50, полученные из матрицы текста методом усредняющего пулинга по столбцам лучше всего подходят для классификации. Матрица текста была получена при помощи технологии word2vec. При проведении экспериментов по выбору модели классификации для СППР гиперпараметры алгоритмов выбирались путем перебора комбинаций из заранее заданного диапазона. В результате тестирования классификаторов было установлено, что метод опорных векторов с ядром на основе радиально-базисной функции показывает себя лучше в задаче классификации научных текстов. Для рубрикатора, состоящего из кодов тематических отделов ВИНИТИ РАН, метод опорных векторов показал качество 0,65-0,70 по F-мере при учете одного и двух ответов с наибольшими вероятностями. Качество работы рекуррентной нейросети для одного ответа было примерно таким же (0,65-0,68). При классификации по кодам выпусков реферативных журналов F-мера составила 0,45-0,5 при двух и трех ответах. Для кодов ГРНТИ качество при тестировании достигло 0,3-0,5 по F-мере, что объясняется недостаточным количеством текстов по некоторым рубрикам в обучающей выборке. Таким образом, в задаче поддержки принятия решений для рубрикации научных текстов наиболее подходящим алгоритмом является метод опорных векторов. Оптимальной величиной рекомендации, исходя из результатов тестирования, являются два ответа.

Проделанная студенткой Е.С. Козловой работа включает в себя:

- обзор существующих решений для извлечения признаков из текста на естественном языке и моделей классификации (за исключением нейронных сетей);

- анализ набора данных, используемого в работе;

- выбор оптимального метода для извлечения признаков из текста;

- обучение моделей классификации и их сравнительный анализ по нескольким метрикам качества;

- разработка модулей приложения, отвечающих за извлечение признаков из текста и классификацию;

- проведение анализа качества работы классификатора.

Проделанная студентом К.Е. Ломотиным работа включает в себя:

- обзор существующих решений в области предварительной обработки текстов и использования нейронных сетей для классификации;

- предварительная подготовка текстовых данных, включающая в себя очистку от стоп-слов и служебных символов, приведение слов в нормальную форму, определение языка текста;

- создание структуры программного продукта;

- разработка приложения и модуля для предварительной обработки текстов;

- проведение тестирования приложения.

Список литературы

1. О ВИНИТИ РАН [Электронный ресурс]

2. ABBYY Smart Classifier [Электронный ресурс]

3. IBM Natural Language Classifier [Электронный ресурс]

4. Learning from Positive and Unlabeled data [Электронный ресурс]

5. Uysal, A.K. The impact of preprocessing on text classification / A.K. Uysal, S. Gunal // Information Processing & Management. - Elsevier, 2014. - Vol. 50. - No 1. - P. 104-112.

6. Lex, E. Cross-domain classification: Trade-off between complexity and accuracy / E. Lex et al. // Internet Technology and Secured Transactions, 2009. ICITST 2009. International Conference. - IEEE, 2009. - P. 1-6.

7. Semberecki, P. Deep learning methods for subject text classification of articles / P. Semberecki, H. Maciejewski // Computer Science and Information Systems (FedCSIS), 2017 Federated Conference. - IEEE, 2017. - P. 357-360.

8. Wang, Y. Comparisons and Selections of Features and Classifiers for Short Text Classification / Y. Wang et al. // IOP Conference Series: Materials Science and Engineering. - IOP Publishing, 2017. - Vol. 261. - No. 1. - P. 012018.

9. Sammouda, R. A Comparative Study of Effective Supervised Learning Methods on Arabic Text Classification / R. Sammouda // IJCSNS. - 2017. - Vol. 17. - No. 12. - P. 130.

10. Liu, Y. A method for multi-class sentiment classification based on an improved one-vs-one (OVO) strategy and the support vector machine (SVM) algorithm. / Y. Liu, J.W. Bi, Z.P. Fan // Information Sciences. - Elsevier, 2017. - Vol. 394-395. - P. 38-52.

11. Xu, B. A new SVM Chinese text of classification algorithm based on the semantic kernel. / B. Xu, Y. Zhang // 2011 International Conference on Multimedia Technology. - IEEE, 2011. - P. 2857-2860.

12. Xing, Z. Ensemble application of convolutional and recurrent neural networks for multi-label text categorization. / Z. Xing, D. Ye, G. Chen, J. Chen, E. Cambria // 2017 International Joint Conference on Neural Networks (IJCNN). - IEEE, 2017. - P. 2377-2383.

13. Du, J. Automatic text classification algorithm based on Gauss improved convolutional neural network. / J. Du // Journal of Computational Science. - Elservier, 2017. - Vol. 21. - P. 195-200.

14. Воробьев, Н.В. Классификация текстов с помощью сверточных нейронных сетей. / Н.В. Воробьев, Е.В. Пучков // Молодой исследователь Дона. - Донской государственный технический университет, 2017. - Т. 6. - №9. - С. 1-7.

15. Sivakumar, T.A Comparative Survey on Different Text Categorization Techniques. / T. Sivakumar, M.K. Raju, S.T. Subrahmanian // International Journal of Computer Science and Engineering Communications. - Chennai: Scientist Link Group of Publications Journals, 2017. - Vol. 5. - No. 3. - P. 1612-1618.

16. Bourgonje, P. Automatic classification of abusive language and personal attacks in various forms of online communication / P. Bourgonje et al. // International Conference of the German Society for Computational Linguistics and Language Technology. - Springer, 2017. - P. 180-191.

17. Sun, Y. Cost-sensitive boosting for classification of imbalanced data / Y. Sun et al. // Pattern Recognition. - 2007. - Vol. 40. - No. 12. - P. 3358-3378.

18. Dimov, D. SAR and optical time series for crop classification / D. Dimov // 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). - 2017. - P. 1-4.

19. Feng, K.Y. Boosting classifier for predicting protein domain structural class / K.Y. Feng, Y.D. Cai, K.C. Chou // Biochemical and biophysical research communications. - 2005. - Vol. 334. - No. 1. - P. 213-217.

20. Luo, Y. Classification of Data from Electronic Nose Using Gradient Tree Boosting Algorithm / Y. Luo // Sensors. - 2017. - Vol. 17. - No. 10. - P. 2376.

21. Abuhaiba, I.S.I. Combining Different Approaches to Improve Arabic Text Documents Classification / I.S.I. Abuhaiba, H.M. Dawoud // International Journal of Intelligent Systems and Applications. - 2017 - Vol. 9. - No. 4. - P. 39.

22. Lin, Y. Research on Classification of Chinese Text Data Based on SVM / Y. Lin et al. // IOP Conference Series: Materials Science and Engineering. - IOP Publishing, 2017. - Vol. 231. - No. 1. - P. 012067.

23. Gйron, A. Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems / A. Gйron. - «O'Reilly Media, Inc.», 2017. - P. 572.

24. Hilbe, J.M. Logistic regression / J.M. Hilbe //International Encyclopedia of Statistical Science. - Springer Berlin Heidelberg, 2011. - P. 755-758.

25. Лапач, С.Н. Основные проблемы построения регрессионных моделей / С.Н. Лапач, С.Г. Радченко // Математические машины и системы. - 2012. - Т. 1. - №4.

26. Korenius, T. Stemming and lemmatization in the clustering of finnish text documents / T. Korenius et al. // Proceedings of the thirteenth ACM international conference on Information and knowledge management. - ACM, 2004. - P. 625-633.

27. Toman, M. Influence of word normalization on text classification / M. Toman, R. Tesar, K. Jezek // Proceedings of InSciT. - 2006. - Vol. 4. - P. 354-358.

28. Клышинский, Э.С. Метод извлечения технических терминов с использованием меры странности / Э.С. Клышинский, Н.А. Кочеткова // Новые информационные технологии в автоматизированных системах. - 2014. - №17. - С. 365-370.

29. Word2Vec [Электронный ресурс]

30. Scherer D. Evaluation of pooling operations in convolutional architectures for object recognition / D. Scherer, A. Mьller, S. Behnke //International conference on artificial neural networks - Springer, Berlin, Heidelberg, 2010. - P. 92-101.

31. Toloєi, L. Classification with correlated features: unreliability of feature ranking and solutions / L. Toloєi, T. Lengauer // Bioinformatics. - 2011. - Vol. 27. - No. 14. - P. 1986-1994.

32. Clark, J. A neural network based approach to automated e-mail classification / J. Clark, I. Koprinska, J. Poon // Web Intelligence, 2003. WI 2003. Proceedings. IEEE/WIC International Conference. - IEEE, 2003. - P. 702-705.

33. Yang, Y. An evaluation of statistical approaches to text categorization / Y. Yang //Information retrieval. - 1999. - Vol. 1. - No. 1-2. - P. 69-90.

Размещено на Allbest.ru

...

Подобные документы

  • Классификация систем поддержки принятия решений. Сравнительный анализ методик для оценки рисков розничного кредитования. Структура системы поддержки принятия решений, формирование начальной базы знаний. Проектирование базы данных информационной системы.

    дипломная работа [1,9 M], добавлен 10.07.2017

  • Обслуживание двух встречных потоков информации. Структура информационных систем. Разработка структуры базы данных. Режимы работы с базами данных. Четыре основных компонента системы поддержки принятия решений. Выбор системы управления баз данных.

    курсовая работа [772,0 K], добавлен 21.04.2016

  • Анализ существующих решений системы поддержки принятия решений для корпоративной сети. Многоагентная система. Разработка концептуальной модели. Структура базы знаний. Разработка модели многоагентной системы на базе сетей Петри. Методика тестирования.

    дипломная работа [5,1 M], добавлен 19.01.2017

  • Методы решения проблем, возникающих на стадиях и этапах процесса принятия решений, их реализация в информационных системах поддержки принятия решений (СППР). Назначение СППР, история их эволюции и характеристика. Основные типы СППР, области их применения.

    реферат [389,3 K], добавлен 22.11.2016

  • Разработка алгоритмического и программного обеспечения для решения задачи поддержки принятия решений о выпуске новой продукции. Математическое обеспечение задачи поддержки принятия решений о выпуске новой продукции, основные входные и выходные данные.

    дипломная работа [943,0 K], добавлен 08.03.2011

  • Типы административных информационных систем: системы генерации отчетов, системы поддержки принятия решений, системы поддержки принятия стратегических решений. Сортировка и фильтрация списков в Microsoft Excel. Работа с базами данных в Microsoft Access.

    контрольная работа [6,0 M], добавлен 19.11.2009

  • Анализ применения нейронных сетей для прогнозирования ситуации и принятия решений на фондовом рынке с помощью программного пакета моделирования нейронных сетей Trajan 3.0. Преобразование первичных данных, таблиц. Эргономическая оценка программы.

    дипломная работа [3,8 M], добавлен 27.06.2011

  • Разработка и внедрение программного модуля поддержки принятия управленческих решений для информационной системы медицинского предприятия ООО "Центр эндохирургических технологий". Эффективность применения модуля, полученные с его помощью результаты.

    дипломная работа [1,9 M], добавлен 11.04.2013

  • Основные модели представления знаний. Системы поддержки принятия решений. Диаграмма UseCase. Разработка базы данных на основе трех моделей: продукционные правила, семантическая сеть, фреймовая модель. Программная реализация системы принятия решений.

    курсовая работа [715,1 K], добавлен 14.05.2014

  • Концепция систем поддержки принятия решений. Диапазон применения Analytica 2.0. Программное обеспечение количественного моделирования. Графический интерфейс для разработки модели. Основные способы моделирования. Диаграмма влияния и дерево решений.

    контрольная работа [1,1 M], добавлен 08.09.2011

  • Исследование технологического процесса по производству газобетона. Модель "как будет" процесса диагностирования состояния технологического процесса производства газобетона с учетом системы поддержки принятия решений. Прототипирование интерфейса СППР.

    дипломная работа [4,8 M], добавлен 17.06.2017

  • Классификация задач системы поддержки принятия решений, их типы и принципы реализации при помощи программы "Выбор". Обзор современных систем автоматизированного проектирования "Компас", "AutoCad", "SolidWorks", оценка преимуществ и недостатков программ.

    курсовая работа [1,4 M], добавлен 22.07.2014

  • Теоретические аспекты функционирования Business intelligence - систем в сфере логистики. Анализ условий для разработки системы поддержки принятия решений. Характеристика процесса создания программного продукта, применение аналитической платформы QlikView.

    курсовая работа [2,5 M], добавлен 09.09.2017

  • Методы машинного обучения в задачах рубрикации, положительные и отрицательные примеры. Отсечение по центрам тяжести и ближайшим соседям. Оптимальный линейный сепаратор Support Vector Machines. Особенности применения тезауруса. Расчет веса конъюнкции.

    лекция [405,0 K], добавлен 01.09.2013

  • Основные понятия электронно-вычислительных сетей. Стандарты проектного управления. Электронный проектный офис как система поддержки принятия решений. SaaS-приложения для управления проектами. Факторы, воздействующие на оператора ПК. Диаграмма базы данных.

    дипломная работа [1,5 M], добавлен 15.10.2013

  • Задача анализа деловой активности, факторы, влияющие на принятие решений. Современные информационные технологии и нейронные сети: принципы их работы. Исследование применения нейронных сетей в задачах прогнозирования финансовых ситуаций и принятия решений.

    дипломная работа [955,3 K], добавлен 06.11.2011

  • Изучение назначения и основных задач, которые решает Project Expert - система поддержки принятия решений (СППР), предназначенная для менеджеров, проектирующих финансовую модель нового или действующего предприятия. Программные приложения, этапы работы.

    реферат [30,7 K], добавлен 19.05.2010

  • Рассмотрение понятия и истории возникновения систем поддержки принятия решения. Приспособленность информационных систем к задачам повседневной управленческой деятельности. Понятие термина "интеллектуальный анализ данных". Методика извлечения знаний.

    реферат [79,8 K], добавлен 14.04.2015

  • Система поддержки принятия решений "Мыслитель" и метод, заложенный в её основу. Порядок работы в программе: новая задача, составление списка альтернатив, списка критериев их оценки, сравнение критериев по степени важности, попарное сравнение альтернатив.

    отчет по практике [719,2 K], добавлен 08.03.2016

  • Человеко-машинные комплексы, специально предназначенные для принятия решений. Процесс принятия решений и его этапы. Методы поиска новых вариантов решений: дерево решений, морфологические таблицы, конференции идей. Принцип математической оценки тенденций.

    курсовая работа [272,1 K], добавлен 30.07.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.