Использование анализа данных в средней школе для рекомендации выбора дальнейшего и текущего направлений обучения

Исследования поведения учителей и учащихся при работе с применение информационных технологий и методов машинного обучения. Предсказание итогового результата. Структура "умной" образовательной системы, построенной на применении информационных технологий.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 23.09.2018
Размер файла 2,4 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Отдельно стоит сказать, что для более точного анализа стоит рассматривать модель для каждого предмета по отдельности. Например, на продвинутую алгебру идут люди, которые:

Также идут на продвинутую геометрию, иностранный язык, обществознание и физику;

Также идут на базовые химию и физику, не идут на базовые обществознание и геометрию;

Не участвовали в олимпиадах, в первую очередь по русскому и литературе

Имеют более высокие оценки по геометрии и физике, более низкие по информатике.

В целом для развития подобной модели важным является получить больше данных для обучения, однако даже на таком уровне можно заметить, что выбор предметов зависит от оценок, выбора других предметов и олимпиад. Таблицу где обозначены положительные и отрицательные корреляции для каждого предмета можно найти в приложении 3, а для специальностей в приложении 4.

Выводы по 2 главе

Таким образом, на основании собранных данных была создана модель рекомендательной системы. Из четырех выбранных для построения моделей методов один показал свою неработоспособность (байесовский метод на основе распределения Гаусса). Три другие модели показали себя гораздо лучше: при сравнении (p-value=0,001) со взвешенной случайной моделью они показывают лучший результат. Лучший результат показала логистическая регрессия - 97% точности при выдаче пяти предсказаний.

Модель рекомендательной системы для будущего направления обучения показала себя несколько хуже: p-valueбыл снижен до 0,01, а точность снизилась (несмотря на уменьшение количества возможных классов). При решении данной задачи лучше всего себя показал байесовский метод, основанный на мультиноминальном распределении - 82% точности при выдаче трех предсказаний. Данное уменьшение точности может быть связано с неравномерностью распределения предсказываемых классов, а также смешении людей достаточно сильно различающихся специальностей в одном классе (например, класс «естественные науки» может включать в себя крайне разные специальности). Для решения данных проблем следует создать большую выборку учащихся и выпускников, а также расширить количество классов для данной модели.

Глава 3. Структура «умной» образовательной системы, построенной на применении информационных технологий

Рекомендательные системы и машинное обучения открывают большое количество возможностей для улучшения существующей образовательной системы. Более того, совместное использование различных таких систем создает важные связи, помогающие их работе.

В базовой своей форме процесс формального образования в школе можно описать следующим образом (рисунок 5). Существует три действующих актора: ученики, педагоги и администрация различного уровня (директор школы, муниципалитет и правительство). Ученики контактируют с педагогом с одной стороны получая новые знания, с другой стороны получая оценки в ходе их проверки. Педагоги контактируют с администрацией создавая отчеты о своей деятельности и получая методические указания.

Рисунок 5 - Процесс формального образования без использования информационных технологий

Рассмотрим существующую на данный момент в России систему, в которой основным школьным информационным инструментом является «электронный журнал». К основным функциям подобных систем, которые были введены по распоряжению правительства РФ в 2010 годуотносятся учет успеваемости и посещаемости, выдача списка домашних заданий, расписаний, списков тем уроков, автоматическое создание отчетов по успеваемости и автоматическое информирование родителей[4][5].

В ней действуют все те же три актора, однако потоки данных несколько изменяются. Теперь педагог вносит данные в базу данных электронного журнала, которая автоматически формирует отчеты и информирует учеников (рисунок 6).

Рисунок 6 - Система при использовании электронного журнала

Данная система существенно повышает информированность родителей и учеников, однако не меняет ситуацию кардинальным образом. Все функции подобной системы могли быть и выполнялись ранее вручную учителями. За счет улучшения средств связи многие процессы ускоряются, однако не претерпевают качественных изменений. Данные, которые могли быть использованы для получения новый информации и использования знаний об ученике исходя из имеющегося опыта не используются, а образовательный процесс продолжает напрямую зависеть от человеческого фактора. Более того, зачастую данная система оказывает негативное влияние на педагогов, так как на них ложится задача по внесению данных в базу данных, при том, что сохраняются старые формы отчетности (например, обычный классный журнал).

При помощи внедрения систем машинного обучения и blendedlearning курсов данная система может быть существенно изменена с точки зрения всех акторов (рисунок 7). Ее использование оказывает важное влияние на все компоненты образования: учащиеся получают дополнительные знания, курсы и рекомендации от системы управления образованием; педагоги с одной стороны оказывают влияние на прохождение их учащимися blendedlearning курсов, с другой стороны обладают дополнительной информации о своих учащихся (например, о нахождении их в группах риска); администрация получает кроме уже существующих отчетов, дополнительные знания о том, как учащиеся работают, следовательно отчеты, которые ранее использовались лишь для контроля деятельности педагогов, теперь могут быть использованы для улучшения понимания нужд учащихся и улучшения распределения учебных часов и тематического наполнения программ обучения.

Рисунок 7 - Система при использовании BlendedLearning и машинного обучения

С точки зрения ученика базовая система выглядит следующим образом: на уроках он получает новые знания, а после выполняет работы, направленные на проверку этих знаний. При появлении электронного журнала эта система не меняется сильным образом - теперь он может получать организационную информацию об образовании посредством сети Интернет. В третьем же варианте системы он обладает большим количеством дополнительных возможностей:

появляется возможность оказывать влияние на собственную программу обучения, выбирая то, какие курсы он проходит в смешанном формате;

получение дополнительной информации о возможностях, которые предоставляются для его обучения;

получение рекомендаций о тех моментах программы, которые могли быть пропущены учащимся и могут быть важны для прохождением им ОГЭ и ЕГЭ;

облегчения организационного процесса, благодаря возможности создать единую систему для записи на внеклассные мероприятия и дополнительные курсы.

В первом случае, наиболее важным создание системы Blendedlearning, которая с одной стороны состоит из технической составляющей (LMS и платформы для прохождения курсов), с другой стороны наполнения этой системы в виде курсов. С точки зрения технической составляющей существуют во-первых различные, созданные специально для школы LMS, такие как например Moodle[24] или CANVAS[21]. Они предоставляют как возможности электронного журнала, так и инструменты для создания и проведения blendedlearning курсов. С другой стороны, в России имеются и государственные системы для проведения онлайн части blendedlearning курсов. Примером такой системы можно назвать платформу «Открытое образование», которая действует на основе сотрудничества министерства образования и российских высших учебных заведений [2]. В целом для реализации необходимой системы может быть либо создана некая интеграция из двух имеющихся модулей, либо отдельный программный продукт, который будет объединять имеющиеся функции.

Дополнительной причиной для создания отдельного продукта является более удобная для пользователей реализация рекомендательной системы, которая необходима для реализации 2-ого и 3-ого пунктов. Однако ее реализация возможно и в рамках дополнения к уже существующей LMS (создание таких дополнений поддерживает, например, Moodle) или новостных рассылок на электронные почты учащихся. Данная система должна состоять из нескольких модулей. Первый, рекомендательная система, для курсов, модель которой была протестирована в работе. Второй, система по выявлению «пробелов» в образовании для создания списков рекомендованных материалов для учащегося при подготовке к выпускным экзаменам. Третий, более агрегированная система, которая служит для удобства составителей программ, она будет выявлять наиболее частые проблемные зоны в обучении, благодаря чему могут быть составлены улучшенные учебные планы.

Также подобная система может включать в себя функции «единого окна» для регистрации учащихся на дни открытых дверей вузов, лекции и другие проекты дополнительного образования, которые в достаточно большом количестве реализуются управлениями образования. Подобная система также должны быть интегрирована с рекомендательной системой для создания направленного информирования о мероприятиях.

Для педагогов такая система также обладает некоторыми положительными сторонами. Во-первых, это снижения нагрузки из-за уменьшения количества учащихся на каждом уроке и количества уроков в целом. Так, исходя из опроса по многим предметам более 40% учащихся желают перейти на дистанционную форму обучения. Даже считая эту оценку завышенной, можно говорить о том, что около трети людей будут обучаться онлайн, что позволит либо создавать более маленькие классы, где внимание педагога будет более сосредоточенно на каждом учащемся, либо объединять несколько классов в одну учебную группу для высвобождения времени педагога (которое может быть использовано для личных консультаций с теми, кто учится в «смешанном» формате).

Во-вторых, педагог, благодаря рекомендациям от системы фиксирования «групп риска» будет лучше знать о том, какие ученики в нее попадают и сможет оказывать им более своевременную помощь в обучении. В-третьих, при создании данной системы желательным итогом было бы уменьшение количества отчетности со стороны преподавателей и перевод ее в полностью электронный формат.

Для администрации (к которой могут относиться как руководство школы, так и чиновники образовательных ведомств) данная система также обладает рядом преимуществ. Помимо наиболее главного, для всех акторов, в виде улучшения качества образования к ним можно отнести абсолютно автоматическое получение отчетности, уменьшающее возможность преподавателей на нее влиять, а также дополнительные знания в виде агрегированных показателей, по которым можно узнать о проблемных точках образовательной программы и в соответствии с этим внести в нее коррективы.

Выводы по 3 главе

Таким образом, использование методов LMSв составе которой функционируют электронный журнал, системы основанных на методах машинного обучения и модуль для прохождения курсов онлайн может оказать положительное влияние на всех действующих в образовании лиц. Так для учеников - это может быть выражено в улучшении качества и персонализации образования, получение советов и материалов для закрытия «пробелов в образовании». Для учителей преимуществами данной системы является: уменьшение работы над отчетностью, уменьшением часовой нагрузки, получение дополнительных и более своевременных знаний об учащихся (например, находится ли он в «группе риска»). Для администрации учебных заведений (к которой относятся как руководство школы, так и муниципальные и государственные органы надзора за образованием) основными преимуществами являются получение более точных и своевременных отчетов о происходящем в школах и потребностях учащихся, которые могут быть использованы для создания более эффективных учебных планов.

Заключение

В рамках работы:

было проведено исследование источников об образовательном анализе данных, которое показало высокую заинтересованность ученых различных стран в данной теме. В основном работы в данном направлении сконцентрированы вокруг анализа поведения учащихся и преподавателей, оценки качества работы и образования, выявления среди учащихся тех, кто с большей вероятностью может получить неудовлетворительные оценки, поиск концепций поведения с учебными материалами;

было проведено анкетирование учащихся и выпускников российских школ, получены данные об их оценках, участии в олимпиадах, внеклассной активности, предпочтениях в выборе онлайн предметов и специальности для дальнейшего изучения;

была создана модель рекомендательной системы, основанная на методах машинного обучения. Во время тестирования все модели показали себя лучше созданной взвешенно-случайной модели(p-value для «предметной» модели - 0,001, а для модели по специальностям - 0,01), при этом для предметов лучше всего показала себя модель, основанная на логистической регрессии с «l1»-нормализацией (97% пользователей получают хотя бы одну правильную рекомендацию, при пяти рекомендация); наилучшей моделью для рекомендации специальности оказался мультиноминальный NaпveBayes (82% при трех специальностях);

с помощью регрессии с «l1»-нормализацией и высоким показателем при нормирующей величине было сделано предположение об основных факторах, влияющих на выбор того или иного школьного предмета для продвинутого или базового онлайн изучения;

была описана концепция, в которой данная система может оказать позитивное влияние и описаны ее преимущества для педагогов, учащихся и администрации.

Исследование подтвердило выдвинутую гипотезу, о возможности создания рекомендательной системы с использованием данных об оценках, олимпиадной и внеклассной деятельности учащегося российской школы. Следует заметить, что данное исследование обладает рядом ограничений, которые могут быть решены автоматическим сбором данных: это позволит с одной стороны улучшить качество получаемых данных, с другой стороны увеличить количество людей по данным которых можно построить модель. Более того, одной из проблем текущей работой, является то, что из-за ограниченности массива данных (только 250 примеров) не было возможности четко оценить границы классов в моделях «один против остальных» из-за опасности переобучения модели.

Несмотря на это достаточно важным является именно подтверждение выбранной гипотезы, которое говорит о целесообразности проведения дополнительных исследований и создании рекомендательных систем для улучшения и персонализации среднего образования в России.

Список литературы

1. А.С. Шведов Теория вероятностей и математическая статистика [Книга]. - Москва: Изд. дом ГУ-ВШЭ, 2005.

2. Национальная платформа открытогообразования Открытое образование - Главная страница [В Интернете]. - 15 мая 2018 г.. - https://openedu.ru/.

3. ПравительствоМосквы Московская электронная школа (МЭШ) [В Интернете]. - 15 мая 2018 г.. - https://www.mos.ru/city/projects/mesh/.

4. Правительство РФ Распоряжение Правительства РФ от 27 февраля 2010 г. N 246-р О плане первоочередных действий по модернизации общего образования на 2010 г.. - 15 марта 2010 г..

5. Элжур.руПолныйпереченьфункцийвинформационныхсистемахдляшкол [ВИнтернете]. - 15 мая 2018 г.. - http://eljur.ru/vse-funkcii-elektronnogo-zhurnala-dlya-shkol.

6. Bin Dai Shilin Ding, Grace Wahba Multivariate Bernoulli Distribution [Отчет]. - Wisconsin: [б.н.], 2012.

7. Biswas Gautam и Jeong Hogyeong Mining Student Behavior Models in Learning-by-Teaching Environments [Журнал]. - 2013 г..

8. C. S. Sankar H. Clayton An evaluation of use of multimedia case studies to improve an introduction to information technology course [Журнал]. - [б.м.]: IJICTE, 2010 г.. - 3: Т. 6.

9. Chih-Ming Chen Ming-Chuan Chen Mobile formative assessment tool based on data mining techniques for supporting web-based learning [Журнал]. - 2008 г..

10. David W. Hosmer Jr. Stanley Lemeshow Applied Logistic Regression, 2nd Edition [Книга]. - Hoboken: Wiley, 2000.

11. Etchells T., Nebot, A., Vellido, A., Lisboa, P., Mugica, F. Learning what is important: Feature selection and rule extraction in a virtual course [Конференция]. - Брюге: [б.н.], 2006.

12. F. Provost T. Fawcett Data Science for Business [Книга]. - Beijing: O'Reilly, 2013.

13. Flach Peter Machine Learning: The Art and Science of Algorithms that Make Sense of Data [Книга]. - Cambridge: Cambridge University Press, 2012.

14. G. Rosales R. Borges de Araujo, J. Otsuka, R. da Rocha Using logical sensors network to the accurate monitoring of the learning process in distance education courses [Журнал] // Advanced Learning Technologies. - 2011 г..

15. Gong M. Personalized e-learning system by using intelligent algorithm. In Knowledge Discovery and Data Mining [Конференция] // First International Workshop. - 2008.

16. Guruler H., Istanbullu, A., Karahasan, M. A new student performance analysing system using knowledge discovery in higher educational databases [Журнал] // Computers & Education. - 2010 г.. - 1: Т. 55.

17. H. Liu Y. Xia Teaching evaluation system based on association rule mining [Журнал] // Circuits, Communications and System. - 2011 г..

18. Hu Y.-H. Lo C.-L., Shih S.-P. Developing early warning systems to predict students' online learning performance [Журнал] // Computers in Human Behavior. - 2014 г.. - Т. 36.

19. J. Deng J. Hu, H. Chi, J. Wu A study of teaching evaluation in adult higher education based on decision tree [Журнал] // Information Technol-ogy and Computer Science. - 2010 г..

20. Kotsiantis S. B., Pierrakeas, C. J., & Pintelas, P. E. Predicting students' performance in distance learning using machine learning techniques [Журнал] // Applied Artificial Intelligence. - 2004 г.. - 5: Т. 18.

21. Learning Management System | LMS | Canvas by Instructure [ВИнтернете]. - 15 мая 2018 г.. - https://www.canvaslms.com/.

22. Liang-Yi Li Chin-Chung Tsai Accessing online learning material: Quantitative behavior patterns and their effects on motivation and learning performance [Журнал] // Computers & Education. - 2017 г.. - Т. 114.

23. Macfadyen Leah и Dawson Shane Mining LMS data to develop an ``early warning system” for educators: A proof of concept [Журнал]. - 2009 г..

24. Moodle Moodle - Open-source learning platform | Moodle.org [ВИнтернете]. - 15 мая 2018 г.. - https://moodle.org/?lang=ru.

25. P. Kaur M. Singh, G. S. Josan Classication and prediction based data mining algorithms to predict slow learners in education sector [Журнал] // Procedia Computer Science. - 2015 г.. - Т. 57.

26. Quan Liu Yongjun Peng A Method of Unstructured Information Process in Computer Teaching Evaluation System Based on Data Mining Technology [Конференция] // 2013 International Conference on Communication Systems and Network Technologies (CSNT). - Gwalior: [б.н.], 2013.

27. Romero C. Ventura S. Educational data mining: a review of the state of the art [Журнал] // IEEE Transactions on Systems, Man, and Cybernetics. - 2010 г.. - 6: Т. 40.

28. Scikit-learn team Naive Bayes -- scikit-learn 0.19.1 documentation [ВИнтернете]. - 15 мая 2018 г.. - http://scikit-learn.org/stable/modules/naive_bayes.html.

29. Tom Fawcett An introduction to ROC analysis [Журнал] // Pattern Recognition Letters. - 2006 г.. - 8: Т. 27.

30. V. Ivancevic M. Celikovic, I. Lukovic The individual stability of student spatial deployment and its implications [Конференция]. - Андора: IEEE, 2012.

31. V. Pascual-Cid L. Vigentini, M. Quixal Visualising Virtual Learning Environments: Case Studies of the Website Exploration Tool [Журнал] // IEEE Computer Society. - 2010 г.. - Т. 4.

32. Yeonjeong Park Ji Hyun Yub, Il-Hyun Joc Clustering blended learning courses by online behavior data: A case study in a Korean higher education institute [Журнал]. - 2015 г..

33. Z. Kechaou M. Ben Ammar, A. Alimi Improving e-learning with sentiment analysis of users' opinions. [Журнал] // Global Engineering Education Conference (EDUCON). - [б.м.]: IEEE, 2011 г..

34. Zhang H. Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference (FLAIRS 2004) [Конференция] // The optimality of Naive Bayes. - 2004.

Приложение 1

Листинг программы для обработки данных полученных в результате анкетирования

# считываем таблицу полученных ответов

importpandasaspd

grades = pd.read_csv('Grades.csv')

#формируем массивы ответов и названий переменных для дальнейшей удобной работы

adm = ['Гуманитарными науками (филология, журналистика, культурология и т.д.)', 'Информационными технологиями', 'Экономикой', 'Педагогикой', 'Медициной', 'Естественными науками (физика, химия и т. д.)', 'Инженерией']

subjects = ['Алгебра', "Геометрия", "Русский язык", "Литература", "Физика", "Химия", "Биология", "География", "Иностранный язык", "Информатика", "Обществознание", "История", "Ничего не стал бы"]

olymps = ["Математике", "Русский языку", "Литературе", "Физике", "Химии", "Биологии", "Географии", "Иностранный языку", "Информатике", "Обществознанию", "Истории", "Нигде"]

adm_short = ['gum', 'it', 'econ', 'ped', 'med', 'est', 'ing']

subj_short = ['alg', 'geom', 'rus', 'lit', 'phy', 'chem', 'bio', 'geo', 'for', 'it', 'soc', 'his', 'no']

olymps_short = ['math', 'rus', 'lit', 'phy', 'chem', 'bio', 'geo', 'for', 'it', 'soc', 'his', 'no']

vol = ['Волонтерском движении', 'Спортивных мероприятиях', 'Общественных мероприятиях']

vol_short = ['vol', 'sport', 'events']

subjects_eng = 'algebra geometry russian literature history foreign physics chemystry geography social biology informatics'.split(' ')

#создаем новую таблицу в которой ответы представлены бинарными

# категориальнымипеременными

new_grades = grades

for a in range(len(adm_short)):

new_grades[adm_short[a]] = [1 if adm[a] in text else 0 for text in new_grades['admission'] ]

for a in range(len(subjects)):

new_grades[subj_short[a]+'_base'] = [1 if subjects[a] in text else 0 for text in new_grades['base_subjects']]

for a in range(len(subjects)):

new_grades[subj_short[a]+'_adv'] = [1 if subjects[a] in text else 0 for text in new_grades['advanced_subjects']]

for a in range(len(olymps)):

new_grades[olymps_short[a]+'_town'] = [1 if olymps[a] in text else 0 for text in new_grades['town']]

for a in range(len(olymps)):

new_grades[olymps_short[a]+'_region'] = [1 if olymps[a] in text else 0 for text in new_grades['region']]

for a in range(len(olymps)):

new_grades[olymps_short[a]+'_state'] = [1 if olymps[a] in text else 0 for text in new_grades['state']]

for a in range(len(olymps)):

new_grades[olymps_short[a]+'_other'] = [1 if olymps[a] in text else 0 for text in new_grades['olymp_other']]

for a in range(len(vol)):

new_grades[vol_short[a]+'_other'] = [1 if vol[a] in text else 0 for text in new_grades['other']]

#переводим значения оценок в числовой формат. Для большей схожести

# с реальностью оценки содержат элемент случайности

import random as rnd

for subject in subjects_eng:

some_arr = [round(4.7 + (rnd.randint(0,3)/10),1) if i=='Почтиилитолькооднипятерки' else

round(4.0 + (rnd.randint(0,8)/10),1) if i=='Четверки/пятерки (в основном)' else

round(3.2 + (rnd.randint(0,9)/10),1) if i=='Тройки/четверки (в основном)' else

round(2.7 + (rnd.randint(0,7)/10),1) if i=='Тройки' else

round(2.0 + (rnd.randint(0,9)/10),1) if i=='Тройки/двойки' else 0

for i in grades[subject]]

new_grades[subject]=some_arr

#Убираем лишние столбцы, сохраняем полученный результат

#и создаем файл с описательной статистикой числовых столбцов

new_grades = new_grades.drop(['admission', 'base_subjects', 'advanced_subjects', 'town', 'region', 'state', 'olymp_other'], axis = 1)

new_grades.to_csv('grades_df.csv')

new_grades.describe().transpose().to_csv('grades_df_stats.csv')

Приложение 2

Листинг программы для создание и проверки различных моделей

#читаем созданный в предыдущей программе набор данных

import pandas as pd

grades_df = pd.read_csv('grades_df.csv')

print(grades_df.head())

#загружаем необходимые для анализа данных пакеты из библиотеки sklearn

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.svm import LinearSVC

from sklearn.naive_bayes import MultinomialNB, BernoulliNB, GaussianNB

from sklearn.neighbors import KNeighborsClassifier

from sklearn.dummy import DummyClassifier

from sklearn.metrics import roc_auc_score

from sklearn.metrics import confusion_matrix

from sklearn.linear_model import Lasso

#создаем массивы для хранения предсказаний по каждой модели

#и реальных значений переменных

subj_log_predictions = []

subj_log_real = []

subjs = subj_adv+subj_base

lasso_save = []

#цикл, который создает модель для каждого предмета

#базовый и продвинутый предмет считаются за два

for i insubjs:

#разбиение массива данных на тренировочную и тестовую части

#тестовая часть составляет 40% от всего набора данных

curr_subj = [subj for subj in subjs if subj!=i]

X_labeles = list(olymps_full)+list(curr_subj)+list(subjects_eng)

X_train, X_test, y_train, y_test =

train_test_split(grades_df[X_labeles],

grades_df[i],

random_state = 42,

test_size = 0.4)

#создание моделей методами: логистической регрессии

#SVM, тремявидами Naive Bayes, kNearestNeighbours -

#ислучайногоклассификатора

log_reg = LogisticRegression(penalty='l1')

log_reg.fit(X_train, y_train)

multy = MultinomialNB()

multy.fit(X_train, y_train)

ber = BernoulliNB()

gauss = GaussianNB()

gauss.fit(X_train, y_train)

ber.fit(X_train, y_train)

dummy = DummyClassifier('most_frequent')

dummy.fit(X_train, y_train)

#Выводпоказателейпокаждоймодели

print(i+'\nDummyscore: {0}'.format(

round(dummy.score(X_test,

y_test),3)))

print('Dummy AUC score {0}'.format(roc_auc_score(y_test,

[a[1] for

a in

dummy.predict_proba(X_test)])))

print('Logistic regression')

print('AUC score {0}'.format(roc_auc_score(y_test, [a[1] for

a in

log_reg.predict_proba(X_test)])))

print('Train score: {0}\nTest score: {1}'.format(

round(log_reg.score(X_train, y_train),3),

round(log_reg.score(X_test, y_test),3)))

print(confusion_matrix(log_reg.predict(X_test), y_test))

print('MultinomialNB')

print('AUC score {0}'.format(

roc_auc_score(y_test, [a[1] for a in

multy.predict_proba(X_test)])))

print('Train score: {0}\nTest score: {1}'.format(

round(multy.score(X_train, y_train),3),

round(multy.score(X_test, y_test),3)))

print(confusion_matrix(multy.predict(X_test), y_test))

print('BernoulliNB')

print('AUC score {0}'.format(

roc_auc_score(y_test,

[a[1] for a in ber.predict_proba(X_test)])))

print('Train score: {0}\nTest score: {1}'.format(

round(ber.score(X_train, y_train),3),

round(ber.score(X_test, y_test),3)))

print(confusion_matrix(ber.predict(X_test), y_test))

print('GaussianNB')

print('AUC score {0}'.format(roc_auc_score(y_test, [a[1] for a in

gauss.predict_proba(X_test)])))

print('Train score: {0}\nTest score:

{1}'.format(round(gauss.score(X_train, y_train),3),

round(gauss.score(X_test, y_test),3)))

print(confusion_matrix(gauss.predict(X_test), y_test))

print('Lasso')

Lss = Lasso(0.01)

Lss.fit(X_train, y_train)

print(Lss.score(X_test, y_test))

#Сохраняем данные по Лассо-модели для оценки

#значимстипеременных

lasso_save.append([x for x in zip(X_train.columns.values.tolist(),

Lss.coef_)])

print('\n')

subj_log_predictions.append([a[1] for a in

log_reg.predict_proba(X_test)])

subj_log_real.append(list(y_test))

#цикл для оценки качества модели

probs = []

for e in range(1000):

predictions = [list(zip(predicts, subjs)) for predicts in

np.transpose(subj_log_predictions)]

reals = [list(zip(real, subjs)) for real in

np.transpose(subj_log_real)]

#print(sorted(real[111], reverse = True))

pred_dist = {}

real_dist = {}

for subj in subjs:

pred_dist[subj]=0

real_dist[subj]=0

good = 0

num = len(reals)

all_real = 0

all_goods = 0

top_num = 4

#цикл сравнивающий показатели для каждого пользователя в

# отдельности с предсказанием, которое модель дала для пользователя

for i in range(num):

pred = [preds[1] for preds in sorted(predictions[i], reverse

= True)][0:top_num]

real = [real[1] for real in sorted(reals[i], reverse = True)

if real[0]==1]

for z in real:

real_dist[z]+=1

sum_real = sum([real_dist[x] for x in real_dist])

#Два варианта создания случайных прогноза: с и без оглядки

#на распределение предметов по выборке

#pred = np.random.choice(subjs, top_num, p =

[real_dist[x]/sum_real for x in real_dist])

#pred = np.random.choice(subjs, top_num)

all_real += len(real)

for z in real:

if z in pred:

good = good+1

break

for z in real:

if z in pred:

all_goods +=1

for z in pred:

pred_dist[z]+=1

#Выводстатистикипополучившейсямодели

print([(x, pred_dist[x]) for x in sorted(pred_dist,

key=pred_dist.get, reverse = True)])

print([(x, real_dist[x]) for x in sorted(real_dist,

key=real_dist.get, reverse = True)])

print('Top {0} score is {1}'.format(top_num, good/(num+1)))

print('Mean real num is {0}'.format(all_real/num))

print('Mean good num is {0}'.format(all_goods/num))

probs.append(good/(num+1))

#создание и сохранение массива данных показателей модели Лассо

lasso_df = pd.DataFrame(columns = subjs)

for lasso in range(len(lasso_save)):

lasso_dict = {}

for i in lasso_save[lasso]:

lasso_dict[i[0]] = i[1]

lasso_df = lasso_df.append(pd.Series(lasso_dict, name = subjs[lasso]))

lasso_df.to_csv('Lasso_params.csv', sep=';', na_rep='0', decimal =',')

#метод для оценки доверительного интервала точности случайной модели

from scipy import stats

import scipy as sp

import math

n, min_max, mean, var, skew, kurt = stats.describe(probs)

std=math.sqrt(var)

R = stats.norm.interval(0.999,loc=mean,scale=std)

print(R)

Приложение 3

Таблица основных корреляций для системы рекомендации курсов

Предмет

Положительная корреляция

Отрицательная корреляция

Алгебра, продвинутый уровень

Геометрия, продвинутый уровень Физика, продвинутый уровень Иностранный язык, продвинутый уровень Биология, оценка История, базовый уровень

Литература, участие в олимпиадах вузов Геометрия, базовый уровень Литература, участие в городском этапе олимпиады Ничего, продвинутый уровень История, оценка

Геометрия, продвинутый уровень

Геометрия, оценка Алгебра, продвинутый уровень Химия, продвинутый уровень Информатика, продвинутый уровень Иностранный язык, базовый уровень

Литература, оценка Математика, участие в олимпиадах в вузов Физика, участие в олимпиадах вузов Русский язык, оценка Обществознание, участие в олимпиадах вузов

Русский язык, продвинутый уровень

Иностранный язык, продвинутый уровень Биология, оценка Физика, базовый уровень Геометрия, оценка Литература, продвинутый уровень

Обществознание, оценка Физика, оценка Математика, участие в городском этапе олимпиады Информатика, оценка Литература, участие в городском этапе олимпиады

Литература, продвинутый уровень

Химия, базовый уровень Обществознание, продвинутый уровень Русский язык, продвинутый уровень Биология, базовый уровень География, базовый уровень

География, оценка Математика, участие в олимпиадах в вузов Физика, участие в городском этапе олимпиады Ничего, продвинутый уровень История, оценка

Физика, продвинутый уровень

Геометрия, оценка Алгебра, продвинутый уровень Химия, продвинутый уровень История, продвинутый уровень Алгебра, базовый уровень

Иностранный язык, участие в олимпиадах вузов Химия, оценка Математика, участие в региональном этапе олимпиады Обществознание, участие в городском этапе олимпиады Ничего, продвинутый уровень

Химия, продвинутый уровень

Геометрия, продвинутый уровень Физика, продвинутый уровень Алгебра, продвинутый уровень Биология, продвинутый уровень Иностранный язык, участие в региональном этапе олимпиады

Химия, базовый уровень Обществознание, продвинутый уровень Литература, базовый уровень Физика, оценка История, оценка

Биология, продвинутый уровень

Химия, продвинутый уровень История, продвинутый уровень Литература, базовый уровень География, базовый уровень Биология, участие в городском этапе олимпиады

Информатика, базовый уровень Иностранный язык, участие в региональном этапе олимпиады Физика, оценка Русский язык, участие в городском этапе олимпиады Ничего, продвинутый уровень

География, продвинутый уровень

Обществознание, продвинутый уровень История, продвинутый уровень Обществознание, оценка Иностранный язык, оценка История, оценка

Информатика, базовый уровень Физика, оценка Математика, участие в олимпиадах в вузов Ничего, участие в региональном этапе олимпиады Информатика, оценка

Иностранный язык, продвинутый уровень

Физика, базовый уровень Алгебра, продвинутый уровень Русский язык, продвинутый уровень Информатика, продвинутый уровень Русский язык, базовый уровень

Иностранный язык, оценка Математика, участие в городском этапе олимпиады Русский язык, участие в региональном этапе олимпиады Обществознание, участие в городском этапе олимпиады Ничего, продвинутый уровень

Информатика, продвинутый уровень

Геометрия, продвинутый уровень Иностранный язык, продвинутый уровень Биология, оценка Физика, базовый уровень Алгебра, оценка

Ничего, участие в олимпиадах вузов Ничего, участие в финальном этапе олимпиады Обществознание, базовый уровень Литература, участие в городском этапе олимпиады Ничего, продвинутый уровень

Обществознание, продвинутый уровень

Литература, продвинутый уровень История, продвинутый уровень Биология, базовый уровень Ничего, базовый уровень Алгебра, оценка

Обществознание, оценка География, оценка Иностранный язык, участие в городском этапе олимпиады Химия, оценка Ничего, продвинутый уровень

История, продвинутый уровень

Физика, продвинутый уровень Химия, базовый уровень Обществознание, продвинутый уровень Химия, продвинутый уровень Биология, продвинутый уровень

Физика, оценка Математика, участие в городском этапе олимпиады Физика, участие в городском этапе олимпиады Русский язык, участие в городском этапе олимпиады Ничего, продвинутый уровень

Ничего, продвинутый уровень

Биология, оценка Ничего, участие в городском этапе олимпиады Алгебра, базовый уровень Ничего, базовый уровень Математика, участие в олимпиадах в вузов

Иностранный язык, участие в городском этапе олимпиады Иностранный язык, оценка Обществознание, базовый уровень Русский язык, участие в городском этапе олимпиады История, оценка

Алгебра, базовый уровень

Физика, базовый уровень Геометрия, базовый уровень

Геометрия, базовый уровень

Алгебра, базовый уровень

Алгебра, оценка Химия, оценка

Русский язык, базовый уровень

Геометрия, продвинутый уровень Физика, продвинутый уровень Иностранный язык, продвинутый уровень Алгебра, продвинутый уровень Алгебра, базовый уровень

Физика, базовый уровень География, оценка Химия, оценка Литература, оценка Физика, участие в олимпиадах вузов

Литература, базовый уровень

История, базовый уровень Геометрия, оценка Биология, продвинутый уровень История, продвинутый уровень Русский язык, базовый уровень

Литература, оценка Ничего, участие в финальном этапе олимпиады Обществознание, участие в региональном этапе олимпиады Информатика, оценка Литература, участие в городском этапе олимпиады

Физика, базовый уровень

Иностранный язык, продвинутый уровень Химия, базовый уровень Информатика, продвинутый уровень Алгебра, базовый уровень География, оценка

Литература, базовый уровень Ничего, базовый уровень Иностранный язык, оценка Литература, участие в региональном этапе олимпиады Физика, участие в олимпиадах вузов

Химия, базовый уровень

Физика, продвинутый уровень Физика, базовый уровень Алгебра, продвинутый уровень Литература, продвинутый уровень История, продвинутый уровень

Алгебра, оценка Обществознание, оценка География, оценка Ничего, участие в олимпиадах вузов История, оценка

Биология, базовый уровень

Иностранный язык, продвинутый уровень Биология, оценка История, базовый уровень Химия, базовый уровень Обществознание, продвинутый уровень

Информатика, продвинутый уровень Обществознание, оценка Литература, оценка Ничего, участие в олимпиадах вузов Физика, участие в олимпиадах вузов

География, базовый уровень

Физика, продвинутый уровень История, базовый уровень Ничего, участие в городском этапе олимпиады Литература, продвинутый уровень Химия, продвинутый уровень

Химия, участие в олимпиадах вузов Физика, оценка Информатика, оценка Русский язык, участие в городском этапе олимпиады Геометрия, базовый уровень

Иностранный язык, базовый уровень

Геометрия, продвинутый уровень Иностранный язык, продвинутый уровень Биология, оценка История, базовый уровень Литература, продвинутый уровень

Иностранный язык, участие в олимпиадах вузов География, участие в городском этапе олимпиады Ничего, участие в региональном этапе олимпиады Русский язык, участие в олимпиадах вузов Русский язык, участие в городском этапе олимпиады

Информатика, базовый уровень

Геометрия, продвинутый уровень Иностранный язык, продвинутый уровень Физика, базовый уровень Геометрия, оценка Алгебра, продвинутый уровень

История, участие в региональном этапе олимпиады Физика, оценка Информатика, участие в городском этапе олимпиады Математика, участие в региональном этапе олимпиады Математика, участие в городском этапе олимпиады

Обществознание, базовый уровень

История, базовый уровень Ничего, участие в городском этапе олимпиады Геометрия, оценка Химия, продвинутый уровень Биология, продвинутый уровень

Обществознание, участие в олимпиадах вузов Обществознание, участие в городском этапе олимпиады Информатика, оценка Ничего, продвинутый уровень История, оценка

История, базовый уровень

Химия, базовый уровень Алгебра, продвинутый уровень Литература, базовый уровень Биология, базовый уровень География, базовый уровень

Ничего, участие в олимпиадах вузов Русский язык, участие в олимпиадах вузов Информатика, оценка Литература, участие в олимпиадах вузов История, оценка

Ничего, базовый уровень

Алгебра, оценка Обществознание, участие в региональном этапе олимпиады Ничего, продвинутый уровень

Информатика, оценка Обществознание, базовый уровень Русский язык, участие в городском этапе олимпиады Геометрия, базовый уровень Литература, участие в городском этапе олимпиады

Приложение 4

информационный технология учащийся обучение

Таблица основных корреляций для системы рекомендации специальности

Положительная корреляция

Отрицательная корреляция

Гуманитарные науки

Обществознание, оценка Иностранный язык, участие в региональном этапе олимпиады История, участие в олимпиадах вузах История, оценка Литература, участие в олимпиадах вузах

Математика, участие в региональном этапе олимпиады Математика, участие в городском этапе олимпиады Физика, участие в олимпиадах вузах Физика, участие в городском этапе олимпиады Биология, оценка

Информационные технологии

Геометрия, оценка Физика, оценка Информатика, участие в олимпиадах вузах Информатика, участие в городском этапе олимпиады Математика, участие в олимпиадах в вузах

Литература, участие в олимпиадах вузах Ничего, участие в региональном этапе олимпиады Ничего, участие в финальном этапе олимпиады Физика, участие в олимпиадах вузах Информатика, оценка

Экономика

Алгебра, оценка Иностранный язык, участие в олимпиадах вузах Иностранный язык, участие в городском этапе олимпиады Химия, оценка Иностранный язык, оценка

Обществознание, оценка Геометрия, оценка Литература, участие в городском этапе олимпиады Ничего, участие в региональном этапе олимпиады Физика, участие в олимпиадах вузах

Педагогика

Иностранный язык, оценка Физика, оценка Литература, участие в региональном этапе олимпиады Математика, участие в олимпиадах в вузах Математика, участие в региональном этапе олимпиады

Иностранный язык, участие в городском этапе олимпиады Химия, оценка История, оценка

Медицина

Биология, участие в олимпиадах вузах Обществознание, оценка Химия, оценка Информатика, оценка

Иностранный язык, участие в городском этапе олимпиады Физика, участие в городском этапе олимпиады Обществознание, участие в городском этапе олимпиады

Естественные науки

Биология, участие в городском этапе олимпиады Иностранный язык, оценка Физика, участие в олимпиадах вузах

Иностранный язык, участие в олимпиадах вузах Литература, участие в городском этапе олимпиады Русский язык, участие в городском этапе олимпиады Русский язык, оценка

Инженерия

Обществознание, оценка География, оценка Иностранный язык, оценка Ничего, участие в олимпиадах вузах Ничего, участие в региональном этапе олимпиады

Иностранный язык, участие в региональном этапе олимпиады История, оценка Литература, оценка Обществознание, участие в городском этапе олимпиады

Размещено на Allbest.ru

...

Подобные документы

  • Понятие географических информационных технологий. Современное состояние уровня и направлений развития ГИС в лесной отрасли. Обоснование выбора системы дистанционного обучения. Возможности СДО Moodle. Создание базы данных. Проверка настроек веб-сервера.

    диссертация [1,2 M], добавлен 02.11.2015

  • Теоретические аспекты некоторых областей информационных технологий: программы обработки данных, глобальная сеть Internet. Характеристика методов использования информационных технологий в различных областях бизнеса, опасностей и сложностей в их применении.

    реферат [1,4 M], добавлен 11.04.2010

  • Информационные технологии: понятие и виды. Использование интернет-технологий в работе администрации Карасунского округа г. Краснодара. Рекомендации по улучшению качества использования информационных технологий в работе муниципального образования.

    дипломная работа [1,3 M], добавлен 02.02.2015

  • Понятие информационных технологий, этапы их развития, составляющие и основные виды. Особенности информационных технологий обработки данных и экспертных систем. Методология использования информационной технологии. Преимущества компьютерных технологий.

    курсовая работа [46,4 K], добавлен 16.09.2011

  • Основные черты современных информационных технологий и компьютерной обработки информации. Структура экономической системы с позиции кибернетики. Ключевые функции системы управления: планирование, учет, анализ. Классификация информационных технологий.

    контрольная работа [45,9 K], добавлен 04.10.2011

  • Теоритические аспекты информационных технологий на предприятиях. Системы, используемые в информационных технологиях. Особенности применения информационных технологий в маркетинговой деятельности. Влияние информационных технологий на туристическую отрасль.

    курсовая работа [498,9 K], добавлен 29.10.2014

  • Компьютерные обучающие системы. Принципы новых информационных технологий обучения. Типы обучающих программ. Активизация обучения. Компьютерное тестирование. Перспективные исследования в области компьютерного обучения. Интернет-технологии, мультимедиа.

    контрольная работа [60,3 K], добавлен 10.09.2008

  • Основные свойства информационных технологий в экономике. Классификация, главные компоненты и структурная схема информационных технологий. Системные и инструментальные средства. Особенности взаимодействие информационных технологий с внешней средой.

    презентация [217,3 K], добавлен 22.01.2011

  • Направления развития информационных технологий в сфере социальной защиты населения. Особенности деятельности УСЗН Администрации Усть-Катавского городского округа. Анализ существующих информационных технологий в УСЗН и рекомендации по их совершенствованию.

    дипломная работа [101,7 K], добавлен 24.01.2013

  • Определение сущности, функций, задач и видов информационных технологий. Характеристика информационных технологий обработки данных, управления, автоматизированного офиса и поддержки принятия решений. Анализ современных видов информационного обслуживания.

    презентация [866,0 K], добавлен 30.11.2014

  • Информатика как единство науки и технологии, этапы ее развития и инструментарий. Классификация видов информационных технологий и их применение. Модели информационных процессов и структура программных продуктов. Объектно-ориентированное проектирование.

    курс лекций [1,6 M], добавлен 12.12.2011

  • Основные характеристики и принцип новой информационной технологии. Соотношение информационных технологий и информационных систем. Назначение и характеристика процесса накопления данных, состав моделей. Виды базовых информационных технологий, их структура.

    курс лекций [410,5 K], добавлен 28.05.2010

  • Понятие, виды и принципы информационных технологий. Педагогические цели и методические возможности использования информационных технологий в обучении музыке. Классификация педагогических программных средств. Тенденции развития музыкальной педагогики.

    реферат [221,8 K], добавлен 16.12.2010

  • Основные черты современных информационных технологий. Цель применения информационных технологий - снижение трудоемкости использования информационных ресурсов. Использованные программные средства для разработки информационной системы для продажи книг.

    курсовая работа [1,2 M], добавлен 27.06.2014

  • Информационные технологии и системы. Связь организаций и информационных систем. Интегрированная система управления промышленными предприятиями. Возможности информационных технологий в бизнесе, их влияние на организацию и роль менеджеров в этом процессе.

    курсовая работа [147,7 K], добавлен 07.05.2012

  • Понятие "информационных технологий" с точки зрения права, их разновидности, свойства, главные компоненты организации. Актуальные вопросы и методика, принципы функционирования информационных технологий в правоохранительных органах на современном этапе.

    дипломная работа [76,0 K], добавлен 10.05.2011

  • Роль структуры управления в информационной системе. Примеры информационных систем. Структура и классификация информационных систем. Информационные технологии. Этапы развития информационных технологий. Виды информационных технологий.

    курсовая работа [578,4 K], добавлен 17.06.2003

  • Компьютер как средство обучения. Классификация учебно-программных средств. Роль интерактивных технологий в обучении школьников. Эффективное управление познавательной деятельностью учащихся первой ступени обучения с помощью интерактивной доски Smart.

    курсовая работа [856,7 K], добавлен 10.02.2012

  • Реализация "облачных" технологий в корпоративных информационных системах. Применение "облачных" технологий на РУП "Белоруснефть". Пуско-наладочные работы, установка и запуск облачного сервиса, начальное конфигурирование и предложения по масштабированию.

    курсовая работа [2,9 M], добавлен 24.07.2014

  • Анализ показателей оценки эффективности информационных систем и технологий. Расчет трудовых и стоимостных показателей и показателей достоверности информации, разработка программы для ускорения методов обработки данных. Интерфейс и листинг приложения.

    дипломная работа [1,2 M], добавлен 14.01.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.