Выделение паттернов поведения пользователей информационно-образовательного пространства университета с использованием алгоритмов кластеризации данных
Результаты обработки поведенческих данных пользователей информационно-образовательного пространства университета. Особенности работы с поведенческими данными, обработка данных для последующего анализа, выделение поведенческих паттернов обучающегося.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 17.08.2018 |
Размер файла | 446,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ДЕКАБРЬ 2016 |
|
ТЕХНИЧЕСКИЕ НАУКИ |
Размещено на http://www.allbest.ru/
Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ДЕКАБРЬ 2016 |
|
ТЕХНИЧЕСКИЕ НАУКИ |
Выделение паттернов поведения пользователей информационно-образовательного пространства университета с использованием алгоритмов кластеризации данных
Бекирова Г.А., Кузнецов И.А.
Национальный исследовательский ядерный университет «МИФИ»
С развитие новых способов для сбора и обработки информации, все большее количество сфер жизнедеятельности человека заинтересованы в их использовании. Активно развиваются сервисы с персонифицированным контентом, когда пользователю предлагают услугу или продукт, основываясь на данных о самом пользователе и на его действиях. Подобные подходы давно применяются в коммерческом секторе и позволяют существенно увеличить доход сервисов. Но персонифицированные предложения могут быть весьма полезны и для образовательного сектора при формировании учебных курсов, подготовке набора рекомендательной литературы, мониторинге успеваемости студента и т.д. В данной статье представлены результаты обработки поведенческих данных пользователей информационно-образовательного пространства университета НИЯУ МИФИ. Были рассмотрены особенности работы с поведенческими данными, обработка и подготовка данных для последующего анализа, представлены результаты выделения поведенческих паттернов обучающегося. Работа выполнена при поддержке гранта РФФИ № 15-0708742.
Ключевые слова: рекомендательные системы, образовательный процесс, паттерны поведения, анализ данных в образовании, кластеризация данных
ASSIGNMENT PATTERNS OF USER BEHAVIOR IN EDUCATIONAL PLATFORM OF THE UNIVERSITY USING CLUSTER ANALYSIS
Bekirova G. A., Kuznetsov I. A.
With the development of new methods for collecting and processing information, an increasing number of spheres of human activity are interested in using them. Actively develop services with personalized content when the user offers a service or product, based on data about the user and his actions. Such approaches have long been used in the commercial sector, and can significantly increase the revenue service. But personalized offers can be very useful for the education sector in the formation of the training courses, preparing a set of advisory literature, monitoring of student achievement, etc. This article presents the results of treatment of behavioral data users in educational platform of the university MEPhI. Were considered especially with behavioral data, processing and preparation of data for analysis, the results of assignment of student behavioral patterns. This work was supported by RFBR grant № 15-07-08742.
Keywords: recommender systems, educational process, patterns of behavior analysis in education, cluster analysis
Анализ данных в образовательном процессе
В борьбе за повышение качества предоставления сервиса или оказания услуг современный интернет становится всё более персонифицированным. Основная задача персонификации - оказание именно той услуги, которая нужна конкретному человеку и в нужное время. Современные сервисы пытаются лучше узнать своих потребителей, чтобы не быть чрезмерно навязчивыми и повысить уровень продаж. Данная тенденция не обходит стороной и образовательную деятельность. Системы персонализированных рекомендаций в области образования также набирают популярность.
Одним из таких подходов является Educational Data Mining (EDM), т.е. «интеллектуальный анализ данных в образовании». Суть его состоит в том, что основополагающие алгоритмы из области машинного обучения, анализа данных и статистики направлены на сферу образования. В рамках EDM выделяют четыре группы пользователей: студенты, преподаватели, разработчики и организации [5].
Использую подобный подход преподавателями курсов, EDM может помочь решить следующие задачи:
• подготовка образовательного курса и его последующая оптимизация;
• адаптация курса под конкретную специфику слушателей;
• получение обратной связи на основе активности работы студентов с учебными материалами;
• разбиение слушателей на группы по различным признакам.
Несмотря на уникальность индивидуума, существует ряд работ, которые доказывают возможность группировки и выделения среди пользователей несколько схожих классов. Существуют варианты группировки пользователей на основе социально-демографического подхода [3], на основе социально-технографического подхода [2], на основе эмпирического подхода [1].
Количество классов пользователей в представленных работах составляет от 5 до 10.
Для выделения аналогичных групп пользователей информационно-образовательного пространства применяются алгоритмы кластеризации. Данные алгоритмы позволяют разбить совокупность объектов на непересекающиеся подмножества - кластеры. Разбиение объектов на кластеры происходит таким образом, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно различались [4]. Для оценки сходства тех или иных объектов используются различные метрики расстояний:
• квадрат Евклидова расстояния;
• Манхэттенское расстояние;
• расстояние Чебышева;
• процент несогласия.
Методы кластеризации можно разделить на две группы: иерархические и неиерархические. Каждая группа включает множество алгоритмов и подходов, а применяя различные алгоритмы можно получить различные результаты на одном и том же наборе данных.
поведенческий паттерн информационный образовательный
Выделение паттернов поведения пользователей в информационно-образовательном пространстве
Исходными данными для выделения паттернов поведения пользователей являются данные активности пользователей из информационно-образовательного пространства университета. Набор данных содержит такие действия пользователя, как: просмотр материалов лекции, просмотр презентаций лекции, прохождение тестов, прохождение экзамена и т.д.
Для выполнения операции кластеризации имеющийся набор действий пользователя будет ограничен двумя действиями: просмотр материалов лекции и просмотр презентации лекции. Количество пользователей для кластеризации составляет 221. Общее количество лекций по курсу равно 16.
В качестве базового алгоритма для кластеризации был выбран алгоритм k-means, т.к. является наиболее распространенным среди неиерархических методов кластеризации, а также является одним из самых быстрых. В рамках эксперимента, количество кластеров для разбиения было выбрано равное 10, т.к. соответствует количеству классов пользователя в представленных работах [1-3].
Основные шаги для выделения паттернов поведения пользователя:
• формирование матриц смежности;
• бинаризация матриц;
• кластеризация матриц;
• визуализация полученных результатов.
При подготовке данных для кластеризации была сформирована матрица смежности на основе действий пользователя. Данная матрица (см. форм.1) отображает перемещение пользователей внутри учебного курса и показывает переходы от одного объекта к другому. Матрица является квадратной с размерностью 16x16, где каждому номеру соответствует номер лекции в курсе, а на пересечении элементов матрицы представлено количество переходов между элементами.
Получив представления действий пользователя в виде матриц смежности, была проведена бинаризация данных и применен алгоритм кластеризации.
(1)
Результат работы алгоритма кластеризации представлен ниже (см. табл.1):
Таблица 1. Количество объектов по каждому кластеру
Кластер |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
Количество |
12 |
105 |
23 |
32 |
1 |
3 |
12 |
8 |
20 |
5 |
Как видно из таблицы выше, распределение объектов по кластерам является неравномерным. Стоит также обратить внимание на то, что при визуальном анализе имеет место схожесть структуры некоторых кластеров между собой. Проанализировав полученные визуальные представления и объединив схожие кластеры в одну группу, можно сделать вывод о существовании 4 следующих классов пользователей:
• Класс «последовательный» - обращается последовательно к соответствующему материалу лекции в течение учебного курса (см. рис.1);
• Класс «интересующийся» - присутствует заинтересованность только в начале обучения, но теряет всякий интерес по мере прохождения курса (см. рис.2);
• Класс «настроившийся» - проявляет активность только в середине учебного курса или ближе к его завершению (см. рис.3);
• Класс «сбивчивый» - просматривает только некоторые материалы курса и не очень часто (см. рис.4).
Распределение по каждому классу имеет следующий вид (см. рис.5):
Рисунок 1. Распределение пользователей по классам в процентном выражении
Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ДЕКАБРЬ 2016 |
|
ТЕХНИЧЕСКИЕ НАУКИ |
Размещено на http://www.allbest.ru/
Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ДЕКАБРЬ 2016 |
|
ТЕХНИЧЕСКИЕ НАУКИ |
Рисунок 2. Представление графа для класса
Рисунок 3. Представление графа для класса
«последовательный» «интересующийся»
Рисунок 3. Представление графа для класса «настроившийся»
Рисунок 4. Представление графа для класса «сбивчивый»
Полученный результат представляет собой «дорожную карту» различных типов пользователей. Основываясь на этих данных, преподаватель курса может отслеживать «узкие места» в курсе, своевременно реагировать на классы пользователей «интересующийся» и «настроившийся» с целью повышения их интереса и мотивации к прохождению учебного курса и повышение количества пользователей класса «последовательный».
Также возможно проведение дополнительных исследований типов поведения пользователей для поиска «узких» мест в курсе с учетом частоты возвратов пользователей к конкретным разделам курса.
Список литературы
1. Бродовская Е.В., Домбровская А.Ю. Профили пользователей интернета и национальный менталитет в России и Швеции: результаты сравнительного кластерного анализа //Фундаментальные исследования. - 2014. - № 11. - С. 661-664.
2. Лебедев П.А., Петухова С.И. Социальные медиа: показатель развития информационного общества // Мониторинг общественного мнения. - 2010. - № 5(99). - С. 16-25.
3. Овчинникова И.Г. Коммуникация и идентификация в социальных сетях: факторы, типажи, национально-культурная специфика (на материале социальной сети Твиттер) // Вестник Пермского университета. Серия: Политология. - 2013. - № 2.- С. 143-156
4. Черезов Д.С., Тюкачев Н.А. Обзор основных методов классификации и кластеризации данных // Вестник Воронежского государственного университета. Серия: системный анализ и информационные технологии. - 2009. -С. 25-29.
5. Baker, Ryan. "Data Mining for Education" - Oxford, UK: Elsevier. Retrieved (2014).
Размещено на Allbest.ru
...Подобные документы
Создание базы данных с помощью ACCESS для автоматизации работы базы отдыха. Оценка возможностей пользователей при работе с данной базой. Построение информационно-логической модели базы данных. Разработка запросов для корректировки и выборки данных.
курсовая работа [1,1 M], добавлен 19.10.2010Особенности технологий создания и работы с базами данных. Реализация структуры базы данных в MS Visio и MS SQL Server. Виды манипуляций над данными, создание сложных запросов. Суть и характеристика прав пользователей, разработка клиентских приложений.
учебное пособие [2,2 M], добавлен 16.05.2013Архитектура базы данных. Требования к именованию файлов в операционной системе. Величина приращения при увеличении и максимальный размер. Выделение пространства для таблиц и индексов. Таблица Index Allocation Map. Принцип работы журнала транзакций.
презентация [48,3 K], добавлен 10.11.2013Режимы компьютерной обработки данных. Понятие и типы данных, структура и отличительные особенности. Характеристика основных операций, проводимых с данными, приемы их кодирования. Порядок и инструменты измерения информации и единицы хранения данных.
контрольная работа [104,1 K], добавлен 22.11.2010Автоматизация деятельности отдела сбыта предприятия "Русская еда". Описание выходной информации. Выделение информационных объектов. Информационно-логическое моделирование. Реализация базы данных в среде Microsoft Access. Создание таблиц и схема данных.
курсовая работа [2,7 M], добавлен 02.05.2014Изучение ведущих технологий шифрования и обмена данными. Выбор и разработка архитектуры сетевой технологии управления ключами пользователей. Разработка логической модели базы данных, основных форм и интерфейсов, основных алгоритмов обработки информации.
курсовая работа [586,6 K], добавлен 18.12.2011Построение информационно-логической модели базы данных. Корректировка данных средствами запросов. Проектирование алгоритмов обработки данных. Реализация пользовательского интерфейса средствами форм. Разработка запросов для корректировки и выборки данных.
курсовая работа [680,9 K], добавлен 19.10.2010Анализ задачи создания ИАС для оптимизации работы сотрудников учреждения при обслуживании пациентов. Разработка базы данных и аппаратной подсистемы для обработки сведений о вакцинации населения. Результат реализации информационно-аналитической системы.
дипломная работа [3,8 M], добавлен 27.06.2012Построение модели информационно-педагогической среды (ИПС) образовательного учреждения. Создание базы данных, обеспечение многопользовательского режима с разграничением прав доступа к информации. Автоматизация кадровой работы и формирование отчетов.
курсовая работа [5,1 M], добавлен 01.06.2013Анализ потока данных с учетом их прогнозирования, составления статических отчетов в системах учета. Ограничения на информацию в базе данных. Логическое проектирование баз данных. Описание основных функций групп пользователей и управления данными.
курсовая работа [1,6 M], добавлен 09.03.2022Функциональные зависимости и нормализация отношений. Ограничения целостности данных. Описание таблиц на языке SQL. Интерфейс пользователя и надёжность программ обработки данных. Обработка данных с помощью запросов. Работа с данными из внешних источников.
дипломная работа [1,6 M], добавлен 25.04.2015Этапы разработки баз данных. Выделение сущностей с перечнем их атрибутов. Анализ информационных задач, круга пользователей системы. Логическое проектирование реляционных БД. Физическое проектирование. Реализация базы данных, направления данного процесса.
курсовая работа [434,8 K], добавлен 24.02.2012Анализ распространения интернет-пользователей в регионах России. Статистика использования web-ресурсов. Развитие информационно-коммуникативных технологий передачи данных 4G. Особенности применения сетей мобильного интернета по стандарту LTE-1800.
реферат [4,2 M], добавлен 29.10.2014Разработка информационно-логической схемы базы данных для горнолыжного курорта. Выделение объектов и информационных процессов в данной области. Реляционная модель базы данных. Разработка интерфейса пользователя. Создание форм, отчетов и запросов.
курсовая работа [4,3 M], добавлен 17.03.2014Исследование особенностей работы с динамическими структурами данных, обработки строк. Реализация работоспособного программного обеспечения, которое должно поддерживать информационную базу пользователей компьютеров. Метод пирамидальной сортировки данных.
курсовая работа [364,1 K], добавлен 06.04.2014Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.
реферат [22,5 K], добавлен 05.02.2011История создания и развития Университета ИТМО, образовательная деятельность кафедры прикладного программирования и технологических инноваций. Определение терминов "данные", "знания", их трансформация при обработке на ЭВМ. Отличие баз данных и баз знаний.
отчет по практике [32,2 K], добавлен 18.04.2015Анализ системы управления базами данных, основные задачи: обработка информации, организация работы пользователей. Access как функционально полная система, имеющая мощные средства для работы программы. Этапы разработки базы данных торговой организации.
контрольная работа [458,0 K], добавлен 05.01.2013Основные свойства информационно-справочной системы для обработки результатов сдачи сессии, ее функциональное назначение и логическая структура. Выбор языка и среды программирования. Описание алгоритмов сортировки и поиска, входных и выходных данных.
курсовая работа [742,8 K], добавлен 23.01.2014Создание автоматизированной системы обработки заявок пользователей. Анализ требований к информационному, техническому и программному обеспечению. Проектирование интерфейса системы. Выбор средств реализации. Модель базы данных системы обработки заявок.
курсовая работа [1,6 M], добавлен 22.12.2014