Исследование прогностических возможностей системы "iWizard-E"

Анализ прогностических возможностей "iWizard-E" - интеллектуальной системы поддержки принятия решений, предназначенной для оказания помощи абитуриентам в выборе направления подготовки. Использование данной системы для формирования эффективных прогнозов.

Рубрика Педагогика
Вид статья
Язык русский
Дата добавления 11.11.2018
Размер файла 23,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1, 2 Поволжский государственный университет телекоммуникаций и информатики, Самара, Россия

* Корреспондирующий автор (psv[at]psuti.ru)

Исследование прогностических возможностей системы «iWizard-E»

Пальмов С.В.1, *, Мифтахова А.А.2

Аннотация

интеллектуальный абитуриент прогностический

Исследованы прогностические возможности «iWizard-E» ? интеллектуальной системы поддержки принятия решений, предназначенной для оказания помощи абитуриентам в выборе направления подготовки. Проведена серия экспериментов, в которых системой производилась обработка различных выборок, содержащих индивидуальные характеристики студентов и информацию об окончании ими вуза, с последующим генерированием рекомендаций относительно выбора предпочтительного направления подготовки. После этого было выполнено сравнение реальных данных с предложенными системой. В качестве критерия использовалась F-мера. Установлено, что «iWizard-E» позволяет формировать эффективные прогнозы.

Ключевые слова: искусственный интеллект, интеллектуальная система поддержки принятия решений, интеллектуальный анализ данных, Orange.

Abstract

The article considers prognostic capabilities of iWizard-E, an intelligent decision support system designed to help entrants choose their future career. A series of experiments was performed; various samples containing individual characteristics of students and information about their graduation from the university were processed followed by recommendations for choosing a preferred direction. After that, the real data were compared with the option proposed by the system. The F-measure was used as the criterion. It is established that “iWizard-E” allows creating effective forecasts.

Keywords: artificial intelligence, intelligent decision support system, data mining, Orange.

Одна из самых острых проблем вузов в настоящее время - успеваемость. Это вызвано все возрастающими требованиями к студентам. Как следствие, возникла ситуация, требующая осуществления некоторых мероприятий, направленных на повышение успеваемости студентов. Традиционные способы уже не оказывают должного эффекта. Поэтому в последние годы в сфере образования наметилась отчетливая тенденция использования разнообразных информационных технологий для повышения успеваемости студентов.

На вероятность успешного окончания студентом вуза, а значит, и на его успеваемость, сильное влияние оказывает то, насколько «правильно» было выбрано направление подготовки. Одним из способов снижения вероятности ошибки выбора является выявление скрытых закономерностей между индивидуальными характеристиками студента (абитуриента) и результатом окончания вуза с последующим использованием полученной информации для помощи абитуриенту при выборе направления подготовки на этапе подачи документов в приемную комиссию. На взгляд авторов, наиболее эффективный способ автоматизации процесса оказания помощи абитуриенту в вышеуказанном вопросе - это использование интеллектуальной системы поддержки принятия решений (ИСППР), разработанной с использованием технологии интеллектуального анализа данных (ИАД). Такая ИСППР использует модель предметной области (прогностическая модель), которая на основе неких знаний (закономерностей) вырабатывает прогнозы (рекомендации). [5, С. 7].

Описание экспериментов

ИСППР упомянутого типа разработана, зарегистрирована в Реестре программ для ЭВМ (свидетельство №2018616979, ИСППР «iWizard-E»), а ее основные особенности описаны и протестированы в [5, С. 8-10]. Однако было решено провести дополнительное исследование возможностей iWizard-E, использовав для этого F-меру (F1), поскольку она позволяет эффективнее оценить качество формируемых системой прогнозов. F-мера рассчитывается по формуле: [6].

Исследование состояло из 11 экспериментов. В каждом из них, кроме первого, использовалось по пять выборок определенного типа (стратифицированная, bootstrap и с возвращением), созданных средствами системы Orange [7, С. 95] на основе исходного набора данных (2618 записей) из [5, С. 8-9]. В указанный исходный набор данных было внесено единственное изменение - целевой показатель «сведения об окончании вуза» принимает только два значения: закончил вуз \ не закончил вуз. Таким образом, в ходе серии экспериментов оценивалась способность ИСППР «iWizard-E» формировать достоверные прогнозы относительно вероятности успешного окончания студентом вуза для выбранного направления подготовки.

Кратко опишем использованные типы выборок:

Стратифицированная выборка формируется в два этапа, в результате чего генеральная совокупность делится на слои (страты). Страты должны взаимно исключать и взаимно дополнять друг друга, чтобы каждый элемент совокупности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется метод простой случайной выборки [8].

Bootstrap-выборка - метод формирования нескольких выборок данных того же размера, что и исходная генеральная совокупность, но с разными распределениями интересующей величины [2].

Выборка с возвращением (replacement) - на вероятность появления элемента в выборке прочие элементы генеральной совокупности не влияют [10].

Эксперименты можно разделить на два вида. В первом из них для каждого критерия разбиения (Gini [4], Entropy [3], Information Gain [1] и Gain Ratio [9]) при помощи исходного набора обучалась прогностическая модель, которая затем проверялась на пяти выборках конкретного типа (эксперименты со второго по шестой; в первом эксперименте для проверки использовался исходный набор).

Эксперименты второго вида проводились по следующей схеме: 1) в результатах экспериментов со второго по шестой выбирались два множества, при проверках по которым iWizard-E показала лучший и худший результаты соответственно (буквы «л» и «х» в табл. 7-11); 2) на основании каждой пары выборок последовательно строились прогностические модели; 3) при помощи исходного набора выполнялась проверка построенных моделей.

Результаты экспериментов

Эксперимент №1 (тестирование на обучающем наборе данных)

Таблица 1 - Результаты эксперимента №1

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1

0,8846

0,8700

0,8671

0,8700

Эксперимент №2 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 90% от обучающего множества.

Таблица 2 - Результаты эксперимента №2

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7779

0,7819

0,7807

0,7763

F1 (выборка 2)

0,7328

0,7240

0,7386

0,7240

F1 (выборка 3)

0,7379

0,7306

0,7255

0,7410

F1 (выборка 4)

0,7329

0,7219

0,7229

0,7238

F1 (выборка 5)

0,7368

0,7435

0,7444

0,7267

Эксперимент №3 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 80% от обучающего множества.

Таблица 3 - Результаты эксперимента №3

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7422

0,7452

0,7464

0,7315

F1 (выборка 2)

0,7385

0,7386

0,7392

0,7257

F1 (выборка 3)

0,7366

0,7209

0,7221

0,7221

F1 (выборка 4)

0,7398

0,7469

0,7457

0,7331

F1 (выборка 5)

0,7428

0,7280

0,7462

0,7288

Эксперимент №4 (тестирование на стратифицированной выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 70% от обучающего множества.

Таблица 4 - Результаты эксперимента №4

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7358

0,7440

0,7457

0,7405

F1 (выборка 2)

0,7412

0,7279

0,7256

0,7432

F1 (выборка 3)

0,7392

0,7453

0,7451

0,7298

F1 (выборка 4)

0,7343

0,7283

0,7256

0,7419

F1 (выборка 5)

0,7438

0,7319

0,7431

0,7346

Эксперимент №5 (тестирование на bootstrap-выборке)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 2618 записей.

Таблица 5 - Результаты эксперимента №5

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7393

0,7426

0,7321

0,7218

F1 (выборка 2)

0,7555

0,7537

0,7537

0,7382

F1 (выборка 3)

0,7210

0,7114

0,7140

0,7308

F1 (выборка 4)

0,7396

0,7383

0,7352

0,7176

F1 (выборка 5)

0,7154

0,7225

0,7091

0,7250

Эксперимент №6 (тестирование на выборке с возвращением)

Размер обучающего множества - 2618 записей (исходный набор), размер тестовой выборки - 2618 записей.

Таблица 6 - Результаты эксперимента №6

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7402

0,7348

0,7339

0,7286

F1 (выборка 2)

0,7476

0,7308

0,7324

0,7357

F1 (выборка 3)

0,7495

0,7390

0,7337

0,7397

F1 (выборка 4)

0,7258

0,7323

0,7332

0,7342

F1 (выборка 5)

0,7382

0,7333

0,7279

0,7479

Эксперимент №7 (тестирование на исходном наборе)

Размер обучающего множества - 90% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 7 - Результаты эксперимента №7

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

0,7727 л

0,8229 л

0,7705 л

0,7737 л

F1 (выборка 2)

0,7413 х

?

?

?

F1 (выборка 4)

?

0,7516 х

0,7577 х

0,7510 х

Эксперимент №8 (тестирование на исходном наборе)

Размер обучающего множества - 80% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 8 - Результаты эксперимента №8

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

?

?

0,7391 л

?

F1 (выборка 3)

0,7348 х

0,7101 х

0,7128 х

0,7134 х

F1 (выборка 4)

?

0,7233 л

?

0,7233 л

F1 (выборка 5)

0,7134 л

?

?

?

Эксперимент №9 (тестирование на исходном наборе)

Размер обучающего множества - 70% записей от исходного набора, размер тестовой выборки - 2618 записей (исходный набор).

Таблица 9 - Результаты эксперимента №9

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

?

?

0,7345 л

?

F1 (выборка 2)

?

0,7422 х

0,7422 х

0,7352 л

F1 (выборка 3)

?

0,7372 л

?

0,7371 х

F1 (выборка 4)

0,7290 х

?

?

?

F1 (выборка 5)

0,7336 л

?

?

?

Эксперимент №10 (тестирование на исходном наборе)

Размер обучающего множества - 2618 записей (bootstrap-выборка), размер тестовой выборки - 2618 записей (исходный набор).

Таблица 10 - Результаты эксперимента №10

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 2)

0,7307 л

0,7337 л

0,7318 л

0,7337 л

F1 (выборка 3)

?

0,7219 х

?

?

F1 (выборка 4)

?

?

?

0,7172 х

F1 (выборка 5)

0,7195 х

?

0,7325 х

?

Эксперимент №11 (тестирование на исходном наборе)

Размер обучающего множества - 2618 записей (выборка с возвращением), размер тестовой выборки - 2618 записей (исходный набор).

Таблица 11 - Результаты эксперимента №10

Критерий разбиения

Gini

Entropy

Information Gain

Gain Ratio

F1 (выборка 1)

?

?

0,6974 л

0,7256 х

F1 (выборка 2)

?

0,7115 х

?

?

F1 (выборка 3)

0,7480 л

0,7288 л

?

?

F1 (выборка 4)

0,7406 х

?

?

?

F1 (выборка 5)

?

?

0,7063 х

0,7031 л

Для полученных результатов были рассчитаны следующие характеристики: среднее, стандартное отклонение (СКО) и дисперсия.

Таблица 12 - Среднее, СКО, дисперсия для F1

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73627

0,01288

0,00017

7-11

0,73460

0,02286

0,00052

2-11

0,73580

0,01629

0,00027

без учета минимального и максимального значений F1

2-6

0,73608

0,01184

0,00014

7-11

0,73330

0,01734

0,00030

2-11

0,73540

0,01424

0,00020

Данные эксперимента №1 в расчете характеристик не использовались. Причина указана в выводе №1 (см. далее).

Таблица 13 - Среднее, СКО, дисперсия для F1 (Gini)

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73938

0,01154

0,00013

7-11

0,73636

0,01635

0,00027

2-11

0,73852

0,01291

0,00017

без учета минимального и максимального значений F1

2-6

0,73778

0,00847

0,00007

7-11

0,73891

0,01508

0,00023

2-11

0,73809

0,01043

0,00011

Таблица 14 - Среднее, СКО, дисперсия для F1 (Entropy)

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73590

0,01375

0,00019

7-11

0,73832

0,03244

0,00105

2-11

0,73659

0,02033

0,00041

без учета минимального и максимального значений F1

2-6

0,73590

0,01375

0,00019

7-11

0,73128

0,01266

0,00016

2-11

0,73478

0,01345

0,00018

Таблица 15 - Среднее, СКО, дисперсия для F1 (Information Gain)

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73608

0,01435

0,00021

7-11

0,73248

0,02243

0,00050

2-11

0,73505

0,01677

0,00028

без учета минимального и максимального значений F1

2-6

0,73422

0,01117

0,00012

7-11

0,73638

0,01988

0,00040

2-11

0,73481

0,01376

0,00019

Таблица 16 - Среднее, СКО, дисперсия для F1 (Gain Ratio)

Номера экспериментов

Среднее

СКО

Дисперсия

2-6

0,73370

0,01178

0,00014

7-11

0,73133

0,02014

0,00041

2-11

0,73302

0,01437

0,00021

без учета минимального и максимального значений F1

2-6

0,73193

0,00791

0,00006

7-11

0,73447

0,01859

0,00035

2-11

0,73262

0,01152

0,00013

Изучив представленные результаты, можно сделать следующие выводы:

1. iWizard-E продемонстрировала наибольшую эффективность при использовании в качестве тестового множества итогового набора, то есть данных, которые применялись для обучения проверяемых прогностических моделей в первом эксперименте. Однако такой подход, как правило, демонстрирует завышенные значения показателей качества. Следовательно, эти результаты в дальнейшем учитываться не будут для повышения достоверности оценки работы системы.

2. Наилучший результат (F1 = 0,8229) был достигнут при: тип выборки = «стратифицированная», размер обучающей выборки = «90% от исходного набора», размер тестовой выборки = «2618 записей». Наихудший результат (F1 = 0,6974) был достигнут при: тип выборки = «с возвращением», размер обучающей выборки = «2618 записей», размер тестовой выборки = «исходный набор».

3. iWizard-E продемонстрировала наиболее стабильные результаты при использовании в качестве обучающего множества исходного набора (самые низкие значения СКО и дисперсии при наивысших средних значениях; см. строки 2 и 6 в табл. 12).

4. iWizard-E продемонстрировала наиболее стабильные результаты (см. табл. 13-16) при использовании критерия разбиения Gain Ratio (наименьшие значения СКО и дисперсии).

Таким образом, iWizard-E продемонстрировала достаточно высокие результаты при обработке различных наборов данных. Следовательно, можно утверждать, что ИСППР позволяет формировать эффективные прогнозы.

Список литературы / References

1. Бинарные деревья решений [Электронный ресурс]. ? Режим доступа: URL: https://ranalytics.github.io/data-mining/052-Binary-Decision-Trees.html. (08.08.2018).

2. Бутстрэп [Электронный ресурс]. ? Режим доступа: URL: https://basegroup.ru/community/glossary/bootstrap. (08.08.2018).

3. Информационная энтропия [Электронный ресурс]. ? Режим доступа: URL: http://ru.math.wikia.com/wiki/Информационная_энтропия. (08.08.2018).

4. Коэффициент Джини [Электронный ресурс]. ? Режим доступа: URL: http://www.economicportal.ru/ponyatiya-all/koefficient-dzhini.html. (08.08.2018).

5. Мифтахова, А. А. Использование методов искусственного интеллекта для повышения успеваемости студентов вузов / А. А. Мифтахова // Наука и бизнес: пути развития. ? 2017. ? № 5(71). ? С. 7-12.

6. Оценка классификатора (точность, полнота, F-мера) [Электронный ресурс]. ? Режим доступа: URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html. (08.08.2018).

7. Пальмов, С. В. Реализация деревьев решений в различных аналитических системах / С. В. Пальмов, А. А. Мифтахова // Перспективы науки. ? 2015. ? № 1(64). ? С. 93-98.

8. Стратифицированная выборка [Электронный ресурс]. ? Режим доступа: URL: http://www.market-journal.com/marketingovyeissledovanija/113.html. (08.08.2018).

9. Information gain ratio [Электронный ресурс]. ? Режим доступа: URL: https://en.wikipedia.org/wiki/Information_gain_ratio. (08.08.2018).

10. Sampling With Replacement / Sampling Without Replacement [Электронный ресурс]. ? Режим доступа: URL: http://www.statisticshowto.com/sampling-with-replacement-without/. (08.08.2018). Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.