Проектирование и разработка системы контроля знаний

Использование информационных технологий в современном образовании. Применение системы контроля знаний в системах дистанционного обучения. Алгоритмы автоматизированной оценки свободно-конструируемых ответов. Применение модифицированной частотной матрицы.

Рубрика Программирование, компьютеры и кибернетика
Вид диссертация
Язык русский
Дата добавления 23.09.2018
Размер файла 1,5 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

- Методы, основанные на правилах.

- Методы концертных диаграмм.

- Методы извлечения информации.

- Математические методы.

- Статистические методы:

- Методы, основанные на корпусах текстов.

- Методы машинного обучения.

Более подробно принципы работы систем, базирующихся на методах каждой из групп приведены в обзоре аналогов разрабатываемой системы. К общим недостаткам статистических методов можно отнести сложность поиска репрезентативной обучающей выборки или размеченного корпуса текстов. Недостатками методов, базирующихся на правилах, является сложность построения модели для оценки ответов испытуемых.

7.2 Методы оценки, использованные в разработанной СКЗ

В данном разделе работы приведены описания методов, использованных для оценки свободно-конструируемых ответов в разработанной СКЗ. Метод оценки ответов на естественном языке вынесен в отдельный раздел работы.

7.2.1 Короткие ответы на естественном языке

Для оценки коротких ответов на естественном языке был применен метод аннотированного суффиксного дерева [35].

Из общей группы методов, основанных на обработке естественного языка, метод аннотированного суффиксного дерева (АСД) выделяет то, что он рассматривает обрабатываемые фрагменты текста на уровне символов, в не на уровне слов. Это позволяет проводить эффективную оценку коротких ответов и обеспечивает применимость алгоритма как для ответов в форме отдельного слова, так и для ответов в форме коротких фраз.

Описание структуры данных АСД приведено в [36]: АСД - корневое дерево, в котором каждый некорневой узел помечен одним из символов алфавита, на котором определена входная коллекция строк. Каждый из путей от корня дерева до какой-либо из вершин кодирует определенную подстроку коллекции входных строк. Каждой вершинеv сопоставляется частотаf (v), равная числу вхождений подстроки (от корня до вершины v) в исходный набор текстов.

На рисунке 4 приведено графическое представления АСД для строки «abcabd» над алфавитом {a; b;c;d}.

В качестве оценки для ответа пользователя будем использовать степень его вхождения в АСД, составленное по множеству эталонных ответов обучающей выборки, заданной преподавателем-экспертом. В настоящей работе для определения степени вхождения использован алгоритм, приведенный в [36]:

Рисунок 4. Графическая форма АСД

1) Для каждой вершины vвведем понятие условной вероятности узла p(v), определяемую по следующей формуле:

p(v)=f(v)/f(parent(v)) (1)

f(parent(v)) - частота вершины родителя v.

2) Частоту корня примем равной сумме частот узлов на первом уровне дерева.

3) Пусть для оцениваемого ответа максимальное совпадение по любому пути от корня к листьям имеет длину k.

4) Ненормированная оценка gдля совпадения v1…vk оцениваемого ответа пользователя sвычисляется по следующей формуле:

g(s) =(2)

5) Итоговую оценка G для ответа пользователя s примем равной сумме оценок совпадений суффиксов, нормированной по длине s:

(3)

7.2.2 Ответы в форме изображения

В рамках данной работы на вопросы с ответом в формате изображения наложено дополнительное ограничение: рассмотренные изображения могут являться только графиками функций на координатной плоскости, т.е. каждому значению х может соответствовать только одно значение y.

В качестве меры сходства графиков функций k, выступающей итоговой оценкой графического ответа пользователя, была использована мера, определенная как площадь области, ограниченной сверху и снизу графиками функции эталонного ответа и ответа пользователя, и нормированная по отношению к площади области ввода ответа в графической форме таким образом, что значения k принадлежат интервалу [0;1].

В графическом интерфейсе пользователя разработанной системы для ввода ответа в графической форме предназначена область 300*300 точек. Алгоритм ответа в графической форме реализован с поправкой на дискретизацию результирующего изображения.

7.2.3 Ответы в форме точки на координатной плоскости

Оценка свободно-конструируемых ответов пользователей в форме точки на координатной плоскости реализована в разработанной системе путем нахождения расстояния от точки эталонного ответа, заданной преподавателем-экспертом, до точки, указанной пользователем.

При составлении тестового вопроса преподаватель-эксперт задает координаты эталонной точки E и определяет допустимый размер окрестности е. Если точкаB, указанная пользователем в ответе, не принадлежит е-окрестности точки E, ответ абонента считается абсолютно неправильным и оценивается нулем.

В случае, если точка B, указанная пользователем при ответе, принадлежит е-окрестности точки E, оценка ответа пользователя G(B) определяется по следующей формуле:

(4)

7.2.4 Ответы в форме математического выражения

Для анализа ответов в формате математического выражения в разработанной системе использованы инструменты бесплатной библиотеки символьной математики Nerdamer [37]. Функции данной библиотеки позволяют проводить сравнение простых алгебраических выражений, включающих переменные, основные арифметическое операции (сложение, умножение, возведение в степень, деление), тригонометрические функции.

Оценка ответов в форме математического выражения производилась недифференцированным методом. В случае установления тождества между ответом испытуемого и эталонным ответом, ответ испытуемого оценивается как верный, в противном случае ответ оценивается как неверный.

Детальное рассмотрение проблем анализа структурированных текстовых ответов и в том числе ответов в формате математической формулы выходит за рамки данной работы и является одним из направлений последующего развития разработанной системы.

8. Латентно-семантический анализ

8.1 Общие сведения о методах LSA

В проектируемой СКЗ в качестве метода оценки ответа на естественном языке типа эссе применен метод латентно-семантического анализа (Latent Semantic Analysis, LSA). В данном разделе магистерской диссертации рассмотрены соответствующие алгоритмы, а также проанализирована целесообразность их использования для решения поставленной задачи.

Методы латентно-семантического анализа (также именуемые в ряде источников методами латентно-семантического индексирования, Latent Semantic Indexing, LSI) относятся к группе методов обработки естественного языка, направленных на классификацию текстов. Методы LSA представляют из себя отображение текста в семантическое признаковое пространство [38] и последующую работу с отображением, направленную на выявление неочевидных до проведения преобразования (латентных) признаков текста. Дальнейшая оценка вопроса производится с учетом выявленных признаков.

8.2 Использование методов LSA для автоматизированной оценки ответов

Тема автоматизированной оценки развернутых ответов (Automated Essay Scoring, AES) средствами компьютерных систем широко освещена в англоязычных научных публикациях. Одним из подходов к решению данной задачи является использование методов латентно-семантического анализа [39, 40]. Именно методы данной группы будут применены в проектируемой СКЗ.

Под автоматизированной оценкой развернутых ответов будем понимать сопоставление проектируемой СКЗ оценок ответам пользователей, сконструированным в свободной форме путем ввода текста на естественном языке при помощи клавиатуры. В разрабатываемой системе объем ответов пользователя не будет превышать ста слов (приблизительно одного абзаца текста). Хотя методы LSA и могут применяться для классификации текстов большего объема, вопросы их применения для оценки соответствующих ответов выходят за рамки рассмотрения данной работы.

В результате работы того или иного алгоритма LSA обрабатываемому тексту (в данном случае ответу пользователя) сопоставляется классификатор k, значение которого принадлежит интервалу [0,1]. Этот классификатор показывает степень сходства данного текста с одним из текстов эталонной выборки. В качестве категорий, принадлежность к которым будет определена, в разрабатываемой СКЗ будут применяться оценки ответов из эталонной выборки, заранее выставленные преподавателями-экспертами. Таким образом, на основании полученных ki для i-го ответа из множества всех ответов испытуемых каждому ответу испытуемого может быть сопоставлена оценка.

Оценка эффективности методов LSA для решения поставленной задачи произведена путем применения алгоритмов на контрольной выборке ответов, предварительно оцененной преподавателями-экспертами, и сравнении полученных автоматически оценок с оценками, данными преподавателями. Эталонная и контрольная выборки пар ответ-оценка не пересекаются.

Эталонные и контрольная выборки пар ответ-оценка сформированы по материалам [41].

8.3 Описание алгоритма LSА

Основным алгоритмом латентно-семантического анализа, использованного в проектируемой СКЗ, является алгоритм латентно-семантического индексирования. Описание алгоритма с пояснениями приведено ниже:

1) Из текста ответа пользователя исключаются знаки препинания, после чего текст представляется в виде множества слов W. Из множества слов W удаляются т. н. шумовые слова.

Пример:

Дообработки: A test is an assessment intended to measure a test-taker's knowledge, skill, aptitude, physical fitness, or classification in many other topics. A test may be administered verbally, on paper, on a computer, or in a confined area that requires a test taker to physically perform a set of skills.

После обработки: test; assessment; intended; measure; test-taker; knowledge; skill; aptitude; physical; fitness; classification; many; other; topics; test; may; be; administered; verbally, paper; computer; confined; area; requires; test; taker; physically; perform; set; skills

Примечание - Под шумовыми словами будем понимать слова языка, являющиеся семантически-зависимыми и не несущие самостоятельной смысловой нагрузки. К данным словам относят союзы, предлоги, частицы, междометия, артикли.

2) Для каждого слова из множества W проводится выделение морфологической основы слова (стемминг).

Пример:

После стемминга: test; assess; intend; measur; test; taker; knowledg; skill; aptitud; physic; fit; classif; mani; other; topic; test; mai; be; administ; verbal; paper; comput; confin; area; requir; test; taker; physic; perform; set; skill

Строго говоря, процесс выделение морфологической основы слов не является обязательным для работы алгоритма, однако ряд исследований [39, 42] свидетельствует о том, что стемминг позволяет повысить точность работы LSI, а также снизить затраты вычислительных мощностей на выполнение алгоритма.

3) На основании обработанного на предыдущих шагах алгоритма текста строится (или дополняется в случае обработки второго и далее текста эталонной выборки) частотная матрица S. Строкам матрицы S соответствуют слова, встречающиеся в обрабатываемых текстах эталонной выборки. Столбцам матрицы S соответствуют тексты эталонной выборки. Каждый элемент sij матрицы S равен числу вхождений индексируемого i-того слова Ti в j-тый текст (ответ эталонной выборки) Wj.

Матрица S:

W1

T1: test

4

T2: assess

1

T3: intend

1

T3: measur

1

T4: taker

2

T5: knowledg

1

T6: skill

3

T7: aptitud

1

T8: physic

2

T9: fit

1

T10: classif

1

T11: mani

2

T12: other

1

T13: topic

1

T14: mai

1

T15: be

1

T16: administ

1

T17: verbal

1

T18: paper

1

T19: comput

1

T20: confin

1

T21: area

1

T22: requir

1

T23: perform

1

4) Шаги 1-4 данного алгоритма выполняются для каждого ответа эталонной выборки. В результате частотная матрица S заполняется числом повторов каждого индексируемого слова для каждого текста обучающей выборки.

Матрица S после обработки всех ответов эталонной выборки:

W1

W2

W3

W4

...

Wn

T1

4

3

1

0

1

T2

1

1

2

0

1

T3

1

0

1

0

1

T3

1

0

1

1

1

T4

2

1

1

1

0

T5

1

1

1

1

3

T6

3

2

1

0

1

T7

1

0

0

0

2

T8

2

1

2

1

11

T9

1

1

1

1

0

T10

1

1

1

0

0

T11

2

3

2

0

1

T12

1

0

1

0

1

T13

1

1

1

0

0

T14

1

1

1

1

0

T15

1

0

0

1

0

T16

1

0

0

1

1

T17

1

1

1

0

0

T18

1

1

1

0

1

T19

1

0

2

0

0

T20

1

0

1

1

1

T21

1

1

2

1

0

T22

1

2

1

1

0

T23

1

2

0

1

1

T24

0

1

0

2

3

T25

0

2

0

4

4

T26

0

1

0

1

1

T27

0

1

0

0

0

T28

0

1

1

0

1

5) Для полученной в результате обработки ответов эталонной выборки матрицы S проводится сингулярное разложение (Single Value Decomposition, SVD). В результате сингулярного разложения матрица S представляется в виде произведения трех матриц:

S = U*W*VT (5)

W - матрица, элементы которой, лежащие на главной диагонали, равны сингулярным числам матрицы S, а все остальные элементы нулевые, при этом меньшему номеру строки i матрицы Wсоответствует большее значение соответствующего сингулярного числа wii матрицы S;

U - матрица, состоящая из левых сингулярных векторов матрицы S;

VT - матрица, сопряженно-транспонированная к матрице V, состоящей из правых сингулярных векторов матрицы S.

6) Получившаяся в результате выполнения предыдущих пунктов алгоритма матрица Wаппроксимируется матрицей меньшего ранга W*в соответствии с теоремой Эккарта-Янга: в качестве порога отсечки для сингулярных чисел в работе использовано значение 0.5, то есть из матрицы Wна данном этапе алгоритма удалены строки и столбцы, содержащие сингулярное число меньшее, чем 0.5. В результате получаем матричное равенство следующего вида:

S* = U**W**V*(6)

S*- модифицированная частотная матрица для эталонной выборки ответов;

W*- преобразованная матрица W, в которой все элементы главной диагонали, кроме n наибольших элементов, выбранных согласно методу аппроксимации были заменены нулями, после чего были удалены все нулевые строки и столбцы;

U*- матрица U, из которой удалены все строки, кроме n первых;

V*- матрица VT, из которой удалены все столбцы, кроме n первых.

В результате работы алгоритма получаем модифицированную частотную матрицу S*, обладающую меньшим рангом и меньшей размерностью, по сравнению с начальной частотной матрицей S. Матрица S*позволяет определить степень сходства ответа пользователя с одним из ответов эталонной выборки ответов, благодаря чему произвести дифференцированную оценку ответа пользователя.

8.4 Оценка ответов испытуемого с использованием модифицированной частотной матрицы

В результате обработки множества пар «ответ-оценка» эталонной выборки получаем модифицированную частотную матрицу S*, столбцы которой соответствуют векторам текстов-ответов.

Оценка ответа пользователя будет проведена по следующей схеме:

1)?Обозначим через dq столбец, соответствующий оцениваемому ответу испытуемого.

2)?Для каждого столбца dj матрицы S*, соответствующего оцененному ответу эталонной выборки, вычислим меру сходстваkqмежду dq и dj. В качестве коэффициента k будем использовать коэффициент Отиаи, определенный следующей формулой:

cos (7)

cos - косинус многомерного угла между вектором оцениваемого ответа пользователя dq и вектором эталонного ответа dj.

3)?Для каждого столбца dj, соответствующего эталонному ответу пользователя, вычислим потенциальную оценку gqj для оцениваемого вектора ответа испытуемого dq:

gqj = k*Gj (8)

Gj-оценка j-го ответа эталонной выборки.

4)?В качестве результирующей оценки для ответа испытуемого, соответствующего столбцуdq, принимаетсяGq, равное максимальному из всех Gj для таких j, что dj - столбец, соответствующий оцененному ответу эталонной выборки.

8.5?Модифицированный алгоритм LSA

Недостатком применения классического алгоритма латентно-семантического индексирования к задаче оценки ответов испытуемых является то, что порядок следования слов в ответе не оказывает никакого влияния на полученную оценку. Для ряда тем тестовых заданий такой метод может приводить к получению недостоверных результатов оценки ответов.

В настоящей работе предложена модификация алгоритма латентно-семантического анализа, позволяющая частично учитывать порядок следования слов в оцениваемом ответе.

Суть предложенной модификации сводится к рассмотрению на этапе создания частотной матрицы Sне отдельных обработанных слов, а n-грамм. Вся дальнейшая оценка с помощью модифицированного метода проходит так же, как и в классическом LSA, за тем исключением, что столбцы матриц Sи S* соответствуют не отдельным словам ответов, а n-граммам.

В ходе экспериментальных испытаний прототипа разработанной СКЗ была проверена работа модифицированного алгоритма LSAдля биграмм. Результаты тестирования приведены в соответствующем разделе настоящей пояснительной записки.

9.? Модель разрабатываемой системы

9.1 Общие сведения о модели синтезируемой системы

В качестве одного из этапов проведения системного анализа указано моделирование синтезируемой системы средствами унифицированного языка моделирования UML. Объектом моделирования выступает программа-прототип разрабатываемой СКЗ. Исходя из требований, выявленных на предыдущих этапах системного анализа, предложена архитектура разрабатываемого программного обеспечения, способная обеспечить реализацию необходимых функциональных возможностей разрабатываемой СКЗ.

Предложенная архитектура разработана в соответствии с принципами объектно-ориентированного программирования [43] и предполагает абстракцию (к примеру, в форме абстрактного родительского класса для вопросов), инкапсуляцию (в форме хранения в объектах вопросов данных вопросов и методов их обработки), наследование (в форме наследования классами конкретных типов вопросов атрибутов базового абстрактного класса вопроса).

В последующих подразделах описаны результаты проведенного моделирования.

9.2 Диаграмма прецедентов использования

Диаграмма прецедентов (usecasediagram) показывает акторов, с которыми будет взаимодействовать моделируемая система в процессе своего функционирования. Акторами могут выступать конкретные группы пользователей, другие системы и наборы логически взаимосвязанных ролей.

В качестве основных акторов, взаимодействующих с проектируемой системой, могут быть выделены преподаватели-эксперты, испытуемые, администратор системы, а также система более высокого уровня, в которую может быть интегрирована СКЗ. В данном примере системой более высокого уровня будет выступать автоматизированная обучающая система (АОС).

Предполагается, что в проектируемой системе преподаватель-эксперт имеет все те же возможности по прохождению тестовых заданий, что и испытуемый. Данный тип отношений может быть реализован через механизм наследования, ставший частью стандарта UMLверсии 1.2 [45]. Таким образом, актор преподаватель-эксперт наследует все прецеденты использования актора испытуемого. В свою очередь, администратор наследует все прецеденты использования испытуемого и преподавателя-эксперта.

Для каждого из акторов выделен ряд прецедентов - отдельных аспектов системы с точки зрения использования. Ниже приведены списки не наследуемых прецедентов использования для каждого из выделенных акторов.

Прецеденты использования для испытуемого:

- Авторизация в СКЗ.

- Выбор тестового задания.

- Выбор режима тестирования (в случае, если тестовое задание предусматривает проведение как неадаптивного, так и адаптивного тестирования).

- Формирование ответа.

- Внесение ответа в систему.

- Просмотр оценки за выполненное тестовое задание.

- Просмотр статистики заданий.

Ненаследуемые прецеденты использования для преподавателя-эксперта:

- Создание тестового вопроса.

- Создание тестового задания.

- Изменение вопроса.

- Изменение тестового задания.

- Внесение тестового задания в систему.

- Назначение тестовых заданий для испытуемого.

Ненаследуемые прецеденты использования для администратора системы:

- Добавление новых пользователей.

- Удаление пользователей.

- Изменение алгоритмов оценки.

Прецеденты использования для АОС:

- Создание тестового задания.

- Изменение тестового задания.

- Внесение тестового задания в систему.

- Назначение тестового задания испытуемым.

- Просмотр оценки за выполненное тестовое задание.

- Просмотр статистики заданий.

Графическое представление диаграммы прецедентов использования приведено на рисунке 5.

9.3 Диаграмма классов

Диаграмма классов отражает отношение между классами системы. В данном контексте под классом будем понимать группу сущностей, обладающих схожими атрибутами и операциями.

В проектируемой системе выделено несколько групп классов: классы, описывающие группы пользователей и их методы взаимодействия с системой; классы, описывающие модули СКЗ и их методы взаимодействия друг с другом и другими пользователями; классы, хранящие тестовые вопросы, тестовые задания и методы их обработки. Для удобства чтения в данной пояснительной записке названия классов выделены полужирным шрифтом.

Рисунок 5. Диаграмма прецедентов

Для пользователей системы предусмотрен абстрактный класс «ПОЛЬЗОВАТЕЛЬ», являющийся генерализацией классов, хранящих информацию о конкретных группах акторов системы: «ИСПЫТУЕМЫЙ», «ПРЕПОДАВАТЕЛЬ», «АДМИНИСТРАТОР».

За программные модули системы отвечают следующие классы:

«MAIN»- класс корневого процесса среды разработанного приложения.

«RENDERER» - абстрактный класс для отображения окон графического интерфейса.

«MAIN_WINDOW» - класс, отвечающий за основную оконную форму системы.

«LOGINER_WINDOW» - класс, отвечающий за форму авторизации пользователей системы.

«TEST_WINDOW» - класс, отвечающий за оконную форму интерфейса проведения тестирования.

«STAT_WINDOW» - класс, отвечающий за оконную форму отображения статистики.

«QUESTION» - абстрактный класс, хранящий свойство и методы для абстрактного типа тестового вопроса.

«QUESTION_LSA»- класс, хранящий свойства и методы для тестового вопроса с ответом на естественном языке типа эссе.

«QUESTION_SHORT»- класс, хранящий свойства и методы для тестового вопроса с коротким ответом на естественном языке.

«QUESTION_MATH»- класс, хранящий свойства и методы для тестового вопроса с ответом в форме математического выражения.

«QUESTION_POINT»- класс, хранящий свойства и методы для тестового вопроса с ответом в форме точки на координатной плоскости.

«QUESTION_PIC»- класс, хранящий свойства и методы для тестового вопроса с ответом в форме изображения.

«QUESTION_CLOSED»- абстрактный класс, хранящий свойства и методы для абстрактного вопроса в закрытой форме.

«INT_ALS» - абстрактный интерфейсный класс, обеспечивающий взаимодействие разрабатываемой системы ссистемами более высокого уровня.

«TASK» - класс, хранящий группу тестовых вопросов (тестовое задание).

«GRADER» - абстрактный класс, содержащий шаблон метода оценки абстрактного тестового вопроса.

«GRADER_LSA» - класс, содержащий методы оценки тестового вопроса с ответом на естественном языке типа эссе.

«GRADER_SHORT» - класс, содержащий метод оценки тестового вопроса скоротким ответом на естественном языке.

«GRADER_MATH» - класс, содержащий метод оценки тестового вопроса с ответом в форме математического выражения.

«GRADER_PIC» - класс, содержащий метод оценки тестового вопроса с ответом в формате графического изображения.

«GRADER_POINT» - класс, содержащий метод оценки тестового вопроса с ответом в форме точки на координатной плоскости.

«GRADER_CLOSED» - абстрактный класс, содержащий шаблон метода оценки абстрактного вопроса с ответом в закрытой форме.

Классы «MAIN_WINDOW», «LOGINER_WINDOW»,«STAT_WINDOW»и«TEST_WINDOW» наследуют свойства и методы родительского абстрактного класса «RENDERER».Классы«QUESTION_LSA», «QUESTION_SHORT», «QUESTION_MATH», «QUESTION_POINT», «QUESTION_PIC» и«QUESTION_CLOSED» на следуют свойства абстрактного родительского класса«QUESTION».Классы«GRADER_LSA», «GRADER_SHORT»,«GRADER_MATH»,«GRADER_PIC»,«GRADER_POINT» и «GRADER_CLOSED» наследуют свойства и методы абстрактного класса«GRADER».

Графическое представление диаграммы классов приведено на рисунке 6.

Рисунок 6. Диаграмма классов

Далее в тексте работы описаны ключевые аспекты взаимодействия классов разрабатываемой системы и важные функции, выполняемые классами.

Объект класса «MAIN» хранит идентификатор процесса, присвоенного операционной системой запущенной копии проектируемой СКЗ и инициирует запуск оконных форм графического интерфейса пользователя. Межпроцессное взаимодействие между корневым процессом класса «MAIN»и процессами наследников класса «RENDERER»осуществляется посредством механизма сигналов и слотов.

Класс «LOGINER_WINDOW» обеспечивает аутентификацию пользователей при помощи механизмаHTTPаутентификации со схемой Basic.

Класс «MAIN_WINDOW» обеспечивает вывод оконной формы главного меню разрабатываемой СКЗ, а также содержит методы фиксации управляющих воздействий пользователя системы и их перенаправление корневому процессу программы, порожденному классом «MAIN».

Класс «TEST_WINDOW» обеспечивает отображение тесовых вопросов на оконной форме, получение ответов пользователя, а также передачу ответов для оценки классам-наследникам «GRADER».

Класс «STAT_WINDOW» отвечает за формирование и вывод статистика прохождения тестовых заданий пользователем.

Объект класса «TASK» хранит тестовое задание для прохождения пользователем, а также содержит методы передачи вопросов задания классу «TEST_WINDOW» для последующего отображения на оконной форме, методы выбора тестовых вопросов для передачи, а также метод формирования списка тестовых вопросов по файлу тестового задания.

Классы-наследники «GRADER» хранят параметры ответов, а также методы их обработки. Имплементация частных алгоритмов оценки для каждого поддерживаемого типа вопросов выполнена путем перегрузки абстрактного метода Q_Grade() в классах-наследниках.

Класс «QUESTION» предназначен для хранения тестовых вопросов со всеми сопутствующими метаданными, такими как текст вопроса, принадлежность тестового вопроса к той или иной категории классификации, в случае наличия ссылку на изображение, дополняющее тестовый вопрос и другие параметры.

9.4 Диаграммы последовательностей

Диаграммы последовательностей являются моделями процессов обмена сообщениями между объектами системы, производимыми при выполнении определенных действий. В ходе моделирования разрабатываемой системы была построена диаграмма последовательностей для случая прохождения испытуемым тестового задания.

Для удобства чтения объекты в тексте данного подраздела записаны полужирным текстом с подчеркиванием и носят имена классов, к которым они принадлежат; методы объектов выделены курсивом и скобками после имени.

Процесс обмена сообщениями при простом случае прохождения пользователем тестирования будет происходить следующим образом:

1. При включении программы запустится корневой процесс «MAIN».

2. Метод Invoke_W() объекта «MAIN»инициирует отображение оконной формы «LOGINER_WINDOW».

3. «LOGINER_WINDOW» произведет аутентификацию пользователя при помощи механизма HTTPаутентификации со схемой Basic.

4. При помощи методаSend_Signal() «LOGINER_WINDOW» пошлет сигнал «MAIN»об успешной идентификации пользователя.

5. «MAIN» при помощи метода Invoke_W()инициирует отображение оконной формы «MAIN_WINDOW».

6. МетодGet_Input() объекта «MAIN_WINDOW» считает управляющее воздействие пользователя (в данном случае выбор опции «Начать тестирование»).

7. «MAIN_WINDOW» при помощи методаSend_Signal() обратится к корневому процессу «MAIN» с сообщением о выборе пользователя.

8. «MAIN» инициирует отображение оконной формы «TEST_WINDOW».

9. «TEST_WINDOW» получает от объекта «TASK» тестовый вопрос «QUESTION», после чего обеспечивает его отображение на оконной форме тестирования.

10. «TEST_WINDOW» получает ответ испытуемого при помощи метода Get_A().

11. Ответ испытуемого оценивается при помощи метода Grade()объекта «GRADER».

12. Результаты оценки ответа добавляются к свойствам «STAT_WINDOW» при помощи метода «TEST_WINDOW» Set_Stat().

13. «TEST_WINDOW» посылает сигнал о завершении тестирования объекту «MAIN».

14. «TEST_WINDOW» закрывает оконную форму тестирования при помощи метода Close().

15. «MAIN» инициирует открытие оконной формы статистики объекта«STAT_WINDOW».

Пункты 9 - 12 выполняются поочередно для каждого вопроса в списке вопросов «TASK».

Графическое представление диаграммы последовательности для прохождения пользователем тестирования приведено на рисунке 7.

Рисунок 7. Диаграмма последовательности

10. Разработка прототипа СКЗ

10.1 Выбор инструментов и методов разработки

В качестве основного инструмента разработки спроектированной СКЗ был выбран фреймворк ElectronJS. Основными достоинствами данного пакета является распространение по лицензии открытого программного обеспечения MIT, интеграция программной платформы Node.JSи интерпретатора JsvaScriptV8 [45]. Данный набор инструментов позволяет разрабатывать графические приложения, ориентированные на конкретную аппаратную платформу, средствами языка JavaScriptи языка разметки html, что существенно упрощает процесс переноса разработанной системы в формат Web-приложения. Это может являться следующим этапом развития системы.

В качестве библиотеки символьной математики в разработанной системе использовалась бесплатная библиотека Nerdamer.

Для моделирования системы использовалось программное обеспечение Umbrello 2.25.1. Основанием выбора данной среды моделирования послужил ряд факторов, основными из которых являются поддержка стандартов языка UML 2.0 и автоматическая генерация шаблонов кода на языке JavaScriptна базе построенной модели.

Для выполнения матричных преобразований, в том числе единичной декомпозиции, была использована библиотека NumericJS.

При разработке СКЗ применялся итеративный подход к разработке, как наиболее хорошо согласующийся с принципами объектно-ориентированного программирования и позволяющий использовать наработки, полученные на этапе моделирования системы.

10.2 Разработанная система

В результате выполнения выпускной квалификационной работы магистра был разработан прототип СКЗ, реализующий автоматизированную оценку следующих типов вопросов с ответами в свободно-конструируемой форме:

- Вопрос с коротким ответом на естественном языке.

- Вопрос с ответом на естественном языке типа эссе.

- Вопрос с ответом в формате изображения (графика функции).

- Вопрос с ответом в формате точки на координатной плоскости.

- Вопрос с ответом в формате математического выражения.

Разработанная система включает модуль проведения тестирования, модуль формирования тестового задания, модуль вывода статистики. Для интеграции с системами более высокого уровня в разработанной системе предусмотрен интерфейсный класс, а также возможность экспорта статистики в формате JSON. Кроме того, система предусматривает импорт тестовых заданий из текстовых файлов с разработанной нотацией, базирующейся на нотации JSON.

На рисунке 8 представлена оконная форма графического пользовательского интерфейса окна тестирования для случая вопроса с ответом на естественном языке типа эссе.

На рисунке 9 представлена оконная форма графического пользовательского интерфейса окна вывода статистики ответов.

Рисунок 8. Графический интерфейс пользователя - окно тестирована

Рисунок 9. Оконная форма вывода статистики ответов

Разработанная система удовлетворяет заявленным в задании на выпускную квалификационную работу магистра требованиям. Результаты тестирования системы приведены в следующем подразделе настоящей пояснительной записки.

10.3 Тестирование разработанной системы

На первом этапе тестирования системы было проведено функциональное тестирование, в результате которого была подтверждена способность разработанной СКЗ решать следующий ряд задач:

- Распознавание и оценка свободно-конструируемого ответа пользователя в формате короткого ответа на естественном языке.

- Распознавание и оценка свободно-конструируемого ответа пользователя в формате ответа на естественном языке типа эссе.

- Распознавание и оценка свободно-конструируемого ответа пользователя в формате математического выражения.

- Распознавание и оценка свободно-конструируемого ответа пользователя в формате изображения.

- Распознавание и оценка свободно-конструируемого ответа пользователя в формате точки на координатной плоскости.

- Импорт тестовых заданий.

- Экспорт статистики тестовых заданий.

- Контроль авторизации пользователей.

На следующем этапе тестирования были рассмотрены результаты работы частных алгоритмов оценки свободно-конструируемых ответов.

10.4 Тестирование алгоритма оценки ответов на естественном языке типа эссе

В качестве эталонного набора размеченных ответов на естественном языке типа эссе был выбран набор размеченных ответов ASAP 2 за 2012 год [41].

На этапе составления частотной матрицы использовалась выборка из 130 ответов пользователей в форме эссе, оцененные по шкале от 1 до 4 преподавателями-экспертами. Тестовая выборка включала 20 вопросов на естественном языке.

Результаты автоматизированной оценки и оценки при помощи использованного алгоритма приведены в таблице 2.

Среднеквадратичная ошибка оценки составила 0,61, что вполне укладывается в ряд значений систем-аналогов [46]. Коэффициент Отиаи для векторов оценок, выставленных преподавателями-экспертами и разработанной СКЗ составил 0,99.

Таблица 2. Результаты автоматизированной оценки вопросов типа эссе

Вопрос

Оценка СКЗ

Оценка

Преподавателя-эксперта

1

0,92

1

2

0,00

1

3

0,41

1

4

0,78

1

5

0,80

1

6

0,90

2

7

1,90

2

8

1,67

2

9

2,12

2

10

1,81

2

11

2,12

3

12

2,36

3

13

2,41

3

14

2,20

3

15

2,11

3

16

3,81

4

17

3,21

4

18

3,29

4

19

3,90

4

20

3,30

4

В результате тестирования аналогичным методом алгоритма оценки коротких ответов на естественном языке среднеквадратичная ошибка составило 0,66 и среднеквадратичное отклонение 0,86.

Полученные в ходе тестирования результаты свидетельствуют об эффективности выбранных алгоритмов для оценки свободно-сконструированных ответов и о работоспособности разработанного прототипа СКЗ в целом.

11. Достигнутые в ходе выполнения работы результаты

В ходе выполнения магистерской диссертации был проведен системный анализ, исходя из результатов которого был сформирован список подзадач, решение которых необходимо для выполнения требований, сформулированных в задании на выполнение выпускной квалификационной работы магистра.

Был проведен анализ научных публикаций на тему автоматизированной оценки ответов в свободно-сконструированной форме, в результате которого было составлено представление о современном состоянии предметной области, используемых в педагогическом контроле типах тестовых вопросов, методах их автоматизированной оценки и применении обозначенных методов в конкретных автоматизированных системах.

В ходе проведенного анализа существующих систем с возможностью автоматизированной оценки свободно-сконструированных ответов был выявлен ряд общих недостатков подобных систем, что позволило дополнить требования, предъявляемые к разрабатываемой СКЗ.

Для тестовых вопросов с ответами в свободно-конструируемой форме была разработана схема классификации, базирующаяся на применяемых алгоритмах автоматизированной оценки. На базе анализа научных публикаций также была выполнена классификация методов автоматизированной оценки свободно-сконструированных ответов, были выделены основные достоинства и недостатки существующих групп методов.

Исходя из результатов анализа и классификации типов тестовых вопросов и используемых для их автоматизированной оценки алгоритмов были определены функциональные возможности синтезируемой системы. Для поддерживаемых разрабатываемой СКЗ типов вопросов были выбраны алгоритмы оценки. Для некоторых типов вопросов (вопросы с ответом в форме графика функции, вопросы с ответом на естественном языке в форме эссе) были предложены алгоритмы автоматизированной оценки. Для ряда применяемых в оценке свободно-сконструированных ответов алгоритмов были предложены модификации, позволяющие в ряде случаев улучшить точность оценки.

Принимая в расчет результаты системного анализа, разрабатываемая система была смоделирована методами языка UML. Также были выбраны средства и методология разработки, после чего был разработан прототип СКЗ.

Разработанный прототип СКЗ был протестирован. В результате тестирования было подтверждено, что система соответствует заявленным требованиям.

На завершающем этапе выполнения магистерской диссертации была составлена данная пояснительная записка, содержащая описание выполненных этапов работы, достигнутые в ходе выполнения работы результаты и сделанные на их основе выводы.

Заключение

В ходе выполнения магистерской диссертации и анализа достигнутых результатов сделаны следующие выводы:

1. Существующие сегодня системы с возможностью оценки свободно-конструируемых ответов не всегда отвечают заявленным требованиям и обладают рядом общих недостатков, среди которых можно выделить возможность обработки ограниченного набора типов вопросов, невозможность интеграции в системы более высокого уровня и отсутствие информации об экспериментальном тестировании в сопроводительной документации.

2. Существует две принципиально разных группы методов для оценки свободно-сконструированных ответов: методы, основанные на правилах, и статистические методы. Первые обеспечивают более предсказуемые результаты оценки, но требуют больших трудозатрат преподавателя-эксперта для составления модели оценки. В реальных системах выбор группы методов должен осуществляться исходя из особенностей решаемой задачи.

3. Методы анализа естественного языка (например, метод аннотированных суффиксных деревьев и метод латентно-семантического индексирования, реализованные в работе) могут успешно применяться для оценки свободно-конструируемых ответов пользователя, но требуют поиска размеченных корпусов текстов для обеспечения должной работоспособности. К сожалению, подобные наборы данных на русском языке отсутствуют в открытом доступе.

4. Использование ответов в открытой форме позволяет повысить объективность педагогического тестирования, а также оценить ряд компетенций, недоступных для оценки тестами в закрытой форме. Однако, вопросы данного типа требуют значительно больших трудозатрат в случае оценки преподавателем-экспертом и более сложных алгоритмов автоматизированной оценки.

5. Методы моделирования системы средствами языка UMLсущественно облегчают разработку архитектуры сложных систем и хорошо согласуются с принципами объектно-ориентированного программирования.

В качестве направления дальнейшего развития разработанной системы можно выделить:

1. Реализацию поддержки большего типа тестовых вопросов в свободно-конструируемой форме.

2. Улучшение использованных алгоритмов оценки с целью повышения точности оценки ответов испытуемых.

3. Интеграция в систему более высокого уровня, такую как автоматизированная обучающая система или автоматизированная система управления учебным процессом.

4. Изменение архитектуры системы для возможности её использования в качестве Web-приложения.

Список использованных источников

1. Прончев Г. Б., Прончева Н. Г., Гришков А. В. Автоматизированная информационная система контроля знаний удаленного доступа // Молодой ученый. -- 2011. -- №12. Т.1. -- С. 95-99.

2. В. Путин: Развитие информационных технологий - стратегическая задача страны, тем более что Россия имеет и кадровый потенциал, и весомый научный задел. По материалам сайта https://iq.hse.ru/news/177702390.html на момент обращения 20.04.2018

3. Соколов А.В. IT-отрасль. По материалам сайта http://minsvyaz.ru/ru/ на момент обращения 20.04.2018

4. Стратегия развития отрасли информационных технологий в Российской Федерации на 2014-2020 годы и перспективу до 2025 года.

5. Батколина В.В. Повышение эффективности образования взрослых в вузах на основе современных информационных технологий // Диссертация на соискание ученой степени кандидата педагогических наук, Москва: 2011.

6. Градиевская С.П. Информационные технологии в образовательном процессе. По материалам сайта https://nsportal.ru на момент обращения 20.04.2018

7. Khe F., Wing S. Use of Web 2.0 technologies in K-12 and higher education: The search for evidence-based practice. Educational Research Review, 2013.

8. Рудинский И.Д. Структурные основы тестологии. - 2-е изд., испр. - М: Горячая линия-Телеком, 2015. - 244 с.

9. Карпова И.П. Сравнение открытых и выборочных тестов //Открытое образование, Москва: 2010, с.32-38.

10. Мясников О.В., Прончев Г.Б., Прончева Н.Г. Мультимедийный портал для организации занятий по программированию // Молодой ученый, 2010, № 6 (17), С. 345-347.

11. Инструктивные рекомендации по использованию системы электронного повышения квалификации (ЭПК) педагогических работников Московской области.

12. Прикладной системный анализ: учебное пособие / Ф.П. Тарасенко. -- М.: КНОРУС, 2010. -- 224 с.

13. Сорокин Д.С. Система контроля знаний на основе дифференцированного метода оценки ответов. Междисциплинарная курсовая работа, 2017.

14. Burrows, S., Gurevych, I. & Stein, B. Int J ArtifIntellEduc (2015) 25: 60. https://doi.org/10.1007/s40593-014-0026-8

15. Gay, L. R. (1980). The Comparative Effects of Multiple-Choice versus Short-Answer Tests on Retention. Journalof Educational Measurement, 17(1), 45-50.

16. Madnani, N., Burstein, J., Sabatini, J., and Reilly, T. O. (2013). Automated Scoring of a Summary Writing Task Designed to Measure Reading Comprehension. In J. Tetreault, J. Burstein, and C. Leacock, editors, Proceedings of the Eighth Workshop on Innovative Use of NLP for Building Educational Applications, pages 163-168, Atlanta, Georgia. Associationfor Computational Linguistics.

17. Cowie, J. and Wilks, Y. (2013). Information Extraction. In R. Dale, H. Moisl, and H. Somers, editors, Handbook of Natural Language Processing, chapter 10, pages 241-260. Marcel Dekker, NewYorkCity, NewYork, firstedition.

18. Jordan, S. and Mitchell, T. (2009). e-Assessment for Learning? The Potential of Short-Answer Free-Text Questions with Tailored Feedback. British Journalof Educational Technology, 40(2), 371-385.

19. Bachman, L. F., Carr, N., Kamei, G., Kim, M., Pan, M. J., Salvador, C., and Sawaki, Y. (2012). A Reliable Approach to Automatic Assessment of Short Answer Free Responses. In S.-C. Tseng, T.-E. Chen, and Y.-F. Liu, editors, Proceedings of the Nineteenth International Conference on Computational Linguistics, volume 2 of COLING '12, pages 1-4, Taipei, Taiwan. Association for Computational Linguistics.

20. Alfonseca, E. and Pйrez, D. (2014). Automatic Assessment of Open Ended Questions with a BLEU-Inspired Algorithm and Shallow NLP. In J. Vicedo, P. Martнnez-Barco, R. Munoz, and M. SaizNoeda, editors, ґ Advances in Natural Language Processing, volume 3230 of Lecture Notes in Computer Science, pages 25- 35. Springer, Berlin, Germany.

21. Gьtl, C. (2008). Moving Towards a Fully Automatic Knowledge Assessment Tool. Internationa lJournalof Emerging Technologiesin Learning, 3(1), 1-11.

22. Callear, D., Jerrams-Smith, J., and Soh, V. (2001). CAA of Short Non-MCQ Answers. In M. Danson and C. Eabry, editors, Proceedings of the Fifth Computer Assisted Assessment Conference, pages 1-14, Loughborough, United Kingdom. Loughborough University.

23. Sukkarieh, J. Z. (2010). Using a MaxEnt Classifier for the Automatic Content Scoring of Free-Text Responses. In A. Mohammad-Djafari, J.-F. Bercher, and P. Bessiйre, editors, Proceedings of the International Workshop on Bayesian Inference and Maximum Entropy Methods in Science and Engineering, volume 1305 of AIP Conference Proceedings, pages 41-18, Chamonix, France. AmericanInstituteofPhysics.

24. Cutrone, L., Chang, M., and Kinshuk (2011). Auto-Assessor: Computerized Assessment System for Marking Student's Short-Answers Automatically. In N. S. Narayanaswamy, M. S. Krishnan, Kinshuk, and R. Srinivasan, editors, Proceedings of the Third IEEE International Conference on Technology for Education, pages 81-88, Chennai, India. IEEE.

25. Pascual-Nieto, I., Santos, O. C., Perez-Marin, D., and Boticario, J. G. (2011). Extending Computer Assisted Assessment Systems with Natural Language Processing, User Modeling and Recommendations Based on Human Computer Interaction and Data Mining. In T. Walsh, editor, Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence, volume 3 of IJCAI '11, pages 2519-2524, Barcelona, Spain. AAAI Press.

26. Bukai, O., Pokorny, R., and Haynes, J. (2006). An Automated Short-Free-Text Scoring System: Development and Assessment. In Proceedings of the Twentieth Interservice/Industry Training, Simulation, and Education Conference, pages 1-11. National Trainingand Simulation Association.

27. Jordan, S. (2012a). Short-Answer E-Assessment Questions: Five Years On. In D. Whitelock, G. Wills, and B. Warburton, editors, Proceedings of the Fifteenth International Computer Assisted Assessment Conference, pages 1-12, Southampton, United Kingdom.

28. Ott, N., Ziai, R., Hahn, M., and Meurers, D. (2013). CoMeT: Integrating Different Levels of Linguistic Modeling for Meaning Assessment. In S. Manandhar and D. Yuret, editors, Proceedings of the Seventh International Workshop on Semantic Evaluation, pages 608-616, Atlanta, Georgia. Associationfor Computational Linguistics

29. Sukkarieh, J. Z. and Kamal, J. (2009). Towards Agile and Test-Driven Development in NLP Applications. In K. B. Cohen and M. Light, editors, Proceedings of the Workshop on Software Engineering, Testing, and Quality Assurance for Natural Language Processing, SETQA-NLP '09, pages 42-44, Boulder, Colorado. Associationfor Computational Linguistics

30. Нигматуллина Г.В., Варфоломеева Т.Н. АВТОМАТИЗАЦИЯ КОНТРОЛЯ РЕЗУЛЬТАТОВ ОБУЧЕНИЯ УЧАЩИХСЯ // Материалы VII Международной студенческой электронной научной конференции «Студенческий научный форум», 2015.

31. Звонников В.И., Колышкова М.Б. Контроль качества обучения при аттестации: компетентностный подход. По материалам сайта http://www.plam.ru/pedagog/ на момент обращения 20.04.2018

32. Абакумов Д. Компьютерные тесты: придумываем задания. По материалам сайта http://www.edutainme.ru/post/open-test/ на момент обращения 20.04.2018

33. Карпова И.П. Анализ ответов обучаемого в автоматизированных обучающих системах // "Информационные технологии", 2001, № 11. - с.49-55.

34. Карпова И.П. Исследование и разработка подсистемы контроля знаний в распределенных автоматизированных обучающих системах // Диссертация на соискание ученой степени кандидата технических наук, 05.13.13 - "Телекоммуникационные системы и компьютерные сети", Москва: 2010.

35. Миркин Б. Г., Черняк Е. Л., Чугунова О. Н. Метод аннотированного суффиксного дерева для оценки степени вхождения строк в текстовые документы. Бизнес-информатика, №3(21), 2012. с. 31-41.

36. Дубов М., Черняк Е., Аннотированные суффиксные деревья: особенности реализации // Национальный Открытый Университет «ИНТУИТ», 2013

37. Техническая документация библиотеки Nerdamer. По материалам сайта http://nerdamer.com/documentation.htmlна момент обращения 20.04.2018

38. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. -- М.: МИЭМ, 2011. -- 272 с.

39. Shourya Roy, Y. Narahari, and Om D. Deshmukh. 2015. A Perspective on Computer Assisted Assessment Techniques for Short Free-Text Answers. In Proceedings of the International Conference on Computer Assisted Assessment Techniques

40. MyroslavaDzikovska, Rodney Nielsen, Chris Brew, Claudia Leacock, DaniloGiampiccolo, Luisa Bentivogli, Peter Clark, Ido Dagan, and HoaTrang Dang. 2013. SemEval-2013 Task 7: The Joint Student Response Analysis and 8th Recognizing Textual Entailment Challenge. In Second Joint Conference on Lexical and Computational Semantics (*SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pages 263-274, Atlanta, Georgia, USA, June.

41. По материалам сайта https://www.kaggle.com/c/asap-sas/dataна момент обращения 20.04.2018

42. Felipe N. Flores and Viviane P. Moreira. 2016. Assessing the impact of Stemming Accuracy on Information Retrieval - A multilingual perspective. Inf. Process. Manage. 52, 5 (September 2016), 840-854. DOI: https://doi.org/10.1016/j.ipm.2016.03.004

43. Vedpal, N. Chauhan, and H. Kumar. A hierarchical test case prioritization technique for object oriented software. in Contemporary Computing and Informatics (IC3I), 2014 International Conference on. 2014.

44. Yi, T. (2010) Comparison Research of Two Typical UML Class Diagram Metrics: Experimental Software Engineering. Proceedings of the International Conference on Computer Application and System Modeling (ICCASM'2010), Taiyuan, 22-24 October 2010, 86-90.

45. Техническая документация фреймворка Electron. По материалам сайта https://electronjs.org/docsна момент обращения 20.04.20...


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.