Экспертно-ориентированный подход к разработке теста

Способы использования экспертных оценок в тестировании. Искажения, связанные с экспертными оценками. Сравнительный анализ вступительных экзаменов по математике на технические специальности вузов в странах БРИК. Основные способы обнаружения искажений.

Рубрика Педагогика
Вид дипломная работа
Язык русский
Дата добавления 09.07.2016
Размер файла 294,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Выборка исследования:

Генеральная совокупность - эксперты в области различных предметов

Данное исследование включает в себя пилотный опрос экспертов с целью возможности обнаружения искажений и подтверждения результатов, полученных в результате симуляционных исследований искажений. В пилотном опросе приняли участие 4 эксперта - преподавателя математики у первокурсников инженерных специальностей в вузах. Эксперты принадлежат к вузам разной направленности (1 классический, 3 технических) и разного расположения (Екатеринбург, Санкт-Петербург, Псков, Великий Новгород).

Тестирование проводилось на 177 студентах первого курса инженерных специальностей из четырех университетов России (47 студентов из Санкт-Петербурга, 60 из Пскова, 40 из Екатеринбурга, 30 из Великого Новгорода). Студенты заполняли тест в онлайн режиме, у них было ограничено время на выполнение заданий, тестирование было завершено 8 декабря 2013 года.

Метод и методики исследования:

В данном исследовании в качестве тестовых вопросов использовались задания из тестов Индии (JEE Main 2012) и Китая (CEE 2012), предоставленные научным консультантом Лоялкой П.

Этапы проведения исследования:

Первым этапом проведения исследования стал анализ опроса преподавателей на предмет наличия искажений. Задачей преподавателей было оценить предоставленные задачи по математике по четырем критериям. Предварительный анализ показал, что в данных могут присутствовать искажения.

Вторым этапом проведения исследования стал анализ литературных данных на предмет способов выявления искажений в экспертных оценках, прежде всего, при оценке ответов, а не заданий. С целью проверки функционирования данных способов в ситуации экспертной оценки заданий на этом этапе были проведены симуляционные исследования, показавшие корректное функционирование статистик при обнаружении искажений.

Третьим этапом исследования стал более глубокий анализ опроса экспертов, с целью проверки функционирования статистик на реальных данных и сравнения результатов работы статистик на симулированных данных и на реальных данных. Кроме этого, был также проведен опрос студентов из этих же вузов выбранными вопросами с целью проверить работу экспертов. Инструкция и бланки для экспертов приведены в приложении 1. Также на третьем этапе происходила разработка методологии создания теста на основании экспертных оценок.

2.3 ОБНАРУЖЕНИЕ ИСКАЖЕНИЙ В ЭКСПЕРТНЫХ ОЦЕНКАХ

2.3.1 Демонстрация искажений в симуляционных исследованиях

Искажения, возникающие при экспертном оценивании ответов, а также методы обнаружения этих искажений были описаны выше. Однако, важно отметить, что все эти методы давали положительный результат при анализе ряда экспертов, оценивающих достаточно большое количество респондентов. Так как мы не можем утверждать, что все заявленные выше методы анализа и обнаружения искажений будут работать в ситуации оценивания небольшого количества элементов (т.е. заданий, а не ответов респондентов), то было решено провести симуляционные исследования, демонстрирующие работу статистик в нужных нам условиях. Симуляции проводились на уровне матрицы. Анализ проводился в программе ConQuest.

В реальных данных, полученных нами, каждый эксперт получал 30 заданий и 4 критерия для оценки каждого из них. Такой вариант кажется нам наиболее приближенным к реальности в случае работы по созданию теста этим методом. Однако, с учетом того, что критерии отличались и по направленности шкалы, и по степени возможной согласованности экспертов, в симуляциях использовался один критерий для каждого эксперта, а не четыре. Таким образом предполагалось добиться наиболее объективных результатов, так как, при анализе критериев как совместно, так и попарно появлялось много отклонений в статистиках ввиду обозначенных выше причин. При работе с реальными данными, где эксперты анализировали задания с помощью четырех критериев, каждый критерий предлагается анализировать отдельно, и в дальнейшем сравнивать полученные результаты, так как, к примеру, эксперт, демонстрирующий эффект случайности, должен показывать эту тенденцию при работе с каждым критерием.

Для анализа данных использовалась модель RSM, описанная в первом разделе данной работы, однако использовалась другая интерпретация параметров. В формуле модели:

используются следующие категории: - вероятность того, что задание n получит k баллов по i-му критерию при оценке экспертом l; - вероятность того, что задание n получит k-1 баллов по i-му критерию при оценке экспертом l; - характеристика трудности задания n или релевантность содержания (в зависимости от критерия в данном параметре описывается латентный конструкт задания); - уровень трудности выполнения k-го шага в критерии i; - уровень строгости эксперта l.

Таким образом, видоизмененная формула 1 будет выглядеть следующим образом:

2. Видоизмененная RSM

где - безусловная вероятность того, что задание получит баллов по критерию при оценке экспертом .

Первым этапом симуляционных исследований было создание "идеальной" матрицы, где все эксперты статистически различаются по уровню строгости и соответствуют модели. Полученная матрица демонстрировала различия в уровне строгости экспертов (ч2 = 42,49, df = 9, p<0.001). Статистики полученных экспертов представлены в таблице 5.

Таблица 2. Все эксперты соответствуют модели

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

-0.242

0.153

1.12

0.5

1.19

0.9

2

-0.151

0.129

0.85

-0.5

0.86

-0.7

3

0.163

0.153

0.82

-0.7

0.81

-0.9

4

0.007

0.155

0.77

-0.9

0.77

-0.9

5

-0.181

0.140

0.92

-0.2

0.94

-0.2

6

-0.524

0.146

1.04

0.3

1.06

0.3

7

0.372

0.148

0.73

-1.1

0.74

-1.2

8

0.222

0.131

1.16

0.7

1.07

0.4

9

-0.140

0.150

1.07

0.4

1.08

0.4

10

0.473

0.435

1.03

0.2

1.03

0.2

Приемлемые значения статистики MNSQ попадают в промежуток (0,8;1,2), т.е. можно говорить о том, что в данной матрице все эксперты соответствуют модели и не демонстрируют искажений.

Все следующие этапы работы с симуляциями включали в себя изменение первого эксперта в соответствии с требуемым искажением, в то время как остальные эксперты оставлялись неизменными. Для демонстрации эффектов моделировались экстремальные ситуации эффектов, каждый из которых описан в соответствующем разделе ниже.

Эффект строгости и эффект снисходительности

Как уже было сказано выше, при проявлении эффекта строгости или эффекта снисходительности эксперт не будет демонстрировать отсутствие согласия с моделью, и уровень строгости будет виден в таблице. Также отследить этот эффект можно графически. Для симуляции эффекта снисходительности первому эксперту приписывались максимальные баллы (оценка 5 для 27 заданий, оценка 4 для трех заданий).

В таблице ниже показан результат симуляции эффекта снисходительности, жирным шрифтом выделен измененный эксперт.

Таблица 3. Эффект снисходительности

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

-1.734

0.182

1.61

2.1

1.11

0.4

2

0.014

0.157

0.76

-0.9

0.81

-0.9

3

0.334

0.158

0.78

-0.8

0.77

-1.1

4

0.163

0.143

0.62

-1.6

0.61

-1.8

5

-0.029

0.149

0.89

-0.3

0.91

-0.3

6

-0.378

0.151

1.16

0.7

1.21

0.9

7

0.550

0.134

0.87

-0.5

0.89

-0.4

8

0.400

0.153

1.39

1.4

1.24

1.2

9

0.025

0.455

0.98

0.0

1.02

0.1

10

0.656

0.132

1.11

0.5

1.11

0.5

По таблице выше видно, что по взвешенным статистикам эксперт не демонстрирует сильных отклонений, однако его уровень строгости сильно отличается от уровня строгости других экспертов. В данном случае также значение критерия ч2 показало значимые различия по уровню строгости экспертов, и его значение оказалось гораздо выше, чем в "идеальной" ситуации (ч2 = 151,42, df = 9, p<0.001). Разница между уровнем строгости экспертов также может быть продемонстрирована графически (рисунок 1).

Рисунок 1. Демонстрация эффекта снисходительности

На рисунке также видно, что результаты эксперта 1 выделяются на фоне остальных экспертов.

Аналогичные результаты были получены при симуляции эффекта строгости (оценка 1 для 26 заданий, оценка 2 для 4 заданий). В таблице ниже показаны результаты симуляции эффекта строгости, жирным шрифтом выделен измененный эксперт. В данной ситуации эксперты также значимо различались по уровню строгости, и значение критерия хи квадрат было достаточно высоким (ч2 = 211,89, df = 9, p<0.001).

Таблица 4. Эффект строгости

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

2.274

0.182

1.06

0.3

1.01

0.1

2

-0.435

0.158

1.10

0.4

0.98

0.0

3

-0.109

0.159

0.84

-0.6

0.84

-0.7

4

-0.284

0.144

0.58

-1.8

0.57

-2.0

5

-0.478

0.150

1.35

1.3

1.23

1.0

6

-0.830

0.153

1.06

0.3

1.08

0.4

7

0.110

0.135

0.86

-0.5

0.91

-0.3

8

-0.043

0.154

1.76

2.5

1.61

2.4

9

-0.423

0.458

0.97

-0.0

1.02

0.1

10

0.217

0.133

1.13

0.6

1.19

0.8

В данном случае статистики согласия не выходят за принятые рамки даже в случае невзвешенных статистик, однако также видно, что эксперт 1 достаточно сильно выделяется на фоне остальных. В таком случае отследить наличие эффекта возможно только по оценке уровня строгости, что продемонстрировано в таблице и на рисунке ниже.

Рисунок 2. Демонстрация эффекта строгости

Эффект центральной тенденции

Выше было сказано, что при эффекте центральной тенденции в случае оценивания ответов респондентов будет демонстрироваться значение взвешенных и невзвешенных статистик меньше 1. Результаты симуляции эффекта центральной тенденции представлены ниже.

Таблица 5. Эффект центральной тенденции

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

-2.820

0.190

0.64

-1.5

0.93

0.2

2

0.133

0.158

0.80

-0.7

0.81

-0.8

3

0.459

0.160

0.82

-0.6

0.82

-0.8

4

0.284

0.145

0.63

-1.6

0.62

-1.7

5

0.088

0.151

0.91

-0.3

0.90

-0.3

6

-0.267

0.153

1.21

0.9

1.25

1.0

7

0.676

0.135

0.73

-1.0

0.75

-1.1

8

0.522

0.155

1.39

1.4

1.28

1.3

9

0.140

0.462

1.13

0.6

1.17

0.8

10

0.786

0.134

1.14

0.6

1.13

0.6

Для симуляции эффекта центральной тенденции первому эксперту приписывался балл 3 за все задания, кроме одного. Уровень строгости экспертов статистически различался (ч2 = 308,33, df = 9, p<0.001).

В данном случае видно, что эксперт оказался достаточно снисходительным, однако это нельзя принять за эффект снисходительности, несмотря на низкие значения параметра строгости, за счет того, что обе статистики MNSQ показывают значения меньше 1. Таким образом, мы можем заключить, что способы выявления эффекта центральной тенденции работают и применительно к ситуации оценивания заданий.

Отдельно мы рассмотрели эффект групповой центральной тенденции. Для демонстрации этого эффекта всем экспертам были приписаны баллы 3 и 2. Результаты проверки по эффекту групповой центральной тенденции представлены в таблице ниже.

Таблица 6. Эффект групповой центральной тенденции

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

-0.045

0.520

1.15

0.6

1.04

0.3

2

-0.045

0.520

1.06

0.3

1.04

0.3

3

0.402

0.470

0.95

-0.1

1.01

0.2

4

-0.045

0.520

1.01

0.1

1.02

0.3

5

-0.045

0.520

1.02

0.1

1.03

0.3

6

-0.045

0.520

1.00

0.1

1.02

0.2

7

-0.045

0.520

1.31

1.2

1.06

0.3

8

-0.045

0.520

1.18

0.7

1.04

0.3

9

-0.045

1.544

0.89

-0.4

1.01

0.2

10

-0.045

0.520

0.96

-0.1

1.02

0.2

В данном случае важно обратить внимание на то, что все статистики согласия показывают очень хорошие значения, и для того, чтобы выявить эффект групповой центральной тенденции, нужно смотреть на уровень строгости экспертов и на проверку по критерию хи квадрат. В данном случае эксперты не отличались по уровню строгости (ч2 = 0,79, df = 9, p=1,000), что может говорить о наличии групповых эффектов, например, ограничения спектра или центральной тенденции как частного случая ограничения спектра.

Эффект случайности

При наличии эффекта случайности в случае оценивания ответов респондентов значения обеих статистик MNSQ становятся больше 1. Для проверки функционирования статистик в ситуации оценивания заданий первому эксперту приписывались значения, полученные с помощью генератора случайных чисел. Результаты представлены в таблице ниже.

Таблица 7. Эффект случайности

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

0.505

0.112

1.34

1.3

1.22

1.1

2

-0.228

0.148

0.99

0.0

0.94

-0.3

3

0.074

0.149

0.92

-0.2

0.93

-0.3

4

-0.072

0.134

0.83

-0.6

0.84

-0.6

5

-0.248

0.140

1.01

0.1

1.01

0.1

6

-0.579

0.143

1.01

0.1

1.03

0.2

7

0.271

0.125

0.91

-0.3

0.94

-0.2

8

0.129

0.144

1.25

1.0

1.17

1.0

9

-0.216

0.408

0.86

-0.5

0.90

-0.4

10

0.364

0.123

0.93

-0.2

0.94

-0.2

Как видно из таблицы, оба значения статистики MNSQ значительно больше единицы, и сильно отличаются от статистик других экспертов. При этом, по строгости эксперты значимо различаются (ч2 = 56,95, df = 9, p<0.001). Таким образом, можно говорить о том, что в случае оценки эффекта случайности статистики работают так же, как при оценке ответов респондентов.

2.3.1 Анализ искажений в реальных данных

Реальные данные были получены при опросе 4 экспертов, как уже было сказано выше. Им предоставлялся бланк для оценки заданий, включающий в себя 30 заданий из тестов Индии и Китая, которые им было необходимо оценить по 4 критериям. Образец бланка экспертов представлен в приложении 1. Как мы отмечали выше, анализ деятельности экспертов по четырем критериям сразу не может дать объективной оценки деятельности экспертов, так как критерии имеют разную направленность и необходимую степень объективности, поэтому дальнейший анализ реальных данных будет проводиться по каждому из четырех критериев отдельно.

Принимая во внимание то, что эксперты могут давать согласованные, но неверные ответы по поводу трудности задания, как было показано в первой части работы, нами был дополнительно проведен опрос студентов первого курса с использованием тех же заданий, что предъявлялись экспертам. Так как в нашем случае эксперты оценивали трудность заданий по двум критериям разной направленности (трудность задания и ожидаемый процент решивших), то мы проводили корреляционный анализ между результатами опроса студентов и оценками экспертов. В качестве одной переменной брался суммарный балл за задание (в каждом вузе отдельно, за исключением последней строки), в качестве другой - балл эксперта за задание (в случае подсчета общего балла бралась суммарная оценка экспертов по данному заданию). Результаты анализа представлены в таблице ниже.

Таблица 8. Корреляции между оценками экспертов и баллами студентов

Эксперт

Корреляция Балл*Трудность задания

Корреляция Балл*Ожидаемый процент решивших

1

-0,53**

0,44*

2

-0,12

0,21

3

-0,16

0,15

4

-0,09

0,19

Общее

-0,32

0,35*

Как видно из таблицы, все эксперты правильно использовали две представленные шкалы - у всех экспертов с возрастанием трудности понижался суммарный балл за задание, и также у всех экспертов с повышением балла по шкале "Ожидаемый процент решивших" повышался суммарный балл. Таким образом, мы можем предположить, что эксперты правильно использовали представленную им шкалу и смогли определить примерную трудность задания и количество студентов из их вуза, которые смогут справиться с этим заданием.

Критерий 1.

Формулировка задания для экспертов:

Важна или не важна тема, к которой относится это задание, для овладения всей программой подготовки специалистов в инженерной области?

(совсем не важна) 1 ………. 5 (очень важна)

Данный критерий должен оценить важность тематической области задания с точки зрения эксперта. По результатам анализа данных были получены следующие статистики:

Таблица 9. Критерий 1

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

-3.363

0.219

0.92

-0.2

1.07

0.4

2

0.260

0.175

1.15

0.6

1.12

0.5

3

0.604

0.172

1.15

0.6

0.85

-0.5

4

2.499

0.329

0.92

-0.2

0.92

-0.2

По результатам анализа таблицы, представленной выше, можно говорить о том, что все эксперты, в целом, демонстрируют согласие с моделью. При этом, мы видим также излишне высокое значение критерия хи квадрат (ч2 = 249,89, df = 3, p<0.001), что говорит о том, что может присутствовать искажение.

Важно отметить, что эксперт 1 представляется излишне лояльным, и, возможно, стоит обратить внимание на дисперсию его баллов. Действительно, данный эксперт демонстрировал яркий пример ограничения спектра в виде крайней лояльности - все его оценки были равны 5.

Рисунок 3. Результаты эксперта 1 по критерию 1

В то же время, мы видим, что результаты эксперта 4 могут показаться излишне строгими, однако, графически это не подтверждается, несмотря на то, что он действительно выглядит более строгим, чем другие эксперты, и такие статистические результаты были получены за счет того, что уровень строгости последнего эксперта вычислялся так, чтобы в сумме уровни строгости экспертов были равны 0.

Рисунок 4. Результаты эксперта 4 по критерию 1

По результатам анализа полученных данных можно говорить о том, что эксперт 1 является излишне лояльным, и его следует убрать из дальнейшего анализа.

Отдельным параметром для анализа согласованности экспертов можно считать корреляции между ними. В данном случае в таблице ниже видно, что результаты эксперта 1 имеют достаточно низкие корреляции с результатами других экспертов, что также можно считать основанием для предположения об искажениях в его оценках и последующего удаления его из анализа.

Таблица 10. Корреляция экспертных оценок, критерий 1

Критерий 1.

Эксперт 1

Эксперт 2

Эксперт 3

Эксперт 4

Эксперт 1

1

Эксперт 2

-0,18

1

Эксперт 3

0,29

0,30

1

Эксперт 4

0,01

0,16

0,33

1

Критерий 2.

Формулировка задания для экспертов:

Трудным или легким является данное задание для типичного выпускника российской школы, поступающего на техническую специальность вуза?

(очень легкое задание) 1 ………. 5 (очень трудное задание)

Данный критерий должен демонстрировать достаточно объективную оценку трудности задания, так как речь идет не о студентах вуза, в котором преподает эксперт, но о любых поступающих на инженерные специальности вузов. Результаты анализа представлены в таблице ниже.

Таблица 11. Критерий 2

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

-1.685

0.193

0.64

-1.5

0.68

-1.3

2

-0.038

0.182

0.88

-0.4

0.85

-0.6

3

0.275

0.184

1.75

2.4

1.81

2.8

4

1.448

0.323

0.78

-0.8

0.76

-0.9

Во втором критерии эксперты также статистически различаются по уровню строгости (ч2 = 78,32, df = 3, p<0.001), однако оценка по критерию хи квадрат не так высока. В данном случае также выделяются результаты эксперта 1. Помимо того, что они по-прежнему являются достаточно лояльными, можно говорить о том, что при оценке задания по данному критерию у него проявился также эффект центральной тенденции. Этот эффект также проявился у двух других экспертов, но в меньшей степени, и, возможно, был обусловлен тем, что третий эксперт продемонстрировал эффект случайности.

При этом, анализ корреляций оценок экспертов по данному критерию показывает, что эксперты показывают достаточно высокую согласованность. Результаты эксперта 3 также достаточно высоко согласуются с результатами других экспертов, поэтому можно предположить, что эксперт 3 просто показал больший разброс оценок, чем другие, что привело к таким результатам анализа.

Таблица 12. Корреляция экспертных оценок, критерий 2

Критерий 2.

Эксперт 1

Эксперт 2

Эксперт 3

Эксперт 4

Эксперт 1

1

Эксперт 2

0,57**

1

Эксперт 3

0,53**

0,37*

1

Эксперт 4

0,35

0,21

0,40*

1

Критерий 3.

Формулировка критерия для экспертов:

Какой процент студентов, зачисленных в целом на первый курс инженерных специальностей Вашего вуза, может решить это задание?

(очень малый, <20) 1 ………. 5 (большой, >80)

Этот критерий является более субъективным, по сравнению с предыдущим, несмотря на их тематическую близость. Кроме этого, он обратно ориентирован.

Таблица 13. Критерий 3

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

-2.223

0.205

0.96

-0.1

0.92

-0.2

2

-0.056

0.177

1.04

0.3

1.09

0.4

3

0.123

0.178

1.27

1.0

1.30

1.1

4

2.157

0.325

0.65

-1.5

0.54

-1.9

Все эксперты в данном случае значимо различаются по уровню строгости (ч2 = 117,89, df = 3, p<0.001). По результатам анализа полученных результатов можно говорить о том, что четвертый эксперт демонстрирует достаточно ярко выраженный эффект центральной тенденции. Эксперты 1 и 2 показывают хорошее соответствие модели, хотя эксперт 1 и по результатам оценки этого критерия оказывается очень снисходительным. Эксперт 3 показывает склонность к эффекту случайности, однако его показатели не выходят за рамки нормы. В то же время, как видно из таблицы ниже, его результаты показывают наименьшую корреляцию с результатами других экспертов.

Таблица 14. Корреляция экспертных оценок, критерий 3

Критерий 3.

Эксперт 1

Эксперт 2

Эксперт 3

Эксперт 4

Эксперт 1

1

Эксперт 2

0,49**

1

Эксперт 3

0,31

0,26

1

Эксперт 4

0,42*

0,57**

0,48**

1

Критерий 4.

Формулировка критерия для экспертов:

Насколько подробно тема, к которой относится данное задание, изучается в курсе высшей математики в вузе?

(совсем не изучается ) 1 ………. 5 (изучается очень подробно)

Данный критерий является одним из самых объективных среди представленных, так как он опирается на восприятие экспертом университетской программы для студентов-инженеров, которая, в целом, достаточно схожа даже в различных вузах.

Таблица 15. Корреляция экспертных оценок, критерий 4

Критерий 4.

Эксперт 1

Эксперт 2

Эксперт 3

Эксперт 4

Эксперт 1

1

Эксперт 2

0,34

1

Эксперт 3

0,11

0,77**

1

Эксперт 4

0,19

0,5**

0,7**

1

По результатам анализа корреляций также можно говорить о том, что эксперт 1 показывает несогласованность с результатами других экспертов. Это видно по тому, что он демонстрирует достаточно низкие корреляции с каждым из экспертов, на фоне их корреляции друг с другом.

Таблица 16. Критерий 4

№ эксперта

Строгость

Ошибка

Невзвешенные статистики

Взвешенные статистики

MNSQ

T

MNSQ

T

1

-1.117

0.146

0.96

-0.1

0.73

-0.6

2

-0.112

0.129

1.07

0.3

1.13

0.6

3

0.382

0.128

1.36

1.3

1.53

1.8

4

0.846

0.234

0.81

-0.7

0.85

-0.5

В данном критерии эксперты также различны по уровню строгости (ч2 = 67,79, df = 3, p<0.001). Результаты психометрического анализа четвертого критерия позволяют говорить о том, что эксперт 1 по-прежнему является самым лояльным. Эксперт 3 в данном критерии также демонстрирует наличие эффекта случайности, однако, при этом, показывает достаточно высокие корреляции с другими экспертами, не показавшими эффекта случайности, из чего мы можем предположить, что в данном случае нет эффекта случайности.

2.3.3 Выводы

По результатам проведенных видов анализа можно говорить о том, что методы многопараметрического анализа можно использовать в ситуации анализа деятельности экспертов. Также, в качестве дополнения к этим методам, рекомендуется использовать корреляционные исследования и графическую репрезентацию данных, чтобы нивелировать возможные искажения в связи с небольшой выборкой заданий. При оценке большим количеством экспертов (как показано в симуляциях) большего количества заданий (в случае с тестом для оценки уровня готовности студентов) результаты многопараметрического анализа будут более точными, и дополнительные методы анализа не будут играть решающую роль.

Важно отметить, что критерии, направленные на оценку трудности задания (в нашем исследовании это критерии 2 и 3), функционируют лучше критериев, направленных на оценку релевантности темы. В частности, единственный критерий, предполагающий субъективную оценку эксперта (критерий 1) показывает самую плохую согласованностью экспертов, из чего можно заключить, что экспертную оценку стоит использовать для оценки объективных параметров заданий. Возможно, формулировку вопроса 1 стоит изменить, предложив вместо нее аналог дискриминативности (например: "Как вы считаете, будет ли это задание хорошо разделять сильных и слабых учеников?").

В результате анализа деятельности экспертов на реальных данных можно говорить о том, что среди экспертов не было выявлено искажений на групповом уровне. Можно порекомендовать убрать из дальнейшего анализа заданий эксперта 1, так как при оценке по всем критериям он демонстрирует эффект снисходительности. Мы рекомендуем также обратить внимание на эксперта 3, так как в трех критериях из четырех он оказался подвержен эффекту случайности. При этом, нужно учитывать, что его корреляции с оценками других экспертов достаточно высоки, поэтому наличие эффекта случайности в данном случае сомнительно. Другие эксперты тоже подвержены некоторым эффектам, однако эти искажения нельзя считать систематическими, так как они проявляются только в некоторых критериях, и могут оказаться недостатками в формулировке самих оценочных критериев. В связи с этим одной из рекомендаций может считаться доработка и более глубокий анализ самих критериев оценки, несмотря на то, что по результатам прошлогоднего исследования был сделан вывод о том, что шкалы во всех четырех критериях работают, и могут быть использованы для оценки заданий.

2.4 РАЗРАБОТКА ИНСТРУМЕНТА

2.4.1 Методология разработки теста с помощью экспертно-ориентированного подхода

Исследование, связанное с экспертными оценками качеств заданий, приведенное выше, является начальным этапом разработки методики по оценке студентов первого курса инженерных специальностей вузов в Китае и России. В рамках работы над данной методикой планируется использовать методы анализа, продемонстрированные выше, в связи с чем возникла необходимость не только проверить функционирование статистических методов, но и разработать схему работы с экспертами при наличии достаточно большого банка заданий (в данном случае банк составляет около 700 заданий по математике из каждой страны). Все задания должны иметь удовлетворительные психометрические характеристики.

Предложенная нами схема работы с экспертами включает в себя три основных этапа. Данная схема может быть использована при создании другого теста достижений с использованием экспертов.

Первый этап заключается в предоставлении небольшому числу экспертов (предположительно, двум или трем) списка тем, к которым относятся имеющиеся задания. Заданием экспертов становится оценка всех тем по уровню важности и степени необходимого минимального освоения данной темы для успешного обучения на инженерной специальности вуза. Для того, чтобы оценить степень важности темы, была предложена следующая формулировка:

Насколько важна данная тема для овладения программой подготовки специалистов в инженерной области?

1 - Тема не важна

2 - Тема относительно невысокой важности

3 - Тема относительно высокой важности

4 - Тема очень важна

Помимо необходимости оценить уровень важности темы, нам представляется существенным мнение экспертов о том, почему эта тема считается важной. При работе с другой образовательной дисциплиной представляется не менее важным оценивание степени важности темы. В зависимости от цели разработки теста формулировка вопроса изменяется, необходимость получения причин оценок экспертов зависит от целей исследования.

Для оценки минимального необходимого уровня освоения темы нами была разработана таксономия на основе таксономий, принятых в исследованиях TIMSS и PISA. Данная таксономия включает в себя три уровня, представленные ниже, и предлагается к использованию не только в рамках создания теста по математике, но и в рамках создания других образовательных тестов с использованием экспертно-ориентированного подхода, так как она является достаточно простой и исчерпывающей. Формулировка задания для экспертов включает в себя описание таксономии:

Каков необходимый минимальный уровень освоения данной темы для успешного дальнейшего обучения в вузе? (отметьте подходящий вариант)

0 - Освоение темы не требуется

1 - Знание основных понятий (фактов, свойств, правил)

2 - Применение стандартных алгоритмов для решения задач.

3 - Размышления: математическая формулировка проблемы и составление алгоритма для ее решения.

Данная таксономия является вспомогательным инструментом при отборе заданий, поэтому основными критериями при ее разработке были простота и понятность формулировок, а также возможность охватить весь спектр трудности заданий. На основании этого данная таксономия может рекомендоваться к использованию при разработке других тестов достижений с помощью экспертно-ориентированного подхода.

Кроме этого, экспертов также предлагается спросить о корректности формулировки тем, так как представленный нами банк заданий был категорирован не в соответствии с образовательным стандартом, несмотря на то, что он находится в рамках этого стандарта. Мы предлагаем сформулировать вопрос следующим образом:

Насколько хорошо сформулирована тема и основные контролируемые элементы (в контексте целей данного исследования)? (отметьте подходящий вариант)

1 - Сформулированы хорошо

2 - Требуют уточнения

В случае, если представленные темы требуют уточнения, в бланке оставлено место для коррекции темы. Предполагается, что проведение экспертной оценки тем и заданий будет проводиться в электронном виде с использованием ресурсов веб-анкетирования, в связи с чем нами была оформлена каждая тема отдельно. Инструкция и образец оформления одной темы представлены в приложении 2.

Вторым этапом работы с экспертами является просьба распределить все имеющиеся задания по ячейкам таксономии. Мы предлагаем экспертам (также двум или трем людям) оценить задания с точки зрения уровня таксономии, необходимого для выполнения этого задания. Образец таблицы представлен ниже.

Таблица 17. Образец таблицы для второго этапа разработки

Трудность задания

Уровень 1 - знание

Уровень 2 - применение

Уровень 3 - размышления

Задание 1

+

Задание 2

+

На основании полученных результатов и объединения информации, полученной на первых двух этапах, формируется предварительный банк заданий. Для этого отбираются задания необходимого уровня по важным темам, и направляются на оценку большему количеству экспертов.

Таким образом, третий этап работы с экспертами заключается в оценке определенного числа заданий, меньшего, чем в исходном банке, экспертами в количестве от 10 человек. Предполагается, что оценка заданий будет производиться по четырем критериям, использованным в пилотном опросе, с последующим психометрическим анализом, приведенным выше.

На основании результатов третьего этапа работы, по итогам анализа деятельности экспертов с учетом наличия различных искажений и согласованности ответов, должен быть составлен окончательный список заданий, которые будут использоваться в тестировании первокурсников.

Таким образом, схема конструирования теста может быть представлена следующим образом:

Таблица 18. Схема конструирования теста

№ этапа

Количество экспертов

Действие

1

2-3

Анализ тем: уровень важности и степень минимального освоения темы (по таксономии)

2

2-3

Оценка задания с точки зрения уровня таксономии, необходимого для выполнения этого задания

3

10 и более

Оценка релевантных заданий нужного уровня трудности по отобранным критериям

4

-

Анализ деятельности 10 экспертов с помощью методов, представленных выше

5

-

Конструирование теста на основании рекомендаций экспертов

6

-

Апробация и анализ результатов, доработка теста

2.4.2 Выводы

В результате анализа имеющихся данных и проведения симуляционных и реальных исследований по методам анализа экспертных оценок нами была разработана схема создания теста на основе имеющихся заданий с использованием экспертных оценок. Данная схема адаптирована под исследование степени готовности студентов инженерных специальностей вузов России и Китая к обучению в университете, однако она также может применяться в различных исследованиях, где возникает необходимость создания инструмента для оценки достижений.

ЗАКЛЮЧЕНИЕ

В данной работе были рассмотрены методы конструирования теста, основанные на экспертных оценках. Так как создание теста предполагает ситуацию оценивания заданий по заданным критериям, то необходимо было разработать систему оценки полученных от экспертов данных, ввиду того, что эти данные могут быть подвержены искажениям.

Для того, чтобы проанализировать функционирование статистик IRT (как самых точных в выявлении искажений) в ситуации оценивания заданий, а не в привычной ситуации оценивания ответов респондентов, нами были проведены симуляционные исследования, показавшие правомерность использования многопараметрических моделей IRT для анализа такого рода ситуаций. После этого мы провели исследование реальных данных опроса четырех экспертов согласно проверенным методам, что позволило нам сделать вывод о том, что методы, предложенные нами, действительно работают.

Заключительным этапом работы стало формулирование методологии отбора заданий с использованием экспертных оценок. Данная методология позволит более эффективно отбирать задания для тестов достижений на основании существующих банков (в том числе, и не связанных между собой статистически).

Таким образом, данная работа освещает один из методов разработки тестов, который является менее затратным, чем разработка образовательного теста с нуля, так как в нем отсутствует самый трудоемкий этап формулировки вопросов, их анализа и доработки. Несмотря на то, что на определенном этапе может понадобиться видоизменение или коррекция вопросов на основании экспертных оценок, изначально эксперты работают с уже готовыми заданиями, и этот пункт можно считать одним из достоинств экспертно-ориентированного подхода к конструированию тестов.

В будущем может быть целесообразным более глубокая проработка симуляционных исследований, а также анализ большего количества эффектов с последующей проверкой функционирования модели на большем количестве экспертов (от 10). Вероятно, при таком количестве респондентов можно ограничиться только методами IRT, не задействуя дополнительные методы анализа, однако такая гипотеза требует дополнительной проверки в будущем.

Список литературы

1. Altbach, P. (2009) The Giants Awake: The Present and Future of Higher Education Systems in China and India, Higher Education to 2030, OECD, pp. 179-204.

2. Biggs, S.N., Kennedy, J.D. et al. (2012) Psychometric properties of an omnibus sleep problems questionnaire for school-aged children, Sleep Medicine, 13, pp. 390-395

3. Bramley, T. (2005) A Rank-Ordering Method for Equating Tests by Expert Judgment, Journal of Applied Measurement, 6 (2), pp. 202-223

4. Carnoy, M., Loyalka, P., Froumin, I., Dossani, R, Jandhyala T., and Wang R. (2013) Higher Education in the Global Knowledge Economy: Triumph of the BRICs? Stanford, CA: Stanford University Press

5. Chaudhary, L., Musacchio, A. et al. (2012) Big BRICs, weak foundations: The beginning of public elementary education in Brazil, Russia, India, and China, Explorations in Economic History, 49, pp. 221-240

6. Chen, C., Lee, S. et al. (1995) Response style and cross-cultural comparisons of rating scales among East Asian and North American students, Psychological Science, 6, pp. 170-175

7. Cooper, W.H. (1981) Ubiquitous halo, Psychological Bulletin, 90, pp. 218-244

8. Crocker, L., Algina, J. (2008) Introduction to Classical and Modern Test Theory, Cengage Learning, USA

9. Downing, S.M. Twelve steps for effective test development, Handbook of test development, Lawrence Erlbaum, 2006, pp. 3-26

10. Hamp-Lyons, L., Mathias, S.P. (1994) Examining Expert Judgments of Task Difficulty on Essay Tests, Journal of Second Language Writing, 3 (1), pp. 49-68

11. Hardesty, D.M., Bearden, W.O. (2004) The use of expert judges in scale development. Implications for improving face validity of measures of unobservable constructs, Journal of Business Research, 57, pp. 98- 107

12. Hwang, G.-J., Lin, B.M.T. et al. (2006) An effective approach for test-sheet composition with large-scale item banks, Computers & Education, 46, pp. 122-139

13. Kneeland, N. (1929) That lenient tendency in rating, Personnel Journal, 7, pp. 356-366

14. Liu, Y.-C., Chen, P.-J. (2012) Discovering discriminative test items for achievement tests, Expert Systems with Applications, 39, pp. 1426-1434

15. Loyalka, P. et al. (2012) Getting the quality right: engineering education in the BRIC countries (Working paper)

16. Myford, C.M., Wolfe, E.W. (2003) Detecting and measuring rater effects using many-faceted Rasch measurement: part 1, Journal of Applied Measurement, 4 (4), pp. 386-422.

17. Myford, C.M., Wolfe, E.W. (2003) Detecting and measuring rater effects using many-faceted Rasch measurement: part 2, Journal of Applied Measurement, 5 (2), pp. 189-227.

18. O'Neill, J. (2001). Building Better Global Economic BRICs. New York: Goldman Sachs, Global Economics Paper No: 66

19. Xin, H., Normile, D. (2008) Gunning for the Ivy League, Science, 319, pp. 148-151

20. Zhu, W., Ennis, C.D., Chen, A. (1998), Many-faceted Rasch modeling expert judgment in test development, Measurement in Physical Education and Exercise Science, 2(1), pp. 21-39.

21. Карданова Е.Ю. Математические модели многофасетного анализа // Вопросы тестирования в образовании. - 2004, № 11, с. 11-27.

22. Карданова Е.Ю. Применение многопараметрического анализа для исследования деятельности экспертов // Вопросы тестирования в образовании. 2005. №14. С. 6-31.

23. Орлов А. И. Экспертные оценки. Учебное пособие. М.: ИВСТЭ, 2002

24. Федеральная Служба Государственной Статистики (2012) Социально-экономическое положение России, Москва

Приложение 1

Образец инструкции и бланка для оценки заданий

Уважаемый эксперт!

Предлагаем Вам принять участие в международном исследовании, имеющем целью анализ качества подготовки по математике и физике студентов технических специальностей российских вузов в сравнении со студентами аналогичных вузов стран БРИК (Бразилия, Россия, Индия и Китай). В России исследование проводит Институт образования Национального исследовательского университета «Высшая школа экономики».

Есть основания полагать, что качество образования, полученного студентами инженерных специальностей в некоторых странах БРИК, улучшилось за прошедшее десятилетие. Во-первых, Бразилия, Китай и Индия увеличили инвестиции в школьное среднее образование, и, таким образом, в образование потенциальных будущих инженеров. Во-вторых, правительства этих стран приложили большие усилия, чтобы улучшить качество инженерного образования: программы инженерного образования в высших учебных заведениях, и особенно...


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.