Экспертно-ориентированный подход к разработке теста

Способы использования экспертных оценок в тестировании. Искажения, связанные с экспертными оценками. Сравнительный анализ вступительных экзаменов по математике на технические специальности вузов в странах БРИК. Основные способы обнаружения искажений.

Рубрика Педагогика
Вид дипломная работа
Язык русский
Дата добавления 09.07.2016
Размер файла 294,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Оглавление

ВВЕДЕНИЕ

1. ЭКСПЕРТНЫЕ ОЦЕНКИ В ТЕСТИРОВАНИИ

1.1 МЕТОДОЛОГИЯ РАЗРАБОТКИ ТЕСТОВ

1.1.1 Этапы создания теста

1.1.2 Способы создания теста на основе имеющихся заданий

1.2. ПРИМЕНЕНИЕ ЭКСПЕРТНЫХ ОЦЕНОК В ТЕСТИРОВАНИИ

1.2.1 Способы использования экспертных оценок в тестировании

1.2.2 Искажения, связанные с экспертными оценками

1.2.3 Способы обнаружения искажений

1.2.4 Выводы

2. РАЗРАБОТКА МЕТОДОЛОГИИ ЭКСПЕРТНО-ОРИЕНТИРОВАННОГО ПОДХОДА К СОЗДАНИЮ ТЕСТОВ

2.1 ОЦЕНКА ГОТОВНОСТИ К ОБУЧЕНИЮ НА ИНЖЕНЕРНЫХ СПЕЦИАЛЬНОСТЯХ ВУЗОВ

2.1.1 Сравнительный анализ вступительных экзаменов по математике на технические специальности вузов в странах БРИК

2.1.1. Выводы

2.2 ПРОГРАММА ИССЛЕДОВАНИЯ

2.2.1 Методологический раздел программы исследования

2.2.2 Процедурный раздел программы исследования

2.3 ОБНАРУЖЕНИЕ ИСКАЖЕНИЙ В ЭКСПЕРТНЫХ ОЦЕНКАХ

2.3.1 Демонстрация искажений в симуляционных исследованиях

2.3.1 Анализ искажений в реальных данных

2.3.3 Выводы

2.4 РАЗРАБОТКА ИНСТРУМЕНТА

2.4.1 Методология разработки теста с помощью экспертно-ориентированного подхода

2.4.2 Выводы

ЗАКЛЮЧЕНИЕ

Список литературы

Приложение 1. Образец инструкции и бланка для оценки заданий

Приложение 2. Образец инструкции и бланка для оценки тем

ВВЕДЕНИЕ

В настоящее время разработке тестов уделяется достаточно много внимания. Все больше ресурсов тратится на то, чтобы создать качественную методику, стандарты качества постоянно корректируются, требования к тестам возрастают. Вместе с этим возрастают и затраты на создание одного теста, и очень часто эти затраты не оправдываются целями исследования.

Наличие банка заданий является одним из факторов, который может существенно уменьшить цену разработки теста, так как задания являются одной из главных составляющих теста, на которую уходит большая часть сил разработчика.

В системе образовательного тестирования такое может встречаться довольно часто: кто-то уже разрабатывал тестовые задания в данной предметной области и нередко это неплохие задания с хорошими психометрическими свойствами. Однако возникает вопрос - как создать хороший инструмент на основании имеющихся заданий? Какие задания включить в тест, чтобы он был валиден по содержанию, не требуя при этом очень много времени на выполнение?

Нередко ответы на эти вопросы находятся достаточно быстро и без опоры на теорию, в результате чего разработчик получает большой набор заданий, который утомляет респондента и искажает информацию о его реальных способностях. Другая крайность - наоборот, стремясь сделать тест компактным, разработчик жертвует качеством и оставляет какие-то области полностью не охваченными. При этом, он по-прежнему имеет в своем распоряжении большой банк хороших заданий, но не умеет ими грамотно распоряжаться.

Так как наличие банка заданий может значительно снизить цену разработки теста, важно иметь технологию, которая позволит сделать новый тест на базе существующих заданий. Мы предполагаем, что в данной ситуации самым оптимальным решением будет использование экспертных оценок для отбора заданий. При этом, метод экспертных оценок обладает рядом трудностей, которые не свойственны стандартным методам разработки теста.

Данная работа посвящена разработке экспертно-ориентированного подхода к созданию тестов, его возможностей и ограничений. Целью данной работы, таким образом, является формулировка основных методологических принципов, лежащих в основе экспертно-ориентированного подхода к разработке тестов.

Объект исследования: экспертные оценки в тестировании.

Предмет исследования: применение экспертных оценок для создания теста.

Общая гипотеза исследования: экспертные оценки можно использовать для создания нового теста на базе существующих.

В работе использован метод многопараметрического анализа результатов экспертной оценки, проанализированный с точки зрения экспертных оценок заданий, а не ответов испытуемых. Кроме этого, был использован метод опроса экспертов с целью проверки функционирования методов анализа на небольшой выборке.

1. ЭКСПЕРТНЫЕ ОЦЕНКИ В ТЕСТИРОВАНИИ

1.1 МЕТОДОЛОГИЯ РАЗРАБОТКИ ТЕСТОВ

1.1.1 Этапы создания теста

Разработка методики оценивания практически в любой сфере обязательно должна проходить через ряд этапов. Это позволяет достичь определенного качества создаваемой методики. Этапы не являются строго упорядоченными, и нередко они применяются в другом порядке, но, в той или иной степени, создание любой методики проходит через них.

При разработке теста принято опираться на схему, состоящую из 12 шагов (Downing, 2006):

1. Составление общего плана теста

2. Определение содержания

3. Составление спецификации теста.

4. Разработка заданий.

5. Разработка дизайна теста.

6. Выпуск теста.

7. Проведение теста.

8. Проверка психометрических характеристик.

9. Установление пороговых значений (проходных баллов).

10. Предоставление результатов.

11. Формирование банка заданий.

12. Составление технического отчета по тесту.

Некоторые из этих этапов являются специфичными для тестов достижений (например, установление проходных баллов), однако в большинстве случаев каждый из этих этапов в той или иной степени должен быть пройден при разработке хорошей методики.

Опишем эти этапы подробнее.

1. Составление общего плана теста.

В этот этап входит разработка основной информации о тесте, сюда же включается проработка методов оценки валидности, основные возможные интерпретации результатов, психометрические модели, контроль качества и т.д. Самый главный вопрос, который нужно решить на первом этапе разработки теста - это вопрос о том, какой конструкт нужно измерять. Также важно определиться, какие типы вопросов будут использоваться, как будут интерпретироваться результаты тестирования, как будет проводиться тестирование (в бланковой или компьютерной форме).

Этот этап является одним из самых главных этапов при разработке теста, так как именно от него зависят все дальнейшие шаги и качество итогового инструмента. Точное определение целей тестирования и его основных параметров дает возможность ясно представить результат своей работы и избежать многих возможных ошибок.

2. Определение содержания

Этот этап также является ответом на основополагающий вопрос любой тестовой методики: какой конструкт должен быть измерен? Это особенно важный вопрос для тестов достижений и педагогических тестов, который определяет возможную интерпретацию тестовых баллов, однако и психологические методики также нуждаются в определении содержательной базы. Если содержание теста определено неточно, все дальнейшие этапы работы над тестом будут сделаны неверно.

3. Составление спецификации теста

Создание спецификации теста подразумевает определение не только базовых параметров будущего теста, что было сделано на первом этапе, но и достаточно точное описание всего теста, подразумевающее полную проработку концепции инструмента. Основными частями спецификации являются: форма тестовых заданий, их число и их точный тип (если это задание с выбором одного правильного ответа, то сколько предполагается вариантов ответов и т.д.), таксономия для оценки когнитивного уровня (например, таксономия Блума), наличие или отсутствие визуальных стимулов в тестовых материалах, правила оценивания выполнения заданий, правила интерпретации результатов, затраты времени на каждый вопрос. В более простом варианте спецификация может содержать только количество тестовых вопросов по каждой содержательной области и уровню таксономии. Детализированность спецификации связана с тем, какие последствия будут иметь результаты тестирования. В целом, третий этап является результатом обобщения решений, принятых на этапах 1 и 2, и по его результатам будет составлен итоговый план будущего теста. Спецификация впоследствии может подвергаться изменениям, однако ее основные пункты остаются неизменными, и на них базируются все следующие этапы создания теста.

На этом этапе могут использоваться экспертные оценки - при переходе от списка необходимых содержательных элементов, определенных на этапе 2, к спецификации. Экспертные оценки в данном случае используются для оценки степени важности темы и уровня ее освоения, чтобы впоследствии можно было распределить тестовые вопросы в соответствии с рекомендациями.

4. Разработка заданий

Разработка заданий является очень важным этапом создания теста. При разработке заданий необходимо учитывать ряд параметров, которые могут повлиять на результаты тестирования, например, формулировки тестовых вопросов, вариантов ответа и т.д. При разработке тестовых вопросов может возникнуть ряд трудностей, делающих процесс разработки теста еще более трудоемким. Эти сложности будут описаны в следующей главе.

5. Составление дизайна теста

Следующим важным шагом после разработки заданий становится разработка дизайна теста. Хорошие задания не всегда складываются в хороший тест, и валидность окончательного инструмента зависит от того, как были скомпонованы полученные вопросы. Общий дизайн теста, выполненный на первом этапе разработки, представляет собой основу для деятельности на этом этапе, так как дизайн теста зависит от его целей и возможностей интерпретации. Большое влияние также оказывает и форма проведения тестирования (к примеру, будет ли это бумажная или компьютерная форма, или будет ли тестирование обычным или адаптивным и т.д.). На этом же этапе происходит корректировка заданий с целью облегчения чтения и уменьшения когнитивных усилий, не связанных с измеряемым конструктом. Кроме этого, необходимо сбалансировать ключи (оптимальным является равномерное распределение номеров правильных ответов).

6. Выпуск теста

В этот этап входят такие действия как распечатка теста при бланковой форме тестирования, или подготовка компьютерной версии. На этом этапе обычно производится последняя проверка тестовых материалов. Также проверяется качество печати и другие технические параметры, которые, при некачественном исполнении, также могут повлиять на результаты тестирования.

7. Проведение теста

8. Проверка психометрических характеристик

9. Установление пороговых значений

10. Предоставление результатов

11. Формирование банка заданий

12. Составление технического отчета по тесту

В проведении теста (этап 7) и последующей работе с ним существует множество тонкостей, в том числе, административных, но в рамках данного обзора мы не будем на них останавливаться, так как это не связано с предметом настоящего исследования.

Одним из самых трудоемких этапов работы является работа над созданием и совершенствованием тестовых вопросов, так как они составляют основу для всего теста.

1.1.2 Способы создания теста на основе имеющихся заданий

При наличии уже имеющегося банка заданий остается открытым вопрос о том, как «собрать» из этих заданий качественный тест. В данном случае стоит руководствоваться спецификацией теста, которая должна исчерпывающе описывать тест. Однако, в некоторых случаях (например, в психологических опросниках, измеряющих один конструкт) спецификация не всегда поможет отобрать нужное количество правильных вопросов, а предъявлять респондентам весь имеющийся банк заданий не представляется оптимальным.

Существуют две разные ситуации, в которых необходимо решать проблему отбора заданий в тест: это отбор из откалиброванного банка (например, изначально созданного под один тест) и комбинация нового теста из заданий других, уже существующих тестов.

Отбор заданий из откалиброванного банка часто осуществляется на основании спецификации, по содержанию и психометрическим характеристикам заданий. Однако, при наличии объемного банка это достаточно трудно сделать не-эксперту, даже если в заданиях прописаны темы.

Одним из наиболее продуктивных способов отбора заданий из большого банка является адаптивное компьютерное тестирование, позволяющее подбирать индивидуальный набор заданий для каждого респондента, способный обеспечить высокое качество измерений. Однако, разработка адаптивного алгоритма является достаточно затратной, и это не всегда оказывается оправданным, особенно в рамках психологических методик.

Для того, чтобы использовать преимущества адаптивного алгоритма, потратив меньше средств на разработку, в таких ситуациях используют создание специализированного ПО, направленного на анализ функционирования банка заданий и отбор комбинаций заданий, наиболее удачно функционирующих вместе.

Существуют работы, в которых указывается, что отбор заданий в тест достижений на основании только их дискриминативности и трудности часто ошибочен (Liu et al., 2012). Основанием для такого суждения является предположение о том, что функционирование теста не складывается напрямую из функционирования тестовых заданий, и различные комбинации хороших заданий могут по-разному сказываться на функционировании теста в целом. Авторы предлагают решать эту проблему с помощью компьютерного алгоритма, анализирующего ответы респондентов. Итогом их работы является разработка двухэтапного метода компоновки качественно откалиброванных заданий в новый тест. Первым этапом в данном случае является анализ вопросов из архивных тестов. После этого производится отбор тех заданий, которые вместе функционируют лучше всего.

Такой алгоритм при отборе заданий может оказаться востребованным и полезным при наличии достаточно большого банка решенных тестов, который позволит проанализировать совместное функционирование вопросов. В противном случае авторы говорят о том, что стоит использовать экспертные оценки для оценивания параметров заданий. В данном случае авторы не говорят о работе с какими-либо критериями, кроме примерной трудности и дискриминативности заданий.

Похожую методику используют и в другом исследовании (Hwang et al., 2006). В данном случае также речь идет о разработке алгоритма, позволяющего отбирать задания из большого откалиброванного банка. Авторы акцентируют внимание на масштабных инструментах (в качестве примера рассматривается GRE), которые проводятся много лет подряд, в связи с чем требуется постоянная генерация новых вариантов.

В исследованиях, предусматривающих разработку инструмента на базе существующих вопросов, разработка ПО становится все более востребованной. В данном случае, вероятно, это действительно имеет смысл, так как в ситуациях масштабного тестирования любые другие способы конструирования большого количества вариантов будут более затратными.

Вторая ситуация (отбор заданий из разных тестов) чаще встречается в психологических опросниках, чем в тестах достижений. В таких случаях, чаще всего, не имеется откалиброванного банка заданий из разных методик. Максимум, что можно сделать - это провести тестирование всех задействованных методик на одной выборке, однако это связано с большими затратами.

Например, в исследовании, посвященном нарушениям сна у детей, создавался новый опросник на базе двух существующих (Biggs et al., 2012). Авторы использовали два опросника (общее число вопросов составило 111) на выборке 628 детей, после чего применили к полученным данным эксплораторный факторный анализ. Окончательный вариант теста состоял из 33 вопросов, распределенных по 8 факторам. Для проверки надежности методики исследователи проводили ретест на 109 случайных пациентах, промежуток между тестированиями составил от 18 месяцев. Большинство факторов показали хороший коэффициент надежности (больше 0,47). При этом, в обсуждении указывалось, что при создании итоговой версии опросника авторы руководствовались не только результатами факторных анализов (их проводилось достаточно много), но и своими медицинскими знаниями.

Так как авторы не применяли экспертных оценок, то в данном случае трудно заключить, был ли окончательный отбор заданий верным с точки зрения содержания, и действительно ли отобранные авторами факторы измеряют то, что требуется (авторы указывают, что при адаптации на других языках количество факторов менялось). В связи с этим, возникает вопрос о пригодности факторного анализа для конструирования опросника. Этот метод, несомненно, достаточно прост и недорог, однако им нельзя ограничиваться при создании опросника. Если принимать решение о включении вопроса в тест только на основании результатов факторного анализа, то велика вероятность того, что полученный инструмент будет неверно функционировать, пострадает его валидность, либо будут охвачены не все необходимые темы. Так или иначе, на определенном этапе отбора вопросов оказывается задействованным экспертное мнение (даже если это только авторское мнение). Однако важно понимать, что использование только мнения автора в качестве экспертного также ставит под сомнение содержательную валидность методики, хотя в данном случае автор приводит достаточно обширные доказательства своей точки зрения по каждому фактору и по спорным вопросам.

1.2 ПРИМЕНЕНИЕ ЭКСПЕРТНЫХ ОЦЕНОК В ТЕСТИРОВАНИИ

экспертный оценка тестирование искажение

1.2.1 Способы использования экспертных оценок в тестировании

По словам А.И. Орлова: «Методы экспертных оценок - это методы организации работы со специалистами-экспертами и обработки мнений экспертов» (Орлов, 2002). То есть, в самом определении метода не обозначается узконаправленная область его применения. Однако, в тестировании и разработке тестов экспертные оценки используются, чаще всего, на этапе оценивания респондентов. Одним из самых привычных способов использования экспертных оценок в России - это оценка результатов части С в ЕГЭ. Основным параметром для отнесения задания к категории «экспертное оценивание» является политомический характер оценки, чаще всего это относится к заданиям со свободно конструируемым ответом.

Однако, экспертные оценки используются не только для анализа ответов респондентов на открытые задания. Другим популярным методом использования экспертных оценок является выставление пороговых баллов в рамках классической теории тестирования. Для этого существует несколько методов, одним из которых является модифицированный метод Ангофф (Crocker, Algina, 2008). Кроме этого, известно использование экспертных оценок для определения DIF, содержательной валидности (Zhu, 1998). При этом, нужно учитывать, что не каждая область, в которой используют экспертные оценки, действительно в этом нуждается, и не всегда использование экспертов является необходимым или самым оптимальным решением, так как экспертные оценки имеют как свои преимущества, так и недостатки, о которых будет сказано позже.

В частности, экспертные оценки используются для выравнивания вариантов теста разных лет (Bramley, 2005). В данном случае использование экспертных оценок уменьшает затраты на выравнивание, так как, по мнению автора, отпадает необходимость в общих заданиях или испытуемых. В данном исследовании эксперты ранжировали работы респондентов от лучшей к худшей (не зная их баллов), и результаты показали, что такой метод позволяет сопоставлять баллы 2003 и 2004 годов тестирования.

Кроме этого, известно использование экспертных оценок для оценки трудности заданий, что близко к проблеме нашего исследования (Hamp-Lyons et al., 1994). По результатам этого исследования было выяснено, что эксперты дают согласованную оценку трудности заданий (на примере теста по языку MELAB) без предварительного обучения оцениванию заданий. Эксперты показали высокие корреляции и значимую связь с результатами тестирования. Авторы статьи не применяли психометрических методов для анализа деятельности экспертов, но их анализ показал, что, несмотря на высокую согласованность, эксперты неверно оценивают трудность задания. Предполагалось, что с возрастанием трудности задания полученный балл будет снижаться, однако в полученных результатах связь была не обратной, а прямой. Причинами этому могут быть маленькая выборка исследования (4 эксперта), принципы оценивания (для оценки трудности задания брали сумму баллов экспертов). Другие причины могли бы быть выявлены в ходе психометрического анализа. Авторы предлагают несколько возможных причин таких результатов, связанных, в основном, с оцениванием студенческих работ, однако в дальнейшей работе их необходимо учитывать и проверять.

Экспертные оценки в тестировании также используются для сокращения опросников, преимущественно на основании суждения о репрезентативности набора заданий исследуемому конструкту. При этом, применяются различные техники использования уже полученных экспертных оценок (Hardesty, 2004). Авторы статьи выделяют три основных используемых метода: использование суммарного балла (чаще всего, 3 - задание репрезентативно, 1 - не репрезентативно) для отбора заданий, подсчет экспертов, которые оценили задание как полностью репрезентативное и подсчет экспертов, которые оценили задание как полностью нерепрезентативное.

Одной из особенностей экспертной оценки как метода оценивания респондентов или заданий является большая вероятность возникновения побочных эффектов. В настоящее время существуют разные классификации этих искажений, однако, в любом случае, такие ошибки вносят сложности в экспертное оценивание.

С точки зрения оценивания экспертных оценок ответов респондентов существует достаточно большой опыт, включающий в себя, в том числе, методы многопараметрического анализа IRT, дающие исчерпывающие результаты качества экспертной оценки. Эти методы позволяют не только оценить степень согласованности экспертных оценок, но и математически выявить эффекты и искажения, возникающие в процессе оценки.

1.2.2 Искажения, связанные с экспертными оценками

Так как метод экспертных оценок предполагает непосредственное оценивание заданий экспертом по открытым критериям, высока вероятность возникновения искажений, связанных с личностью эксперта. Эти искажения классифицируются на следующие классические виды (Myford, 2003):

1. Эффект строгости/снисходительности

2. Эффект центральной тенденции

3. Эффект гало

4. Эффект ограничения спектра

Существуют также и более дробные классификации возможных эффектов. В рамках данной работы мы также рассмотрим эффект случайности. Стоит отметить, что эффекты строгости/снисходительности и центральной тенденции представляют собой частные случаи эффекта ограничения спектра. Рассмотрим представленные выше эффекты более подробно, согласно обзорной статье Кэрол Майфорд (Myford, 2003).

Эффект строгости/снисходительности

Существует множество определений эффекта строгости / снисходительности, однако можно говорить о том, что, в целом, они схожи между собой. Самое первое определение эффекта снисходительности принадлежит Книланду и звучит как тенденция эксперта "ставить оценку выше среднего по используемой шкале" (Kneeland, 1929, p. 356). Позднее Гилфорд добавил к этому определению свойство, согласно которому снисходительный эксперт будет снисходительным вне зависимости от черты, которую он оценивает. Позднее к характеристике снисходительности начали относиться в большей степени как к личностной характеристике эксперта. Этот аспект впоследствии рассматривался с разных сторон, в том числе, экспертам приписывалось нежелание ставить низкие баллы знакомым, и в данном случае это не было личностной чертой.

Для того, чтобы помочь экспертам избежать этого эффекта, применяются разные техники, в том числе:

· Четко определить категории используемых шкал

· Обозначить по несколько категорий с положительной и отрицательной стороны

· Ознакомить экспертов с возможностью наличия такого эффекта

· Заранее ограничить количество респондентов на каждую категорию оценки или попросить ранжировать респондентов

· Использовать несколько экспертов для оценки одного респондента

· Использовать статистические методы для сопоставления баллов у строгих и не строгих экспертов

Эффект центральной тенденции

Чаще всего в определении эффекта центральной тенденции говорится о том, что эксперт чрезмерно часто использует средние баллы на шкале, избегая крайних категорий. Такое поведение часто считается типичным в ситуации оценивания малознакомых респондентов, однако оно ведет к снижению надежности и валидности за счет сужения спектра оценок.

Диагностика эффекта центральной тенденции чаще всего происходит посредством сравнения среднего балла эксперта с центром шкалы.

Для уменьшения эффекта центральной тенденции применяется ряд стратегий:

· Четко определить категории используемых шкал

· Ввести более четкие различия между категориями шкал, особенно расположенными ближе к центру

· Не делать крайние категории слишком нетипичными

· Рассказать экспертам о наличии эффекта

· Заранее ограничить количество респондентов на каждую категорию оценки или попросить ранжировать респондентов

Эффект гало

Считается, что эффект Гало является самым изученным из всех классических эффектов. Общим определением этого эффекта можно считать следующее: "Существует внутренняя тенденция оценивать за общие заслуги, когда необходимо оценить по какому-то конкретному показателю, и позволять общему впечатлению об индивидууме повлиять на его результат по шкале" (Cooper, 1981, стр. 218). Впоследствии было принято много определений этого эффекта, но, в целом, все они подразумевают наличие связи между впечатлением от респондента и оценкой за задание, не обусловленной оцениваемыми характеристиками. При этом, также существует точка зрения, говорящая о том, что существует не только "ложное" гало, но и "истинное", которое оценивает нужную характеристику по связанным с ней чертам респондента.

Для уменьшения эффекта гало применяются различные техники:

· Четко определить каждую характеристику и разделить характеристики между собой

· Если критериев несколько, периодически менять порядок следования категорий

· Ознакомить экспертов с возможностью наличия такого эффекта

· Использовать процедуру, когда один эксперт оценивает всех респондентов по одной характеристике в один промежуток времени, а потом переходит к другой

· Уменьшить количество критериев, либо использовать несколько экспертов для оценки одного респондента

Эффект ограничения спектра

Эффект ограничения спектра связан с эффектом центральной тенденции. Различия между ними заключаются в том, что ограничение спектра подразумевает не только выбор средних категорий, но и предпочтение высоких или низких категорий.

При этом, важно учитывать, что наличие такого эффекта не всегда является искажением - так, существует исследование, в котором демонстрируется, что японские и тайванские студенты используют середину шкалы чаще, чем американские и канадские, в то время как американские студенты используют крайние категории чаще других (Chen et al., 1995). Таким образом, эффект ограничения спектра может быть обусловлен не только личностными, но и социально-культурными особенностями эксперта, и такую возможность необходимо учитывать, если будет обнаружено ограничение спектра на групповом уровне.

Для определения наличия этого эффекта исследуют дисперсию баллов, полученных всеми респондентами по одному критерию (чем меньше дисперсия, тем больше эффект), распределение частотности баллов по критерию (остроконечное распределение может свидетельствовать о наличии эффекта) и анализируют несоответствие между респондентом, экспертом и критерием.

Для уменьшения эффекта используются те же стратегии, что и при работе с эффектом центральной тенденции.

Эффект случайности

Под эффектом случайности подразумевается тенденция эксперта применять один или несколько критериев в манере, отличной от других экспертов. Такой эксперт непостоянен в использовании шкалы и демонстрирует более случайное распределение, чем должно быть на основании его оценок. Причиной этого может быть неверная интерпретация шкалы, которая ведет к ее отличному от других использованию.

Для уменьшения эффекта случайности применяются следующие стратегии:

· Четко определить категории используемых шкал

· Ознакомить экспертов с возможностью наличия такого эффекта

· Использовать несколько экспертов для оценки одного респондента

В рамках данной работы мы будем анализировать обнаружение эффектов строгости / снисходительности, случайности и центральной тенденции.

1.2.3 Способы обнаружения искажений

В предыдущем разделе мы обозначили основные эффекты, которым могут быть подвержены эксперты при оценке респондентов, а также, в некоторых из них, обозначили принятые методы обнаружения и предотвращения. Однако, в большинстве случаев, применяются различные методы для разных эффектов, которые не позволяют определить (или заподозрить) наличие какого-либо эффекта по одному анализу. Для того, чтобы оптимизировать и упростить анализ деятельности экспертов применяется многопараметрический анализ в рамках моделей Раша (Myford, 2003). Такой анализ позволяет ответить на ряд важных вопросов: отличаются ли эксперты по уровню строгости, насколько эффективно эксперты разграничивают респондентов по характеристикам.

Кроме этого, такой анализ позволяет анализировать деятельность отдельных экспертов в рамках единой группы. Это позволяет не только определить наличие эффекта в группе, но и выделить эксперта, демонстрирующего этот эффект - определить более строгого эксперта, чем другие, найти эксперта, который использует шкалу оценки отлично от других, или эксперта, который не может эффективно разграничивать респондентов или критерии оценки.

Также важно учитывать, что анализ в рамках моделей Раша позволяет проанализировать различные уровни функционирования категорий и экспертов, так как для многих ситуаций можно индивидуально подобрать модель оценки. Это позволяет находить ответы на вопросы о том, инвариантна ли строгость эксперта во всех группах респондентов, на протяжении всего времени, во всех группах оценивающих, по всем основаниям.

Для анализа деятельности экспертов по оценке политомических заданий обычно применяют следующую модель (Myford, 2003, Карданова, 2004):

1. RSM для анализа деятельности экспертов

где Pnilk - вероятность того, что испытуемый n получит k баллов за выполнение задания i при оценке экспертом l; Pnil(k-1) - вероятность того, что испытуемый n получит k-1 баллов за выполнение задания i при оценке экспертом l; иn - уровень подготовленности испытуемого n; дik- уровень трудности выполнения k-го шага в задании i; оl- уровень строгости эксперта l. В отечественных исследованиях эта модель применялась для анализа деятельности экспертов при оценивании заданий части С ЕГЭ (Карданова, 2005).

Для оценивания деятельности экспертов используется несколько статистик (эти статистики выдаются программами, позволяющими провести многопараметрический анализ, в частности, ConQuest и Facets). В данной работе мы будем проводить анализ искажений с использованием программы ConQuest, поэтому при описании способов выявления искажений мы будем акцентировать внимание на тех статистиках, которые вычисляет эта программа.

· Оценка уровня строгости эксперта в логитах (Measure)

· Статистики согласия экспертов с используемой моделью измерения.

Статистики согласия описывают степень согласия реальных данных с ожидаемыми модельными данными. Ожидаемый балл - это балл, предсказанный моделью на основании анализа уровня строгости эксперта, баллов других экспертов и т.д. Преимущественно для анализа деятельности экспертов используют статистику MNSQ (среднеквадратичный индекс) с математическим ожиданием 1 во взвешенном и невзвешенном вариантах. Значение статистики меньше 1 показывают сверхсогласие с моделью, недостаточную дисперсию, а больше 1 - недостаточное согласие с моделью. Приемлемые значения статистик не являются строго заданными, самые «мягкие» границы обозначены Линакром и составляют (0,6; 1,4). Чаще всего применяют достаточно строгие границы (0,8; 1,2), их мы и будем придерживаться в данной работе.

· Критерий Хи-квадрат

Критерий Хи-квадрат направлен на оценку того, различаются ли эксперты по уровню строгости. Нулевая гипотеза критерия хи-квадрат состоит в том, что эксперты не отличаются по уровню строгости. Значимый показатель хи-квадрат позволяет говорить о том, что как минимум два эксперта отличаются по уровню строгости. При этом, важно учитывать, что критерий хи-квадрат чувствителен к объему выборки, и при большом количестве экспертов может показывать высокую значимость даже в том случае, когда различия в строгости невелики.

· Индекс Separation (его надежность в случае ConQuest)

Индекс Separation (индекс отделимости) представляет собой число статистически различных уровней выполнения задания (то есть, при индексе равном 3, можно говорить о том, что респондентов можно разделить на три группы по результатам). Индекс получается путем перевода показателя Separation по формуле: H = (4G+1)/3, где H - индекс отделимости, G - показатель отделимости.

ConQuest показывает только надежность этого индекса, которой, в целом, достаточно. Надежность предоставляет информацию о том, как четко отделены элементы внутри фасета для того, чтобы определить надежность фасета. Значение надежности, меньшее 0.5, говорит о том, что различия между мерами строгости экспертов не существенны, лежат в пределах погрешности измерения. Для экспертов высокая надежность отражает потенциально нежелательное разделение оценивающих по уровню строгости.

Эффект строгости/снисходительности

Эффект строгости/снисходительности с точки зрения его проявления схож с эффектом ограничения спектра, так как он заключается в том, что эксперты склонны ставить более высокие или более низкие баллы, поэтому разграничить их часто бывает сложно. При этом, нужно учитывать, что эффект строгости не всегда является искажением, часто это просто склонность эксперта оценивать респондентов строже. Искажение в измерениях возникает, когда одного респондента оценивают, например, два строгих эксперта.

При наличии эффекта строгости у некоторых экспертов критерий хи-квадрат будет демонстрировать высокий уровень значимости и достаточно высокое значение. Надежность индекса separation будет больше 0,5, что будет говорить о том, что экспертов можно разделить на несколько категорий по строгости. Статистики согласия в данном случае, скорее всего, не будут демонстрировать отклонений от реальных данных, поэтому заключение о чрезмерной строгости эксперта должно делаться на основании групповых индикаторов, приведенных выше, и анализа уровня строгости (Measure).

Эффект центральной тенденции

Статистические индикаторы на групповом уровне будут демонстрировать значения, схожие со значениями в случае эффекта строгости/снисходительности: критерий хи-квадрат будет демонстрировать высокий уровень значимости и достаточно высокое значение, надежность индекса separation будет больше 0,5. На индивидуальном уровне статистики согласия (как взвешенная, так и невзвешенная) будут демонстрировать значения значительно меньшие 1 (сверхсогласие с моделью, вариация меньше ожидаемой). При этом, сверхсогласие с моделью возможно также в том случае, если эксперт поставил нескольким респондентам очень сходные баллы по всем характеристикам, поэтому для выявления этого эффекта нужно дополнительно смотреть на ответы эксперта.

Эффект случайности

При наличии эффекта случайности критерий хи-квадрат будет демонстрировать высокий уровень значимости и достаточно высокое значение, индекс separation будет демонстрировать достаточно низкое значение. Статистики согласия будут демонстрировать значение значительно больше 1 (недостаточное согласие с моделью, слишком высокая дисперсия баллов).

В качестве дополнительного средства анализа деятельности экспертов можно использовать графический анализ ответов экспертов, а также корреляционные исследования.

Обобщая результаты анализа, можно говорить о том, что значения обеих статистик согласия, меньшие 1, как правило, свидетельствуют о наличии у эксперта эффекта центральной тенденции. С другой стороны, значения обеих статистик, большие 1, как правило, свидетельствуют о наличии у эксперта эффекта случайности.

1.2.4 Выводы

Анализ литературы показал, что существуют разные способы использования экспертных оценок, однако, в случае с конструированием теста на основе имеющихся заданий, чаще всего используют те или иные программные решения, которые впоследствии подлежат дополнительному анализу с помощью экспертных оценок. Таким образом, можно предположить, что конструирование теста на основании одних экспертных оценок также может быть полезным и возможным, если понять, как можно диагностировать возможные искажения в экспертных оценках.

2. РАЗРАБОТКА МЕТОДОЛОГИИ ЭКСПЕРТНО-ОРИЕНТИРОВАННОГО ПОДХОДА К СОЗДАНИЮ ТЕСТОВ

2.1 ОЦЕНКА ГОТОВНОСТИ К ОБУЧЕНИЮ НА ИНЖЕНЕРНЫХ СПЕЦИАЛЬНОСТЯХ ВУЗОВ

Последние тридцать лет можно по праву считать "Образовательной революцией" - приток людей в вузы, особенно в развитых странах, постоянно возрастает, в образовании проявляется тенденция к глобализации и интернационализации - многие студенты получают высшее образование за пределами своей родной страны, и это число постоянно увеличивается (Altbach, 2009). Существует много различных предположений о причинах такого роста, однако, независимо от причин, высшее образование приобретает все большую популярность. В частности, инженерное образование интенсивно развивается во многих странах мира - если тридцать лет назад основное число инженеров обучали в развитых странах, таких как США или Япония, то в последнее время большое число инженеров обучают также в странах БРИК - Бразилии, России, Индии и Китае (Altbach, 2009 The Giants Awake, Gereffi, 2008). Эти страны привлекли внимание исследователей в области экономики и образования благодаря тому, что с начала 21 века в них сосредоточена очень большая часть населения земного шара, и, кроме этого, они производят около четверти мирового ВВП (O'Neil, 2001). В области высшего инженерного образования эти страны также заслуживают внимания: в 2004 году в США выпустились 137 000 бакалавров по инженерному профилю, тогда как в Китае и Индии 351 000 и 112 000, соответственно(Xin, 2008).

Однако, несмотря на большое количество инженеров, качество их подготовки остается спорным, а запрос на квалицифированный персонал постоянно возрастает. Независимо от того, насколько прогрессивным является техническое образование в странах БРИК, от работодателей постоянно поступает информация о недостаточном качестве подготовки выпускников. Об этом же свидетельствуют и данные исследований (Loyalka, 2012). В данном контексте важно обозначить одну из ведущих тенденций, господствующих в образовательных системах стран БРИК - это постоянно возрастающая дифференциация между "элитными", ориентированными на мировой уровень образования и науки, и "неэлитными", принимающими большую часть абитуриентов, университетами (Carnoy, 2013). Несмотря на активную политику, направленную на сокращение этой дифференциации, она продолжает возрастать, что, несомненно, сказывается на качестве образования большей части выпускников (Loyalka, 2012).

И если в отношении начального школьного образования в странах БРИК уже существуют исследования, анализирующие их достижения и причины таких достижений (Chaudhary, 2012), то в области высшего образования исследований стран БРИК, в частности, России, пока еще достаточно мало. В связи с высоким количеством выпускников в странах БРИК, а также с большим количеством запросов на качественно подготовленных выпускников, возникает необходимость в оценке качества образования (в частности, инженерного), осуществляемого в каждой из стран БРИК.

Для России проблема инженерного образования и его качества имеет и самостоятельный интерес в силу известных проблем с инженерным образованием в стране. Падает престиж инженерного образования, вузы (за исключением небольшого числа элитных) вынуждены принимать для обучения на технические специальности абитуриентов по остаточному принципу, не поступивших на другие специальности. Вузам важно знать, насколько их студенты готовы к обучению по данной специальности, чтобы в случае необходимости выработать стратегию по работе с неподготовленным в достаточной мере контингентом. Очевидно, что используя только ЕГЭ, нельзя оценить готовность к обучению на технических специальностях в вузе. Особенно это справедливо в отношении математики, т.к. экзамен по математике является обязательным и вынужден совмещать в себе разные функции.

Таким образом, на данный момент мы не можем с уверенностью утверждать, что высшее образование в странах БРИК достаточно качественно. Немногочисленные исследования в этой области не позволяют непосредственно оценить, насколько будущие студенты готовы к обучению в вузе и какое образование они получают в итоге. Необходима более систематическая экспертиза качества высшего образования -- основанная на прямой оценке качества готовности к обучению и качества подготовки студентов, в университетах стран БРИК.

Главной проблемой, актуальной для всех стран БРИК, в частности, для Китая и России, производящих достаточно большое количество инженеров, является отсутствие инструментов оценки, как готовности студентов к обучению в вузе, так и качества их подготовки по завершении определенного этапа обучения или по окончании вуза. Поэтому невозможно оценить, улучшается или ухудшается качество подготовки студентов вузов (в частности, технических специальностей) - нет специальных исследований, нет инструментов, не проводился анализ факторов, влияющих на качество подготовки. В условиях постоянно увеличивающегося числа выпускников технических специальностей вузов задача оценки качества их подготовки является чрезвычайно актуальной.

Одним из вариантов решения данной проблемы стала идея о создании международного теста, позволяющего оценить студентов-инженеров на всех этапах обучения - на первом курсе, сразу после поступления, после второго курса и после четвертого курса. Тестирование предполагается проводить по трем областям: математика, физика (проверяемый уровень освоения зависит от курса) и критическое мышление.

На этапе обсуждения возникла проблема с отбором тестовых заданий, так как в распоряжении разработчиков были большие банки заданий по математике и физике из Китая и России, и провести их все на одной выборке, чтобы положить на одну шкалу, не представлялось возможным. Так как готового способа для действий в такой ситуации найти не удалось, было предложено использовать экспертные оценки.

В качестве первого этапа было решено создать тест по математике. Однако, предварительно было проведено сравнение вступительных экзаменов в странах БРИК, чтобы можно было понять, насколько отличаются абитуриенты этих стран по уровню освоения математики.

2.1.1 Сравнительный анализ вступительных экзаменов по математике на технические специальности вузов в странах БРИК

В рамках данной работы был проведен сравнительный анализ вступительных экзаменов в вузы по математике в странах БРИК: ЕГЭ в России, JEE и AIEEE (Индия), CEE (Китай) и ENEM (Бразилия). Как отмечалось выше, Индия и Китай имеют специализированные экзамены для студентов, поступающих на инженерные (Индия) или естественно-научные (Китай) специальности. Более того, в Индии экзамены для поступления на инженерные специальности вузов различаются в зависимости от того, в какой вуз будет поступать абитуриент.

Результаты сравнения вступительных экзаменов по математике приведены в таблице 1.

Таблица 1. Сравнение вступительных экзаменов в странах БРИК

Параметр

ЕГЭ

(Россия)

JEE

(JEE Advanced с 2013 г.)

(Индия)

AIEEE

(JEE Main с 2013 г.)

(Индия)

CEE (Китай)

ENEM

(Бразилия)

Модель экзамена

Один экзамен для выпуска из школы и поступления в вуз

Для поступления в вуз, сдавать могут только лучшие

150 000 по JEE Main

Для поступления в вуз

Для поступления в вуз

Один экзамен для выпуска из школы и поступления в вуз

Количество уровней трудности

1 уровень

1 уровень

2 типа экзаменов для разных специализаций технических университетов

1 уровень (каждый регион может изменять экзамен)

1 уровень

Необходимость дополнительной подготовки

Нет

Да

Да

Нет

Количество проведений в год и количество попыток сдачи

1 раз

1 попытка

1 раз

2 раза (онлайн и оффлайн), 3 попытки

1 раз,

1 попытка (могут пересдать через год)

1 раз (октябрь-ноябрь), 1 попытка

Время экзамена

4 часа

2 блока вопросов по 3 часа каждый

3 часа

2 дня (120 минут для теста по математике)

2 дня, всего 10 часов

Количество заданий

20

Всего 60 в каждой из двух частей (20 по математике)

Всего 90

(30 по математике)

20-22 по математике

Около 12-14 по физике

Всего 180

(45 по математике)

Тип заданий

С кратким ответом (14) и

с развернутым ответом

(6)

С выбором одного (14), или нескольких правильных ответов (6 вопросов)

С выбором одного ответа (выбор из 4 альтернатив)

Множественный выбор из 4 альтернатив (1 или несколько правильных ответов), заполнение пропусков, открытые вопросы

С выбором одного ответа (выбор из 5 альтернатив)

Содержание

Алгебра, уравнения и неравенства, функции, математический анализ, геометрия, статистика и теория вероятности

Алгебра, тригонометрия, аналитическая геометрия и стереометрия, дифференциальное исчисление, интегралы, векторы

Прогрессии, функции, комплексные числа и квадратные уравнения, матрицы, математическая индукция, биномиальная теорема, пределы, интегралы, дифференциальные уравнения, геометрия, векторы, статистика, тригонометрия

Векторы на плоскости, прогрессии, основы логики, функции, неравенства, тригонометрические функции, последовательности чисел, формулы линии и круга, конические уравнения, геометрия, биномиальная теорема, статистика и теория вероятности, пределы, производная комплексные числа

Максимальный первичный балл

32

360

Обычно 750 за все четыре предмета: 150 -английский, 150 -математика, наука (физика и химия) - 300, китайский -150

Необходимость экспертной проверки заданий

Да

Нет

Нет

Да

Нет

Оценивание участников экзамена

В соответствии с системой перевода в 100-балльную шкалу

(КТТ)

Сумма баллов по двум частям будет суммарным баллом студента

(КТТ)

Итоговый балл за экзамен рассчитывается на основании экзамена (40%) и балла за JEE Main (60%)

Оценкой является первичный балл по четырем предметам

(КТТ)

IRT

Шкала сообщения результатов экзамена

100 баллов

Процентиль (100)

750 баллов

1000 баллов

Пороговые значения

Устанавливаются перед экзаменом

Нет

Устанавливаются после экзамена

Статус сертификата (внутренний/международный)

Внутренний

Внутренний (для ряда университетов)

Внутренний (для ряда университетов)

Внутренний

Внутренний

Цена

Бесплатно

Цена зависит от балла за JEE Main

Цена зависит от типа экзамена и ряда других факторов

Цена зависит от региона

17$

В целом, по результатам анализа можно говорить о том, что вступительные экзамены в вузы по математике в странах БРИК очень различны и по форме, и по структуре, и по трудности, и по содержанию.

2.1.1 Выводы

На основании анализа литературных данных стало известно, что в России нет теста, позволяющего отбирать абитуриентов на инженерные специальности вузов, в отличие от большинства стран БРИК. В связи с этим, возникают подозрения, что качество образования (и, в частности, степень готовности абитуриентов к обучению на технических специальностях вузов) в этих странах выше, так как у них идет более тщательный отбор абитуриентов. На основании этого можно говорить о том, что возникает необходимость инструмента, который бы позволил оценить степень готовности к обучению студентов инженерных специальностей в разных странах и сопоставить качество приходящих абитуриентов. Так как существуют банки заданий с известными психометрическими характеристиками по математике из разных стран, создание данного теста можно рассматривать как способ формулировки методологии экспертно-ориентированного подхода.

2.2 ПРОГРАММА ИССЛЕДОВАНИЯ

2.2.1 Методологический раздел программы исследования

Проблема исследования:

Известно, что процесс создания тестов является достаточно трудоемким, и много усилий разработчиков уходит на создание тестовых вопросов. Однако, при создании образовательных тестов часто уже имеется некоторый набор заданий (например, из других материалов), которые можно было бы использовать для создания нового инструмента.

Однако, не известно, чем нужно руководствоваться при отборе заданий в таком случае, так как не существует разработанной методологии для работы с такими материалами. Использование экспертных оценок заданий представляется хорошим решением проблемы, однако необходимо понять, какие возможны искажения экспертных оценок при работе с заданиями, и как можно организовать работу экспертов, чтобы получить максимально эффективный процесс разработки теста.

В качестве примера решения этой проблемы в данной работе будет рассматриваться создание теста по математике для России и Китая.

Цель исследования:

Разработка методологии создания теста на основании экспертных оценок имеющихся вопросов.

Задачи:

1. провести анализ литературы по методам создания теста и возможным применениям экспертных оценок в тестировании

2. провести анализ имеющихся данных о конструировании тестов достижений путем комбинации существующих тестов

3. провести экспертную оценку имеющихся заданий

4. провести анализ деятельности экспертов

5. адаптировать модели IRT для анализа деятельности экспертов при оценке заданий, а не респондентов

6. разработать методологию создания теста на основании экспертных оценок на основании работы с тестом по математике

Объект исследования: экспертные оценки в тестировании

Предмет исследования: применение экспертных оценок для создания теста.

Исследовательские вопросы:

1. Как можно использовать экспертные оценки при создании нового теста?

2. Какие шаги необходимо предпринять для создания теста на базе существующих?

Уточнение основных понятий:

Под экспертными оценками в данной работе будут пониматься оценки, которые эксперты дают заданиям, руководствуясь предоставленными им критериями (например, трудность задания).

Строгость экспертов в данной работе понимается как латентная переменная, характеризующая склонность эксперта давать более низкие баллы по сравнению с другими экспертами.

Гипотезы

Общая гипотеза: экспертные оценки можно использовать для создания нового теста на базе существующих.

Гипотезы-следствия:

· Существует стратегия работы с экспертными оценками, позволяющая упростить процесс создания теста (по сравнению с созданием теста "с нуля").

2.2.2 Процедурный раздел программы исследования

Стратегический план исследования: поисковый план. Применение поискового плана в данном случае обосновано отсутствием разработанных ранее методов работы с экспертными оценками при создании нового теста на базе существующих.

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.