Стандартизация теста и интерпретация результатов тестирования

Основные вопросы стандартизации теста и проверки его качества при помощи инструмента дискриминативности. Рекомендации по организации и проведению контрольного мероприятия в форме тестирования. Расчет показателя дельта Фергюсона и метода крайних групп.

Рубрика Педагогика
Вид статья
Язык русский
Дата добавления 31.07.2018
Размер файла 310,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Стандартизация теста и интерпретация результатов тестирования

Педагогические науки

Векслер В.А.

В статье рассмотрены вопросы стандартизации теста и проверки его качества при помощи инструмента дискриминативности (проверка дифференцирующей способности теста и отдельного задания). Ход проверки теста продемонстрирван на примере.

Стандартизацией теста называется комплекс взаимосвязанных между собой процедур, позволяющий создать для всех испытуемых равные условия, и подразумевает единообразный подход к процедуре проведения и оценивания результатов выполнения испытуемыми заданий.

Определим перечень рекомендаций по организации и проведению контрольного мероприятия в форме тестирования испытуемых:

Ни одному испытуемому не может даваться никаких даже минимальных преимуществ перед другими.

Группа тестируемых, перед прохождением тестирования, должна быть «выровнена по мотивации».

Тестирование различных групп испытуемых должно занимать равные временные промежутки и проводится при одинаковых внешних условиях. Если тест будет вторично использоваться в условиях, которые уже существенно отличаются от тех, где он был изначально проведен, то обязательно потребуется некоторое соотнесение этих условий друг с другом или адаптация теста к новым измененным условиям.

Содержание теста должно соответствовать требованиям стандартов образования.

Все испытуемые выполняют одни и те же задания (параллельные, подобные формы заданий).

В тест включаются задания одной формы либо различных форм с соответствующими весовыми коэффициентами, значение которых получены статистическим путем.

Установление норм. Норма теста - это некий условно сформированный уровень, который можно принять за средний, отражающий развитие некоторой, возможно большой, совокупности людей, условно похожих на данного испытуемого по определенному ряду выявленных, в ходе дополнительного исследования, социально-демографических характеристик. В большинстве случаев тестовый показатель индивидуума мы можем выявить на основе сравнения с оценками, полученными по данному тесту другими людьми. Норма теста обычно будет, определяется в результате тестирования большой выборки испытуемых определённого возраста и пола, с последующим усреднением полученных оценок с их последующим дифференцированием по группам: разделением по возрасту, полу, социальному положению, уровню урбанизации, психофизическим показателям и ряду многих других показателей необходимых в контексте именно данной дифференциации. При этом, данная группа людей будет, называется выборкой стандартизации и станет служить показателем для установления норм. Всякая норма, как правило, со временем может, изменяется коррелируя вместе с естественными или другими взаимосвязанными с ней изменениями, поэтому есть правило, согласно которому нормы теста, особенно интеллектуального, должны пересматриваться, как минимум один раз в пять лет. Система подсчета баллов, на основе норм, должна быть предварительно разработана и применена ко всем ответам испытуемых без исключения.

Проверка тестовых работ должна быть строго регламентирована, а именно проверяющим даются эталоны правильных ответов и стандартизованные критерии оценок.

Стандартизация теста так же заключается в приведении процедуры оценок к общепринятым в учебной среде нормативам.

Тест должен быть обязательно социокультурно адаптирован т.е необходимо соблюдать соответствие тестовых заданий и оценок, которые испытуемый получает по этим заданиям, особенностям культуры, сложившимся в том или ином обществе, где данный тест используется, если он заимствован в другой стране.

Для полного обеспечения единообразия условий проведения теста, разработчик описывает подробные указания по проведению каждого вновь разработанного теста.

Учет «внешних факторов». Например, зачитывая вслух инструкцию или задание, нужно принимать во внимание тон голоса, скорость речи, интонацию, паузы и выражение лица.

Тест должен сопровождаться руководством для пользователя, в котором описываются:

назначение теста и его описание;

показания для применения;

состав теста;

информация об апробации теста (цели, объем и состав выборки, основные статистические характеристики);

инструкция по процедуре проведения тестирования;

ключи;

трудность и дискриминативность теста («дискриминативность» - «тонкость измерения», т.е. способность дифференцировать тестируемых относительно «минимальных» и «максимальных» результатов теста, дифференцирующая способность);

данные о надежности и валидности теста;

другие статистические материалы;

правила и инструкции для обработки данных;

устройство шкалы, правила и особенности интерпретации данных.

Таким образом, если тесты стандартизированы, то мы можем сказать, что возможно провести сравнение показателей, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах. Тем самым достигается адекватная интерпретация показателя отдельного испытуемого.

Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d=1).

При разработке теста, безусловно, необходимо стремиться к тому, чтобы его задания как можно точнее могли измерять проверяемое свойство. Например, если в результате проведенного обследования почти все испытуемые получили примерно одинаковые результаты, то это может означать только то, что тест проводит измерения очень грубо и неточно, без особых градаций различающих особенности испытуемых. Чем большее количество градаций результатов можно получить при помощи теста, тем выше будет его разрешающая способность. Мера тонкости измерения (или степень диффиренцируемости результатов) теста называется дискриминативностью.

Дискриминативность теста измеряется показателем дельта Фергюсона (рис.1): стандартизация тест дискриминативность

Рис.1. Показатель дельта Фергюсона

В данной формуле введены следующие обозначения: N - количество испытуемых , n - количество заданий, fi - частота встречаемости каждого показателя. Наименьшая дискриминативность теста определена при д = 0, наибольшая при д = 1.

Рассмотрим простейший пример расчета индекса дискриминативности заданий.

Проводится тестирование по теме «Информационные процессы». В тестировании принимают участие 7 человек, количество заданий - 4.

Цель задания: овладение навыком расчета индекса дискриминативности.

Алгоритм вычислений:

Составьте таблицу частот встречаемости каждого показателя.

Подсчитайте, как часто встречаются значения показателей для данного теста.

Возведите эти числа в квадрат и просуммируйте их.

Прибавьте единицу к количеству заданий.

Возведите в квадрат количество испытуемых.

Помножьте количество заданий на результат шага 4.

Теперь у нас есть все элементы формулы. Подставьте их и рассчитайте коэффициент.

Сделайте вывод о дискриминативности теста «Информационные процессы».

Оснащение: микрокалькулятор или компьютер, таблица первичных данных (рис. 2).

Рис. 2 - таблица первичных данных отражающая результаты в баллах у семи испытуемых

На основании таблицы первичных данных получим таблицу частот встречаемости каждого показателя (рис. 3).

Рис.3 - Таблица частот встречаемости каждого из показателей теста выполненная на основе анализа предложенной в рис.1 таблицы частотных данных.

Вычислим квадраты частот (рис.4):

Рис. 4 - таблица квадратов частот определенная по таблице частот показателей теста.

Произведем вычисления показателем дельта Фергюсона, где n=4 (количество заданий), N=7 (количество испытуемых), N2=49 (рис. 5).

Рис. 5 - Вычисление показателя дельта Фергюсона

На основании проведенного вычисления сделаем вывод: д = 0,97 данный показатель указывает на высокую дискриминативность теста «Информационные процессы», так как наибольшая дискриминативность при д = 1. Показатель д = 0,97 приближается к единице.

Дискриминативность или дифференцирующая способность как показатель отражает общую способность созданного исследователем теста отделять испытуемых с высоким общим баллом по тесту от тех, кто получает низкий балл и позволяет проверить качество созданных заданий в тесте.

Для проверки качества отдельных заданий будем использовать метод крайних групп. Данный метод позволяет определить может ли задание дифференцировать учащихся. Задания, на которое одинаково хорошо могут ответить испытуемые, как с высокими, так и с низкими способностями, не обладает хорошей дифференцирующей способностью. Таким образом, цель использования на практике данного метода выражается в удалении некачественных заданий.

Для определения дифференцирующей способности задания будем использовать формулу метода крайних групп (рис. 6).

Рис. 6 - Формула для вычисления показателя, отражающего дифференцирующую способность задания методом крайних групп с расшифровкой составляющих

Опишем показатель интерпретации, полученный в результате вычисления результата:

a) если D в промежутке от 0,3 до 1 - задание эффективно (обладает высокой дифференцирующей способностью среди испытуемых, качество задания высокое);

b) если D в промежутке от 0,1 до 0,3 - задание обладает низкой степенью дифференциации (задание «слабое», его рекомендовано удалить и заменить другим);

с) если D меньше 0,1 - задание не качественное (оно должно быть удалено и заменено другим).

Рассмотрим простейший пример расчета показателя дифференцирующей способности по методу крайних групп.

Было проведено тестирование в группе из 30 испытуемых. Количество заданий - 10. Полученные результаты приведены в таблице частот встречаемости показателей (рис. 7). Цель исследования: необходимо проверить качество задания № 1.

Рис. 7 - Таблица частот встречаемости показателей теста (исходные данные для проведения вычисления)

Проведем вычисления основных индексов, которые нам понадобятся в основной формуле. Определим 27% от количества испытуемых для создания крайних групп. Примерно получим 8 испытуемых (округлим результаты). Таким образом, мы возьмем 8 человек набравших малое количеств баллов (в нашем примере 0,1,2,3 балла) - так сформирована слабая группа и 8 человек набравших наибольшее количество баллов (в нашем примере - 9,10 баллов) - так сформируем сильную группу. Теперь проверим, как эти испытуемые отвечали на задание № 1 (рис. 8).

Рис. 8 - результаты выполнения исследуемого задания (задания № 1) испытуемыми из крайних групп (сильная и слабая группа).

Приведем данные для подстановки в формулу метода крайних групп (рис. 9).

Рис. 9 - Индексы крайних групп

Подставим данные и получим следующий результат (рис. 10).

Рис. 10 - Вычисление показателя метода крайних групп.

На основе полученных данных мы можем сделать вывод: задание № 1 в тесте является эффективным, так как показатель находится в диапазоне от 0.3 до 1.

Таким образом, стандартизация теста является целенаправленным процессом позволяющим определить условия для качественного прохождения испытаний теста и сделать тест психологически комфортным при прохождении для испытуемых. Стандартизация теста наиболее важна и в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом важна выработка нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. Интерпретация результатов тестирования будет иметь значимых характер только в том случае если сам тест был создан качественно, одним из показателей данной характеристики может является и дискриминативность как теста в целом так и каждого задания в отдельности.

Список литературы

1. Аванесов В.С. Тесты: история и теория // Управление школой, 1999, №12.

2. Аванесов В.С. Формы тестовых заданий: учебное пособие для учителей школ, лицеев, преподавателей вузов и колледжей. 2-е изд. перераб. и расширен. -- М.: Центр тестирования, 2005. -- 156 с.

3. Анастази А., Урбина С., Алексеев А.А. Психологическое тестирование - Санкт-Петербург, 2007. Сер. Мастера психологии (7-е международное издание)

4. Векслер В.А. Психолого-педагогические аспекты тестирования// В.А. Векслер, О.Л. Коноваленко - NovaInfo.Ru. 2015. Т. 1. № 35. С. 199-204.

5. Векслер В.А. Эргономические требования к электронным образовательным ресурсам // Психология, социология и педагогика. 2015. № 5 (44). С. 37-39.

6. Векслер В.А. Возникновение тестологии //Современные научные исследования и инновации. 2015. № 5-4 (49). С. 113-116.

7. Ефремова Н.Ф., Звонников В.И., Челышкова М.Б. Педагогические измерения в системе образования //Педагогика. 2006. - № 2. - С. 14-22.

8. Майоров А.Н. Теория и практика создания тестов для системы образования. - М.: «Интеллект-центр», 2001. -296 с.

9. Равен Джон Педагогическое тестирование: Проблемы, заблуждения, перспективы / Пер. с англ. - М.:"Когито-Центр", 1999.-144 с.

10. Самылкина Н.Н. Современные средства оценивания результатов обучения: учебное пособие - М.:Бином. Лаборатория знаний, 2012. - 197 с.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.