Построение модели экспертизы

История аудита тестов: от национальных стандартов к международным. Современное состояние экспертизы тестов в России, Америки, Британии, Германии, Бразилии. Коррекция модели, направления оценивания. Сертификация качества педагогических тестовых материалов.

Рубрика Педагогика
Вид курсовая работа
Язык русский
Дата добавления 12.07.2016
Размер файла 46,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Введение

Контрольная экспертиза или аудит качества тестов (под тестом здесь понимается любой инструмент с известными психометрическими характеристиками, предназначенный для измерения и оценивания определенных аспектов поведения/знаний/умений/навыков испытуемых, результатом которого является некий балл или оценка, полученные стандартизированным способом) является стандартной процедурой экспертного оценивания качества инструментов измерения в области психологии, образования и кадровой политики в странах с развитой культурой тестирования. Согласно Бартраму, результат экспертизы теста дает пользователю-практику ценную независимую информацию о сильных и слабых сторонах инструмента. Аудит тестов также защищает права испытуемых на то, чтобы их оценивали качественным инструментом (в американских стандартах APA, AERA & NCME сказано, что «Испытуемые имеют право быть оцененными с помощью тестов, которые соответствуют текущим профессиональным стандартам, в том числе стандартам технического качества, справедливости, администрирования и сообщения результатов»). Хотя положения психометрики универсальны, в разных странах разработаны несколько отличающиеся друг от друга системы экспертизы. Выявление этих различий и попытки их объяснить будут полезны для разработки/адаптации российской модели экспертизы тестов. Несмотря на то, что положения теорий тестирования универсальны, особенности страны сказываются и на национальных моделях оценивания. Например, в США стандарты используются при решении судебных дел, связанных с исками о качестве тестирования (например, при поступлении на работу) и потому выверены юридически, в Голландии, где традиция оценивания тестов восходит к 1960-м г., система экспертизы очень жесткая, а в Бразилии, где обязательной экспертизе тесты стали подвергаться сравнительно недавно, она, наоборот, достаточно мягкая.

В данной работе будет рассмотрена история экспертизы тестов в разных странах, а также предпринята попытка выявить особенности российской ситуации с области текстологии для создания модели оценивания инструментов, пригодной для использования в практике Центра мониторинга качества образования Института развития образования Высшей Школы Экономики. Деятельность Центра мониторинга качества образования связана в первую очередь с образовательными исследованиями, однако тестирование в области педагогики может быть связано с личностными тестами, социальными опросниками и даже профессиональными тестами, поэтому в модели оценивания была предпринята попытка максимально подробно описать критерии для возможных областей тестирования. Модель разрабатывалась на основе двух существующих систем: голландской модели CoTAN и европейской модели EFPA. Для верификации модели было проведено пробное оценивание теста, а также использована экспертная оценка.

1. Обзор литературы. История аудита тестов: от национальных стандартов к международным

Если рассматривать вопрос экспертизы тестов хронологически, то сначала стандарты появились в отдельных профессиональных организациях, а затем на их опыте были разработаны национальные и международные стандарты. На сегодняшний день собственные или заимствованные модели экспертизы тестов существуют во многих государствах, однако их статус (в первую очередь, в правовом аспекте) сильно разнится от страны к стране. В различиях между моделями экспертизы из разных стран отражаются особенности и длительность истории тестологии в каждой стране. Ниже описана история создания и эксплуатации моделей экспертизы тестов в странах с наиболее развитой или быстро развивающейся тенденцией применения инструментов оценивания (тестов) в различных сферах жизни, от образования и профессионального отбора до клинической психологии.

1.1 США

История централизованной экспертизы тестов и других измерительных инструментов началась в США, где еще в 1895 году был учрежден первый Комитет по психометрике Американской психологической ассоциации. В 1938 году вышло первое издание существующего до сих пор «Ежегодника по психометрике» (в другом переводе «Ежегодника психических измерений») Буроса. Оскар Бурос основал свою инициативу на волне зарождающегося движения по защите прав потребителей США и рассматривал психометрику как отрасль, в которой клиенты (пользователи тестов и испытуемые) имеют право получать за свои деньги качественный продукт (тесты). Поэтому основным критерием отбора тестов для экспертизы всегда была их коммерческая доступность. В ежегодниках Буроса содержатся обзоры англоязычных образовательных и психологических тестов, а целью Буроса было познакомить профессиональное сообщество с имеющимися на рынке инструментами и повлиять на разработчиков тестов с целью уменьшить количество разработок за счет улучшения их качества. Бурос организовал процесс экспертизы по аналогии с рецензированием статей в научных журналах. После была выработана двухэтапная аккредитация. На первом этапе эксперт посещает разработчика/издателя теста, оценивает организационную структуру, создание теста, его администрирование, психометрические методы и технику безопасности. Когда эта стадия (аккредитация провайдера теста) пройдена, наступает стадия аккредитации самого продукта. Два эксперта пишут свои рецензии объемом 1000-1500 слов, которые публикуются полностью, за исключением скорректированных редактором повторов. Эксперты не получают за свой труд никакой платы, кроме бесплатного экземпляра ежегодника, в котором содержится их обзор. Сегодня Центр тестирования Института психических изменений Буроса (Buros Institute of Mental Measurements/Center for Testing) - это независимое агентство при университете Небраски (г. Линкольн). В его базе содержатся данные 900 экспертов. В настоящее время Центр тестирования Буроса просит своих экспертов пользоваться при аудите стандартами APA, AERA & NCME (см. ниже), а также (при оценке компьютеризированных тестов) Руководством для компьютерного тестирования Ассоциации издателей тестов (Guidelines for Computer-Based Testing: the Association of Test Publishers (ATP, 2001).

История стандартов APA, AERA & NCME началась в 1954 году, когда Американская психологическая ассоциация (APA) опубликовала Технические рекомендация для психологических тестов и диагностических техник (Technical Recommendations for Psychological Tests and Diagnostics Techniques), а через год Американская ассоциация образовательных исследований (AERA) и Государственный совет по измерениям в образовании (NCME) создали аналогичный документ для образовательных тестов (1955, Technical Recommendations for Achievement Tests). К 1966 году три эти организации (APA, AERA и NCME) объединили свои усилия и разработали общие Стандарты для образовательного и психологического тестирования (Standards for Educational and Psychological Tests and Manuals, APA, AERA & NCME), которые обновлялись и дорабатывались в 1974, 1985, 1999, 2009 и 2013 (с обозначенной датой публикации в 2014) годах. Сами организации-разработчики не занимаются сертификацией тестов, зато продают стандарты как отдельный продукт, которым пользуются множественные агентства, занятые сертификацией и аккредитацией профессионалов, а также фирмы-разработчики тестов. На стандарты APA, AERA & NCME широко ссылаются в судебных процессах, преимущественно, трудовых спорах.

Параллельно со стандартами APA, AERA & NCME в 1981 году появились Стандарты для образовательного тестирования компании ETS, ставшие частью корпоративной политики этого крупнейшего разработчика тестов, которые обновлялись в 1987 и 2000 годах. Стандарты APA, AERA & NCME и стандарты ETS очень схожи, с той разницей, что стандарты ETS создавались под специфические продукты ETS, в то время как APA, AERA & NCME старались разработать процедуры аудита для максимально широкого спектра инструментов. Стандарты ETS интересны еще и тем, что это внутренние стандарты компании (хотя аудит проходит в ряде случаев с привлечением внешних экспертов). Для реализации внутрикорпоративного аудита (с регулярностью минимум раз в три года) создан специальный отдел обеспечения качества корпоративной продукции. Все эксперты проходят подготовку и кроме критики должны вносить предложения по коррекции замеченных недостатков. Участвовать в аудите имеют право клиенты (им же открыты результаты экспертизы). Модель оценивания очень гибкая, поскольку для оценки разных продуктов могут привлекаться разное количество экспертов и даже команд экспертов, им предоставляется разное количество материалов и разное время для работы. Как будет показано дальше, в других моделях организационные аспекты аудита одинаковы для любого оцениваемого инструмента.

Для аккредитации программ по отбору персонала в США существует Национальная комиссия сертификационных агентств (NCCA), которая является подразделением Национальной организации по удостоверению компетентностей (National Organization for Competency Assurance (NOCA). В отличие от центра Буроса, в NCCA занимаются аккредитацией только программ по отбору персонала. Компания может обратиться за аккредитацией, только если их программа проработала уже год или по ней были оценены хотя бы 500 кандидатов. Стандарты NCCA были выпущены в конце 1970-х гг. и переработаны в 2002 году. В NCCA сообщают, что их стандарты согласуются со стандартами APA, AERA & NCME и применимы ко всем профессиям и индустриям. В качестве непрерывного мониторинга, аккредитованные организации обязаны ежегодно присылать годовой отчет в течение всего пятилетнего аккредитационного периода.

Наконец, необходимо упомянуть Американский национальный институт стандартизации (ANSI, The American National Standards Institute), который является членом Международной организации по стандартизации (ISO). ANSI занимается только двумя программами сертификации: для менеджеров безопасности пищевой промышленности (стандарты были разработаны на основе материалов Конференции о защите пищи, Conference for Food Protection) и программой аккредитации персонала, основанной на международных стандартах ISO/IEC 17024 (2003), которой пользуются многие правительства американских штатов. Это общий национальный стандарт для агентств по сертификации персонала.

1.2 Голландия

В Европе страной-лидером по развитию инфраструктуры для тестирования являются Нидерланды. В 1959 году был основан Комитет по тестированию Нидерландов (COTAN), членами которого оказались сотрудники факультетов психологии каждого из девяти голландских университетов, а также практикующие психологи из разных областей. Результатом их работы стали «Документация о тестах и тестовых исследованиях» (Documentation of Tests and Test Research) и Система экспертизы качества тестов (The system for rating test quality).

В «Документации о тестах и тестовых исследованиях» содержится описание всех доступных в Нидерландах тестов и выдержки из научных исследований. Критерием для размещения теста в Документации является наличие опубликованного исследования норм, надежности и валидности данного теста, проведенного на голландской выборке. Первый сборник Документации вышел в 1961 году и содержал описание 247 тестов. Новые выпуски появлялись с интервалом 4-10 лет -- в то время в виде разрозненных дополнений. Самое последнее издание (2009) оцифровано и обновляется ежемесячно. В нем содержатся описания и рейтинги качества более чем 650 тестов. Первая система экспертизы качества тестов появилась в Нидерландах в 1969 году. Она была переработала в 1980 году (с опорой на американские стандарты АРА 1974 года), в 1997 и 2009 годах. Тесты могут быть заявлены на аудит разработчиками, а могут быть отобраны CoTAN. Согласно процедуре, два независимых эксперта оценивают тест, затем с помощью редактора согласуют общий вариант своих рецензий. Автор/издатель теста получает возможность увидеть отзыв до публикации и отреагировать на замечания. В некоторых случаях рецензенты могут пересмотреть вынесенное решение, если автор/издатель убедительно обоснует качество своего продукта. Последний этап - публикация рецензии. Эксперты-обозреватели остаются анонимными даже после публикации и работают бесплатно.

Следует отметить, что CoTAN (Комитет по тестированию Голландской психологической ассоциации) не единственный в своей стране орган, занятый в области качества тестирования. В начале 2000-х гг. в Нидерландах был создан Институт наилучших тестовых практик (Institute for Best Test Practice, 4TP), сходный по своим целям со шведским институтом STP (см. ниже). 4ТР предназначен для оценивания качества тестирования и оценивания на рабочем месте (в отличие от преимущественно образовательного и клинического направления CoTAN), процедуры его работы опираются на рекомендации ITC и инструменты, разработанные в Британии и Швеции (BPS и STP); в институте также созданы программы аудита тестов по критериям EFPA (см. ниже) и по аудиту тестирующих организаций. Руководящий принцип работы 4ТР это прозрачность: стандарты должны быть открытыми и доступными для всех, также как и результаты исследований и экспертизы тестов, проведенных институтом, которые публикуются в интернете (в виде каталогов сертифицированных пользователей тестов, а также прошедших аудит тестов и организаций). Таким образом, информация о качестве подготовки специалистов и инструментов, подготовленная в 4ТР, доступна всем заинтересованным пользователям.

1.3 Британия

В отличие от США и Голландии другие страны, присоединились к движению экспертизы тестов сравнительно недавно. В Соединенном Королевстве тестовые рейтинги публикуются регулярно с 1990 года. Изначально направление разработки тестовых стандартов задали две спонсируемые государством программы: экспертиза профессиональных тестов и экспертиза методик для профориентации молодежи. Работа проводилась под эгидой Британского психологического общества (BPS). Схожие стандарты для образовательных тестов появились в 2004 году. Публикуемые обзоры тестов были рассчитаны на потребителей, поверхностно знакомых с психологией и психометрикой (например, сотрудников отделов кадров), а не научную среду. Специально созданная для целей экспертизы организация Психологический центр тестирования (Psychological Testing Center) разработала рекомендации по сертификации и обзору бланковых тестов, компьютерных тестов, методик «ассессмент-центров» и «360 градусов», создавая эти рекомендации совместно с соответствующими профилю тестирования организациями (например, план экспертизы методик «360 градусов» помогали создать Правительственный институт развития кадров, Университет Суррея в Роэгэмптоне, компания SHL Group (известный разработчик методик оценивания на рабочем месте) и Министерство торговли и промышленности). Процедура экспертизы была бесплатной для издателей тестов (хотя их просили предоставить в распоряжение Центра по четыре набора тестовых материалов, чтобы два независимых оценщика и редактор провели аудит), расходы покрывались прибылью от продаж опубликованных обзоров (в 1990х гг.). Оба эксперта получали гонорар, а редактор был на ставке в BPS. Во время оценивания теста эксперты сохраняли анонимность, но их имена печатались под опубликованными рецензиями. В 1998 г. вместо Дэйва Бартрама пост редактора заняла Патриция Линдли, при ней был опубликован последний бумажный том рецензий тестов, после чего рецензии стали публиковаться в интернете, а разработанную самостоятельно систему экспертизы заменила европейская модель экспертизы тестов. Однако команда Линдли сохранила своеобразие выработанных процедур оценивания и использования их результатов, свойственное именно Британской системе экспертизы тестов. В интернете стали выкладываться данные о прошедших добровольную сертификацию пользователях тестов (таких насчитывается около 7000-8000 человек). Сертификация пользователей является платной процедурой (от них требуется ежегодный взнос), поэтому их списки публикуют онлайн, чтобы принести практикам больше пользы и профессионального паблисити. Кроме того сертифицированные пользователи в качестве бонуса получают бесплатный доступ к рецензиям тестов, в то время как все остальные платят по 5 фунтов за доступ к рецензии конкретного теста. В 2005 году в ВPS также была введена процедура регистрации теста, смысл которой заключается в том, что разработчик может добровольно и платно зарегистрировать свой тест, показав, что инструмент психометрически «безопасен» (имеет показатели надежности, валидности и нормы хотя бы на минимально-достаточном уровне). Регистрация тестов отличается от экспертизы тестов тем, что она не показывает, насколько хорош оцениваемый инструмент. Регистрация показывает лишь, что он соответствует минимальным техническим стандартам.

1.4 Германия

В 2006 г. централизованный аудит тестов был начат в Германии, где его с тех пор осуществляет Национальный институт стандартизации, что достаточно необычно, поскольку в большинстве стран наибольшую активность в разработке или применении стандартов для тестирования проявляют национальные психологические общества. В Германии для экспертизы тестов пользуются собственной моделью, основанной на стандарте для оценивания профессионализма сотрудников организаций DIN 33430. Особенность стандарта DIN 33430 заключается в том, что он процедурный (в нем в равной степени предусматриваются требования к интервью, ассессмент-центру, тестам, а экспертиза относится ко всему процессу: не только к качеству инструмента-теста, но и к тому, кто проводит оценивание, в какой обстановке, правильно ли проводится администрирование). Оценивание теста проходит в четыре этапа. Сначала специальная комиссия выбирает тест и назначает двух независимых экспертов, обеспечивая их материалами. На первом этапе эксперты по подготовленным разработчиками чек-листам оценивают, все ли требования стандарта DIN 33430 соблюдены, то есть, пригоден ли тест для аудита. На втором этапе они категоризируют тест по критериям EFPA и ZPID (Институт психологической информации Лейбница, Leibniz-Institute for Psychology Information) для дальнейшего его размещения в базах данных. Третий шаг - это собственно оценка инструмента по немецкой модели. Эксперты в частично-свободной и частично-структурированной форме пишут отзыв на 1000 знаков по 7 критериям (1. Общая информация о тесте, описание, цели, 2. Теоретические основания, 3. Объективность. 4. Нормы. 5. Надежность, 6. Валидность, 7. Качество (устойчивость к подделке, ошибке), и общее заключение на 2000 знаков. От работы по европейской модели этот этап отличает то, что эксперты могут пользоваться только публично доступной информацией (в европейской модели эксперты могут пользоваться любой информацией, полученной от авторов теста), т.к. обзор теста рассчитан на рядового пользователя. Затем комитет просит экспертов (которые узнают друг о друге только на этом этапе) создать согласованную версию обзора (до 12 тысяч знаков), которую дают разработчикам/издателю на ознакомление (с возможностью внести поправки после реакции издателя/разработчиков). Отзывы публикуют в национальных журналах по психологии, а когда публикация уже вышла, размещают в свободном доступе в интернете (http://www.bdp-verband.de/psychologie/testrezensionen/index.html). В 2009 году были внесены некоторые поправки в процедуру экспертизы тестов (например, изначально требовалось, чтобы хотя бы один из экспертов был сертифицирован на работу по стандарту DIN 33430, но поскольку эту сертификацию проходят обычно психологи, работающие по отбору персонала, то требование оказалось несправедливым для других сфер, клинической психологии или образования и ограничивало круг экспертов, поэтому его отменили). От начала аудита теста до публикации резюме проходит обычно год.

1.5 Швеция

В Швеции еще в 1996 году был основан институт Stiftelsen fцr Tillдmpad Psykologi (STP), предназначенный для сертификации пользователей тестов, экспертизы тестов, аудита качества тестовой политики организаций и работы с жалобами испытуемых. Процедуры оценки качества тестов были основаны на рекомендациях Международной тестовой комиссии ITC (Guidelines on Test Use) и британской модели (модели Британского психологического общества, BPS). В 2000-х гг. общество Det Norske Veritas (DNV) инициировало проект по сертификации пользователей тестов в Норвегии, Швеции и Дании (совместно с Норвежской психологической ассоциацией, шведским институтом STP и представителями Дании), таким образом, объединив центры аудита тестов в трех странах.

1.6 Финляндия

Оценка качества тестов в Финляндии была инициирована как реакция на директиву Европейского Союза о защите личных данных. Данная директива повлияла на все страны Евросоюза, поскольку в ней предписано, как можно и нельзя использовать данные тестирования, обозначены права испытуемых на свои результаты и данные, а также сказано, что можно и чего нельзя делать с данными испытуемых. Изначально «подобающие практики тестирования» описывались с учетом, в первую очередь, тестирования на рабочем месте и включали в себя сертификацию пользователей тестов. Позже в Финской психологической ассоциации были разработаны процедуры сертификации пользователей тестов, которые различаются для психологов и не-психологов (например, специалистов отделов кадров или педагогов).

1.7 Бразилия

Экспертиза тестов в Бразилии началась в 2003 году с использованием модели, построенной как комбинация европейской модели со стандартами APA, AERA & NCME. К 2011 году в Бразилии было отрецензировано 209 тестов. Сдать инструмент на рецензию может только автор/издатель. Каждый тест оценивают дважды, сначала независимый эксперт, а затем консультирующий комитет психологической оценки, который действует как одно лицо. Если возникают споры, к работе привлекается еще один независимый эксперт, который не знает о предыдущих результатах. Затем комитет представляет результат на одобрение на пленарном заседании Бразильского федерального совета по психологии. Имена экспертов не публикуются, эксперты работают бесплатно. Согласно резолюции Бразильского федерального совета по психологии от 2003 г, только те тесты, что прошли экспертизу, могут использоваться психологами на территории Бразилии (и даже продаваться эти тесты должны только психологам, зарегистрированным в Совете), но эта резолюция не имеет законодательной силы. Ключевой момент Бразильской модели - это требование доказательств адекватной адаптации инструмента, поскольку большинство рецензируемых инструментов - переводные.

1.8 Международные стандарты

Над вопросами улучшения качества тестов и процесса тестирования работают крупные международные организации, такие как EFPA, ITC, ISO.

Международная тестовая комиссия (ITC, International Test Commission) была основана в 1978 году как объединение для национальных ассоциаций психологов, комиссий по тестированию, разработчиков и издателей тестов. Ее цель - способствовать обмену информацией между профессионалами тестологии и решать затруднения, связанные с созданием, распространением, использованием психологических и психодиагностических инструментов. ITC опубликовала ряд руководств (по адаптированию тестов, использованию их в бланковой и компьютерной или интернет-форме, по сообщению результатов и пр.).

Международная организация по стандартизации (ISO) опубликовала в 2011 году стандарт 10667, в котором регулируются различные аспекты оценивания людей на рабочем месте (кадровая политика). Стандарт разработан с учетом возможности дальнейшего внедрения рекомендаций других стандартов, созданных EFPA и ITC.

Европейская федерация психологических ассоциаций (EFPA) объединяет 35 стран, в том числе не из Евросоюза. В 2002 году EFPA опубликовала Европейскую модель оценки качества тестов (EFPA Test Review Model), основанную на существовавших ранее моделях: британской и голландской (работа над евромоделью была начата в 1999 году). В связи с изменениями в практике тестирования (распространением компьютеризированного и интернет-тестирования, расширением использования моделей IRT и пр.) модель была доработана и ее новая версия вышла в 2013 году. Сегодня европейская модель оценки качества тестов используется в Соединенном Королевстве, Норвегии, Испании и Швеции, и, согласно сведениям разработчиков «находится в процессе перевода/внедрения в Чехии, Венгрии, Литве, России» (на практике это означает, что на эти языки были с ведома EFPA сделаны переводы европейской модели, одобренные национальными психологическими ассоциациями). На русский язык (под эгидой Российского психологического общества) была переведена только устаревшая версия модели 2008 года.

1.9 Сравнительные особенности моделей экспертизы тестов

Попытки сравнения различных национальных систем уже принимались (например, сравнение Европейской модели, внедренной в Британии, голландской модели, бразильской, немецкой и американской модели Буроса, см. Evers, 2011). Отмечая организационное своеобразие и содержательные различия национальных моделей экспертизы тестов (европейскую модель, внедренную в Британии можно считать национальной, поскольку принятые в ней процедурные решения свойственны именно британскому варианту), Арне Эверс, один из разработчиков голландской и производной от нее европейской моделей, делает вывод, что все системы приспособлены к функционированию в условиях своих культур, а различия между ними объясняются юридическими, культурными и политическими причинами.

1.10 Современное состояние экспертизы тестов в России

Попытки ввести стандарты тестирования в области образования и психологии в России производились несколько раз.

Согласно приказу Министерства образования Российской Федерацииот 17 апреля 2000 г. № 1122 «О сертификации качества педагогических тестовых материалов», функция головного учреждения в системе Минобразования России по сертификации качества педагогических тестовых материалов, используемых для оценки знаний студентов высших и средних специальных учебных заведений, была возложена на Исследовательский центр проблем качества подготовки специалистов Московского государственного института стали и сплавов (технологического университета). А сертификация качества педагогических тестовых материалов, используемых для оценки знаний обучающихся во всех типах общеобразовательных учреждений и учреждениях начального профессионального образования, была передана Институту общего среднего образования Российской академии образования.

4 июля 2008 года РПО (Российское психологическое общество) опубликовало постановление, касающееся распространения и использования психодиагностических методик. Согласно ему, методики, выкладываемые в открытом доступе, считаются лишенными профессионального статуса «поскольку это ведет к несанкционированному и непрофессиональному использованию методик, приводит к неадекватным результатам (в связи с рассекречиванием методик для потенциальных испытуемых), нарушает права человека, может нанести вред здоровью и психическому благополучию обследуемых», а проведение методик предполагается ограничить кругом прошедших регистрацию профессионалов. 28 июля 2008 в РПО было принято «Положение о системе добровольной сертификации психодиагностических методик».

Для «регистрации профессионалов» в сентябре 2009 г. РПО зарегистрировало в Минюсте «Национальный институт сертификации профессиональных психологов». При нем аккредитован созданный на базе факультета психологии Южно-Уральского университета НОЦ «Психодиагностика» (директор Н.А. Батурин). Результатом работы НОЦ стала публикация в 2010 г. «Ежегодника профессиональных рецензий психодиагностических методик» под редакцией проф. Эйдмана и проф. Батурина. В сборнике содержатся рецензии 40 экспертов на 20 российских методик. Сборник организован по аналогии с «Ежегодниками психических измерений Буроса».Другие материалы, выложенные на сайте НОЦ, (например, каталог экспертов, в котором указывается область профессиональных интересов, либо дается пометка «универсальный эксперт»), тоже организованы с ориентиром на практику Центра тестирования Буроса. Экспертиза тестовой методики в НОЦ (эта услуга называется «Оценка соответствия психодиагностической методики требованиям Системы добровольной сертификации в области психодиагностики») стоит 10.000 руб. Других ежегодников после 2010 года не выходило.

2. Теоретическая часть

Международная практика показывает, что в странах, где еще нет собственной системы экспертизы тестов, встает вопрос о подходах к ее созданию: это может быть разработка своей модели или заимствование одной из готовых международных. Оказывается, что, несмотря на большое количество существующих моделей простого заимствования одной из них недостаточно - при этом возникают те же сложности, что и при адаптации переводного теста: в существующих системах кроме объективных научных требований содержится и национальная специфика (см. выше выводы Эверса). Например, в американских моделях отражены нормы законов о тестировании, в немецкой модели учтены характерные для Германии взаимоотношения надзирающих органов, в голландской модели очевидна длительная и сильная традиция тестирования в стране (а в бразильской модели учтен тот факт, что их традиция тестирования сильно отстает от голландской) и пр. Европейская модель, хотя и носит название международной, тоже вобрала в себя особенности систем, на основе которых была разработана (свойственную немецкой и английской системе подробную категоризацию теста, немецкую систему чек-листов, голландский подход к оценке собственно качеств теста). Таким образом, кроме оценки качеств инструмента в европейской модели содержится условно-нужная функция категоризации теста и отсутствуют вопросы о процедурах администрирования и информационной безопасности, актуальные для России.

2.1 Специфика разрабатываемой модели

К особенностям российской ситуации с тестированием можно отнести отсутствие традиции тестирования, повлекшее следующие факторы:

· Отсутствие у профессионалов (педагогов, психологов-практиков, работников отделов кадров) базовых знаний по психометрике и понимания, как отличить качественный инструмент от некачественного.

· Использование в практике работы (в том числе в ситуациях высоких ставок) инструментов с неизвестными или неудовлетворительными психометрическими свойствами. Неумение интерпретировать результаты исследований по надежности и валидности.

· Отсутствие у тестов документации (руководство пользователя и техническое руководство, либо недостаточность их содержания.

· Ненадлежащая практика администрирования тестов (отсутствие стандартизации условий проведения, недостаточная защищенность баз данных, отсутствие подготовки профессионалов-администраторов теста).

· Отсутствие доверия как у населения, так и у многих практиков к валидности и легитимности результатов.

В связи с этим можно предположить, что российскую модель экспертизы инструментов оценивания должны отличать следующие особенности:

· Более мягкие требования к показателям надежности и валидности, кроме тестов высоких ставок (ближе к бразильской модели, чем к голландской или европейской).

· Ориентация модели экспертизы тестов не только на экспертов, но и на разработчиков (как стандарты ETS).

· Наличие раздела, посвященного оценке разработке инструмента с вопросами обосновать выбор модели (если тест создавался в рамках IRT), о выравнивании результатов, доказательствах эквивалентности форм и вариантов и т.п. То есть, оценка исследований, которая не проводится в голландской или европейской моделях.

· Требования наличия руководства пользователя с подробным описанием процедур администрирования, подсчета баллов, интерпретации результатов.

· Максимальная публичность и открытость стандартов, доступ к ним в сети Интернет, понятность изложения и обоснованность требований-критериев.

· Ссылки на отечественных экспертов (в части теории).

Чтобы всесторонне адаптировать систему оценивания тестов, можно воспользоваться также междисциплинарным подходом, а конкретнее, использовать для разработки критериев оценивания качества измерительного инструмента семиотическую модель Гюнтера Кресса и Тео ван Люэна. Семиотическая модель Кресса-Ван Люэна была разработана для анализа любой информационной целостности и состоит из четырех категорий:

· Дискурс (Discource)

· Дизайн (Design)

· Производство (Production)

· Распространение (Distribution).

Таким образом, анализ теста (типичного мультимодального объекта) будет строиться по четырем направлениям:

1. Дискурс - показывает место инструмента среди аналогов.

2. Дизайн - это качество собственно инструмента, его нормы, надежность, валидность, справедливость, обоснованность выбора шкал ит.п.

3. Производство - это материальная реализация теста, качество тестовых материалов для бланкового и компьютерного (если предусмотрено) тестирования, качество составления мануалов (технического и для пользователя), и

4. Распространение - это анализ предусмотренных для проведения процедур теста (информационная безопасность, процедуры администрирования, способы сообщения результатов тестирования).

«Дизайн» и до некоторой степени «Производство» тестов оценивается во всех моделях оценивания, поскольку эти части охватывают требования собственно к методам и процедурам разработки теста и исследованиям его качества (Дизайн) и к материальной реализации материалов (верстка бланков, качество печати или интерфейса программы тестирования и т.п. - речь идет не столько о содержании, сколько об «информационном дизайне» и внешнем виде/эстетике/соответствии нормативам). Оценить «Распространение» теста в рамках экспертизы документов, без наблюдения за администрированием инструмента, практически невозможно. Требования к стандартам проведения тестирования не входят в международные модели оценивания, они изложены в отдельном документе Международной тестовой комиссии, который можно считать скорее этическими рекомендациями, чем строгими стандартами. Однако с целью предусмотреть стандартизацию процедур проведения тестирования, разработчики могут включать в руководство пользователей подробные описания процедур тестирования. Наличие подобных описаний и может быть оценено в модели. Наконец, раздел «Дискурс» позволяет посмотреть на тестирование как на деятельность, в значительной степени зависящую от сферы применения инструмента. У трех экспертов с сопоставимым опытом работы в области разработки/использования тестов, но занятых, соответственно, в сфере оценки персонала, клинической психологии или международных исследований достижений учащихся, требования к тестам и представления о тестологии будут различаться. Требования к свойствам инструментов должны варьироваться в зависимости от сферы и контекста тестирования. В данной работе рассматривается создание модели для оценки образовательных и личностных тестов (насколько они могут быть связаны с образовательными задачами).

2.2 Процесс разработки модели и направления оценивания

В основу предложенной модели легли наработки двух существующих систем: европейской модели EFPA 4.2.6 (2013 года) и голландской модели CoTAN (2009 года). Работа над создаваемой моделью проводилась в следующем порядке:

1. Перевод критериев базовых моделей. Полностью был осуществлен только перевод голландской модели (см. Приложение А), поскольку официальный перевод евромодели уже существует и, с внесением необходимых правок (так как на русский была переведена устаревшая версия евромодели) мог быть использован для анализа системы.

2. Объединение критериев по семи направлениям (см. ниже). Группы критериев (так называемые, направления оценивания) были преимущественно заимствованы из базовых моделей и объясняются логикой требований тестологии (например, направления «Нормы», «Надежность», «Валидность»), однако часть разделов была перегруппирована (скажем, раздел «Валидность», разнесенный в европейской и голландской моделях на критериальную и конструктную валидность, был объединен в общее направление).

3. Доработка пояснений критериев и дополнение ссылками на отечественных экспертов. Разные авторы дают различающиеся ориентиры по требования к размерам выборок и величинам показателей надежности и валидности. По возможности, была предпринята попытка цитировать отечественных авторов-практиков. Кроме того, в голландской и европейской моделях нет различий по требованиям к тестам из разных сфер (т. е. образовательные, личностные, профессиональные тесты должны оцениваться по единым стандартам, в то время как сегодня актуальны исследования по специфике критериев качества для инструментов оценивания из разных сфер), в связи с чем в разрабатываемой модели была использована доступная информация по дифференциации требований к инструментам из разных областей применения.

4. Аудит получившейся модели у внешних экспертов и внесение правок. В качестве экспертов были привлечены директор Центра оценки качества образования ИСМО РАО Ковалева Г.С. и руководитель учебной программы «Измерения в психологии и образовании» НИУ ВШЭ и ИРО Орел Е.А.

5. Пробное оценивание инструмента тестирования по критериям модели (апробация) и внесение правок. Образовательные методики, разработкой которых занимается Центр мониторинга качества образования, создавались с оглядкой на голландскую модель экспертизы тестов, из-за чего требования этой системы уже учитывались в них, поэтому для чистоты эксперимента для пробного оценивания была использована «внешняя» методика - личностный «Краткий тест жизнестойкости» (авторы Осин Е.Н. и Рассказова Е.И.).

Разработанная модель состоит из следующих направлений оценивания теста:

1. Руководство по использованию теста. В данном разделе оценивается качество составления руководство для пользователей. У теста может быть несколько категорий пользователей, имеющих разные полномочия, но для всех них инструмент должен быть описан полно и ясно. Необходимость составления руководств еще не стала частью отечественной традиции тестологии, информацию о многих новых инструментах до сих пор можно встретить только в научных статьях разработчиков, либо в форме «методичек», объединяющих самую разнообразную информацию об инструменте. В предложенной модели описание критериев оценки руководства пользователя составлялось таким образом, чтобы этими критериями можно было пользоваться как инструкцией к составлению руководства пользователя теста.

2. Техническое руководство. Как и в случае с руководством пользователя, техническое руководство еще не стало в нашей стране обязательным документом, сопровождающим любой серьезный инструмент. Техническое руководство должно содержать подробную и полную информацию о тесте, позволяющую специалисту обоснованно оценить качество и применимость инструмента. Среди специалистов тестологии существует мнение, что такие трудоемкие документы как руководство пользователя и техническое руководство необходимы не всем тестам, однако они (или их информационные аналоги) обязательно должны присутствовать у массовых тестов и тестов высоких ставок.

3. Качество реализации тестовых материалов. В данном разделе оцениваются материалы для бланкового (3.1 Качество реализации тестовых материалов -- бланковое тестирование) и компьютеризированного тестирования (3.2 Качество реализации тестовых материалов (компьютерное или интернет-тестирование) с точки зрения их информативности, понятности, эстетичности, соответствия санитарным нормам. Эксперт оценивает не только верстку бланка, но и качество бумаги и печати, качество цветопередачи, интерфейс программы, то есть не содержание, а исполнение инструмента.

4. Теоретические основы теста. Направление «Теоретические основы теста» было разделено на две части, в первой (4.1) оценивается подробность и убедительность описания теоретических основ теста, а во второй (4.2) описание проведенных исследований. Если в направлениях 1 и 2 (см. выше) эксперт проверял наличие в руководствах описаний соответствующего критерия, то здесь и далее он оценивает качество приведенного описания.

5. Интерпретация результатов. Тесты могут быть нормативно-ориентированными (НОРТ) или критериально-ориентированными (КОРТ). В голландской и европейской моделях тесты КОРТ подразделяются на собственно критериально-ориентированное тестирование (то есть, определение пороговых баллов) и предметно-ориентированное тестирование (domain-referenced tests), в котором пороговые/проходные баллы определяются на основе содержательных критериев. Однако в отечественной тестологии подобное дробление тестов КОРТ не поддерживается (см., например, Бурлачук «Психодиагностика», Шмелев А.Г. «Практическая тестология») и поэтому два раздела были объединены в один. В третьем опциональном подразделе оценивается качество составление формы обратной связи.

6.Надежность. В направлении оценивания «Надежность» оценивается качество исследований надежности инструмента. По возможности, в нем (а также в следующем разделе «Валидность») использовались рекомендации из отечественной научной литературы и предложено дифференциальное оценивание требований надежности для личностных и когнитивных тестов.

7.Валидность. В данном разделе оценивается качество исследований валидности теста. Как уже было сказано, в разрабатываемой модели не поддерживается разделение оценки валидности по двум отдельным направлениям («Критериальная» и «Конструктная валидность»).

Как и в исходных моделях, голландской и европейской, оценивание критериев предусматривает проставление баллов за них, с последующим выведением среднего балла по критерию. Шкала проставления баллов за критерии была сохранена по аналогии с европейской моделью (шкала «0 -- нет информации, 1 - неадекватно, 2 -- адекватно, 3 -- хорошо, 4 - отлично), однако эти баллы используются для удобства эксперта, помогая ему быстро вспомнить проведенную работу по оцениванию, а содержательную оценку каждого из направлений оценивания эксперт может выразить в небольшом (до 2000 символов) резюме по каждому из семи разделов.

2.3 Коррекция модели

В результате экспертной оценки был внесен ряд теоретических и стилистических правок (в частности, сложности вызвало использование терминологии, для которой в русском языке нет единого устоявшегося перевода, в таком случае было принято решение использовать несколько вариантов). Кроме того, стало очевидно, что необходимо сделать документ с комментариями к каждому критерию, в которых содержались бы как теоретические положения критериев, так и пояснения о процессе их создания/адаптации.

3. Эмпирическая часть

Для апробации методики использовалась «Краткая версия теста жизнестойкости» (разработчики Осин Е.Н., Рассказова Е.И.). В качестве тестовых материалов были предоставлены две научных статьи по результатам апробации теста и методичка, посвященная исходной (длинной) его версии. Поскольку тест разрабатывался по научному гранту и не выступает коммерческим продуктом, у него отсутствует сопроводительная документация (руководство пользователя и техническое руководство). Это позволяет проиллюстрировать необходимость повторов в критериях: поскольку оценка первых двух разделов модели (руководства пользователя и технического руководства) автоматически получает рейтинг 0 (нет информации), свойства теста полноценно исследуются в других разделах на материалах статей.

Ниже представлен оценочный бланк с усредненными оценками по данной методике:

В результате оценивания методики стало ясно, что опциональными («если применимо») могут считаться большее количество критериев, чем предполагалось изначально. Например, данная методика является сокращенной версией другой, уже существующей методики, поэтому вопросы о создании заданий для нее неактуальны, зато актуальны вопросы о методе отбора заданий для краткой версии теста. В модель были внесены изменения, сделавшие ее более гибкой (больше решений остается на усмотрение эксперта-оценщика).

В целом, очевидно, что для того, чтобы модель оценивания тестов можно было использовать в российских условиях, она должна быть приспособлена к уступкам и компромиссам (например, чтобы отсутствие руководства пользователя не считалось противопоказанием к экспертизе). Но при этом она должна быть достаточно подробной и соответствовать современным требованиям, чтобы по ней можно было оценивать тесты, разработанные по «западным» подходам (с соблюдением всех необходимых требований, этапов, с использованием современной теории тестирования и т.п.), поскольку таких инструментов в российской практике становится все больше.

тест экспертиза сертификация педагогический

Литература

1. American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Educational Research Association

2. Arne Evers, The Internationalization of Test Reviewing: Trends, Differences, and Results, International Journal of Testing, Volume 12, Issue 2, 2012, pages 136-156, DOI: 10.1080/15305058.2012.658932

3. Arne Evers, The Revised Dutch Rating System for Test Quality, International Journal of Testing, 1(2), 155-182

4. Arne Evers; Klaas Sijtsma; Wouter Lucassen; Rob R. Meijer, The Dutch Review Process for Evaluating the Quality of Psychological Tests: History, Procedure, and Results, International Journal of Testing, Nov 2010, DOI: 10.1080/15305058.2010.518325

5. Carmen Hagemeister, Martin Kersting & Gerhard Stemmler, Test Reviewing in Germany International Journal of Testing Volume 12, Issue 2, 2012 Special Issue: International Approaches to Test Reviewing DOI: 10.1080/15305058.2012.657922

6. Dave Bartram Concluding Thoughts on the Internationalization of Test Reviews, International Journal of Testing, Volume 12, Issue 2, 2012, DOI: 10.1080/15305058.2011.649869

7. Dave Bartram, Psychological Assessment, Standards and Guidelines for, Encyclopedia of Applied Psychology Elsevir, 2004, Pages 143-147, ISBN: 978-0-12-657410-4

8. Dave Bartram, The Development of International Guidelines on Test Use: The International Test Commission Project, International Journal of Testing, Volume 1, Issue 1, 2001, pages 33-53, DOI: 10.1207/S15327574IJT0101_3

9. EFPA review model for the description and evaluation of psychological and educational tests, test review form and notes for reviewers, Version 4.2.6, 2013

10. Evers A., Muniz J., Hagemeister C., Hstmжligen A., Lindley P., Sjцberg A., Bartram D. Assessing the quality of tests: Revision of the EFPA Review Model. Psicothema 2013, Vol. 25, No 3, 283-291, doi: 10.7334/psicothema2013.97

11. Evers, A. (2001b). The revised Dutch rating system for test quality. International Journal of Testing, 1, 155-182.

12. Evers, A., Sijtsma, K., Lucassen, W., & Meijer, R. R. (2010). The Dutch review process for evaluating the quality of psychological tests: History, procedure and results. International Journal of Testing, 10, 295-317.

13. International Guidelines for Test Use International Test Commission Published online: 13 Nov 2009.

14. International guidelines for test use Version 2000, ITC, 1999

15. Janet F. Carlsona & Kurt F. Geisingera, Test Reviewing at the Buros Center for Testing, International Journal of Testing, Volume 12, Issue 2, 2012 pages 122-135, DOI: 10.1080/15305058.2012.661003

16. Journal of Testing Volume 12, Issue 2, pages 176-184, 2012 DOI: 10.1080/15305058.2012.661817

17. Kress Gunter and Van Leeuwen Theo (2001) `Multimodal discourse. The modes and media of contemporary communication', Arnold, London.

18. Kurt F. Geisinger, Worldwide Test Reviewing at the Beginning of the Twenty-First Century International Journal of Testing, Volume 12, Issue 2, pages 103-107 2012 DOI: 10.1080/15305058.2011.651545

19. Lindley Patricia A., Bartram Dave, Use of the EFPA Test Review Model by the UK and Issues Relating to the Internationalization of Test Standards International Journal of Testing, Vol. 12, Iss. 2, 2012, doi:10.1080/15305058.2011.652267

20. Paula Elosua & Dragos Iliescu, Tests in Europe: Where We Are and Where We Should Go, International Journal of Testing, Volume 12, Issue 2, 2012 pages 157-175, DOI: 10.1080/15305058.2012.657316

21. Батурин Н.А. Современная психодиагностика в России: преодоление кризиса и решение новых проблем, 24 мая 2011г.

22. Ефремова Н. Тестовый контроль в образовании: Университетская книга, Логос; Москва; 2007 ISBN 5-98704-138-4

23. Карданова Е.Ю., Нейман Ю.М. Проблема выравнивания в современной теории тестирования // Вопросы тестирования в образовании. - 2003, № 8

24. Осин Е. Н., Рассказова Е. И., Краткая версия теста жизнестойкости: психометрические характеристики и применение в организационном контексте Вестн. Моск. Ун-та. сер. 14. психология. 2013. № 2

25. Осин Е.Н. Факторная структура краткой версии Теста жизнестойкости, Организационная психология, 2013.Т. 3. №3. С.. 42-60

26. Постановление Президиума Российского психологического общества от 4 июля 2008 года

27. Приказ министерства образования российской федерации от 17 апреля 2000 г. № 1122 «О сертификации качества педагогических тестовых материалов».

28. Тюменева Ю.А., Яременко А.А. Руководство для авторов, публикующих результаты разработки оценочного инструмента, Вопросы образования, №1, 2013 СС 301-306, Москва

29. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. - M.: Логос, 2002. - 432 с.

30. Шмелев А.Г. «Практическая тестология: Тестирование в образовании, прикладной психологии и управлении персоналом», М., «Маска», 2013.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.