Оценка психометрического качества теста основного государственного экзамена и единого государственного экзамена в РФ

Государственная итоговая аттестация - обязательный этап завершения обучения на образовательной программе, имеющей аккредитацию. Дискриминативность - характеристика тестовых заданий, говорящая о способности разделять испытуемых по уровню способности.

Рубрика Педагогика
Вид дипломная работа
Язык русский
Дата добавления 04.08.2016
Размер файла 479,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Введение

Государственная итоговая аттестация (ГИА) - это обязательный этап завершения обучения на образовательной программе, имеющей государственную аккредитацию (ст.59 №273-ФЗ «Об Образовании» от29.12.2012). Для завершения обучения на образовательной программе основного общего образования обучающему необходимо пройти ГИА в форме основного государственного экзамена (ОГЭ), а по образовательной программе среднего общего образования в форме единого государственного экзамена (далее - ЕГЭ). Помимо ГИА, результаты ОГЭ могут быть использованы при приеме учащихся в профильные классы общеобразовательных учреждений и учреждений среднего профессионального образования. Организация индивидуального отбора проводится в порядке, предусмотренном законодательством субъекта Российской Федерации. На территории Хабаровского края действует закон об индивидуальном отборе, позволяющий принимать в школы на программы с углубленным изучением отельных предметов или профильного обучения, на основе оценок аттестата за 9 класс и результатов ГИА по профильным предметам (ст.4 Закона Хабаровского края №316 от 30.10.2013). Результаты ГИА по профильным предметам - это результаты ОГЭ.

ОГЭ и ЕГЭ проводятся в крае уже довольно давно, и существует возможность связать результаты одних и тех же выпускников за 9 и 11 класс. В связи с этим интересно посмотреть, могут ли результаты ОГЭ предсказать результаты ЕГЭ через 2 года? Есть ли связь результатов ГИА? Существует ли преемственность двух форм ГИА на практике? Ранее изучалась связь результатов ЕГЭ и успешности обучения в вузе (Хавенсон Т.Е., Соловьева А.А. (2012), Польдин О.В. (2001)). Было показано, что результаты ЕГЭ являются сильным предиктором успешности на первом курсе института. Но в РФ не проводились исследования рассматривающие связь результатов на уровне среднего образования.

Необходимо отметить, что формы ГИА связаны между собой посредством общих подходов к разработке «кодификаторов элементов содержания и требований к уровню подготовки выпускников по математике». Кодификаторы обеих форм составлены на основе раздела «Математика» Федерального компонента государственного стандарта общего образования.

Цель работы состоит в исследовании связи результатов ГИА в 9 и 11 классах.

Задачи исследования: провести оценку психометрического качества теста ОГЭ и ЕГЭ, оценить прогностическую валидность ОГЭ, с учетом результатов ЕГЭ.

Исследовательский вопрос. Каков вклад результатов ОГЭ в результаты ЕГЭ?

В работе предполагается провести психометрический анализ качества тестов ОГЭ и ЕГЭ по математике, проанализировать результаты ОГЭ и ЕГЭ, построить регрессионные модели, с последовательным включением независимых переменных.

1. Тесты образовательных достижений

1.1 Тест образовательных достижений: экзамен с высокими ставками

«Психологический тест, в сущности, представляет собой объективное и стандартизированное измерение образцов (проб) поведения» (Анастази А., Урбина С., 2003). В данном определении отражено два важных свойства теста: объективность и стандартизация. Данное определение считается классическим, но с момента появления психологических тестов произошла переоценка критериев качественного теста. На сегодняшний день во главу угла для каждого теста ставится валидность и надежность.

Наибольший интерес в психологическом тестировании представляют тесты интеллекта. Следует отметить, что под интеллектом понимается, прежде всего, проявление познавательных процессов или функций (мышление, память, внимание). Поэтому именно в данную группу входят тесты в сфере образования. Образовательное тестирование делится на две возможные модели оценивания - «учебное достижение, как интегральная характеристика обучения (тесты достижений) и способность к будущему обучению (тесты способностей). Если тест способностей отражает влияние совокупного разнообразного опыта, получаемого учащимися, то тест достижений отражает влияние относительно стандартного курса обучения чему-то» (Поливанова К.Н., 2012).

Результаты тестирования могут использоваться для проведения процедур, на основе результатов которых «принимаются жизненно важные решения по продолжению обучения и затрагиваются интересы миллионов граждан» (Решетникова О.А., 2012), поэтому данный вид тестов так же называют «экзамен с высокими ставками». Так как от результатов экзаменов зависит дальнейшая судьба человека, то к данному типу тестов предъявляются высокие требования по стандартизации, объективности, надежности и валидности. Остановимся подробнее на перечисленных свойствах тестов.

Под стандартизацией имеется в виду «единообразие процедуры проведения и оценки выполнения теста» (Анастази А., Урбина С., 2003). Для обеспечения возможности сравнения результатов экзаменов, проводимых в разное время на разных группах испытуемых, необходимо обеспечивать одинаковые условия проведения тестирования. Для проведения стандартизированного тестирования, разработчиками теста должна быть дана подробная инструкция по проведению тестирования. Инструкция должна включать указания по использованию материалов тестирования, ограничению времени, инструкций для испытуемых, примеры заданий, критериев оценивания и других нюансов. Критерии оценивания или нормы - это отдельный вопрос стандартизации теста. В тестах, критерии успешного выполнения или пороговые значения устанавливаются на основе эмпирических данных, полученных по результатам тестирования репрезентативной выборки. Таким образом, нормы, установленные на репрезентативной выборке, позволяют определить положение (рейтинг) испытуемого относительно среднего или типичного значения.

Под объективностью понимается «независимость оценивания от субъективного мнения специалиста, проводящего тест». Объективность может обеспечиваться через стандартизацию процедуры проведения, автоматизацию обработки результатов, установление единыхкритериев проверки теста (в случае проверки теста экспертами), установление характеристик заданий (например, трудностей) на основе данных стандартизированной выборки и т.д.

Еще одна важная характеристика теста - это надежность, то есть согласованность оценок обследуемого при повторном тестировании или тестировании эквивалентной формой. Такое определение надежности характерно для психологии. В психометрии под надежностью понимается, насколько тест свободен от ошибки измерения. Надежность позволяет ответить на такие вопросы как: хорошего ли качества тест и действительно ли тест отвечает назначению. Надежность теста проверяется через сравнение результатов одних и тех же испытуемых через некоторый промежуток времени, или сравнение результатов одних и тех же испытуемых, при предъявлении им разных наборов заданий, но эквивалентной формы. При оценке надежности важно указывать тип надежности, способ ее определения, характеристики и размер выборки. Данная информация важна для прогнозирования стабильности оценки надежности.

Так же важно знать валиден ли тест, то есть «измеряет ли тест то, для чего он предназначен, и в какой степени» (Анастази А., Урбина С., 2003). Существует множество типов валидности, для каждого типа используется свой метод ее оценки. Например, для оценки, самой используемой, критериальной валидности необходимо проводить оценку согласованности с внешними критериями конструкта, который, по идее, измеряет тест. Для оценки согласованности удобно использовать корреляционный анализ, где коэффициент корреляции будет являться коэффициентом валидности. Оценка коэффициента валидности позволяет сделать вывод о соответствии результатов теста и критериев, высокий коэффициент валидности указывает на высокое согласие, а значит на высокую валидность.

Таким образом, качественный тест должен быть стандартизирован, объективен, надежен и валиден. Но не только к самому тесту выдвигаются требования, но и к проведению процедуры тестирования (или иными словами, процедуры оценивания). Очень важно соблюдать принципы организации такой процедуры, которые позволят улучшить качество оценивания и повысить доверие к результатам. Основные принципы можно сформулировать как обоснованность, устойчивость, прозрачность и открытость. Под обоснованностью понимается четкая аргументированность необходимости проведения оценивания, отбора выборки испытуемых, используемых методов, сроков, критериев оценки и прочих аспектов тестирования. Устойчивость процедуры тестирования - это ее отказоустойчивость, гибкость, превентивность, защищенность. Другими словами, устойчивая процедура тестирования должна подстраиваться под обстоятельства и изменяться под непредвиденные обстоятельства, сохраняя возможность сопоставить результаты. Принципы прозрачности и открытости обеспечиваются через информирование заинтересованных групп пользователей теста о сроках проведения, правилах участия, принципах оценивания, публикацию отчетов о проведении, консультацию по возможным дополнительным вопросам. Немаловажно понимать, что реализация принципа открытости не должна противоречить условиям информационной безопасности. В контексте проведения процедуры оценивания, информационная безопасность обеспечивается через реализацию мер защиты информации от несанкционированного доступа и искажения, процедуры от вмешательства посторонних лиц.

На сегодняшний день, во многих странах мира, в качестве вступительных испытаний используются экзамены, рассмотрим некоторые из них. Самый яркий пример - это общенациональные стандартизированные экзамены в США, такие как SAT (Scholastic Aptitude Test) и ACT (American College Testing). Особенность американской системы образования заключается в отсутствии единых федеральных стандартов для школ, но в каждом штате приняты свои стандарты. Когда речь заходит о вопросах поступления в вуз и способе измерения способности учеников, обучавшихся по разным стандартам, на помощь приходят указанные выше тесты.

Тест New SAT длится 3 часа, и дополнительно отводится 50 минут на написание эссе. Тест состоит из трех частей: доказательное чтение и грамматика, математика и эссе (по желанию). Фокус делается на знания, навыки и способность понимать прочитанное, что выделено как наиболее востребованное для дальнейшего обучения. В данной версии теста особое внимание уделено вербальному аспекту - анализ способности абитуриента корректно подбирать слова, анализировать смысл в зависимости от выбранного слова, тона и воздействия. Так же, в новой версии теста нет штрафа за неправильные ответы и за угадывание. Еще одно изменение с 2016 года - необязательное написание эссе. Раньше данное задание было в блоке грамматики и на него отводилось 25 минут. Теперь, эссе становится не обязательным и учебные учреждения сами выбирают - учитывать баллы за эссе для поступления или нет. Таким образом, абитуриент выбирает писать ли ему эссе зависимости от того, куда он хочет поступать. Для написания эссе абитуриенту предоставляются дополнительные 50 минут в конце теста.

Раздел доказательного чтения (то есть, чтения текста с последующим анализом логики выстраивания доказательства позиции автора) и математики оценивается по шкале от 200 до 800 баллов, эссе оценивается от 2 до 12, итоговые баллы варьируются в диапазоне от 400 до 1600 баллов. Результаты эссе не входят в итоговые баллы и сообщаются отдельно. С 2016 года результаты по каждому разделу сообщаются отдельно, что должно обеспечить (по задумке авторов) лучшее понимание результатов для абитуриентов, родителей, должностных лиц и преподавателей.

Доказательное чтение состоит из 52 вопросов, на которые отводится 65 минут. В данном разделе абитуриенту предлагается прочитать научно-познавательный текст и ответить на ряд вопросов на понимание прочитанного, установление аналогии, либо дополнения содержания. Задания представлены в виде вопросов с вариантами ответа. Чтение текста проверяет уровень словарного запаса, умение правильно подбирать слова в зависимости от контекста, умение анализировать прочитанный текст, умение находить связи между информацией и графиком, умение строить и анализировать гипотезы.

Раздел грамматики включает задания на знание английского языка. Всего предлагается выполнить 44 задания, на которые отводится 35 минут. В данных заданиях разработчики теста предлагают абитуриентам выступить в качестве редакторов и попробовать улучшить текст, исправив ошибки. Задания составлены в форме вопросов с выбором правильного ответа. Вопросы данного раздела направлены на оценку умения доказывать и аргументировать мысль, правильно использовать слова в контексте, умение анализировать текст, выражать свои мысли, правильно строить предложения.

Задания по математике включают в себя проверку знаний в области алгебры, статистики, геометрии с акцентом на умения решать практические задачи, моделирования, выстраивания стратегии, использования алгебраической структуры. Всего на математику отводится 80 минут, за которые студент должен решить 58 заданий. Задания предполагают выбор правильного ответа из предложенных вариантов, либо написание краткого ответа.

Необязательный раздел эссе включает одно задание, в рамках которого абитуриенту предлагается прочитать текст и объяснить, каким образом автор выстраивает аргументы, чтобы убедить читателя в своей правоте. На выполнение задания отводится 50 минут. В отличие от предыдущей версии теста, от абитуриента не требуют выразить свое отношение к позиции автора или делиться своим опытом. Оценка эссе производится по трем критериям. За каждый критерий можно получить до 4 баллов. Критерий чтения проверяет, как абитуриент понял текст, смог ли он определить основную идею. Критерий анализ указывает на то, что абитуриент выстроил логическую цепочку автора, увидел, как производится доказательство основной мысли и ее аргументацию. Критерий написание оценивает стиль написания текста абитуриента, эссе должно быть написано в соответствии с нормами письменного английского языка. (Спецификация SAT).

Совместно с SAT проводится SAT Subject Test (или SAT II). Данный экзамен сосредоточен на оценке уровня знаний в одной из пяти областей: английский язык (литература, грамматика), история (всемирная история, история США), естественные науки (химия, физика, молекулярная биология, экология и биология), иностранные языки (только чтение, только чтение и аудит). Тест содержит от 50 до 80 заданий, в зависимости от выбранной области.

Тест SAT I является тестом готовности и не проверяет конкретных знаний, а устанавливает насколько абитуриент готов к обучению. Тест SAT II является тестом знаний и его цель показать уровень знаний и умение пользоваться стандартными алгоритмами. Для примера рассмотрим на тест по математике в рамках SAT II. Математический раздел SAT II фокусируется на применении базовых знаний о количестве и числе, а так же на умении логически выстраивать решение задачи. От абитуриента не требуют сложных вычислительных навыков и знаний высшей математики, но в то же время абитуриент должен показать умение применять серьезные математические методы и математические знания в незнакомой им ситуации. Математический тест SAT II оценивает общий уровень знания абитуриента в математике, поэтому данный экзамен не рассматривается отдельно от SAT I (Зелман М., 2004).

Рассмотрим еще один экзамен в США. Тест ACT впервые был проведен в 1959 году и задумывался как конкурент SAT. Изначально тест состоял только из вопросов с выбором ответа. С 2005 года в тесте появилась письменная часть, а с 2015 года вводится компьютерная версия. Основная задача теста - определить уровень подготовленности абитуриентов к обучению на программах бакалавриата. Данный тест разрабатывается организацией American College Testing Program совместно с ETS.

ACT является стандартизированным тестом, поэтому его результаты принимаются по всей стране (так же как и тест SAT). Все задания (кроме письменной части) являются заданиями с выбором ответа. В тесте существует ограничение по времени, что влияет на результаты теста. Поэтому тест требует не только знаний от абитуриента, но и навыков решения тестов.

Тест состоит из четырех частей: английский язык, математика, чтение и наука. Так же в тесте имеется письменная часть, которая востребована в некоторых учебных организациях США. Часть по английскому языку состоит из 75 вопросов, на решение которых отводится 45 минут. В основном задания требуют исправить ошибки, которые проверяют знания грамматики, пунктуации, риторики и стилистического навыка организации текста. На 60 вопросов по математике отводится час. В математику включены такие разделы, как алгебра, геометрия и тригонометрия. Разрешено использовать непрограммируемый калькулятор. Часть чтения состоит из четырех текстов разной тематики и 40 вопросов по данным текстам. Как правило, первый текст является отрывком из художественного произведения, второй относится к социальным наукам, третий к вопросам культуры, искусства или гуманитарных наук и последний к естественным дисциплинам. На ответы дается 35 минут. На последнюю часть теста, сочинение на социальную тему, отводится полчаса. Важный момент, балл за итоговую часть не суммируется с общим результатом, в результатах балл за сочинение суммируется с баллом по английскому языку и выставляется отдельно.

Максимальный балл за тест - 36. Каждая часть оценивается до 18 баллов, кроме части сочинения, она оценивается до 12 баллов. Средний бал за четыре части, является композитной оценкой за тест ACT, которая и является результатом.

На официальном сайте SAT размещено сравнение описанных двух экзаменов, таблицаниже демонстрирует данное сравнение.

Таблица 1 - Сравнение SAT и ACT

Критерий

New SAT

ACT

Время проведения

180 минут + 50 минут на эссе

175 минут + 40 минут эссе

Структура

3 субтеста + эссе

4 субтеста + эссе

Количество заданий

154

215

Среднее время на вопрос

1 минута 10 секунд

49 секунд

Оценивание

400-1600 баллов
(эссе 2-8 баллов)

1-36 баллов
(эссе 2-12 баллов)

Сегодня, нет явных предпочтений в выборе экзамена, и все американские образовательные учреждения доверяют обоим экзаменам (Зелман М., 2004). Экзамены показали значимые результаты в способности предсказывать успеваемость, но между собой не показали значимых различий (Atkinson R.C., 2009). Так же, установлено, что они оценивают как знания по предмету, так и способности к обучению. Судя по результатам исследований, американские экзамены не различаются значимо по способности предсказывать успеваемость абитуриента в вузе (Atkinson R.C., 2009).

Для разработки тестовых материалов и заданий, организации, проводящие экзамен в Америке, приглашают учителей. Контент наполняется в зависимости от требований школ и вузов, для этого организуются специальные исследования призванные выявить потребности вузов и соотнести их с учебными планами школ (Ковалева Г.С., 2001)

Приведенные примеры экзаменов обладают всеми необходимыми свойствами, чтобы быть признанными качественными инструментами оценки. Процедура проведения оценивания стандартизирована и проходит одинаково во всех пунктах проведения. Принять участие в тестировании может любой желающий, в том числе и иностранный студент. Вся информация открыта и доступна для широкого круга лиц. На официальных сайтах присутствуют спецификации к тестам, примеры заданий, аналитические отчеты по пройденным этапам. Так же на официальных сайтах можно онлайн получить результаты и отправить их в вуз или колледж.

Следующий пример, это экзамен в Англии. По окончании средней школы, обязательным экзаменом является GCSE (General Certificate of Secondary Education), представляющий собой сертификат о получении среднего образования. Фактически, GSCE является аналогом аттестата о среднем полном образовании в России за тем исключением, что в GSCE отражаются только обязательные предметы, которые предусмотрены школой (обычно это 4-6 предметов), и предметы, которые выбрал сам ученик для изучения на углубленном уровне. В число обязательных предметов входят естественные науки, английский язык, искусство и дизайн, математика, иностранные языки, информационные технологии, физическая культура. Следует отметить, что экзаменационные тесты организуются и проводятся независимыми образовательными комитетами. В каждом комитете существуют предметные комиссии, которые отвечают за разработку заданий, в комиссии входят школьные учителя и преподаватели вузов. Для согласованности между разработанными тестами, все тесты должны быть проверены и утверждены Советом по программам учебных достижений SCAA (SCHOOL Curriculum and Assessment Authority), существующим при Министерстве образования (Ковалева Г.С, 2001).

Результаты экзамена оцениваются по семибалльной шкале, где «A» соответствует наилучшему результату и «G» наихудшему. В соответствии с Национальной Классификационной Таблицей (National Frameework of Qualification, NFQ), выпускнику присваивается уровень образования: первый уровень (Level 1) или второй (Level 2). Успешной сдачей экзамена считается присуждение первого уровня, только в этом случае выпускник может продолжить обучение в колледже или вузе.

По каждому экзамену на сайте правительства Великобритании представлены спецификации с указанием проверяемых областей знаний и проверяемых навыков. Так же существует интернет ресурс «Pearson», помогающий ориентироваться во множестве квалификационных экзаменов. По данным сайта, например, тест по математике проверяет знание и умение применять математические методы и понятия, умение выбирать и применять необходимые методы для решения поставленной задачи, умение делать математические выводы, интерпретировать математическую информацию различной формы представления. Тест включает такие области знаний, как вычисления, алгебра, геометрия, вероятность и статистика. В рамках блока «вероятность» необходимо рассмотреть выборку, показать ее свойства, уметь проинтерпретировать таблицы и графики, уметь строить диаграммы распределения, уметь анализировать и интерпретировать распределение наборов данных, применять статистические данные для описания популяции, понимать значение корреляции и уметь ее интерпретировать.[Mathematics GCSE subject content and assessment objectives, 2013).

В качестве еще нескольких примеров, рассмотрим опыт стран СНГ (республики Беларусь, Республики Армении и Республики Казахстана), так как «при создании системы оценивания они столкнулись с теми же проблемами, что были в Российской Федерации - это закрытость вступительных экзаменов, процветание коррупции, несправедливость и закрытость оценивания экзаменов, отсутствие объективности в результатах предоставляемых школами» (Решетникова О.А., 2013). Интересно то, что среди стран СНГ (в том числе и в Российской федерации) прослеживаются общие принципы создания национальных экзаменов:

· обеспечение согласованности между средним и высшим профессиональным образованием;

· использование тестов, как оценочных процедур;

· стандартизация процедуры проведения через унификацию правил проведения;

· автоматизация процесса обработки и оценивания и т.д.

Среди проводимых экзаменов есть и различия. Так, например, в Республике Беларусь экзамен для приема в вузы проводится сразу после ГИА. В Республике Армении ГИА проводится в две процедуры: для выпускников школ, не желающих продолжать обучение и для выпускников школ, планирующих поступать в вуз. Республика Казахстан использует единое национальное тестирование (ЕНТ), которое является ГИА и централизованным экзаменом независимого приема в вузы (Решетникова О.А., 2013).

Ежегодно ЕНТ проходят выпускники всех школ в Казахстане. Так как количество выпускников год от года увеличивается, то экзамен принято проводить по потокам. ЕНТ проводится на казахском и русском языках. Всего в тестировании заложено 5 предметов: язык (казахский и русский), математика, история Казахстана и один предмет по выбору, в зависимости от требований вуза, куда планирует поступать выпускник школы. Если выпускник не желает продолжать обучение в вузе, то он все равно выбирает предмет по выбору. По каждому предмету необходимо выполнить 25 заданий, общее время тестирования 3,5 часа. Задания соответствуют школьной программе и не выходят за ее пределы. Результаты оцениваются по 125 бальной шкале - 25 баллов за каждый предмет. Для стандартизации процедуры, существуют общие правила проведения экзамена доступные на официальном сайте Национального центра тестирования, который и проводит экзамен. Также для выпускников и заинтересованных групп пользователей доступны памятки и информационные бюллетени. Экзамен проводится полностью под ведением Министерства образования Казахстана. Интересной особенностью является то, что за доставку экзаменационных материалов отвечает Комитет национальной безопасности Республики Казахстан.

В Беларуси ГИА проходит в традиционной форме, а для продолжения обучения необходимо пройти Централизованное тестирование. За разработку теста отвечает Республиканский институт контроля качества знаний (РИКС), он же отвечает за хранение материалов. На базе института созданы специальные условия, которые позволяют обеспечить высокий уровень информационной безопасности. Доставку материалов осуществляет государственная спецсвязь. Так же институт отвечает и за обработку результатов экзамена, информирование всех групп заинтересованных пользователей, разработку аналитических отчетов. На сайте РИКС размещены спецификации по всем предметам и вся информация по экзамену. Результаты экзамена выпускники могут узнать онлайн через сайт РИКС.

Централизованное тестирование проходит по 14 предметам. Каждый предмет разбит на две части. Часть первая представляет собой вопросы с выбором ответа, количество вопросов варьируется от 38 до 48 в зависимости от выбранного экзамена. Вторая часть представляет собой вопросы с кратким ответом, всего может быть от 8 до 12 вопросов. Некоторые экзамены имеют повышенный уровень сложности. Время выполнения теста так же изменяется от 90 до 180 минут в зависимости от выбранного предмета. Экзамен считается успешно сданным, если преодолен минимальный порог, установленный для каждого предмета. Так, например, для математики, физики, химии и биологии неудовлетворительными оценками установлены баллы от 0 до 9. В то время как, для иностранного языка, истории и обществознанию неудовлетворительными результатами признаются баллы от 0 до 14 включительно (Постановление министерства образования республики Беларусь «Об определении отметок, приравниваемых к неудовлетворительным по результатам централизованного тестирования в 2016 году» №11 от 03.03.2016).

Система национальных экзаменов Армении разделена на экзамены по итогам основной школы (9 классов) и средней школы (12 классов). Причем в зависимости от желания выпускника продолжать или не продолжать обучение, экзамены за курс средней школы подразделяется на два вида.

Для выпускников окончивших основную и среднюю школу и не желающих продолжать обучение проводится централизованное тестирование с целью выявления успешности освоения пройденных программ. Тестирование состоит из вопросов с выбором ответа. Материалы экзамена разрабатывает Центр оценки и тестирования (ЦОТ) в зависимости от заявок учебных учреждений и направляет им материалы. За проведение и оценивание тестирования отвечают сами учебные организации.

Для выпускников средней школы желающих в дальнейшем обучаться в вузе проводится Единый экзамен. Данный экзамен оценивает успешность освоения программы среднего образования и выявляет выпускников наиболее способных к дальнейшему обучению в вузе. Экзамен состоит из двух частей: первая часть представляет собой задания с выбором ответа, вторая часть - так же задания с выбором ответа, но с повышенным уровнем сложности.

ЦОТ собирает данные о количестве выпускников, в соответствии с этими данными заказываются экзаменационные материалы в Великобритании. Для каждого пункта проведения экзамена материалы формируются заблаговременно. Пункты проведения располагаются на территории высших учебных заведений, укомплектованные средствами видеонаблюдения и глушения мобильной связи. К проведению экзамена привлекаются сотрудники вузов и студенты старших курсов, а так же специалисты Министерства образования. Абитуриенты, по окончании экзамена, получают копии своего бланка. Обработка бланков осуществляется автоматически: бланки загружаются в систему, распознаются, оцениваются. После получения первичных баллов, формируется шкала результатов. Результаты выдаются на руки в виде именных сертификатов. Опыт Армении интересен высоким уровнем защиты экзаменационных материалов (за защиту отвечает банковская система Республики Армении) и разработкой материалов за пределами страны (Вальдман И.А., Иванова Е.Б., Решетникова О.А., 2013).

Таким образом, в рассмотренных примерах национальных экзаменах приведены механизмы решения различных проблем от разработки и хранения тестовых материалов до сообщения результатов испытуемым и защиты информации, позволяющие говорить о высоком уровне стандартизации, контроле, надежности, открытости и прозрачности экзаменов. Страны решают вопросы ГИА и приемы в высшие учебные заведения в соответствии со своими потребностями и культурными особенностями, но все примеры соответствуют необходимым требованиям, позволяющим говорить о качестве применяемых процедур оценивания.

1.2. Оценка психометрических качеств теста образовательных достижений

В предыдущем пункте были рассмотрены тесты образовательных достижений и приведен опыт зарубежных стран в использовании таких тестов. Так как результаты тестов образовательных достижений используются в принятии важных личных и политических решений, то данные тесты должны отвечать высоким требованиям. В предыдущих пунктах описывались примеры процедур разработки, хранения, доставки тестовых материалов, а так же стандартизации и обработки результатов. Но помимо указанных процедур обеспечения качества существует и психометрическая оценка, направленная на оценку качества теста исходя из полученных результатов тестирования.

На сегодняшний день существует две теории, в рамках которых осуществляется анализ качества теста и оценка его психометрических свойств. Более раннее теория - это классическая теория тестирования (КТТ), мы не будем углубляться в историю создания КТТ, отметим только, что большой вклад в нее внесли Э.Л. Торндайк Э.Л., Спирман С.Е., Гилфорд, Галликсен, Магнусс, Лорд и Новик, Хамблетон и другие. КТТ постулирует существование истинного балла для обследуемого, который определен для проводимых испытаний; ошибка измерения случайна и коррелирует с истиной оценкой; наблюдаемые оценки и ошибка измерения тесно связаны между собой (Hambleton R.K., Jones R.W. (1993)). Данные аспекты записываются в виде основного уравнения КТТ:

-- наблюдаемый тестовый балл -го испытуемого выборки по данному тесту (или часто называемый, латентный балл);

-- его истинный балл;

-- суммарная ошибка измерения при оценке с помощью теста.

Поскольку невозможно отделить ошибку измерения от истинного балла в КТТ существует ряд упрощений: истинная оценка и ошибки не коррелируют между собой, средняя ошибка в популяции равна нулю, ошибки параллельных тестов коррелируют между собой.

Позднее появилась теория IRT (ItemResponseTheory) или современная теория тестирования. Большой вклад в развитие теории IRT внесли Г. Раш, А. Бирнбаум, Д. Эндрич, Б. Райт. В рамках данной теории преодолеваются основные недостатки КТТ и открываются дополнительные возможности использования современных технологий и анализа данных. Основная цель IRT заключается в «разработке математической модели процесса тестирования, параметрами которой, подлежащими определению, служат различные характеристики участников тестирования и самого теста» (Нейман Ю.М., Хлебников В.А., 2000)). Теория IRT считается более объективной, по сравнению с КТТ, за счет выполнения двух условий:

· инвариантность оценок испытуемых относительно тестовых заданий, при тестировании одного и тоже испытуемого различными тестами, должны получаться близкие результаты в рамках погрешности вычислений;

· инвариантность характеристик тестовых заданий относительно контингента испытуемых, при выполнении одного и того же теста, разные группы испытуемых должны получать близкие результаты в рамках погрешности вычислений.

Эти теории имеют ряд существенных различий, в которых кроятся как преимущества, так и недостатки теорий. В таблице ниже приведено сравнение теорий по наиболее важным моментам (Hambleton R.K., Jones R.W., 1993).

Таблица 2 - Сравнение КТТ и IRT

Область

КТТ

IRT

Модель

Линейная

Нелинейная

Оценка уровня подготовленности испытуемого

Зависит от теста

Зависит от заданий

Инвариантность испытуемых и заданий

Нет

Есть

Статистики заданий

Трудность и дискриминативность

Трудность, дискриминативность, угадывание

Размер выборки

200-500

От 500

Ошибка измерения

Не возможно оценить, закладывается в балл, постоянна для всех испытуемых

Индивидуальна для каждого испытуемого, возможно рассчитать

Математические методы

Просты в освоении и использовании

Более сложные для понимания и использования

Шкала первичных баллов

Порядковая

Интервальная

Применение адаптивных алгоритмов

Невозможно

Возможно

Соотнесение баллов испытуемых и трудности заданий

Невозможно

Возможно, наносятся на одну шкалу

Таким образом, теория IRT имеет неоспоримые преимущества, но ее использование возможно только на больших выборках и требует применения более сложных математических методов. Поэтому при проектировании тестов, заранее определяют торию, в рамках которой будет проходить дальнейший анализ, в зависимости от планируемой выборки, целей тестирования, доступных технических и материальных средств. Важно отметить, что различаются лишь методы анализа, сама идея психометрических параметров остается неизменной.

Трудность.

Основная характеристика задания - это его трудность, по ней определяется местоположение задания в тесте. Некоторые авторы разделяют субъективную и статистическую трудность, где субъективная трудность зависит от времени отведенного на решение задачи, уровня необходимых для решения умений и навыков, состояния испытуемого и прочих факторов. Субъективную трудность стараются нивелировать при помощи стандартизации процедуры и выравнивания условий для всех испытуемых. Поэтому в основном говорят о статистической трудности, определяемой математически.

Одним из самых удобных способов представления трудности - это доли или проценты, что удобно и понятно для большинства категорий пользователей тестов. Для образовательных тестов принято выстраивать в тесте задания в порядке нарастания трудности, что психологически легче для учащегося. Определение трудности задания необходимо для подбора заданий подходящего уровня сложности. Тесты способностей создаются с целью определения уровня достижений тестируемого, необходимо включать в тест задания, которые способны максимально точно определить истинный уровень способностей тестируемого (Анастази А., Урбина С.,2003).

В КТТ трудность заданиязависит непосредственно от выборки и определяется отношением количества испытуемых правильно решивших задание к общему числу испытуемых, решавших задание.

- количество испытуемых верно решивших задание;

- общее число испытуемых решавших данное задание.

В IRT трудность является латентной характеристикой, измеряемой совместно со способностью испытуемых, которая так же является латентной характеристикой. Взаимосвязь латентных значений и отражает условную вероятность выполнения заданий теста. Различают условную вероятность правильного выполнения задания -м испытуемым:

где - уровень подготовки испытуемого;

- независимая переменная.

И условную вероятность правильного выполнения j-го задания всей выборкой:

где - трудность задания;

- независимая переменная.

Трудность задания и уровень подготовки - два базовых параметра для расчета в IRT, в зависимости от числа параметров, входящих в функцию выделяют одно-, двух-, трехпараметрические модели. Приведем однопараметрическую модель Раша, которая является одной из самых широко используемых. Измеряемым параметром является трудность задания, определяется как точка на шкале способности, где вероятность правильного ответа равна 0,5.

Данный параметр определяется положением на характеристической кривой задания. Выполнение более сложного задания требует и более высокой подготовки испытуемых (Hambleton R.K., Swaminathan H., Rogers H.J. 1991).

Трудность является основной характеристикой тестов, на ее основе делается вывод о целесообразности использования заданий в дальнейшем в тесте, включения его в банк заданий, местоположении задания в тесте (Майоров Н.А., 2001).

Дискриминативность.

Дискриминативность, или дифференцирующая способность теста - это характеристика тестовых заданий, говорящая о способности задания разделять испытуемых по уровню способности. Если дискриминативность низкая, то с заданием одинаково справляются как ученики с высокими способностями, так и с низкими. Причин появления такой нелогичной ситуации может быть несколько, наиболее типичными и распространенными являются: излишняя сложность, запутанность формулировок, двоякость толкования условия, простота и очевидность ответа, вспоминание решение задачи с урока, сбивающие или абсурдные ответы к заданиям. Все это характерно для некачественных заданий, таким образом, дискриминативность позволяет выявить наиболее удачные задания. Отдельно стоит отметить случай, когда дискриминативность отрицательна, в первую очередь, это может свидетельствовать об ошибке в ключе, затем, о плохо подобранных дистракторах, сбивающих с правильного ответа.

Существует несколько способов вычисления дискриминативности. Широко используется метод крайних групп, как наиболее простой и понятный. В данном методе используются результаты испытуемых, получивших наилучшие и наихудшие результаты. Индекс дискриминативности рассчитывается как разность долей успешного выполнения заданий лучшей и худшей группы. Группы формируются из упорядоченного по убыванию результатов списка выборки, 27% сверху попадают в группу лучших, 27% снизу попадают в группу худших(Майоров Н.А., 2001).

где - количество испытуемых из лучшей группы, верно выполнивших задание;

- общее число испытуемых в группе лучших;

- количество испытуемых из худшей группы, верно выполнивших задание;

- общее число испытуемых в худшей группе.

Еще одним способом расчета дискриминативности является точечно-биссериальная корреляция (Анастази А., Урбина С., 2003), рассчитывается как связь успешного решения одного задания срезультатами всего теста. Ограничением к использованию данного метода является то, что испытуемые не должны иметь нулевой результат.

где - среднее арифметическое индивидуальных результатов выборки испытуемых;

- среднее арифметическое испытуемых, выполнивших -е задание;

- стандартное отклонение индивидуальных результатов всей выборки испытуемых;

- трудность -го задания.

Индекс дискриминативности может изменяться в диапазоне от -1 до +1. Пороговым значением для тестов образовательных достижений принято 0,2, все задания находящиеся ниже данного значения признаются некачественными и либо отправляются на анализ и доработку, либо исключаются из теста.

Надежность.

Разновидностей типов надежности существует очень много, но многие оцениваются через согласованность результатов, которые выражаются при помощи коэффициента корреляции. Приведем некоторые из них.

Самым ранним и понятным типом надежности является ретестовая надежность. Вычисляется как корреляция между результатами одних и тех же испытуемых, проходящих повторно тест через некоторый промежуток времени. Ретестовая надежность показывает устойчивость результатов тестирования к изменениям состояния испытуемых и условий проведения тестирования. Несмотря на простоту, применение данного типа надежности сопровождено рядом трудностей, не позволяющих применять его ко всем тестам. Во-первых, сложно выбрать оптимальный промежуток времени для повторного тестирования, если он будет слишком большим (например, 5-10 лет), то результаты могут сильно разниться друг с другом, если слишком маленьким (пара недель), то высока вероятность того, что испытуемые будут вспоминать ответы. Во-вторых, при повторном тестировании может измениться суть тестирования. Есть угроза научения, испытуемый может уловить суть, научится решать предложенные задания и тогда результаты повторного тестирования окажутся значительно выше.

Для ухода от ряда ограничений ретестовой надежности можно применять эквивалентные формы теста. Такой тип надежности так же показывает степень устойчивости результатов, а так же степень согласованности заданий. Основная сложность применения данного типа надежности заключается в подборе эквивалентной формы теста: тесты должны содержать одинаковое количество заданий, задания должны быть одной и той же формы, иметь эквивалентное содержание, инструкции к тестам и бланки должны быть одинаковыми и т.д. Так же стоит учитывать время, через которое испытуемым предоставляется вторая форма, если промежуток будет слишком мал, то нельзя говорить об проверки устойчивости результатов. Надежность эквивалентных форм можно применять для более широкого числа тестов, но, к сожалению,остается угроза научения, если испытуемый уловит принцип решения задач, результаты эквивалентной формы окажутся лучше.

Чтобы уйти от проблемы определения временного промежутка для второго теста, удобно оценивать надежность в рамках одного теста. В таком случае была разработана надежность эквивалентных половин. После проведения тестирования, задания искусственно разделяются на два теста в зависимости от содержания и типов заданий. Надежность оценивается как корреляция между двумя половинами теста. Основная сложность заключается в разбивке теста на две эквивалентные полвины.

Самым распространенным методом оценки надежности является метод оценки внутренней согласованности теста. Данная надежность измеряется при помощи метода Кьюдера и Ричардсона. Как и в предыдущем типе надежности, оценка проводится на однократно предоставленном тесте, но вместо расщепления теста она опирается на результаты каждого задания. Наибольшее распространение получила формула KR-20:

- коэффициент надежности полного теста;

- число заданий в тесте;

- стандартное отклонение суммарных результатов.

Данная формула применима только для дихотомических заданий. Для политонических заданий был выведен коэффициент альфа:

Валидность.

Валидность один из важных аспектов в определении качества интерпретации результатов оценки учебных достижений и использования полученных результатов. Часто в литературе ссылаются на «валидные оценки». Под данным словосочетанием следует понимать то, что использование, интерпретация и утверждение результатов оценивания является валидным, т.е. эффективным, точным, пригодным для измерения того, для чего метод измерения был разработан. (LinnR.L., 2010).

На сегодняшний день единого утвержденного понятия валидности нет, как и процесса валидизации. Наиболее часто используемым определением валидности, является определение А. Анастази: «валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает»(Анастази А., Урбина С., 2003). Валидность теста говорит нам о том, насколько пригоден инструмент для измерения заложенных в него конструктов и насколько эффективно он это делает.

Говоря о валидности, необходимо ввести понятие «конструкт». Под конструктом в данной работе понимается концепт или характеристика того, что тест должен измерять. Для конструкта должны быть выставлены теоретические рамки, определяющие как построить конструкт, как отличить измеряемый конструкт от других конструктов, как конструкт должен быть связан с другими переменными (American Educational Research Associationetal., 1999).

В психологических тестах принято выделять внешнюю и внутреннюю валидность. Внешняя валидность, или практическая, показывает отношение результатов измерения к измеряемому критерию. Другими словами, измеряет ли используемый инструмент, заложенный в него конструкт (SchnellR., HillP.B., EsserE., 2008). Внутренняя валидность, или теоретическая, показывает отношение измеряемого конструкта к подобным или противоположным конструктам из других валидных инструментов. Так же в качестве типов валидности выделяют критериальную валидность, ковергентную валидность, конструктную валидность (Michael P.M., 2005), очевидную валидность, содержательную (или контент) валидность и прогностическую валидность (Lienert G.A., Raatz U., 1998).

Существует много различных методов (или программ) оценки валидности инструмента. Наиболее знаменитыми являются Стандарты для Педагогических и Психологических Измерений (Standards for Educational and Psychological Measurement, далее - Стандарты (American Educational Research Associationetal., 1999)), разработанные совместно Американской Образовательной Ассоциацией Исследователей (American Educational Research Association), Американской Психологической Ассоциацией (American Psychological Association) и Национальным Советом по Измерению в Образовании(National Councilon Measurementin Education). В рамках данных Стандартов, процесс валидизации включает аккумулированную релевантную оценку, обеспеченную прочной научной основой для предложений по интерпретации результатов. Оценка валидности дает интерпретацию тестовому баллу для его специфического использования в целях, заявленных в тесте. Стандарты устанавливать пять основных «источников доказательства, которые могут быть использованы в оценке интерпретации результатов»:

1. Доказательства, основанные на ответах испытуемых;

2. Доказательства, основанные на содержании теста;

3. Доказательства, основанные на внутренней структуре теста;

4. Доказательства, основанные на отношении с другими переменными;

5. Доказательства, основанные на последствиях испытаний (обобщение валидности).

Разнообразие представленных доказательств актуально для развития последовательной и всесторонней аргументации валидности. Доказательства основанные на содержании, ответах респондентов, внутренней структуре теста, отношения баллов к другим переменным и последствиях применения теста потенциально имеют отношение к аргументации валидности. Наиболее актуальный подбор доказательств зависит от интерпретации и сферы применения результатов оценки (Linn R.L., 2010).

Следующий метод - это система Буроса. Более 70 лет назад, Бурос опубликовал обзор доступных коммерческих тестов по английскому языку в своем «Ежегоднике психических измерений» (Mental Measurements Yearbook, MMY). MMY - это краеугольный камень Буровского центра, он включает своевременные, ориентированные на потребителя обзоры, оценочную информацию для помощи в выборе теста. Типичные статьи MMY содержат описательную информацию, два профессиональных обзора и ссылки на рецензентов. Тесты, обсуждаемые в ежегоднике, должны быть коммерческими, опубликованными на английском языке, а так же новыми, пересмотренными или широко используемыми. Начиная с 14 тома, психологические тесты должны включать достаточную документацию по техническому качеству, чтобы соответствовать критериям. Хоть MMY и называется ежегодником, но он выпускается раз в три года. На сегодня насчитывается 19 томов ежегодника. Помимо этого, Бурос приводит описательную информацию по тесту и его рекомендационным работам. Данная информация размещается в «Тестах на печать» (Testin Print, TIP). TIP служит в качестве всеобъемлющей библиографии к коммерчески доступным тестам, которые в настоящее время находятся в печати на английском языке. В настоящее время, TIP обеспечивает доступ к существенной информации о тестах для пользователей, включающую цели тестирования, целевую группу пользователей, время администрирования, генерирование баллов, цену, публикации теста, статус печати, аббревиатуру теста, дату испытаний и автора теста. Индекс оценка позволяет пользователям определить, что измеряет каждый тест. TIP имеет отсылки на отзывы экспертов и статьи в MMY. Таким образом, данный обзор является, незаменим для профессионалов в сфере образования, психологии, бизнеса. На сегодняшний день опубликовано 9 томов.

Ряд экспертов отмечают, что MMY является уникальным источником независимых оценок самого теста, так же данный сборник считается наиболее полным, точным и авторитетным источником информации о существующих опубликованных тестах. (Cizek G.J., Koons H.K., Rosenberg, S.L., 2007). Предоставление подобных отчетов помогают выполнить основную цель Бурроса - это улучшение научного и практического тестирования. Бурос подчеркивает, что его оценка в ежегодниках является независимой и объективной, поэтому его центр не участвует в деятельности по развитию тестов.

Процесс оценивания Бурса сводится к 11 шагам: идентификация тестов, которые были резюмированы; получение теста и подготовка его описания; определение, удовлетворяют ли тесты критериям обзора; идентификация соответствующих рецензентов; выбор рецензентов; отправка инструкций и материалов для рецензентов; проверка обзоров; редактирование содержания обзоров; одобрение рецензента; ознакомление с комментариями автора. Непосредственную оценку валидности производят рецензенты по плану, который высылается вместе со всеми материалами по тесту.

В 1959 Dutch Psychological Association (NIP) основала COTAN, как ответ на осознание важности поддержки лучшему использованию более совершенных тестов. На сегодня разработчики тестов, пользователи тестов, издатели, образовательные и государственные организации рассматриваю COTAN как независимую организацию по оценки качества тестов. COTAN основан на системе рейтингов, который оценивает качество теста по семи критериям: теоретические основы, качество тестовых материалов, комплексность, руководство, нормы, надежность, конструктная и критериальная валидность (Evers A., Sijtsma K., Lucasses W., Meijer R. R., 2010).

С момента создания он претерпевал множество изменений, но некоторые аспекты остались неизменными. Во-первых, общая структура и критериальное оценивание. Как и в предыдущих версиях, для оценки каждого критерия используется несколько пунктов, которые включают один или несколько ключевых вопросов. Негативные ответы на ключевые вопросы ведут к рейтингу «недостаточный» по оцениваемому критерию. Отвечая на вопросы, эксперт дает обширные рекомендации. Баллы за каждый вопрос суммируются в итоговый балл, по которому выставляется рейтинг «недостаточный», «достаточный» или «хороший». Во-вторых, процедура оценки. Два независимых анонимных эксперта оценивают тест и заносят в журнал свои результаты. При расхождении мнений экспертов хотя бы по одному из критериев, эксперты должны обсудить свои рейтинги и прийти к соглашению. Если эксперты не могут прийти к соглашению, то может быть приглашен третий эксперт, который принимает окончательное решение. Затем отзывы и комментарии отправляются автору теста, которому дается возможность дать пояснения или скорректировать тест. Итогомработы становится публикация рейтинга в документации (Evers A., Sijtsma K., Lucasses W., Meijer R.R., 2010).

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.