Оценка психометрического качества теста основного государственного экзамена и единого государственного экзамена в РФ

Государственная итоговая аттестация - обязательный этап завершения обучения на образовательной программе, имеющей аккредитацию. Дискриминативность - характеристика тестовых заданий, говорящая о способности разделять испытуемых по уровню способности.

Рубрика Педагогика
Вид дипломная работа
Язык русский
Дата добавления 04.08.2016
Размер файла 479,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

В 2009 году COTAN был обновлен по двум основным вопросам. Первое, текст всех критериев адаптирован для применения к бумажной и компьютерной версии тестов. Второе, для каждого критерия задания и рекомендации были распространены на новые разработки (или возродили старые методы). Наиболее важным стало применение современной теории тестирования для разработки тестов, непрерывное нормирование, нормально и критериально ориентированная интепретация (domain-referencedinterpretationandcriterion-referencedinterpretation), и использование других типов оценки надежности, кроме традиционных методов тест-ретеста и альфа коэффициента (Evers A., Sijtsma K., Lucasses W., Meijer R.R., 2010).

Как уже отмечалось, COTAN использует семь критериев. По каждому критерию разработаны вопросы, по ответам на вопросы и составляется итоговый рейтинг теста. Рассмотрим два критерия, оценивающих валидность.

Критерий первый, конструктная валидность. Оценивает степень, с которой тест выполняет свое назначение. Данный тип валидности оценивает, как тест измеряет заданный конструкт. Существует несколько типов исследования для проверки конструкта: исследование размерности (например, факторный анализ данных), проверка психометрических свойств теста (корреляционный анализ), ковергентная и дивергентная валидность, функционирование заданий в отношении разных групп испытуемых (DIF-анализ), и т.д. Итоговая оценка дается по двум квалификационным категориям «недостаточный» и «достаточный». Ключевой вопрос проверяет наличие информации о конструктной валидности, если ее нет, то по данному критерию выставляется оценка «недостаточно» и эксперт переходит к следующему критерию. Первый вопрос уточняет, достаточно ли информации для обоснования конструктной валидности. Второй вопрос включает подвопросы по качеству проведенного исследования конструктной валидности.

Критерий второй, критериальная валидность. Исследование критериальной валидности должно показать, что тестовый балл является хорошим предиктором не тестового поведения или результатов критерия. Предсказание может быть прошлым, одномоментным или будущим. Доказательство критериальной валидности является обязательным для всех исследований.Структура вопросов является такой же, как в критерии Конструктная валидность. Ключевой вопрос проверяет наличие информации о критериальной валидности. Следующий вопрос уточняет, достаточно ли информации для оценки критериальной валидности и последний пункт собирает информацию о качестве исследования.

Наиболее распространённой системой классификации DIF, является классификация ETS (ZwickR.A., 2012). В классификации используются буквенные обозначения категорий A, B, C. Категория A обозначает незначительный или незначимый DIF, категория Bуказывает на низкий или умеренный DIF, категория C обозначает сильный или значительный DIF. Категория присваивается в зависимости от величины Mantel-Haenszel delta difference (MH D-DIF) статистики и ее значимости. Дополнительно категории B и C маркируются знаками B + и C +, если задания показывают DIF в пользу фокально группы и B-, C-, если задания показывают DIF в пользу референтной группы(ZiekyM., 2003).

Категория A присваивается заданию, если Mantel-Haenszel (MH) или хи-квадрат статистики не значимы на уровне 5% или Mantel-Haenszeldeltadifference (MH D-DIF) меньше 1.

Категория C присваивается заданию, если Mantel-Haenszel delta difference (MH D-DIF) больше 1,5 или Mantel-Haenszel (MH) или хи-квадрат статистики значимы на уровне 5%.

Категория B присваивается по остаточному признаку, то есть заданиям не подходящим под условия категорий A или C присваивается категория B.

1.3 Исследование прогностической валидности теста

Критериальная валидность проверяет отношение между измеряемой мерой и некоторого критерия. Данный тип валидности полностью определяется степенью соответствия между мерой, или тестом, и его критерием. Если корреляция высока, мера валидна для данного критерия. Если тест значимо не коррелирует с критерием, значит мера не валидна для критерия и бесполезна для поставленной цели. Для критериальной валидности, только связь между мерой и критерием является значимой. (Carmines E.G., Woods J.A. (2005)).В рамках данной валидности выделяют текущую (concurrent) и прогностическую (predictive) валидность в зависимости от временных отношений между критерием и тестом. Соответственно под текущей валидностью понимается взаимосвязь результатов тестирования с неким критерием, данные о котором существуют на момент тестирования. Целью тестирования, у которого оценивается текущая валидность, должен являться непосредственный результат, в то время как для прогностической валидности важно, возможно ли делать какой-либо прогноз, основываясь на данных тестирования.

Иными словами, критериальная валидность - это подтверждение теоретически предполагаемой взаимосвязи результатов тестирования с внешними критериями. Прогностическая и текущая валидность измеряются как коэффициент корреляции с внешним критерием, подобранным в соответствии с теорией. Так же стоит отметить, что ранее критериальная валидность оценивалась с помощью «индуктивного» подхода. Данный подход предлагает исследовать валидность путем оценки ассоциация между результатами теста и большого набора потенциально значимых и релевантных переменных. В рамках современного понимания валидности, напротив, используется «дедуктивный» подход, так как оценка теста подразумевает вывод конкретной гипотезы из теоретической основы конструкта, а затем эмпирическую проверку правильности данной гипотезы (Ozer D.J., 1989))

Сегодня, распространенным методом оценки критериальной валидности является метаанализ.

«Метааналитическая парадигма концентрируется на том, чтобы результаты исследований не содержали ошибки второго рода (констатировать отсутствие связи там, где она фактически присутствует). Как следствие, использование метаанализа зачастую позволяет получить данные, являющиеся прорывом в исследуемой области». Процедура метаанализа представляет собой одновременную обработку результатов большого количества исследований. Данная процедура состоит из следующих основных этапов: сбор данных (собираются конечные коэффициенты корреляции, полученные в каждом исследовании); коррекция данных (коррекция коэффициентов с учетом ненадежности критерия и объема выборки); обработка данных (все скорректированные коэффициенты корреляции анализируются совместно, и с помощью специального математического аппарата выводится значение итогового коэффициента корреляции, характеризующего валидность метода в целом)» (Schmidt F.L., 1992).

Еще одним распространенным способом является факторный анализ. В следующем исследовании (Anil, Gьzellerb, Coklukc, 2010) используется факторный анализ для оценки валидности и надежности теста. Авторы исследования обосновывают выбор инструментария тем, что факторный анализ одна из самых используемых техник для нахождения доказательств, связанных с критериальной валидностью. Факторный анализ может быть определен, как мультипеременная статистика, цель которой нахождение и открытие наименьшего числа новых переменных (факторов), чтобы концептуально значимым путем объединить большее количество переменных (Bьyьkцztьrk, 2002; 2007). Так например, главная цель исследования опросника LDE в 7 классе оценить валидность и надежность математического субтеста. Через факторный анализ, авторы показали, что все 18 заданий, относящихся к математическому субтесту объединяются в единый фактор.(Anil, Gьzellerb, Coklukc, 2010).

Lee Cronbach и Paul Meehl определяют критериальную прогностическую валидность в широком смысле следующим образом: если критерий получен спустя некоторое время после тестирования, то это прогностическая валидность. (Cronbach L.J., Meehl P.E., 1955).

Прогностическая валидность определяется как отношение между интересующими нас переменными и измеряемыми критериями через некоторый промежуток времени (Kazdin A.E., 1998). Как и текущая валидность, прогностическая валидность оценивается как корреляция между баллом двух отдельных мер, но прогностическая валидность отличается периодом действия, она направлена на будущие измерения. В оценивании детского поведения, прогностическая валидность является важным инструментом для выявления детей для программ профилактического вмешательства. Например, в случае выявления агрессивного поведения, можно с некоторой вероятность говорить о том, что в дальнейшем это может перерасти в более опасные деяния, правонарушения. В таком случае полезно назначить программу профилактики (Bagner D.M., Michelle D., Sheila H., Eyberg M., 2006).«Прием на работу, отбор учащихся в колледжи или профессиональные училища, направление военнослужащих на курсы специальной подготовки - вот примеры ситуаций, требующих для принятия решений сведений о прогностической валидности используемых тестов» (Анастази А., Урбина С., 2003).

Так как прогностическая валидность включается в критериальную валидность, то обычно ее не исследуют отдельно. Далее мы рассмотрим ряд исследований, в рамках которых рассматривается именно прогностическая валидность.

В исследовании Kappe F.R., Boekholt L. и den RooyenC. Vander Flier H. проверялась связь между стилем обучения (опросник LSQ) и критериями. Критерии представляют собой некоторый средний балл из оценок студента за 4 года обучения по учебному плану. Всего было выделено 5 критериев: лекции в классе, обучение навыкам, групповые проекты, обучение на рабочем месте и написание тезисов. Опросник стиля обучения (LSQ) включает 4 стиля: Активный, Рефлексивный, Теоретический и Прагматический. Каждый стиль оценивается 20 пунктами, в итоге опросник состоит из 80 пунктов. Замеры происходили дважды: первый раз студенты проходили тест по завершению первого года обучения, второй раз, спустя три года. Основная идея анализа заключалась в том, что стиль обучения в дальнейшем скажется на оценках испытуемых. Вопреки ожиданиям, стиль обучения не связан с оценками по выбранным критериям. Анализ проводился через двумерный корреляционный анализ, тем самым была оценена прогностическая валидность опросника LSQ через оценки испытуемых (Kappe F.R., Boekholt L., den Rooyen C.Vander Flier H., 2009).

В работе Klapproth F. и Schaltz P. изучается отношение между социальным положением студента и выбором его дальнейшей траектории. В Люксембурге существует три возможных иерархических трека: классическое среднее образование (ES, самый высокий трек), техническое среднее образование (ST, средний трек), подготовительный режим (RP, самый низкий трек). Выбор одного из них зависит не только от учебных достижений, но и от социального статуса семьи. Авторы исследования предположили, что частота смены траектории у эмигрантов ниже, чем у люксембургских студентов. Анализ проводился при помощи логистической регрессии, где зависимой переменной выступала успешность в школе. Успешность в школе оценивалась как «сохранение трека» или «смена трека». Предикторами выступали этническая принадлежность студента и треки обучения, предикторы были закодированы как дамми переменные (Klapproth F., Schaltz P., 2014).

В еще одной работе (Mitrofan N., IonA., 2013)для анализа прогностической валидности так же использовалась регрессия. В качестве зависимой переменной используются академические достижения студентов, в качестве независимых переменных - персональные особенности студента по Большой Пятерке. По результатам анализа только Добросовестность значимо связана с академическими достижениями студентов (Mitrofan N., IonA., 2013).

Для анализа прогностической валидности школьного экзамена удобно выбирать результаты какого-либо тестирования, проведенного позднее. Так, например, Zaman A., Jumani N.B., AliA., Hussain M.A. в своем исследование проверяли силу связи результатов теста по математике с результатами теста по математическому мышлению. Они констатировали значимые результаты корреляции по всем шести суб-шкалам теста математического мышления, таких как генерализация, логическое мышление, дедукция, решение проблем, индукция и доказывание. Тем самым авторы показали, что конструкт измеряет именно математические навыки и довольно успешно (Zaman A., Jumani N.B., AliA., Hussain M.A., 2011).

Зарубежные исследователи давно отмечают связь результатов экзаменов после школы и успеваемость в ВУЗе. Например, в США при приеме в вузы учитываются результаты таких тестов как SAT или ACT, и показано, что результаты тестов связаны с успешностью обучения в дальнейшем. Так обзорное исследование (Fishman J.A., Pasanella A.K., 1960) на 174 работах показывает, что коэффициент корреляции R принимает значения в диапазоне от 0,34 до 0,82. В свою очередь, исследование, проводимое другим коллективом авторов с использованием метаанализа, показало, что около 25% дисперсии может быть объяснено результатами экзаменов SAT или ACT(Kuncel N.R., Hezlett S.A., 2007).

Рядом исследователей было показано, что предсказательная сила экзаменов SATиACTнаходится примерно на одинаковом уровне. Так корреляция результатов экзамена SAT и первого года обучения в вузе находится в диапазоне от 0,49 до 0,64 в зависимости от экзамена.(Patterson B.F., Mattern K.D., Kobrin J.L., 2009). В диапазоне от 0,50 до 0,68лежать значения и для экзамена ACT. (Radunzel J., NobleJ.,2012). Еще одно масштабное исследование показало, что балл по SAT или ACT является более сильным предиктором успешного обучения в первый год в вузе наряду с самодисциплиной, по сравнению с социально-экономическими показателями (пол, СЭС, расовая принадлежность) (Allen J., Robbins S., Casillas A., Oh I.S., 2008).

Как говорилось ранее, в Российской Федерации в качестве вступительных испытаний принимаются результаты ЕГЭ. В своей работе Польдин показал связь результатов ЕГЭ и успеваемости в вузе на первом году обучения. Успеваемость оценивается через рейтинги. В ВШЭ используется 10-бальная шкала оценок, где 10 баллов - лучшая оценка. В выборку вошли студенты по направлению "Экономика", поэтому рассматривались только четыре экзамена, которые требовались для поступления по данному направлению - это математика, русский язык, обществознание и иностранный язык. Как показали результаты анализа, разные экзамены вносят различный вклад в объяснение дисперсии при регрессионном анализе. Наибольший вклад вносит математика, затем идет обществознание и русский язык. Наименьший вклад показывает иностранный язык (Польдин О.В., 2011).

Помимо указанной работы, ряд исследователей занимались исследованиями результатов ЕГЭ. В среднем баллы ЕГЭ, по результатам исследований, способны объяснить 25-30% дисперсии, что является достаточно высоким показателем, так как на успеваемость в вузе влияет большое число различных факторов.

В той же области проводили исследование Хавенсон Т.Е. и Соловьева А.А. Авторы статьи предположили, что на основе результатов ЕГЭ возможно прогнозирование успеваемости студентов в вузе: предполагается, что студенты отбираются и дифференцируются по результатам ЕГЭ, а значит те, кто имеет более высокие результаты по ЕГЭ, должны демонстрировать и высокую успеваемость. Поскольку прием в вуз происходит по сумме баллов ЕГЭ, то все экзамены должны являться предикторами, причем в равной степени. Ценность данного исследования заключается в расширенной выборке, в отличие от других исследований, в выборку попали студенты разных университетов и факультетов первого года обучения в вузе. Анализ проводился при помощи линейного регрессионного анализа, оценивалась прогностическая сила ЕГЭ через связь результатов ЕГЭ и средней оценки за первый год обучения. Было показано, что баллы ЕГЭ прогнозируют успеваемость на первом курсе, но с результатами успеваемости на втором курсе на прямую не связаны. Связь устанавливается через успеваемость на первом курсе. По результатам исследования 13-30% дисперсии можно объяснить суммарным баллом по ЕГЭ. Так же, было установлено, что результаты по математике и русскому языку имеют наибольшую предсказательную силу для предсказания успеваемости на первом курсе вуза 0,29 и 0,22 соответственно.

Авторы делают вывод, что по результатам исследования ЕГЭ показывает себя «валидным инструментом отбора абитуриентов, который позволяет выявлять наиболее способных абитуриентов и предсказывать их успеваемость в вузе» (Хавенсон Т.Е., Соловьева А.А., 2014).

Таким образом, анализируя опыт исследователей, можно сказать, что для анализа прогностической валидности удобно использовать регрессионный анализ. В качестве зависимой переменной могут выступать результаты ЕГЭ, так как ЕГЭ показал себя валидным инструментом.

2. Государственная итоговая аттестация, как основной тест образовательных достижений в Российской Федерации

2.1 Цели, задачи, формы, особенности проведения государственной итоговой аттестации

По федеральному закону Российской федерации, ГИА - это обязательная процедура, проводимая «в целях определения соответствия результатов освоения обучающимися основных образовательных программ соответствующим требованиям федерального государственного образовательного стандарта» (ст.59 №273-ФЗ «Об Образовании» от29.12.2012). Другими словами ГИА необходимо для контроля качества знаний обучающегося.

ГИА проходит в форме ЕГЭ и ГВЭ в 11 классах и форме ОГЭ и ГВЭ в 9 классах. Форма ГВЭ предусмотрена для выпускников

· обучающихся по образовательным программам основного и среднего общего образования в специальных учебно-воспитательных учреждениях закрытого типа, а также в учреждениях, исполняющих наказание в виде лишения свободы;

· обучающихся в образовательных организациях, расположенных за пределами Российской Федерации;

· обучающихся с ОВЗ, детей-инвалидов и инвалидов, освоивших образовательные программы основного или среднего общего образования;

· обучающихся, освоивших в 2014-2016 г. образовательные программы основного или среднего общего образования в образовательных организациях, расположенных на территории Республики Крым и города федерального значения Севастополя (Приказ Министерства образования и науки Российской Федерации (Минобрнауки России) от 26.12.13 №1394).

Для всех остальных категорий обучающихся предусмотрена форма ОГЭ и ЕГЭ.

Помимо основной цели, перед ГИА в 9 классе ставится задача дифференцирования обучающихся по уровню освоения тех или иных учебных дисциплин. Это необходимо для индивидуального отбора обучающихся в профильные классы средней школы, а так же в учреждения среднего профессионального образования.

С 2015 года ЕГЭ по математике разделено на базовый и профильный уровень(Ст.7 Приказ Министерства образования и науки Российской Федерации (Минобрнауки России) от 26.12.13 №1400 «Об утверждении Порядка проведения государственной итоговой аттестации по образовательным программам среднего общего образования»). В связи с этим для каждой модели ставятся свои дополнительные задачи. Перед моделью ЕГЭ по математике профильного уровня ставится задача «эффективного отбора выпускников в высших учебных заведениях с различными требованиями к уровню математической подготовки» (Спецификация контрольных измерительных материалов для проведения в 2015 году единого государственного экзамена по МАТЕМАТИКЕ (профильный уровень), 2014). Другими словами, данная модель должна осуществлять дифференциацию выпускников по уровню способностей. Модель ЕГЭ по математике базового уровня предназначена для ГИА выпускников не поступающих на специальности, требующие особых углубленных знаний по математике. В данной модели основные акценты сделаны на выявление способности «применять полученные знания на практике, развивать логическое мышление, уметь работать с информацией» (Спецификация контрольных измерительных материалов для проведения в 2015 году единого государственного экзамена по МАТЕМАТИКЕ (базовый уровень), 2014).

ГИА проводится в форме ОГЭ или ЕГЭ с использованием контрольно-измерительных материалов (далее - КИМ), представляющих собой комплексы заданий стандартной формы. Стандартность обеспечивается за счет документов, определяющих содержание КИМ:

· кодификаторы элементов содержания и требований к уровню подготовки обучающихся, освоивших основные общеобразовательные программы основного общего образования;

· спецификации контрольных измерительных материалов для проведения основного государственного экзамена по общеобразовательным предметам обучающихся, освоивших основные общеобразовательные программы основного общего образования.

Используемые формы, в отличие от традиционной, обеспечивают объективную процедуру оценивания учебных достижений учащихся, результатом является получение независимой оценки качества подготовки выпускников 9-х и 11-х классов.

Все экзамены проводятся и организуются Федеральной службой по надзору в сфере образования и науки (Рособрнадзор) совместно с органами исполнительной власти субъектов Российской Федерации, осуществляющие государственное управление в сфере образования.

Рособрнадзор осуществляет следующие функции в рамках проведения ГИА для 9-х классов:

· устанавливает порядок разработки, использования и хранения КИМ;

· осуществляет методическое обеспечение проведения ГИА;

· организует разработку КИМ для проведения ОГЭ, критериев оценивания экзаменационных работ, выполненных по этим КИМ, текстов, тем, заданий, в том числе создает комиссии по разработке КИМ по каждому учебному предмету;

· организует формирование и ведение федеральной информационной системы обеспечения проведения ГИА обучающихся, освоивших основные образовательные программы основного общего и среднего общего образования, и приема граждан в образовательные организации для получения среднего профессионального и высшего образования (ФИС) (Ст. 14 Приказ Министерства образования и науки Российской Федерации (Минобрнауки России) от 26.12.13 №1394 «Об утверждении Порядка проведения государственной итоговой аттестации по образовательным программам основного общего образования»).

Помимо перечисленных функций, Рособрнадзор в рамках проведения ГИА для 11-х классов:

· совместно с учредителями, МИД России и загранучреждениями обеспечивает проведение ГИА за пределами территории Российской Федерации;

· организует разработку КИМ для проведения ЕГЭ, критериев оценивания экзаменационных работ, выполненных по этим КИМ, текстов, тем, заданий, билетов и критериев оценивания для проведения ГВЭ, в том числе создает комиссии по разработке КИМ по каждому учебному предмету, а также организует обеспечение указанными материалами государственную экзаменационную комиссию (далее - ГЭК);

· организует централизованную проверку экзаменационных работ обучающихся, выполненных на основе КИМ;

· определяет минимальное количество баллов ЕГЭ, подтверждающее освоение образовательной программы среднего общего образования;

· организует формирование и ведение ФИС обеспечения проведения ГИА обучающихся, освоивших основные образовательные программы основного общего и среднего общего образования, и приема граждан в образовательные организации для получения среднего профессионального и высшего образования;

· обеспечивает органы исполнительной власти субъектов Российской Федерации, осуществляющие государственное управление в сфере образования, учредителей, МИД России и загранучреждения комплектами тем итогового сочинения (текстами изложений) для обучающихся 10 (11) классов и разрабатывает критерии оценивания итогового сочинения (изложения) как условия допуска к ГИА(Статья 13 Приказ Минобразования России от 05.03.2004 № 1089 «Об утверждении Федерального компонента государственных образовательных стандартов начального общего, основного общего и среднего (полного) общего образования»).

Органы исполнительной власти субъектов Российской Федерации, осуществляющие государственное управление в сфере образования, обеспечивают проведение ГИА для 9-х классов:

· создают ГЭК, предметные и конфликтные комиссии субъектов Российской Федерации и организуют их деятельность;

· обеспечивают подготовку и отбор специалистов, привлекаемых к проведению ГИА;

· устанавливают форму и порядок проведения ГИА для обучающихся, изучавших родной язык и родную литературу;

· разрабатывают экзаменационные материалы для проведения ГИА по родному языку и родной литературе;

· определяют места расположения пунктов проведения экзаменов (ППЭ) и распределение между ними обучающихся, составы руководителей и организаторов ППЭ, уполномоченных представителей ГЭК, технических специалистов, специалистов по проведению инструктажа и обеспечению лабораторных работ, экзаменаторов-собеседников, ведущих собеседование при проведении устной части экзамена по иностранному языку, в случае если спецификацией КИМ предусмотрено ведение диалога экзаменатора с обучающимся, и ассистентов;

· обеспечивают ППЭ необходимым комплектом экзаменационных материалов для проведения ГИА, в том числе экзаменационными материалами на родном языке;

· обеспечивают информационную безопасность при хранении, использовании и передаче экзаменационных материалов, в том числе определяют места хранения экзаменационных материалов, лиц, имеющих к ним доступ, принимают меры по защите КИМ от разглашения содержащейся в них информации;

· организуют формирование и ведение региональных информационных систем обеспечения проведения ГИА обучающихся, освоивших основные образовательные программы основного общего и среднего общего образования (РИС), и внесение сведений в ФИС в порядке, устанавливаемом Правительством Российской Федерации;

· организуют информирование обучающихся и их родителей (законных представителей) по вопросам организации и проведения ГИА через образовательные организации и органы местного самоуправления, осуществляющие управление в сфере образования, а также путем взаимодействия со средствами массовой информации, организации работы телефонов "горячей линии" и ведения раздела на официальных сайтах в сети "Интернет" органов исполнительной власти субъектов Российской Федерации, осуществляющих государственное управление в сфере образования, или специализированных сайтах;

· обеспечивают проведение ГИА в ППЭ;

· обеспечивают обработку и проверку экзаменационных работ;

· определяют минимальное количество баллов;

· обеспечивают перевод суммы первичных баллов за экзаменационные работы ОГЭ в пятибалльную систему оценивания;

· обеспечивают ознакомление обучающихся с результатами ГИА по всем учебным предметам;

· осуществляют аккредитацию граждан в качестве общественных наблюдателей в порядке, устанавливаемом Минобрнауки России (Ст.13 Приказ Министерства образования и науки Российской Федерации (Минобрнауки России) от 26.12.13 №1394 «Об утверждении Порядка проведения государственной итоговой аттестации по образовательным программам основного общего образования»).

Органы исполнительной власти субъектов Российской Федерации, осуществляющие государственное управление в сфере образования, для обеспечения проведения ГИА для 11-х классов выполняют те же функции. За исключением функции по определению минимального балла и перевода первичных баллов в пятибалльную систему оценивания. Органы исполнительной власти обеспечивают ознакомление обучающихся и выпускников прошлых лет с результатами ГИА по всем предметам (Ст.14 Приказ Министерства образования и науки Российской Федерации (Минобрнауки России) от 26.12.13 №1400 «Об утверждении Порядка проведения государственной итоговой аттестации по образовательным программам среднего общего образования»). Определением минимального балла и переводом первичных баллов в тестовые балы занимается Рособрнадзор.

КИМ для проведения ОГЭ «формируются и тиражируются учредителями, загранучреждениями и органами исполнительной власти субъектов Российской Федерации, осуществляющими государственное управление в сфере образования, с помощью открытого банка заданий и специализированного программного обеспечения, размещенных на официальном сайте Рособрнадзора или специально выделенном сайте в сети "Интернет"» (Ст.31 Приказ Министерства образования и науки Российской Федерации (Минобрнауки России) от 26.12.13 №1394 «Об утверждении Порядкапроведения государственной итоговой аттестации по образовательным программам основного общего образования»). Таким образом, каждый субъект имеет свой уникальный набор вариантов ОГЭ.

КИМ для проведения ЕГЭ «доставляются органам исполнительной власти субъектов Российской Федерации, осуществляющим государственное управление в сфере образования, учредителям, МИДу России и загранучреждениям на бумажных носителях в специализированной упаковке, на электронных носителях»(Ст.34 Приказ Министерства образования и науки Российской Федерации (Минобрнауки России) от 26.12.13 №1400 «Об утверждении Порядка проведения государственной итоговой аттестации по образовательным программам среднего общего образования»).

Назначением ОГЭ является оценка уровня общеобразовательной подготовки по математике выпускников основной школы общеобразовательных учреждений с целью их государственной (итоговой) аттестации. Для получения аттестата необходимо сдать ОГЭ только по русскому языку и математике, профильные предметы не влияют на баллы и получение аттестата. Результаты экзамена могут быть использованы при приеме учащихся в профильные классы общеобразовательных учреждений и учреждения среднего профессионального образования. Организация индивидуального отбора проводится в порядке, предусмотренном законодательством субъекта Российской Федерации (Ст.67 №273-ФЗ «Об Образовании» от 29.12.2012). На территории Хабаровского края действует закон об индивидуальном отборе, позволяющий принимать в школы на программы с углубленным изучением отельных предметов или профильного обучения, на основе тестирования (собеседования) по отдельным учебным предметам.

Как говорилось выше, перед ОГЭ ставится задача дифференцирования выпускников. Дифференцирование выпускников проходит по двум уровням:

· Базовый уровень, включающий базовую подготовку и достаточный для получения аттестата основного общего образования;

· Повышенный уровень, включающий вопросы нацеленные на анализ способности выпускника активно использовать математику во время дальнейшего обучения математике на профильном уровне в средней школе.

Проверить, на сколько эффективно произошла дифференциация выпускников можно только спустя некоторое время. В частности, на результатах ЕГЭ. Тем самым будет проверена прогностическая валидность ОГЭ.

Важно отметить, что формы ГИА связаны между собой посредством общих подходов к разработке «кодификаторов элементов содержания и требований к уровню подготовки выпускников по математике». Кодификаторы обеих форм составлены на основе раздела «Математика» Федерального компонента государственного стандарта общего образования.

2.2 Определение измеряемого конструкта и проверяемых областей знаний

Как уже говорилось, в работе будут использованы результаты экзаменов в 9-х и 11-х классах, поэтому анализ конструкта и проверяемых областей знаний будет проводится по спецификации к двум экзаменам.

Основной государственный экзамен (ОГЭ, 9-е классы).

Работа состоит из трех модулей: «Алгебра», «Геометрия», «Реальная математика». В модули «Алгебра» и «Геометрия» входит две части, соответствующие проверке знаний базового и повышенного уровней, в модуле «Реальная математика» - одна часть, соответствующая базовому уровню знаний.

Базовая математическая компетентность включает в себя проверку владения основными алгоритмами, понимания и знания существенных элементов содержания, владения математической записью, умения применять знания к решению математических задач, имеющих не прямое решение, а так же использования математических знаний в прикладных бытовых ситуациях.

Задания данного уровня содержат пять элементов: «элемент содержания, проверяемое умение, категория познавательной области, уровень трудности, форма ответа». В экзаменационной работе используются четыре типа заданий:

· задания с закрытым ответом (предлагается выбрать ответ из четырех предложенных),

· задания с коротким ответом (ответ представляет собой число, символ, слово или фразу),

· задания на установление соответствия (необходимо сопоставить позиции из двух предложенных списков),

· задания с развернутым ответом (ответ представляет собой развернутое решение задачи с пошаговым описанием алгоритма решения).

Часть 2 проверяет знания на повышенном уровне, в данной части присутствуют задания из модулей «Алгебра» и «Геометрия». Именно задания данной части направлены на выявление наиболее подготовленных выпускников, которые могут составить контингент профильных классов.

Так как задания части 2 имеют повышенный уровень сложности и выбираются из различных разделов курса математики, то наиболее удачным типом заданий для них является задания с развернутым ответом. Как уже отмечалось, данный тип заданий требует записи полного развернутого решения. В тесте задания расположены по степени увеличения уровня трудности - от более простого к более сложному заданию, подразумевающему свободное владение материалом курса и хороший уровень математической культуры.

Модуль «Алгебра» содержит 11 заданий: в части 1 - 8 заданий, в части2 - 3 задания.

Модуль «Геометрия» содержит 8 заданий: в части 1 - 5 заданий, в части 2 - 3 задания.

Модуль «Реальная математика» содержит 7 заданий.

Таким образом, в экзаменационной работе 26 заданий, из которых 20 заданий базового уровня и 6 заданий повышенного.

Для оценивания результатов выполнения работ выпускниками используется общий балл. В таблице 3 приводится система формирования общего балла.

Максимальный балл за тест равен 38 (Спецификация контрольных измерительных материалов для проведения в 2013 году государственной (итоговой) аттестации (в новой форме) по МАТЕМАТИКЕ обучающихся, освоивших основные общеобразовательные программы основного общего образования, 2012).

Таблица 3 - Система формирования общего балла ОГЭ

Модуль «Алгебра»

Максимальное количество баллов за одно задание

Максимальное количество баллов

Часть 1

Часть 2

За часть 1

За часть 2

За модуль в целом

№ 1-8

№ 21

№ 22

№ 23

1

2

3

4

8

9

17

Модуль «Геометрия»

Максимальное количество баллов за одно задание

Максимальное количество баллов

Часть 1

Часть 2

За часть 1

За часть 2

За модуль в целом

№ 9-13

№ 24

№ 25

№ 26

1

2

3

4

5

9

14

Модуль «Реальная математика»

Максимальное количество баллов за одно задание Часть 1, № 14-20

Максимальное количество баллов за модуль в целом

1

7

Основное отличие экзаменационной работы от модели, действующей в предыдущие годы (до 2013г.), заключается в разделении всей экзаменационной работы на модули, для раздельного оценивания алгебраической и геометрической составляющих математической подготовки учащихся с целью выставления отметок по курсу алгебры и курсу геометрии. Добавляются задачи из области «Реальная математика» для осуществления соответствия требованиям стандарта в части использования приобретенных знаний и умений в практической деятельности и повседневной жизни.

В тесте измеряемый конструкт «математические способности» представлен через содержательные блоки и проверяемые умения. В таблице 4 приведено распределение заданий по содержательным блокам.

Таблица 4 - Распределение заданий КИМ по содержательным блокам

Содержательные блоки по кодификатору

Число заданий

Максимальный первичный балл

Процент максимального первичного балла

Числа и вычисления

4

4

10,5%

Алгебраические выражения

4

5

13,2%

Уравнения и неравенства

3

5

13,2%

Числовые последовательности

2

2

5,2%

Функции и графики

2

5

13,2%

Геометрия

9

15

39,5%

Статистика и теория вероятности

2

2

5,2%

Итого

26

38

100%

В таблице 5 приведено распределение заданий по проверяемым умениям и видам деятельности.

Таблица 5 -Распределение заданий по проверяемым умениям и видам деятельности

Содержательные блоки по кодификатору

Число заданий

Максимальный первичный балл

Процент максимального первичного балла

Уметь выполнять вычисления и преобразования

2

2

5,2%

Уметь выполнять преобразования алгебраических выражений

2

4

10,5%

Уметь решать уравнения, неравенства и их системы

4

6

15,8%

Уметь строить и читать графики функции

2

5

13,2%

Уметь выполнять действия с геометрическими фигурами, координатами и векторами

6

11

28,9%

Уметь использовать приобретенные знания и умения в практической деятельности и повседневной жизни, уметь строить и исследовать простейшие математические модели

9

10

26,4%

Итого

26

38

100%

Таким образом, «математические способности» характеризуются семью содержательными блоками и шестью видами проверяемых умений. Более подробную характеристику данных элементов можно увидеть в «Кодификаторе требований к уровню подготовки обучающихся, освоивших основные образовательные программы основного общего образования, для проведения государственной (итоговой) аттестации (в новой форме) по математике» (Спецификация контрольных измерительных материалов для проведения в 2013 году государственной (итоговой) аттестации (в новой форме) по МАТЕМАТИКЕ обучающихся, освоивших основные общеобразовательные программы основного общего образования, 2012).

Единый государственный экзамен (ЕГЭ, 11-е классы), базовый уровень.

Работа состоит из одной части, включает в себя 20 заданий шести содержательных областей. Все задания являются заданиями с кратким ответом в виде числа или конечной десятичной дроби. Работа содержит задания только базового уровня сложности. В таблице 6 приведена таблица с распределениями заданий по содержательным блокам.

Таблица 6 - Распределение заданий КИМ по содержательным блокам

Содержательные блоки по кодификатору

Число заданий

Максимальный первичный балл

Процент максимального первичного балла

Алгебра

10

10

50,0%

Уравнения и неравенства

3

3

15,0%

Функции

1

1

5,0%

Начала математического анализа

1

1

5,0%

Геометрия

4

4

20,0%

Экзаменационная работа разработана таким образом, чтобы максимально полно охватить комплекс умений и навыков по курсу. В таблице ниже приведено распределение заданий по проверяемым умениям и видам деятельности.

Таблица 7 - Распределение заданий по проверяемым умениям и видам деятельности

Содержательные блоки по кодификатору

Число заданий

Максимальный первичный балл

Процент максимального первичного балла

Умения выполнять вычисления и преобразования

5

5

25,0%

Уметь решать уравнения и неравенства

2

2

10,0%

Уметь выполнять действия с функциями

1

1

5,0%

Уметь выполнять действия с геометрическими фигурами

3

3

15,0%

Уметь строить и исследовать математические модели

5

5

25,0%

Уметь использовать приобретенные знания и умения в практической деятельности и повседневной жизни

4

4

20,0%

Итого

20

20

100

Правильное решение задания оценивается в 1 балл. Задание считается выполненным верно, если дан правильный ответ в виде числа или конечной десятичной дроби. Максимальный балл за работу 20. (Спецификация контрольных измерительных материалов для проведения в 2015 году единого государственного экзамена по МАТЕМАТИКЕ (базовый уровень), 2014).

Единый государственный экзамен (ЕГЭ, 11-е классы), профильный уровень.

Работа состоит из двух частей и содержит 21 задание. Часть 1 содержит 9 заданий с кратким ответом в виде числа. Данная часть проверяет базовый уровень владения практическими математическими знаниями и умениями. Часть 2 содержит 12 заданий профильного уровня за курс средней школы. Первые пять заданий с кратким ответом и следующие семь с развернутым ответом относятся к повышенному уровню сложности. Последние два задания являются заданиями с развернутым ответом и относятся к высокому уровню сложности. Данные задания предназначены для дифференциации выпускников по уровням способности. В таблице 8 приведена таблица с распределениями заданий по содержательным блокам.

Таблица 8 - Распределение заданий КИМ по содержательным блокам

Содержательные блоки по кодификатору

Число заданий

Максимальный первичный балл

Процент максимального первичного балла

Алгебра

5

10

29,4%

Уравнения и неравенства

5

10

29,4%

Функции

2

2

5,9%

Начала математического анализа

2

2

5,9%

Геометрия

6

9

26,5%

Элементы комбинаторики, статистики и теории вероятности

1

1

2,9%

Итого

21

34

100%

Экзаменационная работа разработана таким образом, чтобы максимально полно охватить комплекс умений и навыков по курсу. В таблице 9 приведено распределение заданий по проверяемым умениям и видам деятельности.

Таблица 9 - Распределение заданий по проверяемым умениям и видам деятельности

Содержательные блоки по кодификатору

Число заданий

Максимальный первичный балл

Процент максимального первичного балла

Уметь использовать приобретенные знания и умения в практической деятельности и повседневной жизни

5

7

20,6%

Умения выполнять вычисления и преобразования

1

1

2,9%

Уметь решать уравнения и неравенства

4

9

26,5%

Уметь выполнять действия с функциями

2

2

5,9%

Уметь выполнять действия с геометрическими фигурами, координаторами и векторами

6

9

26,5%

Уметь строить и исследовать математические модели

3

6

17,6%

Итого

21

34

100%

Начисление балов зависит от уровня сложности заданий, чем задание сложнее, тем больше баллов за него начисляется. В таблице 10 приведено распределение баллов по уровню сложности заданий.

Таблица 10- Распределение заданий уровню сложности

Уровень сложности заданий

Число заданий

Максимальный первичный балл

Процент максимального первичного балла

Базовый

9

9

26,5%

Повышенный

10

17

50,0%

Высокий

2

8

23,5%

Итого

21

34

100%

Таким образом, за правильное решение задания можно получить от 1 до 4 баллов. Максимальный балл за работу 34. Задание на базовом уровне и первые пять заданий повышенного уровня сложности считаются решенными верно, если указан правильный ответ в виде числа или конечной десятичной дроби. Задания с развернутым ответом оцениваются по критериям, ответы к данным заданиям должны быть максимально полными, логичными и обоснованными. (Спецификация контрольных измерительных материалов для проведения в 2015 году единого государственного экзамена по МАТЕМАТИКЕ (профильный уровень), 2014)

Таким образом, было продемонстрировано, что ЕГЭ и ОГЭ построены на схожем конструкте «математические способности», включающие одинаковые элементы содержания. В ЕГЭ он раскрыт шире и проверяется на более высоком уровне.

3. Исследование прогностической валидности государственной итоговой аттестации в 9 классе

В 2013 году на территории Хабаровского края в ГИА по математике в 9-х классах принял участие 10081 выпускник из 19 муниципальных образований края. Всего имелось 8 вариантов экзаменационной работы, в основные даты использовалось 4 варианта.

Итоговая выборка по 9-м классам составила 9976 выпускников, среди них 5007 (50,2%) мальчиков и 4969 девочек (49,8 %).

В 11-х классах в 2015 году в ГИА по математике приняло участие 5690 выпускников, из них для 5148 выпускников есть результаты экзаменов ГИА в 9-м классе. С 2015 года экзамен по математике в 11-м классе можно сдавать на базовом или профильном уровне, часть выпускников сдавали ЕГЭ сразу на двух уровнях. Таким образом, 4003 выпускника (77,8%) сдавали экзамен на профильном уровне и 3072 выпускника (59,7%) - на базовом.

Итоговая выборка, с учетом наличия результатов ЕГЭ и ОГЭ, составила 5148 учащихся, среди них 2228 (43,3%) мальчиков и 2920 (56,7%) девочек.

3.1 Психометрический анализ математического теста ОГЭ

Всего в рамках ГИА 9-х классов было разработано 8 вариантов, варианты разработаны по единому кодификатору и единой спецификации и поэтому имеют одинаковую структуру. Сами задания различаются лишь исходными данными, поэтому было решено выбрать один вариант для анализа. Случайным образом был выбран вариант № 1313.

Вариант № 1313 выполняло 2517 выпускников. Тест состоит из 26 вопросов, где 4 задания с выбором ответа, 16 заданий с открытым ответом и 6 заданий с развернутым ответом.

В таблице 11 приведены сводные характеристики анализируемого варианта, а так же значение статистки Separation и количество групп, на которые тест способен продифференцировать выпускников.

Таблица 11- Сводные характеристики параметров теста

Параметры

Значение

Общее количество испытуемых

2517

Максимальный набранный балл

38

Минимальный набранный балл

0

Средние значение набранного балла

18,93

Стандартное отклонение

6,09

Средний показатель коэффициента трудности (КТТ*)

0,68

Максимальный показатель коэффициента трудности (КТТ)

0,95

Минимальный показатель коэффициента трудности (КТТ)

0,01

Средний показатель коэффициента дискриминативности (IRT**)

0,44

Коэффициент надежности (IRT)

0,86

Ошибка измерения (IRT)

0,06

Separation (IRT)

2,43

Количество групп

3

*здесь и далее КТТ - классическая теория тестирования.

**здесь и далее IRT - современная теория тестирования.

Тест обладает достаточной надежностью 0,86, что говорит о высокой согласованности вопросов в тесте. Показатель трудности теста указывает на то, тест является достаточно простым для выборки. Дифференцирующая способность теста, оцениваемая по среднему коэффициенту дискриминативности и количеству групп, на которые тест разделяет выборку, указывает на то, что тест в целом справляется с задачей дифференциации выпускников.

На рисунке 1 показано распределение баллов выпускников.

Рисунок 1 - Распределение баллов выпускников (вариант 1313)

В основном баллы распределились среди значений 11-27. Хоть тест и легок для представленной выборки, но задания с повышенным уровнем сложности выпускники не выполняют и не набирают высокие баллы.

Общая характеристика теста.

В таблицах 12 и 13 представлены общие статистические данные по тестовым заданиям и выпускникам, принимавшим участие в тестировании. Из выборки было удалено 11 выпускников, так как 10 из них набрали максимально высокий балл и 1 набрал максимально низкий балл. Надежность теста является достаточно высокой и равна 0,86.

Таблица 12- Общая статистика по заданиям теста

Оценка трудности

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTQ

MNSQ

ZSTD

Ср. значение

0,00

0,06

0,98

-0,50

1,59

1,60

Ср кв.отклонение

1,88

0,02

0,07

1,90

1,82

3,10

Макс. значение

4,72

0,10

1,14

3,80

9,90

9,90

Мин. значение

-2,35

0,03

0,85

-3,90

0,23

-2,70

Таблица 13 - Общая статистика по выпускникам

Оценка трудности

Ошибка измерения

Статистики согласия

INFIT

OUTFIT

MNSQ

ZSTQ

MNSQ

ZSTD

Ср. значение

1,40

0,49

0,96

-0,10

1,07

0,20

Ср кв.отклонение

1,43

0,07

0,71

1,10

1,49

0,80

Макс. значение

5,12

0,68

7,74

7,20

9,90

9,90

Мин. значение

-2,86

0,35

0,10

-2,60

0,03

-1,10

В столбце 2 таблицы 12 представлена оценка трудности заданий теста для выпускников. Все оценки даны в логитах. В соответствии с используемой моделью измерения каждое задание теста характеризуется одним числом - трудностью д. Максимальное и минимальные значения оценки трудности показывают, что тест содержит как трудные задания (максимальная трудность заданий равна 4,72), так и легкие задания (минимальная трудность -2,35). Средняя оценка подготовленности выпускников равна 1,40. Это означает, выпускники достаточно хорошо справляются с заданиями теста.

Средняя ошибка измерения (столбец 3 в таблицах 12 и13) по заданиям равна 0,06 и по испытуемым 0,49.

В 7-м столбцах таблиц 12 и 13 представлены данные о статистиках согласия, характеризующих согласие экспериментальных данных тестирования с используемой моделью измерения. Это - общие статистики согласия MNSQ и их стандартизованные версии ZSTD. В соответствии с моделью математические ожидания значений общих статистик согласия равны 0,98 и 0,96, стандартизованных - 1,60 и 0,20. Максимальные и минимальные значения статистик согласия указывают на то, что в тесте есть испытуемые и задания, которые плохо согласуются с моделью. Более детально данный аспект будет рассмотрен позднее. Принимая во внимание, что выборка составляет более 2500 выпускников, для анализа согласия задания с моделью использовалась статистика INFITMNSQ, как самая надежная.

Значение статистикиseparationможно использовать, чтобы оценитьна сколько групп можно разделить выборку, то есть, как тест дифференцирует выпускников. Количество групп рассчитывается по формуле:

Значение получилось равным 3,5, что означает, что тест всю выборку делит на 3 группы и в достаточной мере способен продифференцировать выпускников.

Размерность теста.

Одно из важных условий для работы с выбранной моделью IRT (PCM) - это одномерность теста. Так же важно, чтобы тест был одномерным, что укажет на то, что тест измеряет требуемый конструкт, а не еще что-то. Для продолжения работы был проведен анализ размерности теста. Результат представлен в таблице ниже, так же в таблице приведены результаты по симулированным данным.

Таблица 14 - Процент необъясненной дисперсии


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

По тесту

Симулированные данные

Необъясненная дисперсия по 1 конструкту

5,8%

4,8%