Оценка валидности Единого государственного экзамена (ЕГЭ) как вступительного экзамена

Единые государственные экзамены как элемент реформы российской образовательной системы. Прогностическая валидность ЕГЭ, связь с успеваемостью учащегося. Влияние социально-экономических характеристик на этот показатель. Способы отбора абитуриентов.

Рубрика Педагогика
Вид дипломная работа
Язык русский
Дата добавления 02.04.2016
Размер файла 144,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Глава 1. Программа исследования

государственный экзамен единый абитуриент

Проблемная ситуация и постановка проблемы

Разработка и введение в практику Единого Государственного Экзамена (ЕГЭ) стали ключевыми элементами реформы российской образовательной системы, основные идеи которой были сформулированы в Концепции модернизации российского образования, разработанной в 2000 году.

ЕГЭ стал новой оценочной процедурой, основная черта которой - его стандартизированный и всеобщий характер. Такая форма экзаменации призвана решать сразу несколько важных задач. Во-первых, ЕГЭ должен был стать основой для системы оценки качества школьного образования и всеобщей итоговой аттестации выпускников школ; во-вторых, он был призван решать задачу обеспечения равного доступа к высшему образованию для всех выпускников школ, вне зависимости от их социальных и экономических характеристик.

Таким образом, другая важная особенность ЕГЭ заключается в том, что он совмещает в себе выпускной школьный и вступительный вузовский экзамен. Это отличает его от других стандартизированных экзаменов, применяющихся в мировой практике, которые чаще всего используются как вступительные экзамены и сдаются вне школы. Такая особенность предполагает, что ЕГЭ должен одновременно оценивать как детей, владеющих минимальным уровнем школьных знаний и не собирающихся продолжать обучение, так и тех, кто претендует на дальнейшее обучение в высших учебных заведениях, что ставит особенные требования к разработчикам его содержания.

С 2001 года ЕГЭ использовался как экспериментальная форма зачисления абитуриентов в ВУЗы, и в течение этого периода были зафиксированы важные изменения: расширился социальный состав студенчества, увеличилась доля студентов из отдаленных регионов, сельской местности, малоресурсных семей, произошло перераспределение состава студентов на более и менее востребованных специальностях (Решетникова, Эфендиев, 2004). На данный момент отмечается, что ЕГЭ справляется со своей социальной функцией: сделать высшее образование более открытым для всех групп населения (Болотов и др., 2012).

ЕГЭ был признан эффективным инструментом и в 2009 году он стал обязательной формой вступительных экзаменов для всех ВУЗов России, заменив собой прежние вступительные испытания, которые прежде устанавливались ВУЗами самостоятельно. С этого времени результаты ЕГЭ должны использоваться как основной индикатор подготовленности абитуриентов к дальнейшей учебе в университете. Для каждого направления обучения определен список из 3 или 4 предметов, результаты по которым должен предоставить абитуриент, если он хочет быть зачисленным на данную программу. Список предметов ЕГЭ различается для разных направлений подготовки и входящие в суммарный балл предметы в разной степени релевантны последующей программе обучения в ВУЗе.

В данной ситуации возникает вопрос, является ли при этом ЕГЭ адекватной мерой учебного потенциала студента. Безотносительно того, каким образом оцениваются с помощью ЕГЭ компетенции выпускников, именно на основании его результатов ВУЗы принимают решения о зачислении абитуриентов, а это значит, что его результаты должны точно отражать способности студента к дальнейшей учебе. Но, вопрос о том, насколько хорошо ЕГЭ справляется со своей инструментальной функцией - отбора абитуриентов в университеты, даже после его введения в качестве обязательного экзамена остается нерешенным. Таким образом, остается проблема валидизации ЕГЭ как вступительного экзамена.

В данном исследовании мы будем рассматривать баллы ЕГЭ именно как инструмент, которым пользуются ВУЗы для принятия решений о приеме абитуриентов, и задаемся целью проверить адекватность применения этого инструмента в том виде, как он используется в настоящий момент, иначе говоря, оценить валидность ЕГЭ как вступительного экзамена.

Целью данного исследования является оценка валидности ЕГЭ как вступительного экзамена, то есть того, насколько ЕГЭ способен исполнять функцию оценки компетенций абитуриентов, необходимых для их отбора в ВУЗы.

В данном исследовании мы будем рассматривать прогностическую валидность ЕГЭ, то есть оценивать, насколько точно на основании ЕГЭ можно предсказывать дальнейшую успеваемость студента в ВУЗе.

Оценка прогностической вадидности вступительного экзамена предполагает поиск ответов на следующие вопросы:

· Существует ли линейная зависимость между ЕГЭ и успеваемостью в вузе? И если да, то насколько она сильная?

· Различается ли предсказательная способность разных предметов ЕГЭ, формирующий суммарный балл?

Учитывая специфику приема абитуриентов в России, где, помимо ЕГЭ существует дополнительный инструмент отбора - олимпиады школьников, в рамках оценки валидности ЕГЭ нам представляется важным ответить на следующий вопрос:

· Как работает ЕГЭ наряду с другим средством отбора абитуриентов - олимпиадами?

Наконец, поскольку ЕГЭ был разработан как инструмент для выравнивания шансов абитуриентов на поступление в ВУЗ, нам представляется важным оценить его валидность в связи в различными индикаторами социально-экономического положения студентов. Поэтому мы также предполагаем дать ответ на вопрос:

· Влияют ли социально-экономические характеристики студентов на связь между ЕГЭ и успеваемостью? И если да, то каким образом?

Перечисленные вопросы были развернуты в следующих задачах.

Задачи

I блок задач. Связь ЕГЭ и успеваемости

1. Оценить силу связи между суммарным баллом ЕГЭ и успеваемостью.

1.2. Выяснить, различается ли валидность суммарного балла ЕГЭ для отбора студентов на различные направления подготовки.

2. Оценить силу связи между баллами ЕГЭ по отдельным предметам и успеваемостью.

2.2. Оценить валидность ЕГЭ по различным предметам для разных направлений подготовки

II блок задач. Взаимодействие ЕГЭ и олимпиад

1. Выяснить, повышает ли эффективность отбора студентов совмещение результатов ЕГЭ и олимпиад

2. Сравнить, что лучше предсказывает успеваемость студентов: высокие баллы ЕГЭ или олимпиады

III блок задач. Влияние социально-экономических характеристик на связь ЕГЭ и успеваемости

1. Оценить, различаются ли баллы ЕГЭ и успеваемость у студентов из разных типов населенного пункта

1.2. Оценить, различается ли взаимосвязь между ЕГЭ и успеваемостью для студентов из разных типов населенного пункта

2. Оценить, различаются ли баллы ЕГЭ и успеваемость у студентов из разных типов школ

2.2. Оценить, различается ли взаимосвязь между ЕГЭ и успеваемостью для студентов из разных типов школ

3. Оценить, различаются ли баллы ЕГЭ и успеваемость у студентов из семей с разным уровнем образования родителей

3.2. Оценить, различается ли взаимосвязь между ЕГЭ и успеваемостью для студентов из семей с разным уровнем образования родителей

Гипотезы

I блок. Связь ЕГЭ и успеваемости

1. Между суммой баллов ЕГЭ и академическими показателями студентов существует достаточная линейная связь. В качестве референтного значения валидности экзамена нами была принята его способность объяснять 15-25% дисперсии дальнейшей успеваемости (коэффициент детерминации в регрессионных моделях R2?0,15-0,25), что является средней предсказательной способностью стандартизированных экзаменов SAT и ACT в США (Rothstein, 2004) (Kuncel, Hezlett, 2007).

2. Предсказательная способность ЕГЭ устойчива для различных когорт студентов, то есть ЕГЭ, проведенные в разные годы, имеют одинаковую валидность.

3. Сила связи ЕГЭ и успеваемости не значительно снижается ко 2 и 3 курсу, но эта связь почти полностью опосредуется влиянием успеваемости на первом курсе на дальнейшие успехи.

4. ЕГЭ имеет набольшую валидность для отбора студентов на инжерерно-технические и математические специальности, наименьшую - на гуманитарные.

5. ЕГЭ по различным предметам имеют не одинаковую валидность для разных специальностей. Наибольшей предсказательной способностью обладают НГЭ по профильным предметам.

6. На каждой специальности вклад различных ЕГЭ в предсказательную способность суммарного балла не одинаков, поэтому эффективность отбора абитуриентов можно повысить, если приписывать разным предметам ЕГЭ разные «веса»

II блок. Взаимодействие ЕГЭ и олимпиад

1. ЕГЭ и олимпиады являются комплементарными средствами отбора абитуриентов: олимпиады отбирают наиболее способных абитуриентов, а ЕГЭ - всех остальных, поэтому:

1.2. Олимпиадники имеют более высокие баллы ЕГЭ

1.3. Олимпиадники учатся лучше, чем не-олимпиадники

1.4. Олимпиады лучше предсказывают успеваемость, чем высокие баллы ЕГЭ

III блок. Влияние социально-экономических характеристик на связь ЕГЭ и успеваемости

1. Социально-экономические характеристики студентов (регион, тип школы, образование родителей) незначительно улучшают способность ЕГЭ предсказывать дальнейшую успеваемость студентов.

2. Успеваемость студентов с разными социально-экономическими характеристиками различаются незначительно

3. Баллы ЕГЭ для студентов с разными социально-экономическими характеристиками различаются незначительно

Эмпирическая база исследования

Объект исследования: результаты ЕГЭ и успеваемость студентов российских университетов, поступивших в 2009-2011гг.

Предмет исследования: прогностическая валидность ЕГЭ по отношению к академическим результатам студентов.

Выборка

Тип: кластерная

Единица отбора: университеты РФ

Метод отбора: доступная выборка. В выборку вошли данные студентов ВУЗов, которые согласились предоставить информацию для исследования.

Всего в выборку вошло 5 университетов из разных городов России: Твери, Москвы, Йошкар-Олы, Иркутска и Якутска. Вошедшие в выборку вузы относятся к Центральному, Приволжскому, Сибирскому и Дальневосточному федеральным округам, так что можно считать, что выборка равномерно покрывает географию РФ. Всего в выборку вошло более 19000 студентов.

Талица 1. Выборка по ВУЗам, вошедшим в исследование

Кол-во факультетов

2009

2010

2011

Всего

ВУЗ 1

14

1646

1576

1431

4653

ВУЗ 2

19

2393

1496

2165

6054

ВУЗ 3

23

2169

2179

2270

6618

ВУЗ 4

7

317

296

400

1013

ВУЗ 5

2

247

284

177

708

Всего

65

6772

5831

6443

19046

Методология исследования

Оценка связи ЕГЭ и успеваемости

Мы будем оценивать валидность ЕГЭ как вступительного экзамена, путем измерения силы связи результатов ЕГЭ и дальнейшей успеваемости в ВУЗе. То есть, будем оценивать модель: Y = f(X), где Y - показатель успеваемости в ВУЗе, а X - результаты ЕГЭ. Для этой цели обычно применяется линейный регрессионный анализ, который позволяет оценить, какую долю дисперсии зависимой переменной объясняют переменные-предикторы и оценить индивидуальный вклад в предсказательную способность модели для каждой из них.

В нашем случае, оценка линейной зависимости с применением регрессионного анализа является адекватной потому, что сама система отбора абитуриентов предполагает наличие линейной связи между результатами ЕГЭ и способностями абитуриента к дальнейшему обучению. При приеме в университет, абитуриенты ранжируются на основании суммы баллов ЕГЭ, и предполагается, что более высокий балл означает лучший уровень подготовленности абитуриента.

В качестве основного показателя успеваемости в университете была выбрана средняя оценка за первый год учебы. Как показывают исследования валидности других экзаменов (Patterson, Mattern, 2012) (Patterson, Mattern, 2011) (Radunzel, Noble, 2012), первый год учебы является определяющим для успеваемости на всех последующих курсах, влияет на успешность сдачи итоговых экзаменов и даже на успеваемость в магистратуре (Radunzel, Noble, 2012). Поэтому важным условием валидности экзамена является его способность предсказывать успеваемость именно на первом курсе.

В качестве независимых переменных использовались либо сумма баллов по всем предметам ЕГЭ (модель (1)), либо баллы по каждому предмету ЕГЭ отдельно (модель (2)). Регрессионные модели строились отдельно для каждого факультета рассматриваемых университетов. Кроме того, модели строились отдельно для студентов, поступивших в ВУЗ в разные годы. Такое разделение было предпринято для того, чтобы исключить влияние различий ЕГЭ, проведенных в разные годы, на результаты построения модели. Таким образом, были использованы два типа регрессионных уравнений:

(1)

(2)

где Yiy - показатель успеваемости студента, поступившего в ВУЗ в год y; Xni - балл студента i по ЕГЭ по предмету j, о - ошибка.

Таким образом, анализ коэффициентов детерминации полученных моделей парной регрессии позволяет оценить валидность суммарного балла ЕГЭ как инструмента отбора абитуриентов. Анализ стандартизированных регрессионных коэффициентов множественной регрессии позволяет оценить валидность ЕГЭ по каждому отдельному предмету.

Объединение результатов регрессионных моделей с помощью мета-анализа

Мета-анализ - статистический метод, позволяющий объединять результаты отдельных статистических исследований, посвященных одной теме и одному объекту. Основная цель метода - обобщение уже накопленного знания об изучаемом объекте и выявление более общих закономерностей.

Чаще всего мета-анализ применяется в двух случаях: для обобщения результатов отдельных опубликованных исследований и для обобщения результатов исследований, проводимых на небольших выборках, в которых и сами результаты, и статистические тесты не могут быть достаточно надежными. Мета-анализ оказывается особенно важным в том случае, когда разные исследования демонстрируют различные или даже противоречивые результаты. Он позволяет корректировать ошибки выборки, учитывать ошибку измерения и другие искажающие результаты артефакты в дизайне исследований, а совместный анализ целого ряда исследований позволяет сделать более точные выводы об изучаемом объекте.

В нашем исследовании мета-анализ необходим для того, чтобы обобщить результаты анализа валидности ЕГЭ для отдельных факультетов и выявить закономерности, общие для всех анализируемых университетов. На первом этапе каждый факультет университета рассматривается как отдельная единица анализа, то есть для каждого факультета строится отдельная регрессионная модель. Это необходимо для того, чтобы избежать влияния особенностей оценки успеваемости студента на каждом факультете, различий в разбросе баллов ЕГЭ, которые влияют на характер совместного распределения этих двух показателей. Объединение студентов разных факультетов в одну модель может привести к недооценке силы связи между ЕГЭ и успеваемостью на изучаемых направлениях подготовки.

Чтобы дать общую оценку валидности ЕГЭ, на втором этапе результаты обобщаются с помощью процедуры мета-анализа. В нашем случае единицей анализа выступает результат регрессионного анализа для каждого отдельного факультета, результатом является оценка среднего коэффициента корреляции между факультетами разных университетов с учетом численности студентов на каждом из них. Подробнее метод мета-анализа будет описан в главе 2.

Оценка взаимодействия ЕГЭ с олимпиадами

Для анализа различий между абитуриентами, поступившими по олимпиадам и по ЕГЭ применялся дисперсионный анализ, а также строились модели регрессии с фиктивными переменными следующего вида:

(3)

где Yiy - показатель успеваемости студента, поступившего в ВУЗ в год y; Q - принадлежность студента i к группе «олимпиадников» или к группе поступивших с высоким балом ЕГЭ, о - ошибка.

Оценка влияния социальных характеристик на валидность ЕГЭ

Для проверки влияния различий в социально-экономическом статусе абитуриентов на валидность ЕГЭ применялся метод дисперсионного анализа, т-тесты, а также использовались путевые модели.

Глава 2. Обзор литературы

2.1 Обзор теоретических и эмпирических исследований по теме Основные задачи ЕГЭ как социальной реформы

Введение ЕГЭ было связано с потребностью реформирования системы высшего и школьного образования, сложившегося в стране в 90-е годы. С одной стороны, сложившаяся система выставления школьных оценок сделала практически невозможным сравнение и оценку качества работы школ, поскольку на итоговую оценку выпускников влияли не только его способности и знания, но многие другие внеинтеллектуальные факторы. В связи с этим возникла потребность в формировании стандартизированного и более объективного инструмента для оценки компетенций выпускников школ (Болотов, 2004) С другой стороны, существовавшая до реформы система приема в ВУЗы существенно ограничивала возможности выпускников школ получить доступ к высшему образованию. Завышенная доля специфических требований к знаниям абитуриентов, которые зачастую невозможно было получить без дополнительной подготовки, организуемой самим ВУЗом, существенно ограничивала возможности подготовки к поступлению в ВУЗ, и это являлось особенно сложным препятствием для детей из малообеспеченных семей, жителей отдаленных регионов и сельской местности (Решетникова, Эфендиев, 2004). Разработка ЕГЭ как новой унифицированной формы вступительных экзаменов была нацелена, главным образом, на снижение этих барьеров и обеспечение равных шансов поступления в ВУЗы для всех школьников страны.

С тех пор, как в 2001 году были запущены первые пробные экзамены ЕГЭ, были зафиксированы заметные сдвиги в структуре состава студентов российских университетов. Так, уже в 2003 году было зафиксировано, что после введения ЕГЭ расширился социальный состав студенчества: увеличилась доля студентов из отдаленных регионов, сельской местности, малоресурсных семей. Кроме того, произошло перераспределение студентов с низким социально-экономическим статусом на различных направлениях подготовки: для них стал более свободным доступ к востребованным специальностям (Решетникова, Эфендиев, 2004). На данный момент отмечается, что основная цель, поставленная перед ЕГЭ, была достигнута: фактически, с помощью него высшее образование снова начало выполнять почти утраченную им функцию социального лифта (Болотов и др, 2012).

Тем не менее, на данный момент исследователи констатируют, что пока нельзя утверждать, что введение ЕГЭ позволило полностью обеспечить равный доступ к образованию для всех абитуриентов. Например, Прахов и Юдкевич показали [2012], что доход семьи значимо влияет на успеваемость абитуриентов, особенности подготовки к ЕГЭ и, следовательно, на их возможности поступления в университет. В тоже время, Андрущак и Натхов (2012) отмечают, что введение ЕГЭ позволило изменить стратегии подготовки абитуриентов к поступлению: больше абитуриентов получили возможность самостоятельно готовиться к поступлению, и это особенно сильно отразилось на образовательных стратегиях в семьях с низким уровнем дохода.

Особенности ЕГЭ как стандартизированного экзамена

Решение всех поставленных в ходе реформы российского образования задач, основным инструментом которой стал ЕГЭ, требовало, прежде всего, стандартизацию процедур оценки компетенций выпускников и процесса приема в ВУЗы. Таким образом, основное свойство ЕГЭ заключается в том, что он является стандартизированным экзаменом. В мировой практике стандартизированные вступительные экзамены используются очень часто, самые известные из них - SAT и ACT в США и Matura в ряде Европейский стран, также стандартизированные вступительные экзамены используются, например, в Израиле (PET), Иране (Concours), Японии (National Center Test for University Admissions), Китае (NCEE).

Основное отличие ЕГЭ от всех перечисленных экзаменов состоит в том, что он совмещает в себе выпускной и вступительный экзамены (Atkinson, 2009) (Rothstein, 2004). Например, в США для поступления в ВУЗ принимаются два теста: ACT и SAT. Оба теста являются только вступительными экзаменами и сдаются по желанию выпускника школы, в том случае, если он собирается поступать в ВУЗ. В мировой практике все же есть примеры похожих экзаменов, которые совмещают в себе частично функции школьного аттестационного тестирования и экзамена, использующегося для поступления в ВУЗы. Это, например, A-levels, который не является обязательной формой вступительного экзамена, однако, его результаты принимаются многими ВУЗами для зачисления. В основном его сдают в Великобритании, но он также используется в других странах мира, например, на Мальте, в Сингапуре, Вест-Индии. Похожий экзамен существует во Франции (Baccalaurйat).

То, что ЕГЭ совмещает в себе функции выпускного и вступительного экзамена означает, что он должен одновременно оценивать как учеников, не собирающихся продолжать обучение, так и тех, кто собираются поступать в ВУЗы. Совмещение таких разных задач требует разработки особого подхода к формированию структуры экзамена, методов проставления баллов, и может накладывать ограничения на возможности экзамена измерять некоторые виды компетенций выпускников.

Таким образом, специфика ЕГЭ состоит в том, что он призван решать сразу несколько важных задач: во-первых, выполнять функции выпускного экзамена, то есть давать адекватную оценку уровня освоения школьниками образовательной программы; во-вторых, выполнять функции унифицированного вступительного экзамена, то есть служить надежным индикатором способности абитуриента успешно освоить программу выбранного им для поступления образовательного учреждения.

Исследования предсказательной способности ЕГЭ

На данный момент можно констатировать, что ЕГЭ хорошо справляется со своей главной социальной функцией: возвращение высшему образованию функции воспроизводства и обновления интеллектуальной элиты путем расширения возможностей доступа к высшему образованию молодым людям из различных социальных слоев (Болотов и др., 2012) (Решетникова, Эфендиев, 2004).

Однако, как уже отмечалось выше, с того момента, как ЕГЭ стал обязательным экзаменом, перед ВУЗами, принимающими решение о зачислении, встает вопрос о том, можно ли доверять результатам этого экзамена при отборе абитуриентов, и действительно ли высокие баллы ЕГЭ говорят о том, что студент будет успешно учиться в ВУЗе. Таким образом, встает вопрос о валидности этого теста как вступительного экзамена.

В теории измерения валидность в широком смысле означает, что используемый метод измерения способен исполнять поставленные перед ним задачи. А основной инструментальной задачей ЕГЭ является корректная оценка компетенций выпускников школ, на основании которой можно эффективно отбирать абитуриентов на конкурсной основе в ВУЗы.

Первым и важным этапом в процессе вадидизации тестов является оценка их предсказательной валидности или предсказательной способности. В целом, процесс оценки предсказательной способности сводится к тому, чтобы сравнить результаты оценки компетенций с помощью экзамена с другим, не зависимым от него, измерением способностей. Чаще всего этой «контрольной» оценкой выступает академическая успеваемость студентов, уже зачисленных на основании экзамена. Иными словами, оценка предсказательной способности - это оценка того, насколько хорошо на основании результатов экзамена можно предсказывать дальнейшую успеваемость студента.

Поскольку ЕГЭ создан относительно недавно - первый экспериментальный экзамен был запущен в 2001 году, и лишь с 2009 года он стал обязательным, российские исследователи на данных момент обладают довольно небольшой эмпирической базой для анализа. Кроме того, анализ результатов затрудняет сложность доступа к имеющимся данным, отсутствие единых баз с данными по ЕГЭ и успеваемости. Тем не менее, на данный момент уже проведен ряд исследований по этой теме. Большинство из них проводятся на данных по отдельным факультетам НИУ ВШЭ. Польдин (2010) (2011), изучает связь между ЕГЭ и успеваемостью на примере студентов факультета экономики НИУ ВШЭ Пересецкий и Давтян (2011) сравнивают эффективность ЕГЭ и олимпиад как инструмента отбора абитуриентов на данных по студентам МИЭФ НИУ ВШЭ, на данных различных факультетов НИУ ВШЭ делали анализ валидности ЕГЭ Деркачев и Суворова (2008), на примере экономического факультета занимается анализом ЕГЭ Замков (2012).

В целом, обобщая результаты их исследований можно сказать, что в среднем R2 для регрессионных моделей связи ЕГЭ с показателями общей успеваемости находится в интервале 0,25-0,3. Это значит, что баллы ЕГЭ объясняют 25-30% дисперсии показателей успеваемости. Лучший предиктор успеваемости из всех предметов ЕГЭ - экзамен по математике. ЕГЭ по русскому языку также часто оказывается значимым для предсказания дальнейшей успеваемости студентов.

Также важно отметить, что предсказательную способность моделей значительно улучшает учет того, что некоторые студенты были зачислены как призеры олимпиад: в среднем это улучшает коэффициент детерминации модели на 0,1. Эта переменная является важным фактором и сама по себе, даже без учета результатов ЕГЭ: некоторые показатели успеваемости различаются у призеров олимпиад и остальных студентов.

Если в качестве зависимой переменной выбирать оценки за конкретные, чаще всего профильные, предметы на первом курсе, предсказательная способность моделей с результатами ЕГЭ возрастает: R2 увеличивается на 0,05-0,1 по сравнению с моделями, где независимая переменная отражает более общие показатели успеваемости (позицию в рейтинге или среднюю оценку). Значительно увеличивает качество модели для предсказания успеваемости по конкретным предметам в университете учет оценок за другие пройденные предметы, что говорит о том, что оценки за изучаемые в университете предметы сильно коррелируют между собой.

Исследования валидности ЕГЭ проводились и на базе данных других ВУЗов. Гордеева и др. (2011) анализировали связь между баллами ЕГЭ и успеваемостью на первом курсе на Химическом факультете МГУ для когорт поступивших в 2009 и 2010 году. Они показали, что все предметы ЕГЭ: русский язык, математика, физика, химия, значимо связаны с показателями успеваемости. Модель с использованием всех предметов отдельно в качестве предикторов в регрессионной модели объясняет 26% дисперсии оценок за первую сессию. При этом более значимыми оказываются предметы непосредственно по специальности - физика и химия. Результаты же по математике, так же, как по русскому языку, оказались слабыми предикторами, причем ЕГЭ по русскому для некоторых показателей успеваемости оказался более значимым. При этом было установлено, что поступившие по олимпиаде показывают лучшие результаты, чем поступившие по ЕГЭ.

Исследования предсказательной способности других стандартизированных экзаменов: SAT и ACT, США.

SAT существует в США с 1926 года, пережив несколько значительных изменений, затронувших общую концепцию теста. Несколько позже, в 1959 году, во многом как альтернатива SAT, возник экзамен ACT. Он позиционировал себя как тест, измеряющий скорее не общие врожденные интеллектуальные способности школьников, но навык, получаемый в школе, то есть, предполагалось, что его результаты больше зависят от желания и способности школьника учиться. Однако со временем произошла конвергенция SAT и ACT. На данный момент оба экзамена оценивают как предметные знания выпускников, так и общие способности школьников к учебе (Atkinson, 2009), то есть совмещают в себе тесты знаний и тесты способностей (Зелман, 2004) Также по результатам исследований, оказывается, что оба экзамена показывают схожие результаты в способности предсказывать успеваемость выпускника в ВУЗе (Atkinson, 2009).

Очевидно, в США накоплен большой опыт проведения стандартизованных экзаменов, и имеется большое количество исследований валидности стандартизированных экзаменов. По сравнению с другими вступительными экзаменами, использующимися в мировой практике, исследованиям SAT и ACT уделяется самое большое внимание, и результаты этих исследований имеются в большом количестве в открытом доступе. Поэтому мы обратимся к исследованиям SAT и ACT для того, чтобы описать основные приемы в оценке предсказательной силы экзаменов, а также установить некоторые референтные значения, которые служили бы для нас критерием валидности ЕГЭ. Мы предполагаем, что долгая история разработки и апробирования содержания этих тестов, а также большой опыт в оценке их надежности и валидности, может служить гарантией того, что на полученные исследователями показатели качества SAT и ACT можно ориентироваться и при оценке ЕГЭ.

Общая оценка валидности SAT и ACT

Основной подход к анализу валидности SAT и ACT - оценка силы линейной взаимосвязи между результатами тестов и показателями успеваемости студентов в ВУЗе. Чаще всего в качестве показателей используются коэффициенты корреляции Пирсона, а также коэффициенты регрессионных моделей, где зависимая переменная - показатель успеваемости, а предикторы - баллы SAT или ACT.

Можно утверждать, что показатели валидности SAT и ACT очень близки. Средняя оценка коэффициента корреляции между результатами вступительных тестов и оценкой студента за весь период учебы находится между 0.35 и 0.46. Такие результаты дал мета-анализ результатов измерения связи стандартизированных экзаменов c успеваемостью в ВУЗе, проведенный в 2007 году на основании материалов большого количества статей (по некоторым изучаемым показателям количество анализируемых статей превышало одну тысячу, а количество анализируемых студентов в статьях варьировалось от 244 до 259 640 человек) (Kuncel, Hezlett, 2007). Но в различных исследованиях, в зависимости от характеристик выборки и ограничений моделей коэффициенты корреляции иногда превышают 0.5 (Patterson, Mattern, 2012), а в некоторых случаях взаимосвязь между баллами экзаменов и успеваемостью в ВУЗе оказывается вовсе статистически незначимой (Shaw, 2011). Соответственно, коэффициенты детерминации в регрессионных моделях с баллами SAT и ACT в качестве предикторов варьируются в пределах 0,15-0,25 (см., например (Rothstein, 2004)).

Устойчивость предсказаний на основе SAT и ACT

Исследования экзамена SAT, проводимые организацией-разработчиком College Board, по сути являются мониторинговыми, поэтому проводят исследования валидности экзамена из года в год на разных когортах студентов. Все исследования дают одинаковые результаты для разных когорт, что говорит о том, что предсказательная способность экзаменов SAT устойчива (см., например, (Patterson, Mattern, 2007) (Kobrin, Patterson, 2008)).

На основании результатов ACT однотипных, мониторинговых исследований не проводится, однако, в целом, измерения взаимосвязи дают схожие результаты (Radunzel, Noble, 2012) (Allen, Robbins, 2008).

Оценки в школе - лучший предиктор успеваемости в университете

Выше были представлены показатели предсказательной валидности исключительно между результатами экзаменов и успеваемостью. Однако часто в исследованиях наряду с результатами вступительных испытаний SAT или ACT в моделях учитывается еще один предиктор - средняя оценка за весь период учебы в школе, HSGPA (High School Grade Point Average). Результаты всех исследований показывают, что средняя школьная оценка является лучшим предиктором успеваемости в ВУЗах, чем вступительные экзамены SAT или ACT, а совместный учет результатов вступительных экзаменов и средней школьной оценки в одной модели заметно улучшает ее предсказательную способность (Rothstein, 2004) (Sawyer,2010). Так, коэффициенты детерминации регрессионных моделей, при учете HSGPA возрастает в среднем на 0.15 - 0.2 пункта (Rothstein, 2004) (Sawyer,2010), то есть увеличивает предсказательную способность модели почти в два раза. Рассматривая HSGPA и баллы SAT и ACТ как отдельные предикторы, можно сказать, что HSGPA лучше связана с успеваемостью в ВУЗе, чем вступительные экзамены. (Patterson, Mattern, 2012). На основании этих результатов многие исследователи даже предлагают учитывать среднюю школьную оценку наряду со вступительными экзаменами (Atkinson, 2009).

Предсказания успеваемости на первом году учебы и долгосрочные предсказания

Можно предположить, что с каждым новым годом сила связи вступительных тестов с успеваемостью должна ослабевать, но результаты исследований показывают, что коэффициент корреляции связи вступительных тестов с успеваемостью хотя и снижается к четвертому курсу, но не значительно: примерно на 0.1 (Patterson, Mattern, 2011) (Patterson, Mattern, 2012). Можно утверждать, что это свидетельствует о хорошей способности SAT и ACT делать долгосрочные предсказания успеваемости. Но здесь необходимо учитывать, что успеваемость на 1 курсе может самостоятельно оказывать значительное влияние на дальнейшую успеваемость студента: это подтверждается исследованиями, проведенными на примере ACT (Radunzel, Noble, 2012). По результатам анализа связи между показателями успеваемости до колледжа, результатами первого года учебы в колледже и показателей долгосрочной успеваемости исследователи сделали вывод о том, что на показатели долгосрочной успеваемости очень большое влияние оказывают результаты первого года учебы, при этом зависимость показателей долгосрочной успеваемости непосредственно от результатов вступительных экзаменов, хотя и значима статистически, но небольшая.

Зависимость предсказательной силы вступительных экзаменов от характеристик образовательного учреждения

При анализе связи результатов вступительных экзаменов и успеваемости в колледже важно учитывать характеристики самих образовательных учреждений. Исследования предсказательной способности вступительных экзаменов, дифференцирующие университеты по основным характеристикам, регулярно проводятся исследователями, занимающимися изучением валидности SAT. Обычно для дифференциации колледжей выбираются следующие характеристики: тип ВУЗа (частный / государственный), селективность (доля зачисляемых абитуриентов) и размер (количество студентов).

Результаты исследований (Patterson, Mattern, 2011) (Patterson, Mattern, 2012) показывают, что, во-первых, вступительные экзамены лучше предсказывают успеваемость в частных, чем в государственных ВУЗах; во-вторых, это зависит от селективности университетов: чем выше селективность, то есть чем больше в них конкурс среди абитуриентов, тем лучше вступительные экзамены предсказывают успеваемость студентов; наконец, чем больше размер ВУЗа, то есть чем больше в нем учится студентов, тем лучше вступительные экзамены предсказывают успеваемость. Однако нужно учитывать, что в США все перечисленные характеристики университетов тесно связаны между собой: частные университеты являются, как правило, более селективными.

2.2 Описание метода мета-анализа

Модели фиксированных и случайных эффектов

Как было описано выше, мета-анализ используется для объединения результатов статистических исследований, либо опубликованных отдельно, либо проведенных в рамках одного исследования, но на небольших несвязанных выборка, с целю более точного измерения интересующего эффекта и выявления более общих закономерностей.

Смысл мета-анализа заключается в том, чтобы найти среднее значение изучаемого эффекта по всем имеющимся исследованиям. Поскольку из-за особенностей дизайна некоторые исследования описывают изучаемых объект лучше других, при обобщении результатов разных исследований разумно предавать большее значение тем них, результаты которых, обладают большей надежностью в описании изучаемого эффекта. Метод мета-анализа позволяет предавать разным исследованиям различные «веса». Вопрос о том, каким образом фиксировать различия в исследованиях, и как в соответствии с этим приписывать им вес, является основным при выборе стратегии мета-анализа.

Два основных подхода статистической оценки в мета-анализе - модели фиксированного эффекта и случайного эффекта. Их основное различие заключается в концептуализации отношения анализируемых исследований к изучаемому объекту. Рассмотрим каждое из них подробнее.

С одной стороны, мы можем утверждать, что существует одно «истинное» значение эффекта, который проявляется эмпирически, и у нас есть несколько исследований, которым с большей или меньшей точностью удалось его оценить. В таком случае мы рассматриваем различные исследования как различные замеры одного и того же эффекта, которые проводились в практически одинаковых условиях. Объединение дисперсий, получаемых в результате этих замеров, с учетом их ошибок измерения, дает «истинную» дисперсию изучаемого эффекта. Тогда «истинное» значение зависит только от величины выборки в исследованиях, включенных в мета-анализ. Это допущения, использующиеся в модели фиксированных эффектов. В ее основе лежит предположение о том, что все исследования, включенные в анализ, построены по практически идентичному дизайну и на результаты каждого из них не влияют какие-то уникальные для исследования факторы. Иначе говоря, она предполагает, что все эффекты, способные повлиять на результаты зафиксированы, поскольку учтены в каждом исследовании.

С другой стороны, можно предположить, что величина полученного в разных исследованиях эффекта может зависеть от условий, в которых он измерялся, и что мы можем учесть эти условия при обобщении результатов. Например, разные исследования могут различаться по характеристикам отобранных респондентов, времени, месту, методу изучения, которые могут влиять на результаты измерения. Тогда необходимо допустить, что исследования, включенные в мета-анализ, представляют собой случайную выборку из различных проявлений изучаемого явления, а получаемая в результате обобщения оценка является средним по этим проявлениям. Задача такого объединения - включить в анализ максимальное количество различных эффектов, которые могут возникать в различных для изучаемого объекта условиях. Такие предположения лежат в основе модели случайных эффектов.

В идеале, модель фиксированного эффекта используется, когда предполагается, что все включенные в мета-анализ исследования описывают один и тот же объект в одних и тех же условиях. Такая ситуация встречается крайне редко, особенно в социальных науках. Различные исследования, посвященные одному объекту, чаще всего различаются по характеристикам изучаемой генеральной совокупности, а характеристики, лежащие в основании выбора группы для изучения, могут влиять на результаты. Поэтому в случае, когда генеральная совокупность у исследований, включенных в мета-анализ, не совпадает, необходимо использовать модель случайного эффекта, которая позволяет учесть характеристики объекта исследований как факторы, способные повлиять на их совместный анализ.

Основное методологическое различие двух подходов в мета-анализе состоит в определении источников ошибки. Многие исследователи отмечают, что модель фиксированных эффектов используется исключительно из-за ее методологической простоты, однако ее концептуальные основания почти никогда не позволяют использовать ее на реальных данных, и настоятельно рекомендуют использовать модель случайных эффектов (The National Research Council, 1992) (Schmidt and Hunter, 2004) (Field, 2001).

Поскольку модель фиксированного эффекта предполагает, что исследованиями измеряется один эффект, единственным источником неточности измерения в отдельных исследованиях, а значит и основанием для расчета их веса, является случайная ошибка выборки. Напротив, модель случайных эффектов, учитывается сразу несколько разных эффектов, каждый из которых может проявляться эмпирически в зависимости от условий наблюдения. Поэтому результат усреднения этих эффектов имеет два уровня ошибки измерения: первый - ошибка измерения каждого отдельного эффекта, второй - ошибка измерения среднего значения по этим эффектам.

Мета-анализ для объединения коэффициентов корреляции

Для мета-анализа исследований, использующих коэффициенты корреляции, на настоящий момент существует три модификации метода: Хеджа-Олкина (Hedges and Olkin, 1985), Хантера-Шмидта (Schmidt and Hunter, 1990) и Розенталя-Рубина (Rosenthal, 1991). Каждый из них имеет свои достоинства и недостатки. Модели Розенталя-Рубина и Хеджа-Олкина схожи между собой во всем, за исключением подхода к оценке статистической значимости эффекта. Но, кроме того, Розенталь и Рубин предложили только модель фиксированных эффектов (Field, 2001). Эти два метода используют трансформацию коэффициентов корреляции в z-распределение Фишера, в то время как в методе Хантера-Шмидта используются исходные значения коэффициентов корреляции.

Хантер и Шмидт предложили только модель случайных эффектов, утверждая, что концептуальные основания модели фиксированных эффектов делает ее непригодной для подавляющего числа случаев, когда необходимо использование мета-анализа.

Метод Хеджа-Олкина

Модель фиксированных эффектов

Трансформация коэффициентов корреляции в z-распределение Фишера осуществляется следующим образом:

, (1)

где ri - значение коэффициента корреляции в исследовании i, zi - значение коэффициента корреляции в z-распределении Фишера.

Далее все преобразования осуществляются со значениями коэффициентов в z-распределении.

В модели фиксированного эффекта веса коэффициентов рассчитываются только на основании размера выборки в исследовании:

,(2)

где wi - весовой коэффициент для исследования i, ni - размер выборки в исследовании i.

Среднее значение коэффициента, то есть итоговое значение коэффициента в мета-анализе, рассчитывается по следующей формуле:

,(3)

где - значение комбинированного коэффициента корреляции в z-распределении Фишера, - весовой коэффициент исследования i.

А его стандартная ошибка - квадратный корень из обратной величины от суммы весовых коэффициентов:

.(4)

Вероятность полученного z-значения рассчитывается с помощью функции стандартного нормального распределения. В методе Хеджа-Олкина z-значение среднего эффекта рассчитывается как отношение среднего эффекта к его стандартному отклонению:

.(5)

Или, иначе, доверительный интервал для итогового эффекта будет рассчитываться следующим образом:

;(6)

Обратная трансформация итогового коэффициента корреляции из z-распределения осуществляется по следующей формуле:

.(7)

Модель фиксированных эффектов предполагает, что объединяемые коэффициенты корреляции являются гетерогенными поскольку концептуально они рассматриваются как разные «замеры» одного и того же явления в одинаковых условиях, а следовательно, не должны различаться сильно. Поэтому ее можно использовать только если статистически объедияенмые коэффициенты гетерогенны.

Тест на гетерогенность коэффициентов корреляции, использующихся в анализе, проводится с помощью статистики Q, которая имеет распределение хи-квадрат. Q рассчитывается как сумма квадратов разницы между значением коэффициента в исследовании и среднем коэффициентом, умноженных на весовой коэффициент. Таким образом, чем больше величина коэффициента, тем данные менее гомогенны.

.(8)

В идеале, использование модели фиксированных эффектов допустимо тогда, когда тест показывает, что коэффициенты, использующиеся в мета-анализе, гомогенны. Статистическая проверка гипотезы о гомогенности распределения проводится с помощью критерия хи-квдарат, где число степеней свободы равно:

.(9)

Модель случайных эффектов

Основное отличие модели фиксированных эффектов от предыдущей состоит в способе расчета веса каждого коэффициента: здесь учитывается не только размер выборки, но и дисперсия между исследованиями.

Поэтому в расчет весовых коэффициентов, помимо объема выборки исследования, используется коэффициент для оценки межгрупповой дисперсии, ф2, который основывается на коэффициенте гомогенности Q, количестве исследований, включенных в анализ, k, и константе с.

,(10)

где с рассчитывается исходя из весовых коэффициентов для модели фиксированных эффектов:

.(11)

Итоговая формула для весовых коэффициентов в модели случайных эффектов будет выглядеть следующим образом:

.(12)

Взвешивание и оценка итогового эффекта осуществляется таким же образом, как в модели фиксированных эффектов.

Метод Хантера-Шмидта

Как уже было сказано выше, Хантер и Шмидт предложили использовать свою модель только как модель случайных эффектов (Hunter and Shmidt, 2004).

Они, в отличие от Хеджа и Олкина, Розенталя и Рубина, предлагают использовать в модели исходные значения коэффициентов корреляции.

Среднее значение коэффициента рассчитывается исходя из размеров выборки в каждом исследовании. Можно сказать, что в методе Хантера-Шмидта размер выборки - аналог весовых коэффициентов в моделях Хеджа-Олкина и Розенталя-Рубина.

,(13)

где ri - коэффициент корреляции в исследовании i, ni - размер выборки в исследовании i.

Стандартное отклонение итогового коэффициента рассчитывается как стандартное отклонение коэффициентов корреляции в исследованиях от среднего коэффициента:

.(14)

Тогда стандартная ошибка среднего будет вычисляться следующим образом:

,(15)

где k - количество исследований, включенных в мета-анализ.

Z-значение для нахождения вероятности полученного коэффициента корреляции рассчитывается так же, как и в предыдущих моделях:

.(16)

Для тестирования гомогенности данных используется статистика хи-квадрат, вычисленная по сумме квадрата отклонений от среднего значения коэффициентов (Hunter, Schmidt, 1990):

.(17)

Сравнение методов мета-анализа для обобщения коэффициентов корреляции

Для тестирования описанных выше методов был проведен ряд исследований (Johnson et al., 1995) (Field, 2001), в которых различные модели оценивались на искусственно сгенерированных данных с заранее известными истинными значениями коэффициентов. В них анализировалась точность, с которой различные методы дают статистическую оценку. Ниже будут описаны результаты этих исследований.

Все три метода дают одинаковую оценку среднему значению эффекта. Однако методы значительно расходятся в оценках значимости эффекта (Field, 2001). В случае, когда результаты исследований, объединенных в мета-анализе, гомогенны, методы Хеджа-Олкина и Розенталя-Рубина дают наиболее точную оценку и величине эффекта, и его значимости, в то время как метод Хантера-Шмидта дает менее надежные результаты: многие отмечают, что к методу Хантера-Шмидта, в случае гетерогенности результатов исследований, следует относиться с осторожностью (Johnson et al., 1995) (Field, 2001).

Однако когда результаты различных исследований гетерогенны (что соответствует концептуальной основе метода случайных эффектов), наиболее точным в оценке среднего значения эффекта оказывается метод Хантера-Шмидта, однако, только в том случае, когда количество исследований в мета-анализе превышает 15. Такое же ограничение, в случае гетерогенности результатов, накладывается и на метод Хеджа-Олкина. Дело в том, что результаты тестирования показывают, что на маленьких выборках ни метод Хантера-Шмидта, ни Хеджа-Олкина не способны адекватно оценивать уровень значимости критерия. Это означает, что анализ случайных эффектов может быть статистически надежным только в том случае, когда в мета-анализе используется большое количество исследований. При этом надежность анализа фиксированных эффектов была подтверждена для любого количества исследований.

Тестирование моделей (Field, 2001) показывает, что все три метода дают точную оценку степени гомогенности данных, только в том случае, когда эффекты фиксированы, и кроме того, тесты на гомогенность данных обладают не высокой мощностью в оценке дисперсии эффекта на генеральной совокупности (Hedges and Olkin, 1985) (National Research Council, 1992), особенно на малых выборках (Gavaghan et al, 2000). Это значит, что тесты на гомогенность склонны давать скорее положительный ответ, а это может привести к неверным выводам о том, что эффекты действительно фиксированы.

Надежность методов зависит и от размеров коэффициентов, включенных в анализ. На малых выборках мощность модели случайного эффекта особенно низка для анализа небольших коэффициентов корреляции (Field, 2001). Метод Хантера-Шмидта немного недооценивает итоговую величину эффекта, когда корреляции, включенные в мета-анализ, выше 0.5, а метод Хеджа-Олкина всегда склонен немного переоценивать итоговую величину эффекта.

Таким образом, по результатам тестирования моделей мета-анализа коэффициентов корреляции можно сделать следующие выводы.

В основном модели различаются в способности достоверно оценивать статистическую значимость эффекта. Метод Хантера-Шмидта разработан как модель случайных эффектов, поэтому на гомогенных выборках оценка значимости работает плохо. На гетерогенных данных она является наиболее надежной, но только на больших выборках: более 15 исследований. Метод Хеджа-Олкина хорошо работает на гомогенных данных. На гетерогенных оценка значимости может быть надежной также только на выборке из более чем 15 исследований. Также тесты на гомогенность во всех моделях склонны переоценивать степень гомогенности данных, включенных в анализ, особенно это касается анализа на малых выборках. Но даже в том случае, когда тесты показывают, что данные гомогенны, метод случайных эффектов является концептуально более надежным.

Коэффициент корреляции (R) и коэффициент детерминации ( R2) в мета-анализе

Все описанные модели мета-анализа предназначены для работы с коэффициентами корреляции. Хотя концептуально модель мета-анализа не накладывает строгих ограничений на использование коэффициента детерминации, то есть квадрата коэффициента корреляции, изначально модели были разработаны для работы с «метрикой» коэффициентов корреляции. Это важно учитывать, так как модели мета-анализа довольно чувствительны к величине коэффициентов, особенно если они небольшие (Field, 2001). Поэтому в нашем исследовании мы будет использовать коэффициенты корреляции, а не коэффициенты детерминации.

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.