Главная Коллекция "Revolution" Педагогика К проблеме объективации педагогической диагностики и тестирования

К проблеме объективации педагогической диагностики и тестирования

Разработка тестов нового поколения как серьезная научная проблема. Общая характеристика основных форм и видов тестовых заданий. Рассмотрение особенностей и способов построения платежной матрицы весов правильных, неопределенных и ошибочных решений.

Рубрика	Педагогика
Вид	курсовая работа
Язык	русский
Дата добавления	02.12.2018
Размер файла	339,1 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

К проблеме объективации педагогической диагностики и тестирования

Введение

Достоверность индивидуальных и групповых оценок результатов обучения, обоснованность методов и средств их получения для разных условий и целей всегда были социально значимыми и до сих пор вызывают, пожалуй, наиболее острые обсуждения при объективном анализе педагогической деятельности, ее аттестации, контроле качества образования в целом. Педагогическая диагностика знаний ученика, студента, курсанта выявляет их недостатки в процессе обучения, при собеседовании с педагогом, выполнении заданий, сдаче экзаменов. В психологии и педагогике предложено много теоретических моделей, процедур измерения и диагностирования внутренних состояний чрезвычайно сложных мыслительных и эмоциональных структур и процессов в психике испытуемых, применяя понятия и модели различного уровня обоснованности и объективности [1-7].

Педагогическое тестирование значительно проще психоанализа и психодиагностики: в учебном процессе заранее определены цели и процедуры обучения, ученикам дается учебный материал, который, по сути, является исходным эталоном при сравнении с ответами испытуемых. Вместе с тем педагогические измерения и методы обработки результатов исследований знаний, скажем, студента, группы студентов, потока, факультета, вуза до сих пор имеют высокий уровень субъективности и далеки от достигнутых уровней точности и объективности, которые нам демонстрируют исследования в физике, технике, метрологии. Педагогическая диагностика, педагогические измерения имеют единую информационную основу с технической, медицинской и т.д. диагностикой и, в свою очередь, должна учитывать специфику взаимодействия с “проблемным объектом” - учеником, студентом.

Существующие формы тестов, технологии тестирования, способы сравнения ответов испытуемых с эталонами не удовлетворяют насущным требованиям образовательного процесса и вызывают в обществе, в научно-педагогической среде справедливые нарекания. Разработка тестов нового поколения является серьёзной научной проблемой. Тесты широкого применения должны учитывать типовые функциональные модели обучающих и обучаемых, их взаимодействия в проблемных педагогических ситуациях усвоения учебного материала, самоконтроля, вычисления текущего рейтинга, адаптивного тестирования, итогового экзамена, иметь объективные оценки качества учебного материала, тестов, технологии обучения и тестирования. Мы находимся в начале долгого пути решения этих важных проблем.

В данной работе приведены и обсуждаются некоторые результаты формализации и объективации традиционных видов тестов, их естественных обобщений. Формализация призвана выявить и зафиксировать предположения, лежащие в основе постановок задач диагностики и тестирования, в семантике получаемых результатов.

Следует различать субъективную и объективную формализацию. В первом случае модели строятся на основе субъективных представлений и понятий, не подкрепленных оценками их адекватности реалиям, либо используются параметры моделей, значения которых не измеряются, а назначаются из субъективных соображений, например, в моделях Раша и Бирнбаума.

Объективная формализация предполагает контроль адекватности понятий, моделей, исходных данных в строго оговоренном классе проблемных ситуаций диагностики и тестирования, выбор научно обоснованных мер точности/погрешности решений испытуемых, оценку достоверности и полезности конечных результатов педагогических исследований.

Чтобы уменьшить влияния искажающих факторов, приблизиться к достижимому идеалу общих и индивидуальных решений проблемы оценивания поверхностных и глубинных уровней знаний обучаемых, необходим подходящий концептуальный аппарат, который активно развивается в педагогике [5-9] и теоретической информатике [10].

1. Постановка проблемы

Прежде перечислим первоочередные, по нашему мнению, задачи теории и практики педагогической диагностики и тестирования знаний обучаемых:

- конструктивная и адекватная формализация основных понятий тестологии: объекты исследований, измеряемые свойства знаний испытуемых, средства измерений, обработки информации и их шкалы, сложность и трудность задания, точность и погрешность решения, мера случайности угадывания правильного решения;

- построение моделей объектов и процессов педагогических исследований, оценка адекватности и неопределенности моделей;

- анализ свойств применяемых тестов и технологий, их усовершенствование и синтез новых, обеспечивающих заданные характеристики по трудоемкости и достоверности результатов.

Уточним цели, объекты педагогических исследований, измеряемые свойства и средства измерений с позиций формальной информационной семантики [10]. Цель тестирования - определить в некоторой шкале измерений/вычислений уровень знаний обучаемого по данной дисциплине или заданию. Цель диагностирования - выявить плохо усвоенные понятия, разделы дисциплины, причины неудач при восприятии, усвоении нового учебного материала и последующем применении полученных знаний. Объектом исследования при тестировании являются приобретенные учеником знания по данной дисциплине. Измеряемое свойство - мера соответствия знаний обучаемого исходным (эталонным) знаниям учебного курса, или иначе, количественная или качественная мера их расхождения - отсутствие знаний либо их ошибочность, поэтому свойство, характеристика приобретенного знания оценивается, соответственно, в позитивных (точность, полнота) или негативных (погрешность, незнание) шкалах оценок.

Объектом исследования при диагностике является выявление пробелов в фактических и понятийных, теоретических знаниях данной и предшествующих дисциплин, заблуждений и ошибок в смысловых структурах обучаемых, в механизмах понимания учебной информации, в применяемых методах анализа и синтеза новых знаний. Первичные измерители в процедурах диагностики и тестирования - это классификаторы, распознаватели полученных ответов, решений заданий при сравнении с эталонными знаниями и счетчики числа правильных и ошибочных решений. Эти фактические данные затем обрабатываются вместе с априорной (теоретической) информацией.

В связи высокой сложностью проблемы объективации и нерешенностью многих вопросов тестологии начнем с простейших педагогических ситуаций, моделей и соответствующих им гипотез об адекватности моделей реальным ситуациям, о связях между внутренними структурами знаний в памяти обучаемых и выдаваемыми ими решениями тестовых заданий с последующим наращиванием сложности, детальности модельных описаний и разнообразия соответствующих им вариантов педагогических ситуаций.

Наиболее простой информационной ситуацией тестирования является итоговый экзамен по определенной дисциплине, который состоит в выполнении некоторого множества заданий теста с оценкой каждого решения задания в двоичной шкале: верно (1 балл) - неверно (0 баллов). Затем оценки по всем заданиям суммируются, число набранных баллов нормируется, преобразуется в значение итоговой (5-балльной, 100-балльной, …) шкалы экзаменационных оценок. Такой способ индивидуальной оценки позволяет перейти к групповой оценке испытуемых по данной дисциплине в виде среднего значения, дисперсии, моды, медианы и т.п., а также к индивидуальным и групповым оценкам по многим дисциплинам, к взвешенным оценкам для продвинутых, типичных, отстающих учеников и т.д.

Описанная схема тестирования является приемлемой по уровню объективности, представленные в ней упрощения реальных ситуаций контроля знаний допустимы, а полученные оценки достаточно адекватно отражают уровень знаний учеников, если истинны следующие гипотезы:

- набор заданий теста репрезентативен, т.е. достаточно полно представляет эталоны требуемых существенных знаний и контролирует освоение дисциплины в целом;

- все задания имеют одинаковую сложность и важность, иными словами, имеют одинаковые объемы покрываемых тестовым контролем понятий и разделов изучаемой дисциплины;

- задания теста в определенной степени независимы, контролируют различные разделы и учебные единицы дисциплины, в наборе заданий нет повторов;

- ответы обучаемых объективно соответствуют уровню их знаний изучаемого курса;

- двоичная шкала оценок каждого задания адекватно отражает степень знания данного вопроса, частичные (неполные) решения признаются полной неудачей;

- незнание и ошибочное знание имеют одинаковую нулевую оценку.

Нарушение истинности этих предположений ведет к необходимости усложнения данной модели тестирования, к ее различным усовершенствованиям, которые увеличивают адекватность моделей и объективность итоговых оценок, уменьшают уровни систематических и случайных ошибок в оценках знаний, обусловленных качеством применяемых тестов и технологий тестирования, последовательности предъявляемых заданий, особенностями невоспроизводимого поведения и психологического состояния испытуемых, не связанных с их реальными знаниями. В итоговом экзамене от этих особенностей обычно абстрагируются.

2. Формы тестовых заданий и оценки качества решений

Вопросы и ответы тестовых заданий могут быть произвольными, не обязательно формализованными, которые по возможности объективно оценивает педагог. Формы тестовых заданий и решений делятся на однозначно определенные (замкнутые), формализованные для ручной и машинной обработки, либо не формализованные (свободные) ответы, контролируемые преподавателем: текстовые, символьные, графические и т.п. Традиционно выделяют следующие виды формализованных заданий и решений:

- выбор подмножества правильных ответов, элементов заданного множества возможных решений, включая выбор пустого и полного подмножества;

- упорядочение по заданному признаку элементов множества, в этом случае ответ есть последовательность элементов (список, вектор);

- выбор и упорядочение элементов выбранного подмножества;

- распознавание и классификация элементов заданного множества, отнесение их к одному из классов, перечисленных в задании, в частности, установление взаимно-однозначного соответствия между элементами двух списков одинаковой длины (элементами множества и заданными классами).

Для этих форм заданий необходимо определить меры точности или погрешности ответа испытуемого. Меры точности являются фундаментальными критериями любой информационной деятельности, в данном случае, критерием качества ответов испытуемых и должны заменить разнообразные косвенные показатели, используемые в практике тестирования, скажем, коэффициенты сходства и различия решения и эталона (Фора, Пирсона, Кендалла, Спирмена и др.), имеющие размытую семантику и многозначные толкования. Разнообразные формы заданий должны характеризоваться мерами абсолютных и относительных, систематических и случайных ошибок решений испытуемых.

Весьма сложное поведение обучаемого во время тестирования порождает в общем случае случайные ответы, которые не отражают действительные знания и искажают результаты тестовых оценок. Поэтому необходимо также для каждого типа формализованных заданий найти меры случайного угадывания при отсутствии знаний по заданному в тесте вопросу. Оценки точности/погрешности предъявляемых решений и вероятности (частости-редкости) случайного угадывания правильного решения составляют основные компоненты метрологии педагогического тестирования.

3. Задания с выбором правильных вариантов

Самым распространенным видом тестовых заданий является тип «один из многих», когда тестируемый должен выбрать единственный верный вариант из множества представленных в задании ответов-альтернатив. Другой распространенный тип заданий - выбор нескольких правильных ответов. Ошибки решений и вероятность случайного выбора правильного ответа в этих случаях зависят от четырёх параметров:

N - общее число возможных ответов, предложенных в тесте, N?2;

М - число правильных ответов в этом множестве, 0?M?N;

n - число ответов, выбранных испытуемым, которые он считает правильными, 0?n?N;

m - число правильных ответов в выборке (подмножестве) испытуемого, 0?m?n.

Значения параметров задания N и M выбирает разработчик теста, параметры n и m определяются при тестировании.

Важно различать две ситуации в форме задания и в информированности испытуемого:

? он знает из текста и типа задания число М правильных ответов из N возможных (для случая заданий типа «один из многих» М=1);

? значение М испытуемому заранее неизвестно, известно только, что 0?M?N.

Во второй ситуации должна быть изменена традиционная формулировка задания и использоваться, например, такая форма: «Выберите из данного перечня все правильные ответы». Отвечая на этот вопрос, испытуемый выбирает n ответов в соответствии со своими знаниями или догадками: 0?n?N, в первой же ситуации при разумном поведении испытуемых n=M. Выбор n ответов из N возможных, когда М неизвестно, распадается на N независимых подзадач в двоичной шкале {да, нет} по каждому элементу множества альтернатив и решение принимается независимо от других решений, когда же М известно подзадачи анализа альтернатив и принимаемые решения становятся зависимыми.

Предположим, что испытуемый плохо знает предложенный учебный материал и решает задания теста наугад, по интуиции, прошлому опыту, ассоциативным связям слов в тексте задания, выбирает подмножество ответов численностью n, из них получает m правильных. В случае, когда число М ему неизвестно, число возможных альтернатив выбора равно числу подмножеств 2^N. Предельная неопределённость решения возникает при равновероятности альтернатив, соответствующая случайному выбору. Тогда вероятность случайного угадывания единственного подмножества, состоящего из М правильных ответов, равна: P_R=2-^N.

Если количество вариантов в задании N=7, вероятность P_R равна: P_R = 1/2⁷ = 1/1288. В подобных ситуациях случайным угадыванием пренебрегают. Таким образом, эффект случайного выбора правильного ответа становится решающим при малых N когда значение параметра М становится известно испытуемым из текста задания, из прошлых испытаний и т.п. Если М известно хотя бы приближенно , тогда n= и вероятность случайного ответа быть истинным увеличивается.

В технической диагностике, в задачах контроля качества партии изделий решаются аналогичные задачи и оцениваются соответствующие вероятности [11]. Комбинаторная вероятность случайного выбора (при равномерном распределении альтернатив) из N ответов подмножества численностью n, в котором содержится m правильных ответов (m?M) равна отношению числа благоприятных альтернатив к общему числу альтернатив и вычисляется по формуле:

Число сочетаний n элементов из N возможных есть биномиальный коэффициент, значение которого выбирается из треугольника Паскаля либо вычисляется по формуле, содержащей факториалы:

Данные формулы позволяют оценить снизу вероятности различных типов ошибок решений и ответить на вопрос о вероятности случайного правильного ответа. Если плохо подготовленный ученик, студент знает число М, тогда для правильного ответа n=m=M и его вероятность равна:

В этой проблемной ситуации вероятности случайного угадывания правильного решения P_R зависят от значений параметров задания N,М < 8. При известном обучаемым значении M вероятности представлены в таблице 1 (в знаменателях стоят биномиальные коэффициенты).

Таблица 1. Зависимости вероятности случайного угадывания от числа альтернатив

Последняя строка таблицы определяет зависимость вероятности P_R от N, когда значение М неизвестно испытуемым. Сравнивая эти вероятности в одних и тех же тестовых ситуациях можно заключить: знание М в несколько раз увеличивает вероятность угадывания.

Применим формулу P_R для оценки вероятности случайного угадывания почти точного решения, если экзаменуемому приближенно известно число правильных ответов в задании, например: при N = 5. Вероятность того, что в случайно выбранном списке все ответы правильные, т.е. m = n, зависит от М в допустимом интервале значений: 1 М N =5 и равна P_R = /. При М =5 имеем n = 4, P_R=1. При М = 4 длина выбранного списка ответов n = 3; вероятность того, что все ответы правильные: P_R = 0.4; а при точном знании М = n =4 вероятность в два раза меньше. Пусть теперь испытуемый решил, что n = , 0 М 4; тогда при любых значениях М из этого интервала вероятность того, что решения заданий правильные, равна нулю.

Более важной для анализа свойств задания и теста в целом является установление обоснованных мер точности и погрешности решений. Для диагностирования и управления процессом обучения более удобны негативные шкалы мер ошибок, а результаты экзамена представляют в позитивной шкале оценок. В теории распознавания объектов и ситуаций, в военной науке выделяют следующие типы ошибок дихотомической классификации, в нашем случае, разделение альтернатив на истинные и ложные:

- ошибки первого рода Д₁- пропуск цели, испытуемый выбрал не все правильные ответы задания, тогда величина Д₁равна числу пропущенных правильных ответов;

- ошибки второго рода Д₂ - ложная цель (ложная тревога), испытуемый в качестве правильных выбирает неправильные ответы задания.

Ошибка решения задания есть сумма ошибок первого и второго рода = ₁+₂, она равна числу ошибочных оценок альтернатив в списке вопросов задания. Эта величина (численная мера ошибок решения) есть функция четырёх аргументов - параметров информационной ситуации: Д(N,M, n,m). Эти параметры зависимы: 0?M?N, 0?n?N, 0?m?n, m?M, т.е.0?m?min(M,n). Ошибка первого рода: Д₁=M-m, ошибка второго рода: Д₂ = n - m, суммарная ошибка: Д = M + n - 2m. Разложение полной ошибки на две составляющие связано с различными причинами их порождения и разными последствиями этих ошибок, что важно учитывать при диагностике и управлении обучением. Ошибка первого рода в основном отражает неполноту знаний, второго рода - искаженность знаний.

Пределы изменения ошибок Д₁, Д₂, Д определяются при постоянных и переменных параметрах задания. Пусть число предлагаемых вариантов N задано, а величины M,n,m изменяются в указанных выше пределах, тогда абсолютные численные меры ошибок лежат в интервале 0Д₁,Д₂,Д N, относительные (нормированные, приведенные к единичному интервалу значений) меры ошибок _п1= Д₁/N, _п2= Д₂/N, _п= Д/N = _п1+ _п2 в метрологии называют приведенными погрешностями измерений, их значения лежат в числовом интервале [0,1], как и значения математических вероятностей.

Пусть теперь заданы N и M, а параметры n и m варьируются в допустимых пределах. Тогда абсолютные меры ошибок решений обучаемых лежат в интервалах: 0 ?Д₁?M, 0?Д₂?N-M, 0?Д?N.Относительные ошибки первого ₁= Д₁/M и второго рода ₂= Д₂/N-M при заданном значении М 0, M N, известном или неизвестном испытуемым, лежат в полном единичном интервале (в отличие от приведенных погрешностей первого и второго рода). Полная относительная ошибка = Д/N совпадает с полной приведенной погрешностью решения задания: 0 =_п 1, ? ₁ + ₂.

Представляет также интерес способ нормировки ошибок и приведение их к единичному интервалу вариаций значений при трех заданных параметрах N,M,n тестовой ситуации. Пределы изменения ошибок решения в этом случае определяются минимальным и максимальным значением величины m, входящей со знаком минус в формулы ошибок, поэтому Д₁_min= M - m_max, Д₁_max= M - m_min, Д₂_min= n - m_max, Д₂_max= n - m_min, пределы вариаций полной ошибки Д_min=M + n - 2m_max, Д_max= M + n - 2m_min. Минимальное число m_min правильных ответов в выборке при заданных N,M, n равна нулю при N - M > n и равна m_min= n - N + M при N - M n. Зная пределы изменения абсолютных мер ошибок, переходят к относительным мерам, скажем, полная относительная ошибка при фиксированных параметрах задания n,M,N есть _с

= (Д- Д_min) / ( Д_max - Д_min), 0_c, _c₁, _c₂1, _c _c₁+_c₂.

Приведем примеры:

1) n=0, m=0, M?1, Д=Д₁=M - 1, Д₂=0;

2) n=1, m=1, M?1, Д=Д₁=M - 1, Д₂=0;

3) n=1, m=0, M?1, Д₁=M, Д₂=1, Д=M+1

сумма ошибок первого и второго рода; при ошибочном выборе одного объекта из двух возможных: M=1, N=2, абсолютная ошибка Д=2 - и пропуск цели, и ложная тревога, хотя выбран только один ответ - все приведенные в задании альтернативы оценены неверно, относительная ошибка = 1 = 100, если же N=4, то =0.5=50, при большом числе альтернатив, скажем, N = 20 относительная ошибка равна 0.1=10 .

4. Задания на упорядочение объектов

Определим количественную меру ошибки линейного упорядочения элементов заданного списка. Пусть в тестовом задании определен эталонный порядок S_Э=(a, b, c, d,..)_N, неизвестный испытуемому, который, привлекая свои знания и сообразительность, определил следующий ответ: S=(a, d, b, c,..)_N, где N - длина списка. Ошибки полученного решения определяются расстояниями r(x) между элементами ответа и эталона (числом шагов исправления): r(a)=0, r(b)=1, r(c)=1, r(d)=2, ... Тогда суммарная ошибка процедуры упорядочения, выполненной испытуемым, равна сумме ошибок в позициях элементов: , переменная xS_Э. Величина Д есть четное число, она изменяется от нуля при правильном порядке элементов в ответе испытуемого, до максимальной величины Д_max= при четном N и Д_max= при нечетном числе элементов в списке (табл. 2).

Таблица 2. Зависимость максимальной ошибки от N.

Ошибка упорядочения достигает максимального значения не только при обратном порядке элементов в ответе (при N=4 S=(d, c, b, a)), но и при других “плохих” последовательностях элементов. Например, S=(c, d, a, b) или S=(c, d, b, a) имеем Д=8=Д_max. В общем случае 0?Д?Д_max.

Величина Д есть абсолютная мера ошибки упорядочения, относительная ошибка д= не зависит от N и изменяется в интервале: 0?д?1 или 100%, тогда мера точности решения t = 1 - д также изменяется в единичном интервале [0,1] либо выражается в процентах, баллах и т.п., значение t = 0 соответствует уровню предельной ошибки упорядочения Д = Д_max, а значение t = 1 = 100 баллов - максимальная положительная оценка ответа при Д=0.

Вероятность случайного угадывания истинного линейного порядка при полном незнании зависит от длины списка и равна обратной величине числа размещений N элементов: P_R=. При N=4 вероятность чуть больше 0.04, при N=5 имеем пренебрежимо малую вероятность угадывания истинного порядка: P_R=.

Комбинированное задание с выбором элементов по определенной теме и последующим упорядочением выбранных элементов в заданном аспекте характеризуется ошибками выбора _В= ₁ +₂первого и второго рода и ошибками упорядочения _У, которая вычисляется по приведенным выше формулам без учета потерянных элементов численностью ₁ и лишних выбранных элементов численностью ₂. Полная ошибка решения комбинированного задания = _В + _У, вероятность случайного угадывания при независимости процессов правильного выбора и упорядочения: P_R=P_RBP_R_У.

5. Классификация, распознавание, установление соответствия

Пусть в тестовом задании указан список объектов Q={a, b, c, ...} численностью N, скажем, новых понятий по изучаемой дисциплине, и список {C₁, C₂, …, C_М} имен M классов, к которым необходимо отнести эти объекты, N>0, M>1. Эталонная принадлежность aC_i , bC_j, cC_k ,… неизвестна из задания испытуемому. Оценка точности/погрешности распознавания типов объектов - классов, к которым принадлежат объекты a, b, c … вычисляется сопоставлением полученного ответа (с номерами классов эталона (i, j, k, …): при … ошибки отсутствуют, Д_x=0, при несовпадении ошибка распознавания объекта xQ есть Д_x=1. Суммарная абсолютная ошибка классификации есть - величина, равная числу несовпадений ответов и эталонной принадлежности объектов, она изменяется в интервале 0?Д?N. Относительная ошибка распознавания объектов принадлежит единичному интервалу 0?д?1. Точность классификации t =1 - д изменяется в том же интервале и выражается в относительных долях, в процентах и т.п.

Вероятность случайно угадать истинную принадлежность каждого из N объектов одному из M классов равна P_R= M-^N. При M,N ?4 эта вероятность пренебрежимо мала: P_R?1/256.

В задаче установления однозначного соответствия между элементами двух множеств одинаковой численности (M = N) ошибки соответствия вычисляются по тем же формулам, вероятность угадывания P_R= N-^N.

6. Итоговые шкалы оценок, учет сложности заданий, взвешивание решений

Абсолютные и относительные ошибки есть негативные характеристики решений, которые в итоге переводятся в позитивные шкалы экзаменационных оценок. Абсолютная точность решения задания есть число правильных решений - противоположная мера числа ошибок: Т = N - , относительная точность: t=T/N=1- нормирована и принадлежит единичному интервалу значений: 0t1, как и относительная ошибка . В числовой шкале оценок точности решений выделяют три точки, три особых значения:

- предельно точное, идеальное решение, t=1=100 баллов (процентов успеха), =0;

- предельно ошибочное решение, t=0, =N - возможно случайное, вероятность которого равна вероятности правильного угадывания, либо преднамеренное решение максимально информированного обозлённого отличника учебы (аналог логического парадокса «все критяне лжецы»);

- среднее значение точности t_R, погрешности _R решений при отсутствии знаний и случайном выборе альтернатив, эта величина вычисляется теоретически для каждого типа заданий или теста в целом либо рассчитывается методом статистических испытаний (Монте-Карло); для рассмотренных выше типов заданий значение t_R=P_R.

Зная величину t_R, можно скорректировать полученные обучаемыми оценки t кусочно-линейным преобразованием, которое практически сохраняет наивысшие баллы и уменьшает низкие оценки: исправленная от влияния случайности оценка решения t_CR = (t -t_R)/(1 - t_R) при t > t_R и имеет значение t_CR = 0 при t t_R. Однако эта коррекция усложняет логику принятия итоговых решений в 5-балльной и других шкалах, т.к. граничные значения итоговых оценок обычно задаются в исходной шкале точности.

Пусть экзаменационный тест содержит k заданий и обучаемый получил k оценок: t₁, t₂, …, t_k, итоговая экзаменационная оценка есть среднее значение полученных точностей: t_s=_I/k , средняя погрешность ответов на экзамене _s=1 - t_s. Относительные меры точности и ошибочности ответов на экзамене затем умножаются на 100, 10 и т.п. либо преобразуются в значения ранговых шкал для чего необходимо задать в относительной или 100-балльной шкале граничные значения рангов. Объективация процедур задания граничных значений и обоснование получаемых итоговых оценок (сдал - не сдал, в 5-балльной шкале и т.п.) является серьезной научной проблемой.

Выше при оценке точности решений тестовых заданий и вероятностей угадывания все ситуации и возможные ответы предполагались равноправными, одной и той же сложности поиска правильных решений и последующей значимости приобретенных знаний, погрешностей, пробелов. И мы подсчитывали число единиц - ошибок и правильных решений испытуемых. Однако задания и предъявленные в них возможные ответы могут сильно варьироваться по сложности, объему привлекаемых знаний, важности для последующей деятельности.

Более объективным описанием информационного процесса тестирования и его результатов служат модели, которые учитывают различия заданий по сложности и трудности их разрешения. В простейших моделях такого типа ошибки или точности решений взвешивают: t_w=, где вес w_i i-го ответа есть функция сложности задания: чем сложнее решенное задание, тем больше вклад ответа в итоговую оценку и меньше вклад ошибки Д_i в суммарную средневзвешенную ошибку решения. Если меру сложности достигнутого результата t_i обозначить через c_i, то в простейшем случае вес w_i=c_i, а вес погрешности _iесть w_i= c_max - c_i, где c_max - максимальная сложность заданий (иногда применяют формулу w_i =1/c_i). Единица измерения сложности произвольная, 0c_ic_max. Средневзвешенная погрешность _w=, приближенно равна _w1-t_w. Введение отрицательных весов при неудачах и положительных весов при высокой точности решений не привносит ничего нового, это простое смещение нуля шкалы оценок, которое устраняется линейным преобразованием в стандартную итоговую шкалу оценок [0,1].

В практике тестирования необходимо взвешивать все представленные альтернативы при выборе правильных ответов, все объекты упорядочения, классификации, установления соответствия, а также задания, тесты, дисциплины. Следует различать объективную сложность вопроса или задания и субъективную трудность получения правильного ответа. Объективная сложность есть обобщенная мера объема, взаимосвязей привлекаемых знаний и шагов их преобразований. Математическая теория сложности изложена в [17], информационная теория сложности представлена в [10], меры сложности понятий описаны в [18]. Субъективная трудность зависит от объективной сложности и степени подготовленности обучаемого. Ее измеряют в педагогической практике оценками средней погрешности решений, изменяя задания, состав группы испытуемых, учитывая уровень их подготовленности. Меры трудности используются не в итоговом экзамене, а в текущем процессе обучения, адаптивном тестировании и т.п.

Введение весов и взвешенных оценок результатов испытаний позволяет учесть не только сложность и индивидуальную трудность заданий, но и важность, полезность, время решения и другие факторы, влияющие на итоговые оценки. Для этого строятся соответствующие весовые функции от влияющих параметров.

7. Оценки заданий и ответов в шкалах информационных логик

Обычно при традиционном тестировании предлагаемые задания и возможные ответы, содержащиеся в заданиях, имеют однозначные формулировки и итоговые оценки каждого решения в двоичных шкалах {да, нет}, {правильно, неверно}, {истина, ложь} либо в числовых шкалах точности/погрешности решения, а сами процедуры тестирования существенно отличаются от собеседования учителя и ученика при сдаче экзамена. В их диалоге встречаются не только двоичные и числовые оценки, но также иного рода характеристики вопросов и ответов: не знаю | не понял | не решал - не хватило времени | данных недостаточно | вопрос или ответ неоднозначный | вопрос или ответ противоречивый, бессмысленный, абсурдный и т.п. Это - негативные характеристики ответов и заданий, а их отрицания определяют позитивные качества (модальности) приобретенных знаний: понял, знаю точно, могу доказать и т.д. Формализация смысловых структур учебных материалов, процессов передачи знаний, взаимодействия источника и приемника семантической информации находится пока в начальной стадии и выполняется построением математических моделей знаний [12-14], созданием в базисах теоретической информатики семиотических и семантических сетей[10,15,16].

Тесты, которые предусматривают подобные вопросы и ответы, позволяют углубить анализ уровня знаний обучаемых, различать синтаксические знания - результаты простого запоминания учебного материала, и его осмысленное понимание и применение при выполнении заданий. Преобразование учебной информации в знания связано с умениями обучаемых пополнять и выявлять несоответствия своих “новых” и “старых” знаний, различные виды неопределенностей в них, устранять, оценивать их значимость.

В неклассических логиках с информационной семантикой, в отличие от классической логики, оценивающей знания в шкалах {да, нет}, {истина, ложь}, вводятся дополнительные значения основных видов неопределенностей знаний - информационные нули и количественные меры погрешности/точности утверждений [10]. Используя в тестовых заданиях понятия и формальный аппарат информационных логик можно существенно расширить арсенал задаваемых вопросов, повысить глубину анализа степени понимания и усвоения учащимися учебного материала при диагностике, адаптивном тестировании, итоговом экзамене.

В трилогике - троичной логике с информационной семантикой в классическую шкалу логических оценок {да, нет}, {истина, ложь} вводится третье значение “понимаю, но не знаю да или нет” = - биноль, Базисный Информационный Ноль, модель предельной внутренней неопределенности и равной возможности одного из двух ответов внутри двоичной шкалы. В тетралогике в шкалу логических оценок знаний вводится четвертое логическое значение внешней неопределенности, вне двоичной и троичной шкалы - “противоречие, абсурд, ни да ни нет”, или - киноль, Критический Информационный Ноль, знак бессмысленных данных или ответов, несуразицы, требующей исправлений. Логические операции с информационными нулями определены в [10].

Кроме углубленного анализа понимания подобные тесты, в отличие от традиционных, предоставляют больше свободы в поведении испытуемых. Так, в двоичной шкале ответов они вынуждены выбирать либо “да” либо “нет” даже если совсем не владеют смысловой информацией задания или вопрос сформулирован некорректно. Предоставление возможности ответить “не знаю” или «не понимаю» имеет значимые психологические преимущества при тестировании и диагностике. Здесь уместно сослаться на опыт Армении, принявшей тесты ЕГЭ, в которых предусмотрен ответ “не знаю”. Если испытуемый ответил правильно, т.е. , то ему засчитывается 1 балл. Если же ответил неверно, т.е. , то 1 балл вычитается, ошибка оценивается как обман педагога, а не заблуждение. Если учащийся выбрал ответ “не знаю”, то он оценивается в 0 баллов (неопределенность формулировки задания не предусматривается).

Данная схема с учетом теории информационных логик допускает обобщение, более строгую формализацию и объективацию. Пусть каждый возможный ответ в задании с выбором правильного варианта характеризуется в шкале тетралогики эталонными значениями: 1 - истина, 0 - ложь, _R - эталонный ответ действительно неопределенный, скажем, реальный объект стохастичен, - эталонное решение абсурдно. Испытуемые должны правильно характеризовать каждую из N альтернатив одним из четырех значений: 1, 0, _R, либо ответить «не знаю», пометив альтернативу знаком биноль = . Подобные типы тестов на понимание допускают пять возможных ответов испытуемых по каждой альтернативе и могут быть правильными, неопределенными или ошибочными, одного из шести типов ошибок в шкале трилогики или одного из 12 типов ошибок в шкале тетралогики и четырех типов биноля - незнания истинности, ложности, неопределенности либо абсурдности данной альтернативы. Каждый тип биноля и тип ошибки имеет свой вес - меру значимости в задании и характеризует степень незнания поставленного вопроса.

Для получения объективных средневзвешенных оценок решения задания необходимо построить платежную матрицу весов правильных, неопределенных и ошибочных решений и оценить ее адекватность реальной тестовой ситуации [10]. Платежная матрица = {_ij} в данном случае имеет размеры 54, 1i5 - число возможных вариантов ответа испытуемого, 1j4 - число возможных эталонных значений вопроса тестового задания, _ij - вес или весовая функция правильного ответа при i=j и неверного ответа при ij, это ожидаемый выигрыш или проигрыш принятого испытуемым решения. По платежной матрице вычисляется _minи _maxв данной тестовой ситуации, и полученные взвешенные оценки ответов испытуемого переводятся в стандартную шкалу относительных оценок взвешенной точности t_w=( -_min)/(_max - _min) в интервале значений [0,1].

Если ответы “да” либо “нет” в двоичной шкале эталонных ответов не являются равновозможными, то мы приходим к ситуациям, которые описывает формализм частотной логики (обобщенной вероятностной логики с информационной семантикой) - это строгое обобщение классической логики, которое учитывает количественную меру истинности/искаженности знаний в числовой шкале относительной погрешности решений в интервале [0,1]. Границы этого интервала соответствуют оценкам классической логики {ложь, истина}.

Выше были использованы эти меры при оценках точности/погрешности выбора, упорядочения, классификации объектов или установлении соответствия. В шкале частотной логики ответ «не знаю» = биноль оценивается в полбалла, =1/2 - предельная неопределенность оценок в двоичной шкале.

8. Педагогический эксперимент

научный тест задание

Цель эксперимента - проверить некоторые теоретические положения, изложенные выше. Эксперимент проводился в группе студентов, состоящей из 29 обучаемых весьма разнообразного уровня подготовки. Студенты были упорядочены по возрастанию текущей успеваемости в изучаемой дисциплине, при этом использована следующая информация: устные ответы, расчетно-графические работы, контрольные и курсовые работы. Экспертные оценки успеваемости, выставленные преподавателем в 5-балльной шкале, представлены на рисунке 1:

Рис.1. Средние баллы успеваемости студентов - экспертные оценки

В ходе эксперимента студентам было предложено последовательно пройти два теста по одному и тому же разделу изучаемой дисциплины. Первый тест - традиционный, второй содержал нововведения, учитывающие изложенные выше теоретические положения. Количество вопросов в тестах примерно одинаковое: 25 и 27. Формы используемых тестовых заданий следующие: выбор одного или нескольких правильных ответов из предложенного списка, установление правильной последовательности, установление соответствия.

В заданиях первого теста явно указывалось количество правильных альтернатив, допускались задания, содержащие только две альтернативы ответа, одна из которых правильная, при этом максимальное количество возможных альтернатив не превышало пяти.

Задания второго теста (нового поколения) содержали по сути те же самые вопросы, но была существенно изменена форма представления заданий:

- исключены задания с выбором одной верной альтернативы из множества возможных и задания с выбором одной из двух альтернатив;

- количество альтернатив N в задании увеличено по сравнению с традиционным тестом, N?5;

- в тексте вопроса не указано количество правильных альтернатив;

- включены задания, в которых все возможные альтернативы были правильными или же, напротив, ошибочными;

- в качестве возможных ответов в тестовом задании допускались ответы типа «не знаю».

Результаты, полученные в ходе эксперимента, представлены на рисунке 2:

Рис.2. Сравнительные результаты тестирования

Оценки успеваемости по модифицированному тесту практически повторяют экспертные оценки: кривые рисунков 1 и 2 легко совместить масштабированием, чего нельзя сделать с кривой традиционного теста - он весьма чувствителен к систематическим и случайным ошибкам тестирования. Кривая традиционного теста заметно выше оценок, полученных по модифицированному тесту, особенно для отстающих студентов, что подтверждает эффект случайного угадывания правильных ответов. Этот эффект также проявляется в ответах успевающих и продвинутых студентов.

научный тест задание

Выводы

Для повышения точности и объективности теории и практики тестовых испытаний в работе предложены формализованные определения основных понятий тестологии, унифицированы разнообразные формы тестовых заданий, шкалы оценок сведены к стандартной числовой шкале относительных значений мер точности/погрешности ответа, а также вероятности случайного угадывания правильного решения, также принадлежащих единичному интервалу [0,1] либо эквивалентной шкале [0,100] процентов или баллов. Значения в стандартной шкале преобразуются в итоговые оценки в других числовых и ранговых шкалах.

Сложность проблемы объективного исследования структур приобретенных знаний в памяти обучаемых и процессов решений тестовых заданий вынуждает упрощать процедуры диагностики и модели тестов, привлекать субъективную информацию, которой владеют педагоги, разработчики тестов, что может привести к потере точности и объективности конечных результатов.

Субъективные подходы и решения приносят пользу в тех случаях, когда формальные модели неадекватно описывают реальность.

Введение весовых функций и средневзвешенных оценок открывает возможности учесть не только сложность и трудность заданий, но и важность, ценность учебной единицы, время решения и другие факторы, влияющие на итоговые оценки и результаты тестирования.

Переход к характеристикам заданий и их решений в шкалах неклассических логик с информационной семантикой углубляют анализ знаний обучаемых, предоставляют им больше психологического комфорта при тестировании и возможностей в ответах на вопросы тестовых заданий.

Проведенный педагогический эксперимент с традиционной и модифицированной формами теста показал удовлетворительное согласие теории и экспериментальных данных по уменьшению влияния случайного угадывания. Модифицированный тест практически повторяет в пределах статистических погрешностей экспертные оценки преподавателя.

Литература

научный тест задание

1.Анастази А., Урбина С. Психологическое тестирование. - 7-е междунар. издание. - СПб.: Питер, 2005. - 688 с.

2.П. Суппес, Дж. Зинес, Р. Льюс, Е. Галантер. Психологические измерения. - М.: Мир, 1967. - 196 с.

3.Пфанцагль И. Теория измерений. - М.: Мир, 1976. - 248 с.

4.Равен Дж. Педагогическое тестирование: Проблемы, заблуждения, перспективы. - М.: Когито-Центр, 1999. - 144с.

5.Аванесов В.С. Научные проблемы тестового контроля знаний. - М.: Исслед. центр проблем качества подготовки специалистов, 1994. - 135 с.

6.Челышкова М. Б. Теория и практика конструирования педагогических тестов. Уч. пособие. - М.: Логос, 2002.

7.Измерение и оценка качества образования / А.А.Глушенко и др.- М.: МПА-Пресс, 2003. - 237 с.

Размещено на Allbest.ru

...

курсовая работа "К проблеме объективации педагогической диагностики и тестирования" скачать

Подобные документы

Методика составления тестовых заданий и проведения тестирования
История возникновения тестирования. Понятие теста, тестовых заданий. Классификация тестов, основные формы тестирования. Закрытые и открытые тестовые задания. Задания на соответствие и установление правильной последовательности. Анализ систем тестирования.

презентация [873,3 K], добавлен 07.04.2014
Метод тестирования в системе педагогических измерений
Педагогическое тестирование в России и за рубежом. Исторические предпосылки современного тестирования в отечественном образовании. Классификация видов педагогических тестов, предтестовых заданий и требования к ним. Инновационные формы тестовых заданий.

курсовая работа [110,2 K], добавлен 28.10.2008
Анализ тестовых заданий при использовании системы Moodle
Использование электронных систем управления обучением. Формирование банка тестовых заданий всех основных форм. Матрица результатов тестовых заданий. Индекс легкости заданий для тестируемой группы. Средства анализа результатов тестовых заданий системы.

реферат [1,4 M], добавлен 31.03.2011
Место тестов в изучении истории
Особенности организации тестирования знаний. Рекомендации по использованию тестовых заданий на разных этапах обучения и в различных видах занятий, оценка их результатов. Анализ роли и места тестовых заданий по истории в проверке знаний и умений учащихся.

курсовая работа [160,8 K], добавлен 30.08.2010
Особенности организации, применения и эффективности использования тестов в обучении математике в начальной школе
Теоретико-методические основы тестовых заданий и его видов. Психолого-педагогические основы. Тесты на уроках математики. Анализ опыта учителей по применению тестовых заданий. Краткая характеристика преимуществ использования тестовой формы контроля.

курсовая работа [40,2 K], добавлен 17.04.2017
Виды тестов и формы тестовых заданий
Основные виды педагогических тестов и формы тестовых заданий. Эмпирическая проверка и статистическая обработка результатов. Принципы отбора и критерии оценки содержания теста. Соотношение формы задания и вида проверяемых знаний, умений, навыков.

лекция [79,8 K], добавлен 10.05.2009
Психолого-педагогическая диагностика
Понятие психологической и педагогической диагностики, ее аспекты и характеристика. Критерии качества измерения, принципы диагностирования и контролирования. Виды тестирования, классификация тестов. Основные правила подготовки материала для тестирования.

реферат [30,3 K], добавлен 23.01.2012
Разработка педагогического теста по предмету "Физика" для учащихся 7 класса общеобразовательной школы по материалу I четверти
Роль систематического использования тестов в объективной оценке уровня подготовки школьников. Спецификация и содержание тестовых материалов по физике для учащихся 7 класса. Статистическая характеристика заданий, анализ результатов по итогам тестирования.

курсовая работа [242,8 K], добавлен 29.01.2012
Психологические факторы тестовых заданий
Факторы, определяющие понимание тестовых заданий. Особенности учета психологии тестируемых. Применение логики при угадывании тестов. Основные факторы (уровни), определяющие понимание-непонимание: фонетический, семантический, стилистический и логический.

статья [22,8 K], добавлен 01.02.2012
Разработка тестовых заданий
Методологические основы создания тестовых заданий, их особенности, класификация, критерии качества, экспертиза. Проверка в тестовых заданиях законов сохранения энергии, сохранения импульса и сохранения момента импульса.

дипломная работа [84,9 K], добавлен 29.07.2011
Организационно-методическое обеспечение и разработка тестовых материалов для проведения контрольно-оценочных процедур по технической механике в рамках мониторинга образовательных достижений студентов
Цель проведения и методы оценочной процедуры. Составление контрольно-измерительных материалов для итоговой аттестации по технической механике. Структуризация банка заданий. Оценка результатов тестирования. Экспертиза и апробация банка тестовых заданий.

дипломная работа [240,4 K], добавлен 25.05.2014
Разработка методического обеспечения для тестового контроля знаний при изучении информатики и ИКТ
Характеристика традиционных форм педагогического контроля. Виды тестов на уроке информатики и ИКТ, эффективность их применения. Типология тестовых заданий для пропедевтического курса информатики. Организация тестового контроля на уроках в 3 классе.

курсовая работа [65,1 K], добавлен 16.04.2014
История становления и этапы развития тестирования как формы организации обратной связи в условиях среднего и высшего образования
Разработка проблемы тестирования в отечественной методике. Типы тестов в общеобразовательной практике и обучении иностранному языку. Эволюция подходов и тестовых методик в зарубежной системе образования.

реферат [39,4 K], добавлен 18.06.2007
Применение тестовых заданий на уроках биологии
Значение проверки знаний учащихся по биологии. Классификация тестовых заданий. Основные формы и методы проверки знаний и умений учащихся. Использование тестовых заданий для текущей и итоговой проверки. Обучение учащихся работе с тестовыми заданиями.

курсовая работа [3,9 M], добавлен 17.03.2010
Проблема социально и педагогически запущенных детей в начальной школе
Специфика социально-педагогической запущенности ребенка, механизмы ее влияния на формирование особенностей его личности. Принципы построения методов комплексной диагностики, профилактики, коррекции социально-педагогической запущенности в детском возрасте.

курсовая работа [70,4 K], добавлен 12.01.2014
Разработка контролирующих тестов по дисциплине "Развитие информационного общества"
Методы педагогического контроля. Тест как средство измерений знаний. Формы тестовых заданий, методы и приемы их использования. Разработка контролируемых вопросов по теме. Проведение формирующего эксперимента и статистическая обработка его результатов.

дипломная работа [72,6 K], добавлен 01.06.2013
Актерское и педагогическое мастерство в работе преподавателя
Анализ педагогической литературы по проблеме актерского мастерства преподавателей. Рассмотрение основных проблем молодых специалистов. Разработка тренинга "Педагогическое и актерское мастерство", выявление особенностей и специфики его проведения.

дипломная работа [86,3 K], добавлен 15.08.2014
Тест итогового контроля по дисциплине "Педагогические технологии"
Качественные экспертно-ориентированные методы оценки знаний и умений учащихся. Цель и основные задачи тестирования. Основные виды тестовых заданий. Функции теста и основные этапы его разработки. Сквозное применение педагогами метода тестирования.

курсовая работа [46,2 K], добавлен 27.12.2011
Использование тестовой методики для контроля сформированности лексических навыков и умений
Роль и функции тестирования в преподавании иностранных языков. Требования к составлению тестов. Комплексы заданий для тестового контроля речевых навыков (лексических, грамматических). Разработка заданий и упражнений для тестового контроля речевых умений.

курсовая работа [36,0 K], добавлен 07.12.2013
Тестовый контроль знаний школьников по истории
Историко-педагогические предпосылки становления тестового контроля в педагогической практике. Понятие контроля и его функции в обучении. Анализ эффективности различных типов тестовых заданий. Методология и технология построения тестовой системы контроля.

дипломная работа [142,5 K], добавлен 26.09.2009

Другие документы, подобные "К проблеме объективации педагогической диагностики и тестирования"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.