Использование статистических критериев проверки гипотез для оценки информативности факторов
Оценка влияния факторов на элементы классов, найденных по критериям Шеннона, Пирсона, Колмогорова и Уилкоксона Сравнение факторов по степени информативности методом обобщенной ранжировки объектов с учетом мнений всех экспертов и коэффициента конкордации.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 06.07.2013 |
Размер файла | 46,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
ИСПОЛЬЗОВАНИЕ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ ПРОВЕРКИ ГИПОТЕЗ ДЛЯ ОЦЕНКИ ИНФОРМАТИВНОСТИ ФАКТОРОВ
М.П. Лазеева, А. Лопатин
При изучении объектов, характеризуемых большим числом факторов, часто бывает важно определить, какие из этих факторов в большей степени влияют на интересующие нас свойства объектов. В частности, определение информативности факторов - это один из важных этапов анализа обучающей выборки при построении правил для классификации объектов с помощью пакета прикладных программ ПРОИС [1].
Пакет прикладных программ ПРОИС позволяет оценить влияние факторов на элементы выборки, а также согласованность оценок, найденных при помощи различных критериев.
Нами были использованы семь статистических критериев [2, 3, 4, 5].
1. J-критерий Шеннона. В качестве меры количества информации J(A/B), которую несет фактор для разделения объектов на классы, берется разность между начальной энтропией класса A - H(A) и апостериорной энтропией, полученной при учете фактора - H(A/B). При использовании меры Шеннона обычно выбирают двоичные логарифмы. Получаемая в этом случае единица измерения называется двоичной или битом.
J(A/B)=H(A)-H(A/B), (1)
где
, (2)
, (3)
где HR - энтропия для интервала с номером R.
. (4)
2. ч2-критерий Пирсона. Проверяется гипотеза H0 - о равномерном распределении вероятностей принадлежности объектов к классу A по интервалам значений фактора. Вычисляется наблюдаемое значение критерия Пирсона по формуле:
, (5)
где - теоретическая частота попадания объектов класса A в интервал с номером R.
По уровню значимости б и числу степеней свободы K=L-1 определяется табличное значение ч2таб (б, K). Если ч2набл? ч2таб, то гипотеза H0 о равномерном распределении отвергается, фактор информативен. В противном случае гипотеза о равномерном распределении принимается, фактор неинформативен.
3. л-критерий Колмогорова. В качестве меры информативности фактора рассматривается меру D, которую А.Н. Колмогоров определил как максимальное значение модуля разности между эмпирической функцией распределения объектов класса A - FA(X) и эмпирической функцией распределения объектов класса B - FB(X).
, (6)
Где
(7)
(8)
Определяется контрольная величина
. (9)
Найденное значение л сравнивается с табличным значением лтаб(б), зависящим от уровня значимости б. Если л ?лтаб(б), то с уровнем значимости б можно утверждать, что распределение FA(X) отличается от распределения FB(X). Следовательно, рассматриваемый фактор информативен. В противном случае данный фактор неинформативен.
4. I-критерий Кульбака. Оценкой меры расхождения между распределениями, соответствующими двум выборкам класса A и класса B, может служить величина I:
, (10)
где , соответствующие частоты попадания объектов класса A и класса B в интервал R.
5. t-критерий Стьюдента. Определение информативности фактора основано на выявлении существенного различия средних значений двух выборок: класса A и класса B. Проверяется гипотеза H0 - о равенстве средних значений . В качестве контрольной используется величина t
, (11)
где , - средние значения по фактору в классах A и B; , - эмпирические дисперсии значений фактора в классах A и B.
Вычисленное значение t сравнивается с табличным значением tтаб(б, K), определяемым по уровню значимости и числу степеней свободы . Если t?tтаб, то гипотеза H0 о равенстве средних по фактору в классах A и B отвергается, фактор информативен. В противном случае фактор неинформативен.
6. F-критерий Фишера. В качестве критерия информативности принимается степень различия дисперсий значений фактора в выборках класса A и класса B. Если дисперсия фактора, характеризующего объекты класса A - существенно не отличается от дисперсии значений фактора у объектов класса B - , то можно сделать вывод о том, что данные совокупности объектов мало чем отличаются друг от друга. В этом случае фактор признается малоинформативным.
Для проверки гипотезы H0: вычисляется контрольная величина F.
(12)
Вычисленное значение F сравнивается с табличным значением Fтаб(K1, K2), где K1 и K2 - число степеней свободы соответственно большей и меньшей дисперсий (K=N-1). Если F ?Fтаб, гипотеза H0 отвергается, фактор информативен. Если F <Fтаб, фактор неинформативен.
7. U-критерий Уилкоксона. Если две выборки относятся к одной генеральной совокупности, значит между ними не должно быть различий, следовательно, они не могут характеризовать два разных класса. Если две выборки не принадлежат одной генеральной совокупности, то можно заключить, что они характеризуют две отличные друг от друга генеральные совокупности или два класса. В этом случае фактор, на основе которого сделаны эти выборки, можно считать тем информативнее, чем больше степень несовпадения двух выборок.
Для проверки принадлежности двух выборок к одной генеральной совокупности выдвигается гипотеза о равенстве функций распределения объектов двух классов H0: FA(X)=FB(X).
Составляется объединенная выборка из объектов классов A и B, значения фактора у которых упорядочиваются по их величине. Затем последовательно анализируются пары значений фактора XBj, XAi (j=1,2,…,NB; i=1,2,…,NA), такая пара значений фактора образует инверсию.
В качестве контрольной величины принимается полное число инверсий I в обучающей выборке. Оценкой информативности является разность U числа инверсий со своим математическим ожиданием
. (13)
Значение U сравнивается с табличным значением Uб с уровнем значимости б. Если U?Uб, гипотеза H0 отвергается, то есть фактор информативен. Если U<Uб, гипотеза принимается, то есть фактор неинформативен.
Для сравнения факторов между собой по степени их информативности необходимо произвести ранжирование факторов в порядке уменьшения значений оценок их информативности. Оценки информативности, определенные по описанным выше критериям, можно рассматривать как экспертные оценки, которые тем выше, чем информативнее фактор. Тогда ранжирование факторов по степени их информативности можно осуществить методом обобщенной ранжировки объектов с учетом мнений всех экспертов.
Эту задачу можно решить способом сумм рангов с учетом коэффициентов компетентности экспертов [6].
Ранжирование представляет собой процедуру упорядочения факторов в порядке уменьшения значений экспертных оценок информативности факторов с присвоением им рангов, которые образуют упорядоченную последовательность натуральных чисел, измеренных в шкале порядка
r1< r2<… <ri <…<rn, |
(14) |
где ri - ранг i-го фактора; n - число факторов.
Для эквивалентных по значимости факторов назначаются одинаковые ранги, равные среднему арифметическому значению рангов, присвоенных этим факторам.
Вычисление сумм рангов для i-го фактора производится по формуле:
, (15)
где rij - ранг, присвоенный j-м экспертом i-му фактору; m - количество экспертов; Kj - коэффициент компетентности j-го эксперта.
Вычисление коэффициентов компетентности экспертов первого приближения осуществляются по формулам
, (16)
, (17)
, (18)
где - начальное значение коэффициентов компетентности экспертов,
. (19)
Затем производится ранжирование вычисленных по формуле (15) сумм рангов по описанной выше методике. Таким образом получается последовательность (14), представляющая собой обобщенную ранжировку факторов с учетом оценок всех экспертов.
Количественной мерой согласованности мнений экспертов является дисперсионный коэффициент конкордации W, предложенный Кендаллом [6].
, (20)
где S - сумма квадратов отклонений.
, (21)
. (22)
При наличии связанных рангов коэффициент конкордации вычисляется по формуле
, (23)
фактор критерий информативность ранжировка
где Tj - показатель связанных рангов в ранжировке j-го эксперта
, (24)
где hK - число равных рангов в k-й группе связанных рангов; Hj - число групп равных рангов в ранжировке j-го эксперта.
Коэффициент конкордации может изменяться в пределах 0?W?1. Его равенство единице означает, что все эксперты дали одинаковые оценки информативности факторов, а равенство нулю означает, что связи между оценками, полученными от разных экспертов, не существует.
Оценка значимости коэффициента конкордации W при n>7 производится по критерию ч2 Пирсона. В случае отсутствия связанных рангов он вычисляется по формуле
. (25)
При наличии связанных рангов
. (26)
Расчетное значение критерия ч2 сравнивается с табличным ч2таб (б, K) с уровнем значимости б и числом степеней свободы K=n-1. Если ч2? ч2таб, то гипотеза о согласии экспертов в ранжировках принимается.
Таким образом, если коэффициент конкордации приемлем, а значит, и оценки, найденные по различным критериям, сходятся, то можно выбрать факторы, имеющие наибольшее влияние на элементы классов и отсеять факторы, влияние которых незначительно.
Литература
1. Программная реализация вероятностно-статистического непараметрического метода распознавания образов / М.П. Лазеева, А.В. Дерюшев // Вестник КузГТУ. 2004. - №4. с. 117-119.
2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для втузов. - М.: Высш. школа, 1977. - 479 с.
3. Штефан И.А. Математические методы обработки экспериментальных данных: Учебное пособие / И.А. Штефан, В.В. Штефан; ГУ Кузбасский государственный технический университет. - Кемерово, 2003. - 123 с.
4. Математика и кибернетика в экономике: Словарь-справочник / Сост: И.И. Гонтарева, М.Б. Немчинова, и др. - изд. 2-е, перераб. и доп. - М.: Экономика, 1975. - 700 с.
5. Мюллер П. и др. - Таблицы по математической статистике. - М.: Финансы и статистика, 1982. - 278 с.
6. Бешелев С.Д. и др. Математико-статистические методы экспертных оценок. - М.: Статистика, 1974. - 159 с.
Размещено на Allbest.ru
...Подобные документы
Критерий согласия – критерий проверки гипотезы о предполагаемом законе распределения генеральной совокупности. Критерий Колмогорова-Смирнова и его практическое применение. Критические значения статистик Стефенса. Критерии Пирсона и Смирнова-Крамера.
курсовая работа [629,9 K], добавлен 26.08.2012Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.
курсовая работа [549,1 K], добавлен 07.08.2013Ознакомление с механизмом проверки гипотезы для случая единственной выборки, двух и нескольких независимых выборок. Проверка совпадений карт, выбор фильмов разных жанров. Обоснование результатов, полученных после проверки статистических гипотез.
курсовая работа [726,2 K], добавлен 26.02.2015Критерии выбросов в случае нормального распределения, их асимптотические свойства и эмпирическая мощность. Исследование распределения статистик по критериям Колмогорова и Смирнова. Реализация критериев определения выбросов в статистическом пакете R.
курсовая работа [521,9 K], добавлен 10.01.2016Способы получения псевдослучайных чисел. Общая характеристика генератора псевдослучайных чисел фон Неймана. Сущность равномерного закона распределения. Понятие о критериях согласия. Анализ критериев Пирсона и Колмогорова.
курсовая работа [176,9 K], добавлен 28.04.2010Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.
презентация [134,4 K], добавлен 14.04.2013Одномерная выборка, ее представление и числовые характеристики. Проведение исследования нормального, равномерного и экспоненциального распределения. Проверка гипотез по критерию Пирсона и Колмогорова-Смирнова. Особенность изучения двухмерных выборок.
курсовая работа [1,2 M], добавлен 22.11.2021Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.
методичка [433,3 K], добавлен 02.03.2010Словесная, математическая постановка исходной задачи. Исследование математической задачи на корректность. Применение метода экспертных оценок и парных сравнений основных объективных, субъективных факторов, послуживших причиной к поступлению учиться в МАИ.
курсовая работа [145,1 K], добавлен 19.12.2009- Закон больших чисел. Проверка статистических гипотез (критерий согласия w2 Мизеса: простая гипотеза)
Предельные теоремы теории вероятностей. Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Закон больших чисел. Особенности проверки статистических гипотез (критерия согласия w2 Мизеса).
курсовая работа [1,0 M], добавлен 27.01.2012 Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.
практическая работа [132,1 K], добавлен 24.05.2013Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.
дипломная работа [850,9 K], добавлен 18.01.2016Использование вероятностной модели для описания неопределенностей. Распределение Пирсона, Стьюдента и Фишера при статистической обработке данных. Использование "Хи-квадрата" при оценивании дисперсии, проверке гипотез согласия качественных переменных.
контрольная работа [794,7 K], добавлен 02.02.2011Изучение раздела математической статистики, посвященного методам выявления влияния отдельных факторов на результат эксперимента. Эффекты взаимодействия. Использование однофакторного дисперсионного анализа для сравнения средних значений нескольких выборок.
презентация [110,0 K], добавлен 09.11.2014Статическая проверка статистических гипотез. Ошибки первого и второго рода. Числовые характеристики случайной величины, распределенной по биномиальному закону. Проверка гипотезы о биномиальном распределении генеральной совокупности по критерию Пирсона.
курсовая работа [674,3 K], добавлен 03.05.2011Числовые характеристики непрерывных величин. Точечные оценки параметров распределения. Статистическая проверка гипотез. Сравнение средних известной и неизвестной точности измерений. Критерий Хи-квадрат для проверки гипотезы о виде распределения.
курсовая работа [79,0 K], добавлен 23.01.2012Построение многофакторной корреляционно-регрессионной модели доходности предприятия: оценка параметров функции регрессии, анализ факторов на управляемость, экономическая интерпретация модели. Прогнозирование доходности на основе временных рядов.
дипломная работа [5,1 M], добавлен 28.06.2011Расчет динамики опасных факторов пожара в помещении с использованием интегральной и зонной математических моделей. Определение продолжительности пожара и времени блокирования путей эвакуации. Расчет огнестойкости ограждающих строительных конструкций.
курсовая работа [2,0 M], добавлен 21.03.2015Основные понятия, которые касаются центральной предельной теоремы для независимых одинаково распределенных случайных величин и проверки статистических гипотез. Анализ сходимости последовательностей случайных величин и вероятностных распределений.
курсовая работа [582,0 K], добавлен 13.11.2012Обработка случайных выборок с нормальным законом распределения. Оценка коэффициентов регрессии и доверительных интервалов. Оценка значимости факторов по доверительным интервалам и корреляционного момента. Построение эмпирической интегральной функции.
курсовая работа [135,7 K], добавлен 03.05.2011