Проверка статистических гипотез о независимости случайных величин. Ранговый критерий Спирмена

Определение и примеры независимых случайных событий и случайных величин. Проверка с помощью рангового критерия Спирмена статистической гипотезы о независимости двух случайных величин. Общая логическая схема статистического критерия, его проверка.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 21.10.2017
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru//

Размещено на http://www.allbest.ru//

Министерство образования Российской Федерации

Федеральное Государственное Образовательное Учреждение Высшего Профессионального Образования

Нижегородский Государственный Педагогический Университет имени К. Минина

Факультет математики, информатики и физики

Курсовая работа:

«Проверка статистических гипотез о независимости случайных величин. Ранговый критерий Спирмена»

Выполнила: Смирнова Екатерина

Группа 342

Проверил: кандидат физико-математических наук,

доцент Рахманкулов Равиль Гарифович

Н.Новгород 2013 г

Введение

Каждый человек в своей жизни использует статистику, задумывается он о том или нет. Когда планируется бюджет семьи, рассчитывается потребление бензина автомашиной, оцениваются усилия, которые потребуются для усвоения какого-то курса, с учетом полученных до сих пор отметок, прогнозируется вероятность хорошей и плохой погоды по метеорологической сводке и многое другое - все это есть статистика. Статистика помогает отбирать, классифицировать и упорядочивать большое множество имеющихся данных.

Широко используется статистика и в психологических исследованиях. Использование математических методов в психологии весьма удобно и эффективно при синтезе данных, полученных на различных группах объектов в том или ином эксперименте, при их сравнении с целью выяснить черты различия между ними, при их сопоставлении с целью выявить показатели, изменяющиеся в одном направлении, и, наконец, при предсказании определенных фактов на основании тех выводов, к которым приводят полученные результаты. Именно в этом заключается цель статистики в науках вообще, и особенно в гуманитарных. Статистика, таким образом, придает выводам весомость и достоверность.

Глава 1. Дескриптивная статистика данных исследования

1.1 Определение и примеры независимых случайных событий и случайных величин

Два случайных события называются независимыми, если появление одного из них не изменяет вероятность появления другого. Например, если в цехе работают две автоматические линии, по условиям производства не взаимосвязанные, то остановки этих линий являются независимыми событиями.

Пример 1. Монета брошена два раза. Вероятность появления "герба" во втором испытании (событие В) не зависит от появления или не появления "герба" в первом испытании (событие А). В свою очередь, вероятность наступления события А не зависит от наступления или ненаступления события В. Таким образом, события и независимые.

Случайной называют величину, которая при каждом испытании принимает одно и только одно из возможных значений, наперед не известное и зависящее от случайных причин, которые заранее не могут быть учтены.

Пример 2. Число родившихся мальчиков среди ста новорожденных есть случайная величина, которая имеет следующие возможные значения: 0, 1, 2, ..., 100.

Пример 3. Расстояние, которое пролетит снаряд при выстреле из орудия, есть случайная величина. Действительно, расстояние зависит не только от установки прицела, но и от многих других причин (силы и направления ветра, температуры и т. д.), которые не могут быть полностью учтены. Возможные значения этой величины принадлежат некоторому промежутку (а, b).

Будем далее обозначать случайные величины прописными буквами латинского алфавита X, Y, Z…, а их возможные значения--соответствующими строчными буквами х, у, z, …, х1, х2,... Например, если случайная величина X имеет три возможных значения, то их можно обозначить так: х1, х2, х3.

Формальное математическое определение следующее: пусть -- вероятностное пространство, тогда случайной величиной называется функция , измеримая относительно и борелевской у - алгебры на . Вероятностное поведение отдельной (независимо от других) случайной величины полностью описывается её распределением.

Случайные величины классифицируют на дискретные и непрерывные.

Дискретной случайной величиной называется такая переменная величина, которая может принимать конечную или бесконечную совокупность значений, причем принятие ею каждого из значений есть случайное событие с определенной вероятностью.

Соотношение, устанавливающее связь между отдельными возможными значениями случайной величины и соответствующими им вероятностями, называется законом распределения дискретной случайной величины.

В отличие от дискретной случайной величины непрерывные случайные величины невозможно задать в виде таблицы ее закона распределения, поскольку невозможно перечислить и выписать в определенной последовательностей все ее значения. Одним из возможных способов задания непрерывной случайной величины является использование функции распределения.

Распределение вероятностей -- это закон, описывающий область значений случайной величины и вероятности их принятия.

Закон распределения непрерывной случайной величины нельзя задать так же, как для дискретной. Он неприменим в силу того, что нельзя перечислить все бесконечное несчетное множество значений, а вероятности каждого отдельно взятого значения непрерывной случайной величины равны нулю.

Для описания закона распределения непрерывной случайной величины Х предлагается другой подход: рассматривать не вероятности событий (Х=х) для разных х, а вероятности события (Х<х). При этом вероятность P(X<x) зависит от текущей переменной, т. е. является некоторой функцией от х.

Функцией распределения случайной величины Х называется функция F(x), выражающая для каждого х вероятность того, что случайная величина Х примет значение, меньшее х:

.

Функцию распределения F(x) называют также интегральной функцией распределения или интегральным законом распределения.

Способ задания непрерывной случайной величины с помощью функции распределения не является единственным. Необходимо определить некоторую функцию, отражающую вероятности попадания случайной точки в различные участки области возможных значений непрерывной случайной величины, т. е. представить некоторую замену вероятностям pi для дискретной случайной величины в непрерывном случае.

Такой функцией является плотность распределения вероятностей. Плотностью вероятности (плотностью распределения, дифференциальной функцией) случайной величины Х называется функция f(x), являющаяся первой производной интегральной функции распределения:

.

1.2 Характеристики центра группирования значений случайных величин

Математическим ожиданием М(X) дискретной случайной величины Х называется сумма парных произведений всех возможных значений случайной величины на соответствующие им вероятности, т.е.

Мода Mo(X) дискретной случайной величины Х - это значение случайной величины, имеющее наибольшую вероятность. На многоугольнике распределения мода - это абсцисса самой высокой точки. Бывает, что распределение имеет не одну моду. Медиана Me (X) -- значение хi, при котором площадь под кривой распределения делится пополам. В общем случае значения М(Х), Мо(Х), Me (X) могут не совпадать.

1.3 Характеристики степени рассеяния значения случайной величины

Дисперсия D (X) случайной величины X-- это математическое ожидание квадрата отклонения случайной величины от ее математического ожидания.

Среднее квадратическое отклонение s(x) -- это корень квадратный из дисперсии (является моментом второго порядка).

Коэффициент вариации используют для сравнения рассеивания двух и более признаков, имеющих различные единицы измерения. Коэффициент вариации представляет собой относительную меру рассеивания, выраженную в процентах. Он вычисляется по формуле:

,

где - искомый показатель, - среднее квадратичное отклонение, M(X) - математическое ожидание.

1.4 Основные законы распределения

Равномерный закон распределения. Непрерывная случайная величину Х имеет равномерный закон распределения (закон постоянной плотности) на отрезке [a; b], если на этом отрезке функция плотности вероятности f(x) случайной величины X постоянна, т.е. f(x) имеет вид:

Рисунок 1. Равномерный закон распределения

Математическое ожидание равномерного распределения: M(X) = (a + b)/2

Дисперсия равномерного распределения: D(X) = (b - a)2/12

Среднее квадратичное отклонение равномерного распределения: у(X) = (b - a)/(2v3)

Нормальный закон распределения (закон Гаусса). Непрерывная случайная величина Х имеет нормальный закон распределения с параметрами a и у, если ее плотность вероятности имеет вид:

Известно, что =M(X) и . График нормального распределения имеет куполообразную форму, он симметричен относительно своего математического ожидания, а на степень его островершинности влияет величина среднего квадратичного отклонения.

Рисунок 2. График плотности случайной величины, в случае нормального распределения.

Мода и медиана нормального распределения равны:

Mo(X) = ; Me(X) = , где - математическое ожидание.

Интегральная функция нормального распределения вероятностей:

Интегральная функция распределения вероятностей показывает вероятность того, что случайная величина X примет значение меньшее, чем x: F(x) = P(X < x). Численно она равна площади криволинейной трапеции, ограниченной сверху графиком плотности вероятности, снизу осью абсцисс случайной величины, на интервале от -? до x. Ниже дана иллюстрация.

Рисунок 3. Интегральная функция нормального распределения.

Показательный (экспоненциальный) закон распределения. Непрерывная случайная величина X имеет показательный (экспоненциальный) закон распределения с параметром л >0, если ее плотность вероятности имеет вид:

где л -- постоянная положительная величина.

Математическое ожидание: .

Дисперсия: .

Используя свойство два плотности распределения (Несобственный интеграл от плотности распределения в пределах от - до равен единице) можно найти функцию распределения экспоненциального закона:

Рисунок 4. Экспоненциальный закон распределения.

Распределение хи-квадрат. Пусть независимые случайные величины Xi (i = 1, 2, ..., n) -- распределены по стандартному нормальному закону. Тогда говорят, что сумма квадратов этих величин

распределена по закону ч2 («хи квадрат») с n степенями свободы

Плотность распределения случайной величины ч2 имеет следующий вид:

Здесь -- гамма-функция.

Отсюда видно, что распределение «хи квадрат» определяется одним параметром n --независимым числом степеней свободы.

С увеличением числа степеней свободы распределение медленно приближается к нормальному.

Рисунок 5. Распределение хи-квадрат.

Основные характеристики распределение хи квадрат (математическое ожидание и дисперсия):

Распределение Стьюдента. Случайная величина есть отношение двух независимых случайных величин и , то есть

Распределение случайной величины называется распределением Стьюдента с степенями свободы. Его плотность задаётся формулой

Математическое ожидание и дисперсия случайной величины, подчинённой распределению Стьюдента , есть

Как и в случае и хи-квадрат распределением, при увеличении распределение Стьюдента стремиться к нормальному, более того, стандартизованному нормальному (то есть с нулевым математическим ожиданием и единичной дисперсией).

Распределение Стьюдента, как хи-квадрат распределение, широко применяется в задачах математической обработки измерений.

Распределение Фишера. Пусть случайная величина равна отношению двух независимых случайных величин и , то есть

Распределение случайной величины называется распределением Фишера с и степенями свободы. Оно имеет следующую плотность вероятности

Математическое ожидание случайной величины, подчинённой распределению Фишера, определяется по формуле

Между случайными величинами, имеющими нормальное распределение: хи-квадрат, Стьюдента и Фишера, имеют место соотношения

Глава 2. Основы статистического описания и логическая схема статистического критерия

2.1 Генеральная и выборочная совокупности

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным -- контролируемый размер детали.

Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяют сравнительно редко.

Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайным образом отбирают из всей совокупности ограниченное число объектов и подвергают их изучению.

Выборочной совокупностью или просто выборкой называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность объектов, из которых производится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n =100.

2.2 Выборочные характеристики

Выборочная средняя

Пусть для изучения генеральной совокупности относительно количественного признака X извлечена выборка объема n.

Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Если получена выборка x1, х2,…, хn (1),

то (2).

Если же значения признака xj(1), хj(2),…, хj(k) имеют соответственно частоты n1, n2,…,nk, причем n1+n2+…+nk=n, то (2) принимает вид:

, т.е.

т. е. выборочная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Замечание. Выборочная средняя, найденная по данным одной выборки, есть, очевидно, определенное число. Если же извлекать другие выборки того же объема из той же генеральной совокупности, то выборочная средняя может изменяться от выборки к выборке.

Таким образом, выборочную среднюю можно рассматривать как случайную величину, а, следовательно, можно говорить о распределениях (теоретическом и эмпирическом) выборочной средней и о числовых характеристиках этого распределения (его называют выборочным), в частности о математическом ожидании и дисперсии выборочного распределения.

Заметим, что в теоретических рассуждениях выборочные значения x1, х2,…, хn признака X, полученные в итоге независимых наблюдений, также рассматривают как случайные величины X1, Х2, . . ., Хn, имеющие то же распределение, что и исходная случайная величина Х и, следовательно, те же числовые характеристики, которые имеет X.

Выборочная дисперсия

Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения , вводят сводную характеристику-- выборочную дисперсию.

Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения х1, х2, ..., хn признака выборки объема n различны, то

Если же значения признака х1, х2,…, хk имеют соответственно частоты n1,n2,…,nk, причем n1+n2+…+nk = n, то , т. е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.

Кроме дисперсии для характеристики рассеяния значений признака выборочной совокупности вокруг своего среднего значения пользуются сводной характеристикой-- средним квадратическим отклонением.

Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

Пример 1. Выборочная совокупность задана таблицей распределения

1

2

3

4

20

15

10

5

Найти выборочную дисперсию.

Решение. Найдем выборочную среднюю:

Найдем выборочную дисперсию:

Пример 2: По данной выборке определить выборочные среднее, дисперсию, уточненную дисперсию, среднее квадратическое отклонение (смещенное и уточненное).

3, 4, 4, 5, 6, 7, 8, 7, 2, 5, 6, 7, 1, 7, 2, 7, 8, 9, 1, 9, 8, 7, 8, 1, 1, 2.

Решение:

Представим имеющиеся данные в виде таблицы:

х i

1

2

3

4

5

6

7

8

9

ni

4

3

1

2

2

2

6

4

2

Выборочная средняя:

Выборочная дисперсия:

Выборочное среднее квадратическое отклонение:

Исправленная выборочная дисперсия:

Исправленное выборочное среднее квадратичное отклонение:

2.3 Общая логическая схема статистического критерия

По своему назначению и характеру решаемых задач статистические критерии чрезвычайно разнообразны. Однако их объединяет общность логической схемы, по которой они строятся. Коротко эту логическую схему можно описать так:

Выдвигается гипотеза

Задаются величиной так называемого уровня значимости критерия б. Всякое статистическое решение, т.е. решение, принимаемое на основании ограниченного ряда наблюдений, неизбежно сопровождается некоторой, хотя, может и очень малой, вероятностью ошибочного заключение как в ту, так и в другую сторону. В какой-то небольшой доле случаев б гипотеза может оказаться отвергнутой, в то время как на самом деле она является справедливой, или, наоборот, в какой-то небольшой доле случаев в мы можем принять нашу гипотезу, в то время как на самом деле она ошибочна, а справедливым оказывается некоторое конкурирующее с ней предположение - альтернативная гипотеза . При фиксированном объеме выборочных данных величину вероятности одной из этих ошибок мы можем выбирать по своему усмотрению. Если же объем выборки можно как угодно увеличивать, то имеется принципиальная возможность добиваться как угодно малых вероятностей обеих ошибок б и в при любом фиксированном конкурирующем предположительном утверждении . В частности, при фиксированном объеме выборки обычно задаются величиной б вероятности ошибочного отвержения проверяемой гипотезы , которую часто называют «основной» или «нулевой». Эту вероятность ошибочного отклонения «нулевой» гипотезы принято называть уровнем значимости или размером критерия. Выбор величины уровня значимости б зависит от сопоставления потерь, которые мы понесем в случае ошибочных заключений в ту или иную сторону: чем весомее для нас потери, тем меньшей выбирается величина б. Однако поскольку такое сопоставление в большинстве практических задач оказывается весьма затруднительным (часто трудно даже вообще сказать, в какую сторону ошибка является для нас более опасной), то, как правило, пользуются некоторыми стандартными значениями уровня значимости. К таким стандартным значениям можно причислить величины б=0,1; 0,05; 0,025; 0,01; 0,005; 0,001. Особенно распространенной является величина уровня значимости б, равная 0,05. Она означает, что в среднем в пяти случаях из 100 мы будем ошибочно отвергать высказанную гипотезу , при многократном использовании данного статистического критерия.

Задаются некоторой функцией от результатов наблюдения (критической статистикой) . Эта критическая статистика , как и всякая функция от результатов наблюдения, сама является случайной величиной и в предположении справедливости гипотезы подчинена некоторому закону распределения с плотностью .

Из таблиц распределения находятся -ная точка и %- ная точка , разделяющие всю область мысленных значений случайной величины на три части: область неправдоподобно малых (I), неправдоподобно больших (III), и естественных или правдоподобных (в условиях справледливости гипотезы ) значений (II) (рисунок 1). В тех случаях, когда основную опасность для нашего утверждения представляют только односторонние отклонения, т.е. только «слишком маленькие» или только «слишком большие» значения критической статистики , находят лишь одну процентную точку: либо -ная точка , которая будет разделять весь диапазон значений на две части: область неправдоподобно малых и область правдоподобных значений; либо - ная точка ; она будет разделять весь диапазон значений на область неправдоподобно больших и область правдоподобных значений.

Наконец, в функцию подставляют имеющиеся конкретные выборочные данные и подсчитывают численную величину . Если окажется, что вычисленное значение принадлежит области правдоподобных значений , то гипотеза считается не противоречащей выборочным данным. В противном случае делается вывод, что на самом деле не подчиняется закону и это несоответствие мы вынуждены объяснить ошибочностью высказанного нами предположения и, следовательно, отказаться от него.

Таким образом, решение, принимаемое на основании любого статистического критерия, может оказаться ошибочным как в случае отклонения проверяемой гипотезы (с вероятностью б), так и в случае ее принятия (с вероятностью в). Вероятности б и в ошибочных решений называют также ошибками соответственно первого и второго рода, а величину 1 - в - мощностью критерия. Очевидно, из двух критериев, характеризующихся одной и той же вероятностью б отвергнуть в действительности правильную гипотезу , следует предпочесть тот, который сопровождается меньшей ошибкой второго рода (или большей мощностью).

Рисунок 1. График плотности распределения критической статистики и выделение областей «правдоподобных» (II) и «неправдоподобных» (I и III), в условиях справедливости гипотезы , значений этой статистики.

Если проверяемое предположительное утверждение сводится к гипотезе о том, что значение некоторого параметра в точности равно заданной величине , то эта гипотеза называется простой. В других случаях гипотеза будет называться сложной.

Глава 3. Проверка с помощью рангового критерия Спирмена статистической гипотезы о независимости двух случайных величин

3.1 Ранговый критерий Спирмена

ранговый критерий спирмен случайный

Пусть имеется случайная выборка (X1,Y1),…,(Xn,Yn) генеральной совокупности двумерной непрерывной случайной величины (X, Y) с функцией распределения F(t,ф), a FX(t) и FY(ф) -- функции распределения случайных величин X и Y соответственно. Если случайные величины X и У имеют нормальные распределения, то для проверки статистической гипотезы об их независимости H0: F(t,ф) = FX(t)FY(ф) можно использовать процедуру, связанную с вычислениями выборочного коэффициента корреляции (По формуле: , где - значение точечной оценки коэффициента корреляции).

Если же о распределениях непрерывных случайных величин X и Y ничего не известно, то для проверки основной гипотезы (1) при альтернативной гипотезе Н1: F(t,ф) ? FX(t)FY(ф) для некоторых (t, ф) € R2 используют ранговый критерий Спирмена, основанный на следующем понятии.

Пусть задана конечная числовая последовательность (1)

Определение 1. Рангом Ri элемента zi числовой последовательности (1) называют его порядковый номер в вариационном ряду z(1),…,z(N).

Множество результатов измерений {x1, x2, … , xn} величины X называется выборкой объема n. Для того чтобы иметь возможность воспользоваться аппаратом теории вероятностей, целесообразно наблюдаемую величину X рассматривать как случайную величину, функцию распределения которой F(x)=P{X<x}следует определить.

Полученный статистический материал x1, x2, ...xn наблюдений представляет собой первичные данные о величине, подлежащей статистической обработке. Обычно такие статистические данные оформляются в виде таблицы, графика, гистограммы и т.д.

Если выборка объема n содержит k различных элементов , причем встречается mi раз, то число mi называется частотой элемента , а отношение называется относительной частотой элемента . Очевидно, что

Вариационным (статистическим) рядом называется таблица, первая строка которой содержит в порядке возрастания элементы , а вторая - их частоты mi (относительные частоты ).

Согласно определению, Ri -- это число элементов последовательности z1, ..., zN, не больших чем zi, которое можно записать следующим образом:

Ri = 1+, где ?(t) -- функция Хевисайда. Ранг любого элемента последовательности (1) -- это натуральное число в диапазоне от 1 до N, причем ранг наименьшего элемента последовательности равен 1, а ранг наибольшего -- N.

Пример 1. Рассмотрим выборку z4=(3,8, 4,7, --2,6,17,3). Ее вариационный ряд имеет вид --2,6; 3,8; 4,7; 17,3. Поэтому R1(z4) = 2, R2(z4) = 3, R3(z4) = 1, R4(z4) = 4. #

Определение 2. Рангом элемента Zi случайной выборки ZN = (Z1, ..., ZN) называют случайную величину Ri(ZN), реализация которой Ri(zN) есть ранг реализации zi случайной величины Zi, в вариационном ряду z(1),…,z(N).

Обозначим через Ri = Ri(Xn) -- ранг элемента Хi случайной выборки Х1,..., Хn, а через Si = Si(Yn) -- ранг элемента Yi случайной выборки Y1, ..., Yn.

Ранговым коэффициентом корреляции Спирмена назовем случайную величину

где

Статистика (2) является выборочным коэффициентом корреляции последовательностей рангов R1,…,Rn и S1,…,Sn.

Согласно определению рангов Ri, Si, i=, и можно показать, что

Без ограничения общности можно считать, что значения пар наблюдений (xi, yi), i =, занумерованы в порядке возрастания их первых элементов, т.е. так, что выполняются неравенства x1<x2<…<xn.

В этом случае реализация ri ранга Ri равна i, i = , и значение статистики можно вычислить по формуле

где -- реализация ранга , i =.

Пусть выборочный коэффициент корреляции используется для нахождения линейной зависимости между случайными величинами X и Y. И если же между X и Y имеется функциональная, но не линейная зависимость, то выборочный коэффициент корреляции может быть равен нулю. Аналогично выгладит ситуация с ранговым коэффициентом (2), главным отличием является то, что он выявляет не только линейную, но и любую монотонную зависимость.

Доказательство этого начнем с исследования статистики при линейной зависимости Y = аХ + b, aR, bR, между случайными величинами X и Y.

Если, а > 0, то большим значениям xi соответствуют большие значения yi, и, наоборот, меньшим значениям xi -- меньшие значения yi, . Если пары наблюдений (xi, yi), i =, занумерованы по возрастанию первых элементов, то будут иметь место неравенства y1<y2<…<yn. Поэтому ri = si для всех i =, и из (4) следует, что = 1.

Если же, а < 0, то большим значениям xi соответствуют меньшие значения yi, а меньшим значениям xi -- большие значения yi, i =. В этом случае ri=sn-i+1, si=rn-i+1, i =, и = -1.

Заметим, что если (х) -- возрастающая функция, то ранг элемента xi в последовательности x1<x2<…<xn равен рангу (хi) в последовательности (x1)<(x2)<…<(xn). Поэтому если случайные величины X и Y связаны функциональной зависимостью Y= (х), то = 1.

Аналогично, если Y = (X), где(х) -- убывающая функция, то = -1.

Условие выполняется всегда, так как оно выполняется для выборочного коэффициента корреляции, а-- это выборочный коэффициент корреляции, построенный по последовательностям рангов наблюдений.

Рассмотрим теперь другой крайний случай, когда случайные величины X uY независимы, т.е. когда основная гипотеза H0 является истинной. В этой ситуации случайный вектор (Si, ..., Sn) принимает с равной вероятностью любое свое возможное значение, являющееся одной из n! перестановок, составленной из чисел 1, 2, ...,n. Следовательно, вероятность того, что статистика примет любое из своих возможных значений при истинности основной гипотезы (1), не зависит от распределений случайных величин X и Y.

Можно показать, что при истинности основной гипотезы (1)

M= 0, D

и, следовательно, при этом выборочные значения статистики невелики и группируются около нуля. Поэтому (и это кажется достаточно естественным) ранговый критерий Спирмена отклоняет H0 на уровне значимости б, если где -- квантиль уровня 1 --б/2 распределения случайной величины при истинности основной гипотезы (1).

При небольших n это распределение табулировано. Известно, что при nи при истинности основной гипотезы (1)

т.е. квантили случайной величины можно приближенно вычислять при помощи таблиц квантилей стандартного нормального распределения.

3.2 Использование рангового критерия Спирмена в решении различных задач

Пример 1. В табл. 1 представлены n = 10 значений (xi, yi), i =, непрерывной двумерной случайной величины (X,Y). Проверим на уровне значимости б = 0,05 гипотезу H0 о независимости случайных величин X и Y.

Таблица 1.

хi

-1,63

1,11

1,15

-1,93

0,38

-1,08

-0,31

0,60

0,12

0,92

yi

0,54

0,88

-1,21

0,89

-0,64

-0,21

0,08

-0,74

0,79

0,14

Строим последовательность рангов (табл.2). По формуле (3) вычисляем реализацию статистики

Таблица 2

ri

2

9

10

1

6

3

4

7

5

8

si

7

9

1

10

3

4

5

2

8

6

По таблицам распределения статистики рангового критерия Спирмена находим квантили

, (6) ,

а квантили = нет, так как -- дискретная случайная величина. Тем не менее, из значений квантилей (6) заключаем, что и Н0 не отклоняется даже на большем уровне значимости.

Пример 2: В определенном районе (площадью несколько сот квадратных километров) Большого Кавказского хребта имеются многочисленные рудные объекты разной величины. Как правило, они сопровождаются разломами земной коры разной глубины. Разломы можно находить геофизическими методами. Имеются основания предполагать, что рудные объекты связаны с этими разломами, причем чем более глубок разлом, тем большего размера могут быть сопровождающие его рудные объекты. Конечно, эта закономерность, если и действует, то лишь как тенденция. Подтвердить эту закономерность было бы очень полезно, так как она дает простое правило поиска месторождения. Попытаемся статистическими методами проверить это предположение.

Выберем 10 наиболее крупных рудных объектов выделенного района и занумеруем их в порядке убывания. Таким образом, самый крупный объект получит номер 1, следующий по величине - 2, и т.д. Нумерация тех же объектов в порядке убывания глубины разломов иная, вот она: 3,1,2,6,4,5,9,8,10,7.

Наше предположение о существовании связи между двумя признаками - размером объекта и глубиной разлома - чисто качественное. Довольно трудно сказать, насколько оно подтверждается сделанным наблюдением. Поэтому поступим иначе. Попробуем испытать (опровергнуть или нет) предположение, что никакой связи между признаками не существует.

В таком случае вторая последовательность номеров не имеет никакой связи с первой. Вторая последовательность случайна по отношению к первой.

Эту фразу мы возьмем за основу дальнейшего. Превратим нашу естественнонаучную гипотезу в статистическую: отсутствие связи между признаками будем истолковывать так, что вторая последовательность номеров есть результат случайного (в смысле теории вероятностей) эксперимента, в котором каждая нумерация имеет равную вероятность осуществления.

Говоря подробнее, мы имеем в виду случайный эксперимент, состоящий в выборе перестановки чисел 1,2,…, 10. Вероятность надо задавать на множестве всех перестановок (которых довольно много - 10!=3628800). Наша статистическая гипотеза состоит из одного закона распределения - равномерного. Иначе говоря, гипотеза состоит в том, что все нумерации равновозможны.

Теперь надо искать событие маловероятное, если гипотеза верна, и правдоподобное, если она не нарушена. Конечно, нарушаться гипотеза может более или менее сильно. Поэтому вероятность S должна быть тем больше, чем резче нарушена гипотеза.

В нашем примере мы ждем нарушения гипотезы о случайности второй нумерации в сторону сходства нумераций. Ясно, что если бы вторая переменная совпала с первой, мы, пожалуй, не стали бы и сомневаться (насколько это правильно, мы обсудим в своем месте). Поэтому во множество S должна войти последовательность 1,2, … , 10 и близкие к ней.

Близость между двумя перестановками х1, х2, …, хn и y1, y2, … , yn можно измерять различными способами. Часто для этого используют так называемый ранговый коэффициент корреляции с, по Спирмену. Он определяется так: . Здесь - наибольшее возможное значение суммы квадратов. Поэтому с меняется от 1, когда нумерации совпадают, до - 1, когда они противоположны.

В нашем примере первая последовательность неизменна, а может меняться только вторая. Так как вторая последовательность случайна, случайным оказывается значение с. Коэффициент с может принимать значения между -1 и +1. В случае если вторая нумерация выбирается чисто случайно, близкие к 1 (по абсолютной величине) значения с имеют малую вероятность. Типичные значения с лежат около нуля.

Распределение коэффициента с при разных значениях n рассчитано. Его можно найти в специальных сборниках статистических таблиц. Как мы уже говорили, мы надеемся на проявление связи между двумя признаками, поэтому в качестве S мы должны взять событие вида {с>с0}. Величина с0 выбирается так, чтобы событие S при гипотезе имело малую вероятность (например, 0,01 или 0,005 или что-то подобное).

В нашем случае с?0,84, сумма квадратов равна 26. В таблицах находим, что значение суммы квадратов, меньшие или равные 32, имеют вероятность 0,0036. Следовательно, случайное значение p?0,084 могло появиться лишь с вероятностью 0,0036, что практически невозможно. Это заставляет нас считать, что гипотеза независимости признаков опровергается имеющимися наблюдениями. Доказана, следовательно, положительная связь между глубиной разлома и размером месторождения.

Попробуем теперь уменьшить объем наших наблюдений и ограничиться пятью месторождениями. Мы получили две последовательности: 12345 и 31254. Предполагая, что вторая нумерация чисто случайная, получаем, что каждая из 5! Перестановок имеет вероятность 1/120?0,0083. В качестве события S можно предположить множество, состоящее только из одной последовательности 12345 (полное совпадение). Вероятность S при этом достаточно малая - как сказано, примерно 0,0083. Впрочем, при меньших значения n, например, при n=3даже полное совпадение нумераций не доказывает наличия закономерности. Если теперь при n=5 попытаемся увеличить S (с тем чтобы повысить чувствительность к нарушениям гипотезы, конечно, за счет некоторого увеличения вероятности отвергнуть гипотезу, если она верна), то в S надо будет включить последовательности, наиболее похожие на 12345. Ясно, что это - последовательности, содержащие одну перестановку номеров, т.е. 21345,13245,12435,12354. Теперь S состоит из пяти последовательностей. Вероятность его возросла до 5/120?0,017. Если бы в нашем примере второй последовательностью оказалась одна из перечисленных, мы могли бы сделать осторожный вывод о наличии связи между признаками и предложили бы рассмотреть дополнительный материал. Впрочем, в нашем примере связь между признаками при n=5 не подтверждается.

Это общая черта статистических методов - для их действия необходим достаточный объем наблюдений.

Могло бы статься, что и при n=20 мы не обнаружили статистически значимой связи между признаками. Это означало бы, что сама связь невелика - тем слабее, чем больше наблюдений надо, чтобы ее обнаружить. (Конечно, точно сказать невозможно, что такое в данном случае «сила связи». Именно это заставило нас перейти к такой формулировке задачи, где это понятие не участвует). Поэтому не стоит чрезмерно увеличивать объем наблюдений - мы ведь собираемся использовать связь между признаками. Мы не можем это сделать, если эта связь слабая, т.е. признаки почти независимы.

Пример 3. Два преподавателя оценили знания 12 учащихся по стобалльной системе и выставили им следующие оценки (в первой строке указанно количество баллов, выставленных первым преподавателем, а во второй - вторым):

98 94 88 80 76 70 63 61 60 58 56 51

99 91 93 74 78 65 64 66 52 53 48 62

Найти выборочный коэффициент ранговой корреляции Спирмена между оценками двух преподавателей.

Решение. Присвоим ранги оценкам первого преподавателя. Эти оценки расположены в убывающем порядке, поэтому их ранги равны порядковым номерам:

Таблица 3.

Ранги

1

2

3

4

5

6

7

8

9

10

11

12

Оценки 1-го преподавателя

98

94

88

80

76

70

63

61

60

58

56

51

Присвоим ранги оценкам второго преподавателя, для чего сначала расположим эти оценки в убывающем порядке и пронумеруем их:

Таблица 4.

1

2

3

4

5

6

7

8

9

10

11

12

99

93

91

78

74

66

65

64

62

53

52

48

Напомним, что индекс i при у должен быть равен порядковому номеру оценки первого преподавателя.

Найдем ранг у1. Индекс i=1 указывает, что рассматривается оценка первого преподавателя, которая занимает в таблице 3 первое место (эта оценка равна 98); из условия видно, что второй преподаватель поставил оценку 99, которая в таблице 4 расположена на первом месте. Таким образом, у1=1.

Найдем ранг у2. Индекс i=2 указывает, что рассматриваетсяоценка первого преподавателя которая занимает в таблице 3 второе место; из условия видно, что второй преподаватель поставил оценку 91, которая в таблице 4 расположена на третьем месте. Таким образом, ранг у2=3.

Аналогично найдем остальные ранги: у3=2, у4=5, у5=4, у6=8, у7=6, у8=7, у9=12, у10=10, у11=9, у12=11.

Выпишем последовательности рангов хi и уi:

Таблица 5.

xi

1

2

3

4

5

6

7

8

9

10

11

12

yi

1

3

2

5

4

8

6

7

12

10

9

11

Найдем разности рангов: d1=x1-y1=0, d2=x2-y2=-1. Аналогично получим: d3=1, d4=-1, d5=1, d6=-2, d7=1, d8=1, d9=-3, d10=0, d11=2, d12=1.

Вычислим суссу квадратов разностей рангов:

Найдем искомый коэффициент ранговой корреляции Спирмена, учитывая, что n=12:

Итак,

Пример 4: Специалисты двух заводов проранжировали 11 факторов, влияющих на ход технологического процесса. В итоге были получены две последовательности рангов:

Таблица 6

хi

1

2

3

4

5

6

7

8

9

10

11

yi

1

2

3

5

4

9

8

11

6

7

10

Определить, согласуются ли мнения специалистов различных заводов, использую коэффициент ранговой корреляции Спирмена.

Решение: Выпишем последовательности рангов хi и уi:

xi

1

2

3

4

5

6

7

8

9

10

11

yi

1

2

3

5

4

9

8

11

6

7

10

Найдем разности рангов: d1=x1-y1=0, d2=x2-y2=0. Аналогично получим: d3=0, d4=-1, d5=1, d6=-3, d7=-1, d8=-3, d9=3, d10=3, d11=1.

Вычислим суссу квадратов разностей рангов:

Найдем искомый коэффициент ранговой корреляции Спирмена, учитывая, что n=11:

Итак,

Пример 5: В примере 3 по выборке объема n=12 вычислен выборочный коэффициент ранговой корреляции Спирмена между оценками, выставленными одним и тем же учащимся двумя преподавателями. При уровне значимости 0,05 проверить гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Спирмена. Другими словами, требуется проверить, является ли значимой ранговая корреляционная связь между оценками двух преподавателей.

Решение: Найдем критическую точку двусторонней критической области распределения Стьюдента по уровню значимости и числу степеней свободы ; 0,05;10)=2,23

Найдем критическую точку:

Итак, . Так как -есть основания отвергнуть нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Спирмена. Другими словами, ранговая корреляционная связь между оценками двух преподавателей значимая.

Пример 6: В примере 4 по выборке объема n=11 вычислен выборочный коэффициент ранговой корреляции Спирмена между двумя последовательностями рангов, установленными специалистами двух заводов при ранжировании факторов, влияющих на ход технологического процесса. При уровне значимости 0,01 проверить, значима ли ранговая корреляционная связь между последовательностями рангов.

Решение: Найдем критическую точку двусторонней критической области распределения Стьюдента по уровню значимости и числу степеней свободы ; 0,01;9)=3,25

Найдем критическую точку:

Итак, . Так как -есть основания отвергнуть нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Спирмена. Другими словами, ранговая корреляционная связь между оценками двух преподавателей значимая.

3.3 Чарльз Эдвард Спирмен (биографическая справка)

Чарльз Эдвард Спирмен (1863 -- 1945) -- английский статистик и психолог, специалист в области экспериментальной психологии, методов оценки и измерения, теории, истории и философии психологии, психологии личности и социальной психологии.

Спирмен окончил Лейпцигский университет (доктор, 1906). Профессиональную деятельность начал с преподавания экспериментальной психологии в Лондонском университетском колледже, в котором проработал вплоть до отставки в 1931 г. (преподаватель, 1907--1911; профессор мышления и логики, 1911--1928; профессор психологии, 1928--1931; засл. профессор в отставке).

Чарлз Спирмен являлся членом Королевского общества (1924); президентом Британского психологического общества (1923-- 1926), почетным доктором и почетным членом нескольких университетов, зарубежных академий и обществ.

Один из самых влиятельных английских психологов XX столетия, Ч. Спирмен начинал свою карьеру в качестве офицера пехоты, прослужив пятнадцать лет в армии, в основном в Индии. В 34 года он ушел в отставку и начал академическую жизнь. К систематическому изучению психологии приступил в 1897 г. в лейпцигской лаборатории В. Вундта, где в 1906 г. получил докторскую степень, а через год начал работать в Лондонском университете. Именно благодаря многолетним интеллектуальным усилиям Спирмена возникла «лондонская школа» психологии, которая с позиций строгого реализма, статистики и психометрики занималась изучением человеческих способностей.

Изучая корреляции между результатами выполнения различных заданий, Спирмен внес значительный вклад в развитие факторного анализа в психологии: он разработал один из методов корреляций (названный «корреляция Спирмена»). Выдвинул также «двухфакторную теорию интеллекта» («The theory of two factors», 1923), согласно которой выделялись: общий (генеральный) фактор «g», образующий основание любых успешных умственных действий и ряд специальных факторов, нужных для решения задач в отдельных областях. В дальнейшем сделал попытку распространить эту теорию на психическое в целом.

В течение трех десятилетий двухфакторная теория подвергалась острой критике. Одни отрицали само существование общего фактора «g» как врожденного, других не убеждали его математические доказательства. В ответ на это Спирмен и его сотрудники совершенствовали теоретическую и статистическую базу. Однако уже в 1930-х гг. представление о простой двухфакторной структуре интеллекта стало уступать появляющимся многофакторным теориям (Л. Терстоуна, Дж. Гилфорда и др.). Еще одним направлением научных устремлений Спирмена был поиск фундаментальных законов психологии. Его основные идеи описаны в книге «The nature of intelligence and the principles of cognition» (1923), где они приняли форму эмпирической эпистемологии, принципы которой поразительно согласуются с современными подходами в когнитивной психологии.

Литература

[1] Математическая статистика: учеб.для вузов/В.Б.Горяинов, И.В. Павлов, Г.М.Цветкова и др.; под ред. В.С.Зарубина, А.П.Крищенко.-М.:Изд-во МГТУ им. Н.Э.Баумана,2001.-424с.

[2] Прикладная статистика. Основы эконометрики: учебник для вузов: В 2 т. 2-е изд., испр. - Т.1:Айвазян С.А., Мхитарян В.С. теория вероятностей и прикладная статистика. - М.: ЮНИТИ - ДАНА, 2001. - 656с.

[3] Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высш.школа, 1998.-479 с.

[4] Элементарная теория вероятностей: методические разработки лекций и упражнений для студентов заочн. отдел. математического факультета. Часть III. - Н.Новгород: НГПУ, 2005.-69 с. (Составители: Рахманкулов Р.Г., Сперанская Л.С.)

[5] Тутубалин В.Н. Теория вероятностей. учебное пособие. - М.: Издательский центр «Академия», 2008. - 368 с.

[6] История психологии в лицах. ред. Л. А. Карпенко. М.: ПЕР СЭ, 2005 г.

[7] Тюрин Ю.М. Что такое математическая статистика. - М.: Знание, 1975. - 64с.

[8] Тюрин Ю.М. Непараметрические методы статистики. - М.: Знание, 1978. - 64с.

Размещено на Allbest.ru

...

Подобные документы

  • Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Проверка статистических гипотез и выполнение центральной предельной теоремы для заданных последовательностей независимых случайных величин.

    курсовая работа [364,8 K], добавлен 13.11.2012

  • Сходимость последовательностей случайных величин. Центральная предельная теорема для независимых одинаково распределенных случайных величин. Основные задачи математической статистики, их характеристика. Проверка гипотез по критерию однородности Смирнова.

    курсовая работа [1,6 M], добавлен 13.11.2012

  • Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.

    презентация [92,4 K], добавлен 01.11.2013

  • Основные понятия, которые касаются центральной предельной теоремы для независимых одинаково распределенных случайных величин и проверки статистических гипотез. Анализ сходимости последовательностей случайных величин и вероятностных распределений.

    курсовая работа [582,0 K], добавлен 13.11.2012

  • Двумерная функция распределения вероятностей случайных величин. Понятие условной функции распределения и плотности распределения вероятностей. Корреляция двух случайных величин. Система произвольного числа величин, условная плотность распределения.

    реферат [325,3 K], добавлен 23.01.2011

  • Предельные теоремы теории вероятностей. Сходимость последовательностей случайных величин и вероятностных распределений. Метод характеристических функций. Закон больших чисел. Особенности проверки статистических гипотез (критерия согласия w2 Мизеса).

    курсовая работа [1,0 M], добавлен 27.01.2012

  • Случайная выборка объема как совокупность независимых случайных величин. Математическая модель в одинаковых условиях независимых измерений. Определение длины интервала по формуле Стерджесса. Плотность относительных частот, критерий согласия Пирсона.

    контрольная работа [90,4 K], добавлен 17.10.2009

  • Дискретные системы двух случайных величин. Композиция законов распределения, входящих в систему. Определение вероятности попадания случайной величины в интервал; числовые характеристики функции; математическое ожидание и дисперсия случайной величины.

    контрольная работа [705,1 K], добавлен 22.11.2013

  • Возможные варианты расчета вероятности событий. Выборочное пространство и события, их взаимосвязь. Общее правило сложения вероятностей. Законы распределения дискретных случайных величин, их математическое ожидание. Свойства биномиального распределения.

    презентация [1,4 M], добавлен 19.07.2015

  • Понятие и направления исследования случайных величин в математике, их классификация и типы: дискретные и непрерывные. Их основные числовые характеристики, отличительные признаки и свойства. Законы распределения случайных величин, их содержание и роль.

    презентация [1,4 M], добавлен 19.07.2015

  • Определение вероятности, что машина с неисправной ходовой частью имеет также неисправный мотор. Методика вычисления дисперсии. Проверка статистических гипотез и дисперсионный анализ. Формирование контрольных карт, их содержание и принципы построения.

    курсовая работа [686,4 K], добавлен 31.01.2015

  • Диаграмма рассеивания как точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y, порядок ее построения и назначение. Нахождение коэффициентов и построение графика линейного приближения, графика квадратичного приближения.

    курсовая работа [1,1 M], добавлен 03.05.2011

  • Алгебраический расчет плотности случайных величин, математических ожиданий, дисперсии и коэффициента корреляции. Распределение вероятностей одномерной случайной величины. Составление выборочных уравнений прямой регрессии, основанное на исходных данных.

    задача [143,4 K], добавлен 31.01.2011

  • Вероятность совместного выполнения двух неравенств в системе двух случайных величин. Свойства функции распределения. Определение плотности вероятности системы через производную от соответствующей функции распределения. Условия закона распределения.

    презентация [57,9 K], добавлен 01.11.2013

  • Статистическая гипотеза о независимости логарифмической доходности за различные интервалы времени при различных объемах торгов. Сущность критерия Колмогорова. Проверка гипотез для модельных данных. Выбор альтернативной гипотезы и оценка мощности критерия.

    курсовая работа [511,2 K], добавлен 03.03.2015

  • Область определения функции, которая содержит множество возможных значений. Нахождение закона распределения и характеристик функции случайной величины, если известен закон распределения ее аргумента. Примеры определения дискретных случайных величин.

    презентация [68,7 K], добавлен 01.11.2013

  • Вычисление среднего одномерных случайных величин. Определение доверительного интервала для математического ожидания и для дисперсии. Построение эмпирической и приближенной линий регрессии Y по X. Дисперсионный анализ греко-латынского куба второго порядка.

    курсовая работа [698,0 K], добавлен 08.05.2012

  • Пространство элементарных событий, математическое ожидание. Функции распределения и плотности распределения составляющих системы случайных величин. Числовые характеристики системы. Условия нормировки плотности системы случайных непрерывных величин.

    практическая работа [103,1 K], добавлен 15.06.2012

  • Пространства элементарных событий. Совместные и несовместные события. Функция распределения системы случайных величин. Функции распределения и плотности распределения отдельных составляющих системы случайных величин. Условные плотности распределения.

    задача [45,4 K], добавлен 15.06.2012

  • Классическое, статистическое и геометрическое определения вероятности. Дискретные случайные величины и законы их распределения. Числовые характеристики системы случайных величин. Законы равномерного и нормального распределения систем случайных величин.

    дипломная работа [797,0 K], добавлен 25.02.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.