Основы математической статистики

Характеристика моделей дисперсионного анализа с фиксированными уровнями факторов. Анализ статистических данных. Определение среднего арифметического урожайности. Рассмотрение схемы однофакторного дисперсионного анализа. Изучение метода нулевых гипотез.

Рубрика Математика
Вид контрольная работа
Язык русский
Дата добавления 19.04.2015
Размер файла 74,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

1. Основные понятия дисперсионного анализа

2. Однофакторный дисперсионный анализ

3. Многофакторный дисперсионный анализ

1. Основные понятия дисперсионного анализа

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.

Основными схемами организации исходных данных с двумя и более факторами являются:

- перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;

- иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.

Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ

2. Однофакторный дисперсионный анализ

В общем виде эту задачу можно поставить следующим образом: пусть мы наблюдаем m независимых нормально распределенных случайных величин предполагая, что все они имеют одинаковую дисперсию (эту гипотезу можно проверить с помощью F-критерия). Средние значения случайных величин вообще говоря, различны. Пусть в одинаковых экспериментальных условиях над каждой из переменных производится некоторая серия наблюдений (для простоты ограничимся случаем равночисленных наблюдений, хотя это обстоятельство несущественно для теории). Данные k-й серии пусть будут (k=1,2,…..,m).

Опираясь на эти статистические данные, мы хотим проверить гипотезу, согласно которой средние значения равны, т.е. a1=a2=…..=am.

Если проверяемая гипотеза, называемая нулевой гипотезой, верна. поставив средние в каждой серии, мы не должны получить ш расхождения между ними; если такое расхождение обнаружено то гипотезу (3) приходится отбросить.

Примером подобной ситуации может служить статистическое исследование урожайности сельскохозяйственной культуры в зависимости от 1 из m сортов почвы при некотором способе ее обработки. Истинное значение урожайности для каждого из m сортов почвы неизвестно, а экспериментально наблюдаемые урожайности (3) в каждом из n экспериментов на этих сортах почвы содержат ошибки, возникающие из-за тех или иных случайных причин. Будет ли одинаковой урожайность на всех сортах почвы, если предположить, что измерения (3) проводились с ‚одинаковой точностью и в одинаковых условиях? Иначе говоря, мы хотим проверить влияние одного фактора сорта почвы -- на урожайность .сельскохозяйственной культуры. В другой постановке та же задача возникает, если мы хотим проверить, насколько влияют и влияют ли вообще на плодородие почвы источники загрязнения. В этом случае сорт почвы может меняться и давать разную урожайность в зависимости от удаленности обрабатываемого участка земли от источника загрязнения.

Таблица результатов измерений будет иметь следующий вид:

Результаты измерений урожайности

Номер сорта почвы

Номер эксперимента

1

2

3

n

1

x11

X12

X13

X1n

2

X21

X22

X23

X2n

3

X31

X32

X33

X3n

m

Xm1

Xm2

Xm3

xnm

Обозначим через среднее арифметическое из n наблюдаемых урожайностей на почве первого сорта, через -- среднее из урожайностей в почве второго сорта и т. д., так, что

, ,

Систематические ошибки наблюдений урожайностей на разных почвах неодинаковы, то мы должны ожидать повышенного рассеивания выборочных средних.

Обозначим через общее среднее арифметическое всех n m измерений так, что

Суммирование по k при постоянном i дает сумму по всем наблюдениям i-той серии (т.е. по i-му сорту почвы). Дальнейшее суммирование по i дает итог по всем сортам почвы. Так как

, то .

В то же время

,

причем

.

Но , так как представляет собой сумму отклонений наблюдений i-й серии от средней этой же серии и потому S=0.

По этому приняв во внимание, что

,

мы можем основное тождество записать в следующем виде

,

где , ,

Таким образом, общая сумма квадратов ‚ распадается на две составные части, первая из которых связана с оценкой дисперсии урожайности между сортами почвы, а вторая -- с оценкой дисперсии внутри всех сор почвы.

Предположим теперь, что гипотеза верна, и потому нормальные распределения всех величин (урожайностей) тождественны. имеют одинаковые среднее значение и дисперсию .Тогда же nm наблюдений можно рассматривать как выборку из одной и той же нормальной совокупности .

Можно показать, что при этой гипотезе статистики , и распределены по закону соответственно с ,, степенями свободы, а по тому Q, Q1, Q2 могут быть использованы в этом случае для оценки . Эта оценка может быть поведена с помощью несокращенных характеристик

, , .

При более детальном изучение показывает, что Q1 и Q2 при нашей гипотезе независимы друг от друга. Заметим, этот вывод справедлив при любых предположениях относительно ai.

Из сказанного вытекает, что критерий

в гипотезе будет следовать F-распределению с и степенями свободы. Выбирая q%-й уровень значимости при известных , , найдем соответствующий q% предел так, что P(F>Fq).

Пусть с другой стороны наша гипотеза неверна и средние значения (2) не равны друг другу, но параметр во всехm совокупностях один и тот же, когда сумма Q2, не изменяющаяся при замене на , имеет, как можно доказать. По-прежнему распределение и степенями свободы, . дисперсионный статистический арифметический урожайность

По-прежнему является несмещенной оценкой для . В то же время числитель F учитывает систематические расхождения между средними значениями ai, и имеет тенденцию расти и становится тем больше, чем больше отклонения от предполагаемого равенства значений ai. Поэтому правила проверки гипотезы дается в следующем виде: a1=a2=…..=am принимается, если ; в этом случае и несмещенными оценками параметров a и нормально распределенных случайных величин.

Если ,то нулевая гипотеза отклоняется, и следует считать, что среди значений имеются хотя бы два не равных друг другу.

Схема однофакторного дисперсионного анализа

Компонента дисперсии

Сумма квадратов

Число степеней свободы

Выборочная дисперсия

Между сортами почвы

Внутри сортов почвы

Полная (общая)

Сравнивая дисперсию между сортами почвы с дисперсией «внутри» почвы, по величине их отношения судят, насколько рельефно проявляется влияние такого фактора, как сорт почвы; в этом сравнении как раз и заключается основная идея дисперсионного анализа. Схему однофакторного дисперсионного анализа можно представить в таблице.

В качестве числового примера рассмотрим данные пятикратного (n=5) измерения урожайности на трех (т =3) сортах почвы. В таблице приведены данные не фактического, а условного эксперимента;

Результаты измерения урожайности в относительных единицах

Номер

Сорта почвы

Номер эксперимента

Выборочное среднее

1

2

3

4

N=5

i

1

12

15

17

13

16

14.6

2

20

17

16

25

14

18.4

m=3

10

12

11

13

8

10.8

Из таблицы имеем:

;

;

; ; ; .

Для нашего примера таблица однофакторного анализа будет иметь следующий вид

Дисперсионный анализ урожайности на различных сортах почвы

Компонента дисперсии

Сумма квадратов

Число степеней свободы

Выборочная дисперсия

Между сортами

почвы

Q1=137

2

Внутри сортов почвы

Q2=102.2

12

Полная (общая)

Q3=239.2

14

Произведя теперь проверку нулевой гипотезы (4) с помощью распределения, находим

При двух степенях свободы большей дисперсии (k1 = 2) и 12 е свободы меньшей дисперсии (k2 = 12) находим критические границы для F, равные при 5%-м уровне pзначимости и 3.88 и 1%-м уровне -- 6.93. Полученное нами из наблюдений значение превышает указанные границы, и потому нулевая гипотеза должна быть отвергнута, т.е. урожайность на рассматриваемых сортах почвы неодинакова.

3. Многофакторный дисперсионный анализ

Многофакторный анализ не меняет общую логику дисперсионного анализа, а лишь несколько усложняет ее, поскольку, кроме учета влияния на зависимую переменную каждого из факторов по отдельности, следует оценивать и их совместное действие. Таким образом, то новое, что вносит в анализ данных многофакторный дисперсионный анализ, касается в основном возможности оценить межфакторное взаимодействие. Тем не менее, по-прежнему остается возможность оценивать влияние каждого фактора в отдельности. В этом смысле процедура многофакторного дисперсионного анализа (в варианте ее компьютерного использования) несомненно более экономична, поскольку всего за один запуск решает сразу две задачи: оценивается влияние каждого из факторов и их взаимодействие /3/.

Данные, подвергаемые многофакторному дисперсионному анализу, часто обозначают в соответствии с количеством факторов и их уровней.

Предположив, что в рассматриваемой задаче о качестве различных m партий изделия изготавливались на разных t станках и требуется выяснить, имеются ли существенные различия в качестве изделий по каждому фактору:

А - партия изделий;

B - станок.

В результате получается переход к задаче двухфакторного дисперсионного анализа.

Все данные представлены в таблице, в которой по строкам - уровни Ai фактора А, по столбцам - уровни Bj фактора В, а в соответствующих ячейках, таблицы находятся значения показателя качества изделий xijk (i=1,2,...,m; j=1,2,...,l; k=1,2,...,n).

Показатели качества изделий

B1

B2

Bj

Bl

A1

x11l,…,x11k

x12l,…,x12k

x1jl,…,x1jk

x1ll,…,x1lk

A2

x21l,…,x21k

x22l,…,x22k

x2jl,…,x2jk

x2ll,…,x2lk

Ai

xi1l,…,xi1k

xi2l,…,xi2k

xijl,…,xijk

xjll,…,xjlk

Am

xm1l,…,xm1k

xm2l,…,xm2k

xmjl,…,xmjk

xmll,…,xmlk

Двухфакторная дисперсионная модель имеет вид:

xijk=м+Fi+Gj+Iijijk,

где xijk - значение наблюдения в ячейке ij с номером k;

м - общая средняя;

Fi - эффект, обусловленный влиянием i-го уровня фактора А;

Gj - эффект, обусловленный влиянием j-го уровня фактора В;

Iij - эффект, обусловленный взаимодействием двух факто-ров, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели;

еijk - возмущение, обусловленное вариацией переменной внутри отдельной ячейки.

Предполагается, что еijk имеет нормальный закон распределения N(0; с2), а все математические ожидания F*, G*, Ii*, I*j равны нулю.

В таблице представлен общий вид вычисления значений, с помощью дисперсионного анализа.

Базовая таблица дисперсионного анализа

Компоненты дисперсии

Число степеней свободы

Межгрупповая (фактор А)

m-1

Межгрупповая (фактор B)

l-1

Взаимодействие

(m-1)(l-1)

Остаточная

mln - ml

Общая

mln - 1

Проверка нулевых гипотез HA, HB, HAB об отсутствии влияния на рассматриваемую переменную факторов А, B и их взаимодействия AB осуществляется сравнением отношений, (для модели I с фиксированными уровнями факторов) или отношений, (для случайной модели II) с соответствующими табличными значениями F - критерия Фишера - Снедекора. Для смешанной модели III проверка гипотез относительно факторов с фиксированными уровнями производится также как и в модели II, а факторов со случайными уровнями - как в модели I.

Если n=1, т.е. при одном наблюдении в ячейке, то не все нулевые гипотезы могут быть проверены так как выпадает компонента Q3 из общей суммы квадратов отклонений, а с ней и средний квадрат , так как в этом случае не может быть речи о взаимодействии факторов.

С точки зрения техники вычислений для нахождения сумм квадратов Q1, Q2, Q3, Q4, Q целесообразнее ис-пользовать формулы:

Q3 = Q - Q1 - Q2 - Q4.

Отклонение от основных предпосылок дисперсионного анализа - нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) - не сказывается существенно на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы.

Размещено на Allbest.ru

...

Подобные документы

  • Общее понятие о дисперсионном анализе, его сущность и значение. Использование INTERNET и компьютера для проведения дисперсионного анализа, особенности работы в среде MS Excel. Примеры применения однофакторного и двухфакторного дисперсионного анализа.

    курсовая работа [820,4 K], добавлен 17.02.2013

  • Изучение раздела математической статистики, посвященного методам выявления влияния отдельных факторов на результат эксперимента. Эффекты взаимодействия. Использование однофакторного дисперсионного анализа для сравнения средних значений нескольких выборок.

    презентация [110,0 K], добавлен 09.11.2014

  • Сущность закона распределения и его практическое применение для решения статистических задач. Определение дисперсии случайной величины, математического ожидания и среднеквадратического отклонения. Особенности однофакторного дисперсионного анализа.

    контрольная работа [328,2 K], добавлен 07.12.2013

  • Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа [132,1 K], добавлен 24.05.2013

  • Методы регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений. Обзор задач математической статистики. Закон распределения случайной величины. Проверка правдоподобия гипотез.

    презентация [113,3 K], добавлен 01.11.2013

  • Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.

    курсовая работа [215,1 K], добавлен 13.12.2014

  • Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.

    контрольная работа [140,5 K], добавлен 17.08.2014

  • Дисперсионный анализ. Применение дисперсионного анализа в различных задачах и исследованиях. Дисперсионный анализ в контексте статистических методов. Векторные авторегрессии. Факторный анализ.

    курсовая работа [139,8 K], добавлен 29.05.2006

  • Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.

    презентация [134,4 K], добавлен 14.04.2013

  • Непрерывная случайная величина и функция распределения. Математическое ожидание непрерывной случайной величины. Среднее квадратичное отклонение. Кривая распределения для непрерывной случайной величины. Понятие однофакторного дисперсионного анализа.

    контрольная работа [165,5 K], добавлен 03.01.2012

  • Ознакомление с механизмом проверки гипотезы для случая единственной выборки, двух и нескольких независимых выборок. Проверка совпадений карт, выбор фильмов разных жанров. Обоснование результатов, полученных после проверки статистических гипотез.

    курсовая работа [726,2 K], добавлен 26.02.2015

  • Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.

    дипломная работа [850,9 K], добавлен 18.01.2016

  • Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат [332,8 K], добавлен 10.12.2010

  • Оценка необходимости настройки технологического процесса или ремонта и замены оборудования для обеспечения заданной точности по толщине металла. Определение количества замеров толщины стенки листа стали. Статистические особенности анализа доли брака.

    курсовая работа [126,4 K], добавлен 29.10.2012

  • Значение математической статистики для анализа закономерностей массовых явлений. Основные теоретические выкладки корреляционного анализа. Применение его инструментария в контексте металлургической промышленности в среде программного средства Statistica 6.

    реферат [261,4 K], добавлен 03.08.2014

  • Топологическое определение гомотопии. Смысл, преимущества и недостатки гомотопного метода анализа. Уравнения деформации нулевого и старшего порядка. Особенности теоремы сходимости и значение трех фундаментальных правил, полиномиальное выражение.

    доклад [168,7 K], добавлен 13.08.2011

  • Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.

    курсовая работа [549,1 K], добавлен 07.08.2013

  • Обработка данных измерений величин и представление результатов с нужной степенью вероятности. Определение среднего арифметического и вычисление среднего значения измеренных величин. Выявление грубых ошибок. Коэффициенты корреляции. Косвенные измерения.

    реферат [116,2 K], добавлен 16.02.2016

  • Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.

    дипломная работа [256,0 K], добавлен 29.06.2017

  • Теория вероятности, понятие вероятности события и её классификация. Понятие комбинаторики и её основные правила. Теоремы умножения вероятностей. Понятие и виды случайных величин. Задачи математической статистики. Расчёт коэффициента корреляции.

    шпаргалка [945,2 K], добавлен 18.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.