Описательная статистика и дисперсионный анализ
Расчет числовых характеристик выборочного распределения. Построение вариационного ряда и расчёты с использование электронных таблиц. Задача практического применения дисперсного анализа, парной линейной и нелинейной, а так же множественной регрессии.
Рубрика | Математика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 11.04.2016 |
Размер файла | 2,6 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Министерство образования и науки РФ
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
Ульяновский государственный технический университет
Расчетно-графическая работа
По дисциплине
«Теория вероятности и математическая статистика»
Вариант N=11, V=3.
Выполнил:
студент группы ФКбд-23
Мамедова А.Д.
Проверил:
к.т.н., доцент кафедры ПМИ
Алексеева В.А.
Ульяновск
2015
Задание №1. Описательная статистика
Задание №1 включает одну комплексную задачу.
Условие задачи:
Для заданной выборки определить числовые характеристики (выборочное среднее, дисперсию смещенную и несмещенную, стандартное отклонение, коэффициенты асимметрии и эксцесса),построить графики выборочной функции распределения и гистограмму частот, приняв число интервалов, равным 8; в предположении нормальности распределения данных построить 95% доверительный интервал для математического ожидания генеральной совокупности.
Варианты 11-20. Износ режущего инструмента через определенное время обработки детали на станке составил (в мкм):54**, 103*, 72, 92, 83, 81, 79, 53**, 68, 82, 94, 65, 97, 110*, 78, 82, 63,101*, 68, 87, 98, 95, 53**, 93, 78, 62, 57, 88, 99, 105*, 66, 73, 67, 101*,91, 83, 57, 55**, 81, 83, 89, 91, 85, 102, 88, 108*, 93, 58, 67, 104*, 78, 85,78, 85, 78, 108, 86, 91, 93, 88, 75, 68, 94, 115*, 84, 101.(от значений, отмеченных *, отнять 2N, где N - порядковый номер студента в группе (вариант), отмеченным **, прибавить V, где V - порядковый номер группы в потоке).
Практическая часть
Числовые характеристики выборочного распределения определяются по соответствующим формулам для дискретных случайных величин с учетом того, что вероятности
рi = 1/ni.
Основными характеристиками выборки являются:
- математическое ожидание (выборочное среднее):
- для группированного ряда:
- выборочная дисперсия (несмещенная дисперсия):
или учитывая, что
для группированного ряда
- смещенная дисперсия:
- выборочное среднеквадратическое (стандартное) отклонение:
- выборочная мода: для унимодального (одновершинного) распределения это элемент выборки МоХ, встречающийся с наибольшей частотой;
- выборочная медиана - число МеХ, которое делит вариационный ряд на две части, содержащие одинаковое число элементов. Если объем выборки
n = 2l+1
(нечетен), то
Если же
n = 2l,
то
- выборочный коэффициент асимметрии:
,
Где
- центральный момент k-го порядка (k=3);
- выборочный коэффициент эксцесса:
.
Получим:
57, 81, 72, 92, 83, 81, 79, 56, 68, 82, 94, 65, 97, 88, 78, 82, 63,79, 68, 87, 98, 95, 56, 93, 78, 62, 57, 88, 99, 83, 66, 73, 67, 79,91, 83, 57, 58, 81, 83, 89, 91, 85, 102, 88, 86, 93, 58, 67, 82, 78, 85,78, 85, 78, 108, 86, 91, 93, 88, 75, 68, 94, 93, 84, 101.
Построим таблицу частот, разбив данные на 8 интервалов, график выборочной функции распределения и гистограмму частот. Вычислить числовые характеристики выборки.
Объем выборки - количество ее элементов n = 66.
Строим вариационный ряд:
56,56,57,57,57,58,58,62,63,65,66,67,67,68,68,68,72,73,75,78,78,78,78,78,79,79,79,81,81,81,82,82,82,83,83,83,83,84,85,85,85,86,86,87,88,88,88,88,89,91,91,91,92,93,93,93,93,94,94,95,97,98,99,101,102,108
Минимальное значение ряда 56, максимальное - 108, размах выборки -
R = 108 - 56 = 52,
длина интервала -
w = 52/8 = 6,5.
При построении таблицы частот в качестве нижней границы первого интервала принято минимальное значение выборки. При подсчете частот в случае совпадения элемента выборки с верхней границей соответствующий элемент учитывался в данном интервале.
Таблица частот имеет вид:
№ |
Границы |
zi ?? |
ni |
ni/n |
ni/n |
ni/wn |
|
1 |
56 - 62,5 |
59,25 |
8 |
0,12 |
0,12 |
0,019 |
|
2 |
62,5 - 69 |
65,75 |
8 |
0,12 |
0,24 |
0,019 |
|
3 |
69 - 75,5 |
72,25 |
3 |
0,05 |
0,29 |
0,007 |
|
4 |
75,5 - 82 |
78,75 |
11 |
0,17 |
0,46 |
0,026 |
|
5 |
82 - 88,5 |
85,25 |
18 |
0,27 |
0,73 |
0,042 |
|
6 |
88,5 - 95 |
91,75 |
12 |
0,18 |
0,91 |
0,028 |
|
7 |
95 - 101,5 |
98,25 |
4 |
0,06 |
0,97 |
0,009 |
|
8 |
101,5 - 108 |
104,75 |
2 |
0,03 |
1 |
0,005 |
Расчет с использованием электронных таблиц Excel
Для использования электронных таблиц Excel при работе со статистическими методами могут применяться как обычные средства, такие, как вставка функций (в первую очередь статистических), мастер диаграмм, так и специальные, в частности, надстройка «Пакет анализа» (рис. 1.1).
Рис. 1.1
Рис. 1.2
Для определения числовых характеристик выборки можно воспользоваться статистическими функциями, однако большинство характеристик можно получить проще, используя инструмент Описательная статистика пакета анализа. На рис. 1.2 показано заполнение соответствующего диалогового окна; результаты расчета см. на рис. 1.4.
Наиболее простой способ построения гистограммы частот в Excel - использование инструмента Гистограмма (рис. 1.3). Построим гистограмму частот и график выборочной функции распределения (в терминологии Excel - интегральный процент: значения накопленных относительных частот вычисляются в процентах) для следующей выборки.
Рис. 1.3
Если поле Интервал карманов (границы интервалов) не заполнять, границы будут определены автоматически. Результат представлен на рис. 1.4.
Рис. 1.4
Рассчитаем смещенную дисперсию, используя «Мастер функций»:
Рис. 1.5
Найдем 95%-ный доверительный интервал для математического ожидания генеральной совокупности, если получены следующие значения:
56,56,57,57,57,58,58,62,63,65,66,67,67,68,68,68,72,73,75,78,78,78,78,78,79,79,79,81,81,81,82,82,82,83,83,83,83,84,85,85,85,86,86,87,88,88,88,88,89,91,91,91,92,93,93,93,93,94,94,95,97,98,99,101,102,108
Объем выборки n = 66. Выборочное среднее
= (57+81+ 72+ 92+…+ 93+ 84+ 101)/66=5 325/66=80,7
выборочная (несмещенная) дисперсия
=((562 + 562 + 572 + + … + 1022 + 1082) - 80,72)/66= 6 573,37;
s2 = 66 * 6 573,37/ 8 = 54 230,3;
s = 232,87;
доверительная вероятность р = 0,95;
уровень значимости
б = 0,05; 1 - б/2 = 0,975;
квантиль распределения Стьюдента
t0,975(65) = 1,9971 (по таблице).
Получим:
где - квантиль распределения Стьюдента порядка (1- б /2) с (n-1) степенями свободы.
80,7- 57,27 < m < 80,7+ 57,27
С вероятностью 0,95 математическое ожидание генеральной совокупности лежит в пределах от 23,43 до 137,97
Задание 2. Методы анализа данных
Задание №2 включает три задачи.
Условие задачи №1 (дисперсионный анализ):
Варианты 11-20. Компания, производящая спортивные товары, желает сравнить расстояние, которое пролетают мячи, изготовленные по 4 разным технологиям. По каждой технологии произведено по 10 мячей. Мячи переданы для испытания в спортивный клуб, где испытаны в течение короткого промежутка времени при одинаковых погодных условиях. Результаты испытаний в м:
технология |
||||
1 |
2 |
3 |
4 |
|
206** |
203** |
217 |
213 |
|
226* |
223 |
230 |
231 |
|
208 |
206 |
221 |
221 |
|
224* |
223 |
227 |
222 |
|
206 |
205 |
218 |
229 |
|
229* |
234* |
231* |
235* |
|
204 |
204 |
224 |
213 |
|
228* |
219 |
225 |
228 |
|
209 |
210 |
211** |
214 |
|
221 |
233 |
229 |
225 |
(от значений, отмеченных *, отнять N, где N - порядковый номер студента в группе (вариант), отмеченным **, прибавить V, где V - порядковый номер группы в потоке 4).
Практическая часть
Во многих практических ситуациях представляет интерес влияние того или иного фактора на рассматриваемый признак.
Пусть, например, оценка качества поверхности детали проводится с помощью l приборов и необходимо исследовать влияние фактора «прибор» на результат измерений. Если приборов два, то проверка нулевой гипотезы о равенстве их средних показаний проводится обычными методами проверки статистических гипотез. Если же l >2, то используются методы дисперсионного анализа.
Проверяется нулевая гипотеза Н0:
m1 = m2 = … = ml
об отсутствии влияния на результативный признак Х фактора А, имеющего l уровней Аk, k = 1,…, l. Основная идея дисперсионного анализа состоит в том, чтобы сопоставить дисперсию за счет воздействия фактора А с дисперсией, обусловленной случайными причинами. Если различие между ними не существенно, то влияние фактора А на признак Х незначительно. Если же различие между факторной и остаточной дисперсиями значимо, то это говорит о влиянии фактора А на рассматриваемый признак X.
Предполагается, что случайная величина Х имеет нормальное распределение с математическим ожиданием mk, зависящим от уровня фактора Аk, и постоянной дисперсией у2. В качества исходных данных используются выборочные значения величины X, полученные для каждого уровня фактора А; число элементов выборки на каждом уровне равно n, тогда общее число наблюдений nl, xik - результат i -го наблюдения (i =1, …, n) за k-тым уровнем фактора А (k = 1, …, l).
Выборочная средняя, соответствующая k-му уровню фактора А, (групповая средняя) вычисляется по формуле:
общая выборочная средняя есть
Для вычисления дисперсии найдем суммы квадратов.
Общая сумма квадратов - это сумма квадратов отклонений наблюдаемых значений xik от общей выборочной средней:
Факторная сумма квадратов (обусловленная влиянием фактора А) - это сумма квадратов отклонений групповых средних от общей средней:
Остаточная сумма квадратов характеризует рассеяние внутри группы:
На практике эта сумма определяется из основного тождества дисперсионного анализа, в соответствии с которым
Разделив суммы квадратов на соответствующее число степеней свободы, найдем соответствующие дисперсии (иногда их называют средними суммами квадратов):
Если нулевая гипотеза о равенстве средних справедлива, то эти дисперсии являются несмещенными оценками дисперсий генеральной совокупности.
Значительное превышение дисперсии над дисперсией можно объяснить различием средних в группах. Поэтому для проверки нулевой гипотезы используется отношение этих средних, которое имеет распределение Фишера
с числом степеней свободы (l - 1) и l(n - 1). Гипотеза Н0:
m1 = m2 = … = ml
не противоречит результатам наблюдений при заданном уровне значимости б, если
в этом случае считается, что фактор А не оказывает существенного влияния на признак X.
Дисперсия - мера разброса данной случайной величины, то есть её отклонения от математического ожидания.
Однофакторный дисперсионный анализ изучает действие только одной переменной (фактора) на исследуемый признак. Исследователя интересует вопрос, как изменяется определенный признак в разных условиях действия переменной (фактора). (от значений, отмеченных *, отнять N, где N - порядковый номер студента в группе (11 вариант), отмеченным **, прибавить V, где V - порядковый номер группы в потоке (Фкбд-23-3) ).
Получим:
технология |
||||
1 |
2 |
3 |
4 |
|
209 |
206 |
217 |
213 |
|
215 |
223 |
230 |
231 |
|
208 |
206 |
221 |
221 |
|
213 |
223 |
227 |
222 |
|
206 |
205 |
218 |
229 |
|
218 |
223 |
220 |
224 |
|
204 |
204 |
224 |
213 |
|
217 |
219 |
225 |
228 |
|
209 |
210 |
214 |
214 |
|
221 |
233 |
229 |
225 |
Расчет с использованием электронных таблиц Excel
Рис. 2.1
Для проведения анализа воспользуйтесь инструментом Однофакторный дисперсионный анализ пакета Анализ данных. В качестве исходных данных введите таблицу «Расположение щитов».
Выводятся две таблицы. В первой таблице приводятся статистические характеристики для каждого расположения щитов, во второй - результаты анализа, в частности, значение статистики Фишера (F) и граница критической области (F критическое).
Если выборочное значение статистики оказалось меньше критического, нулевая гипотеза принимается. В данном примере выборочное значение статистики - 5,08 - оказалось больше критического 2,87 , то есть значение статистики Фишера попало в критическую область: нулевая гипотеза о не значимости отвергается.
Условие задачи №2 (парная регрессия):
Для заданной выборки возможно применение линейной или параболической парной регрессионной модели. Построить обе модели и определить, какая из них лучше аппроксимирует опытные данные. В качестве критерия качества модели использовать коэффициент детерминации. На диаграмме рассеивания показать линии, соответствующие построенным моделям.
Варианты 11-20. За каждым из 9 менеджеров по сбыту закреплена определенная территория. В таблице приведены численность населения на этой территории Х в тыс. чел и объемы продаж, обеспеченные соответствующим менеджером, У в млн руб.
x |
4,96 |
8,26 |
9,09 |
12,25* |
4,73 |
13,68* |
3,58 |
2,77** |
4,64 |
|
y |
2,69** |
3,54 |
3,32 |
3,54 |
2,25 |
5,15 |
2,02 |
1,71 |
3,26 |
(от значений, отмеченных *, отнять 0,1N, где N - порядковый номер студента в группе (вариант), отмеченным **, прибавить 0,04V, где V - порядковый номер группы в потоке 6)
Практическая часть
Парная линейная регрессия
Регрессионный анализ - раздел прикладной статистики, изучающий связь между зависимой переменной Y и одной или несколькими независимыми переменными. Вначале рассмотрим парный анализ, когда независимая переменная одна. Пусть эта переменная X принимает фиксированные значения x1, x2, …, xn. Соответствующие значения зависимой переменной Y имеют разброс вследствие погрешности измерений и различных неучтенных факторов и оказались равными y1, y2, …, yn..
Если предположить, что связь между переменными линейна, то соответствующая регрессионная модель имеет вид
выборочный распределение дисперсный регрессия
Y = в0 + в1x + е,
где в0 и в1 - параметры линейной регрессии, е - случайная ошибка наблюдения; предполагается, что математическое ожидание М(е) = 0, а дисперсия
D(е) = у2
постоянна.
Задача регрессионного анализа сводится к оценке параметров регрессии в0 и в1, проверке гипотезы о значимости модели и оценке её адекватности - достаточно ли хорошо согласуется модель с результатами наблюдений?
Для оценки параметров регрессии используется метод наименьших квадратов: в качестве оценок принимаются такие значения в0 и в1, которые минимизируют сумму квадратов отклонений наблюдаемых значений от расчетных точек - . Для парной линейной модели эти оценки определяются по формулам:
Где
Расчетное значение
yi = в0 + в1x.
Разности между наблюдаемыми и расчетными значениями - , называются остатками, а соответствующая сумма квадратов - остаточной суммой квадратов:
Воспользуемся алгоритмом однофакторного дисперсионного анализа, где
- общая сумма квадратов, а сумма квадратов, обусловленная регрессией, есть
Тогда остаточную сумму квадратов можно вычислить из тождества
Линейная регрессионная модель называется незначимой, если параметр в1 = 0 . Для проверки гипотезы H0: в = 0 используется статистика Фишера
которая при заданном уровне значимости б сравнивается с квантилью F1-б(1, n - 2) с числом степеней свободы 1 и (n - 2); если оказывается
то гипотеза H0 отклоняется и говорят, что регрессионная модель статистически значима.
Кроме значимости проверяется и адекватность модели. Иногда адекватность проверяется по диаграмме рассеивания с нанесенной расчетной прямой. Если же адекватность неочевидна, то проводят специальную проверку.
В этом случае необходимо иметь несколько результатов наблюдений yij при одних и тех же значениях xi, i = 1, …, m; j =1, …, ni, где m - количество различных значений xi. Очевидно,
.
Если модель результатам наблюдений, то средние из ni наблюдений должны быть близки к вычисленным значениям , то есть сумму квадратов
можно рассматривать как меру неадекватности модели, остаточную сумму квадратов можно представить в виде суммы
где Qp - сумма квадратов чистой ошибки
Для проверки адекватности модели используется статистика Фишера
Если выборочное значение этой статистики оказывается меньше критического значения F1-б(m - 2, n - m), то гипотеза об адекватности линейной модели принимается. Если же это условие не выполняется, то используют одну из нелинейных моделей.
Проверка адекватности модели не всегда возможна. Если нет дополнительных измерений Y, ограничиваются сравнением статистки F c F1-б. Если
то модель считается пригодной для использования при прогнозе значений Y по известным значениям Х.
Парная нелинейная регрессия
В общем случае нелинейная регрессионная модель (нелинейная по фактору Х, но линейная по параметрам вj) имеет вид
Y = в0 + в1 ?1 (x) + в2 ?2 (x) + … + вk-1 ?k-1 (x) + ,
где вj - неизвестные параметры, а ?j(x) - известные базисные функции. Они могут быть степенными
?j(x) = xj,
тригонометрическими
?j(x) =sin(лjx)
и т.д.
Используя метод наименьших квадратов, для оценки параметров можно получить нормальную систему:
nв0 + в1 ?1(xi) + в2 ?1(xi) + … + вk-1 ?k-1(xi) = yi ,
в0 ?1 (xi) + в1 ?(xi) + в1 ?1(xi) ?2(xi) +…+ вk-1?1(xi)?k-1(xi)= ?1(xi)yi
в0 ?k-1 (xi) + в1 ?1(xi)?k-1(xi) + … + вk-1?(xi) = ?1(xi)yi
в частности, если рассматривается параболическая модель
Y = в0 + в1x + в2x2+ ,
Имеем
k = 3, ?1(x) = x, ?2(x) = x2
и нормальная система примет вид:
nв0 + в1 xi + в2 x= y ,
в0 xi + в1 x+ в2 x= xiyi ,
в0 x+ в1 x + в2 x= xyi ,
для гиперболической модели
Y = в0 + в1 / x +
nв0 + в1 = yi
в0 + в1 = .
Мы рассмотрели регрессионные модели, нелинейные по фактору Х, но линейные по параметрам вj. Во многих практических задачах зависимость между Х и Y нелинейна и по параметрам. В этом случае по возможности пытаются свести нелинейную по параметрам модель к модели, линейной по параметрам.
Пусть, например, зависимость между переменными z и х имеет вид
Представим ее в виде
и введем новую переменную
у = 1/z,
тогда получим модель
y = в0 + в1x,
линейную по параметрам. Если
,
то, прологарифмировав:
ln z = в0 + в1x ,
и введя обозначение
y = ln z ,
также получим линейную модель.
По аналогии с парной линейной регрессией, проводится проверка значимости и адекватности модели.
Очевидно, для одного набора опытных данных (xi, yi) можно использовать различные модели, которые окажутся и значимыми, и адекватными. Для характеристики качества той или иной модели используется коэффициент корреляции, показывающий степень тесноты линейной связи между опытными значениями, и их предсказаниямипо модели.
По формуле для выборочного коэффициента корреляции имеем:
Где
Чем ближе коэффициент корреляции к единице (по модулю), при условии его значимости, тем более качественной считается модель из набора моделей одинаковой размерности. Вообще, как для парной, так и ниже рассматриваемой множественной регрессии, для оценки качества модели используются помимо коэффициента корреляции и другие критерии. Различают при этом внутренние, смешанные и внешние меры качества.
Коэффициент детерминации (R2 - R-квадрат) -- это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Более точно -- это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по признакам дисперсии зависимой переменной) в дисперсии зависимой переменной. В случае линейной зависимости R2 является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели линейной регрессии с одним признаком x коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x. (от значений, отмеченных *, отнять 0,1N, где N - порядковый номер студента в группе (11вариант), отмеченным **, прибавить 0,04V, где V - порядковый номер группы в потоке(Фкбд-23) )
Получим:
x |
4,96 |
8,26 |
9,09 |
11,15 |
4,73 |
12,58 |
3,58 |
2,89 |
4,64 |
|
y |
2,81 |
3,54 |
3,32 |
3,54 |
2,25 |
5,15 |
2,02 |
1,71 |
3,26 |
Расчет с использованием электронных таблиц Excel
Для проведения регрессионного анализа удобен (особенно для множественной линейной регрессии) инструмент Регрессия из пакета Анализ данных.
Введите значения х и у в два столбца электронной таблицы и откройте окно Регрессия (рис. 3.1). При заполнении полей этого окна имеется возможность установить (при необходимости) константу в0, равную нулю, изменить уровень значимости (по умолчанию уровень надежности 0,95 соответствует уровню значимости 0,05). При необходимости рассчитываются остатки или стандартизированные остатки. Могут быть выведены графики остатков, нормальной вероятности и график подбора: диаграмма рассеяния с нанесенной на нее расчетной линией регрессии.
Поставьте флажки для вывода остатков (при этом одновременно будут найдены и прогнозируемые значения отклика) и построения графика подбора.
На рис. 3.2 показаны результаты расчета. В таблице Регрессионная статистика приведены, в частности, коэффициент детерминации R-квадрат и стандартная ошибка, в таблице Дисперсионный анализ рассчитана статистика Фишера и приведено р-значение, определяющее значимость модели: регрессионная модель значима, если вероятность ошибки р меньше заданного уровня значимости (напомним, что по умолчанию оно равно 0,05). В таблице с коэффициентами модели приведены оценки в0 (У-пересечение) и В1 (Переменная Х1), их стандартные ошибки, значения статистик Стьюдента, их р-значения, доверительные интервалы. В таблице Вывод остатка, кроме остатков, приведены прогнозируемые (предсказанные) значения у.
Рис. 3.1
Из этих таблиц следует, что искомая модель имеет вид:
y = 1,250 + 0,264x1;
Рис. 3.2
она значима, поскольку значимость р = 0,001218337 << 0,05; коэффициент детерминации R2 = 0,795.
Рассмотрим теперь решение этой же задачи с использованием инструмента Линия тренда. Для построения парных регрессий можно использовать инструмент Линия тренда, позволяющий построить линейную и несколько видов нелинейной регрессии: рассчитать уравнение, коэффициент детерминации, построить графики, дать прогноз. По исходным данным, используя мастер диаграмм, постройте точечную диаграмму (рис. 3.3) и вызовите контекстное меню, щелкнув правой кнопкой мыши по одной из точек диаграммы.
Рис. 3.3
Рис 3.4
Далее выбирается тип линии тренда (рис. 3.4) и устанавливаются параметры (рис. 3.4). При необходимости здесь же можно ввести наименование линии, сделать прогноз, установить на нулевое значение параметр в0. На рис. 3.5 показан построенный график с уравнением линейной и параболической моделей и коэффициентом детерминации.
Рис. 3.5
Чем ближе коэффициент детерминации в единице, тем более качественной считается модель, в данном случае, это параболическая парная регрессионная модель (R2 = 0,778).
Условие задачи №3 (множественная регрессия):
Для заданной выборки провести множественный регрессионный анализ модели
y = в0 + в1x1 + в2x2 + в3x3 .
Варианты 11-20. Анализируется зависимость урожайности зерновых культур у от количества используемых тракторов х1, комбайнов х2 и расхода удобрений х3. Приведены данные по 18 хозяйствам.
x1 |
16 |
4 |
25 |
48* |
21 |
21 |
7 |
4 |
5 |
|
x2 |
25 |
27 |
29 |
39 |
26 |
30 |
28 |
26 |
24 |
|
x3 |
3,1** |
5,8 |
3,2 |
4,2 |
3,9 |
3,3 |
4,2 |
2,3 |
2,0** |
|
y |
98 |
85 |
91 |
99 |
97 |
87 |
125* |
77 |
70 |
|
x1 |
33 |
17 |
24 |
93* |
17 |
6 |
3 |
15* |
1 |
|
x2 |
32 |
31 |
32 |
41 |
27 |
29 |
25 |
29 |
20 |
|
x3 |
12,2 |
7,2 |
2,6 |
4,1 |
8,5 |
1,2 |
0,9** |
2,1 |
4,2 |
|
y |
140* |
98 |
109 |
119* |
98 |
71 |
73 |
84 |
84 |
(от значений, отмеченных *, отнять 0,1N, где N - порядковый номер студента в группе (11 вариант), отмеченным **, прибавить V, где V - порядковый номер группы в потоке (Фкбд-23=3) )
Практическая часть
Множественная регрессия
Если случайная величина Y зависит от нескольких независимых переменных x1, x2, …, xn. то исследование зависимости между Y и xj (j = 1, …, k - 1) составляет предмет множественного регрессионного анализа.
Регрессионную модель представим в виде
Y = в0 + 1 x1 + 2 x2 + … + k-1 xk-1 +
или матричной форме
Y = Xв + ,
Где
Y = (y1 y2 … yn)T
- вектор наблюдений, содержащий n значений Yi (случайные величины), индекс "Т" означает транспонирование матрицы;
- регрессионная матрица размера n*k, содержащая элементы xij -результаты i- го наблюдения за входными функциями xj; k - количество параметров; xij - неслучайные величины (в общем случае - базисные функции входных параметров);
в = (в0 в1 … вk-1)T
- вектор неизвестных параметров регрессии, подлежащих оцениванию (неслучайные величины);
е = (е 1 е 2 … е n)T
- вектор ошибок, содержащий неизвестные погрешности наблюдений еi (случайные величины, распределенные по нормальному закону, некоррелированные и статистически независимые, с нулевым математическим ожиданием и постоянной дисперсией).
Обычно значения выходной случайной величины Y называют откликом, а входные величины xj - регрессорами. Очевидно, если в модели парной нелинейной регрессии ?j(x) обозначить через новые переменные xj (j = 1, …, k - 1), то модель
Y = в0 + в1 ?1 (x) + в2 ?2 (x) + … + вk-1 ?k-1 (x) +
может также рассматриваться с позиций множественного регрессионного анализа.
Оценки параметров модели по методу наименьших квадратов определяются по формуле
где (XTX)-1 - матрица, обратная матрице ХТХ.
При решении задачи поиска оптимальной регрессии описанная процедура является предварительной; точное решение проблемы предполагает (помимо использования внутренних, смешанных и внешних мер) проверку соблюдения условий применения регрессионного анализа и вычислительную адаптацию к их нарушениям.
Для проверки значимости рассматриваемой модели в качестве нулевой используется гипотеза H0
в1 = в2 = … = вk-1
о том, что все регрессоры xj (j = 1, … , k - 1) не оказывают существенного влияния на отклик. Статистика Фишера
сравнивается с квантилью F1-б(k - 1, n - k). Здесь
Если гипотеза H0 отклоняется, то проверяется значимость каждого регрессора: H0(j) : вj = 0, то есть предположение о том, что регрессор Xj статистически незначим. Используется статистика Стьюдента
где sj - среднеквадратическое отклонение параметра вj, которое можно найти по формуле:
где cjj -диагональные элементы матрицы (XTX)-1. Найденное значение сравнивается с квантилью t1-б/2(n - k). Если какой-либо из параметров оказался незначимым, соответствующий регрессор xj из модели исключается.
Для новой модели заново выполняют все расчеты и сопоставляют ее точность с исходной моделью. Такой подход к поиску оптимальной регрессионной модели называется структурной идентификацией.
Получим:
x1 |
16 |
4 |
25 |
46,9 |
21 |
21 |
7 |
4 |
5 |
|
x2 |
25 |
27 |
29 |
39 |
26 |
30 |
28 |
26 |
24 |
|
x3 |
6,1 |
5,8 |
3,2 |
4,2 |
3,9 |
3,3 |
4,2 |
2,3 |
5 |
|
y |
98 |
85 |
91 |
99 |
97 |
87 |
123,9 |
77 |
70 |
|
x1 |
33 |
17 |
24 |
91,9 |
17 |
6 |
3 |
13,9 |
1 |
|
x2 |
32 |
31 |
32 |
41 |
27 |
29 |
25 |
29 |
20 |
|
x3 |
12,2 |
7,2 |
2,6 |
4,1 |
8,5 |
1,2 |
3,9 |
2,1 |
4,2 |
|
y |
138,9 |
98 |
109 |
117,9 |
98 |
71 |
73 |
84 |
84 |
Расчет с использованием электронных таблиц Excel
Требуется построить модель множественной линейной регрессии, предполагая наличие линейной связи между производительностью выпуска колец подшипников и тремя указанными факторами.
Введите исходные данные в столбцы. Воспользуйтесь инструментом Регрессия из пакета Анализ данных. При вводе входного интервала Х выделите мышью все три столбца с независимыми переменными. Результаты расчета частично показаны на рис. 4.1. Полученная модель имеет вид:
y = 43,128 + 0,215x1 + 1, 024x2 + 3,763x3.
Рис. 4.1
Модель не значима (см. проверку значимости по F-критерию), все факторы также не значимы: это следует из того, что все р-значения для переменных больше, чем 0,05.
Размещено на Allbest.ru
...Подобные документы
Порядок и принципы построения вариационного ряда. Расчет числовых характеристик статистического ряда. Построение полигона и гистограммы относительных частот, функции распределения. Вычисление асимметрии и эксцесса. Построение доверительных интервалов.
контрольная работа [108,5 K], добавлен 03.10.2010Построение уравнения регрессии. Оценка параметров линейной парной регрессии. F-критерий Фишера и t-критерий Стьюдента. Точечный и интервальный прогноз по уравнению линейной регрессии. Расчет и оценка ошибки прогноза и его доверительного интервала.
презентация [387,8 K], добавлен 25.05.2015Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.
контрольная работа [380,9 K], добавлен 05.04.2015Построение полигона относительных частот, эмпирической функции распределения, кумулянты и гистограммы. Расчет точечных оценок неизвестных числовых характеристик. Проверка гипотезы о виде распределения для простого и сгруппированного ряда распределения.
курсовая работа [216,2 K], добавлен 28.09.2011Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.
контрольная работа [68,7 K], добавлен 21.09.2009Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.
задача [409,0 K], добавлен 17.10.2012Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.
курсовая работа [352,9 K], добавлен 26.01.2010Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.
контрольная работа [814,0 K], добавлен 19.12.2013Исследование сходимости рядов. Степенной ряд интеграла дифференциального уравнения. Определение вероятности событий, закона распределения случайной величины, математического ожидания, эмпирической функции распределения, выборочного уравнения регрессии.
контрольная работа [420,3 K], добавлен 04.10.2010Изучение раздела математической статистики, посвященного методам выявления влияния отдельных факторов на результат эксперимента. Эффекты взаимодействия. Использование однофакторного дисперсионного анализа для сравнения средних значений нескольких выборок.
презентация [110,0 K], добавлен 09.11.2014Теоретические основы юридической статистики, числовые характеристики. Построение гистограммы выборки. Оценка среднего значения, дисперсии и эксцесса. Выборочное уравнение регрессии по данным корреляционных таблиц. Интервальная оценка распределения.
курсовая работа [1,1 M], добавлен 16.11.2013Формулировка теоремы Бернулли, проверка ее с помощью программы. Моделирование случайной величины методом кусочной аппроксимации. График распределения Коши, построение гистограммы и нахождения числовых характеристик, составление статистического ряда.
курсовая работа [226,8 K], добавлен 31.05.2010Общее понятие о дисперсионном анализе, его сущность и значение. Использование INTERNET и компьютера для проведения дисперсионного анализа, особенности работы в среде MS Excel. Примеры применения однофакторного и двухфакторного дисперсионного анализа.
курсовая работа [820,4 K], добавлен 17.02.2013Закон распределения случайной величины Х, функция распределения и формулы основных числовых характеристик: математическое ожидание, дисперсия и среднеквадратичное отклонение. Построение полигона частот и составление эмпирической функции распределения.
контрольная работа [36,5 K], добавлен 14.11.2010Построение статистических таблиц. Оценка достоверности влияния организованных и неучтенных факторов на величину результативного признака. Определение числа степеней свободы в однофакторном комплексе. Обработка двухфакторного дисперсионного комплекса.
презентация [134,4 K], добавлен 14.04.2013Определение наличия зависимости показателя Заработная плата от Возраста и Стажа с использованием корреляционной матрицы. Нормальность распределения остатков по: гистограмме остатков, числовым характеристикам асимметрии и эксцессу, критерию Пирсона.
курсовая работа [1,1 M], добавлен 05.12.2013Дисперсионный анализ. Применение дисперсионного анализа в различных задачах и исследованиях. Дисперсионный анализ в контексте статистических методов. Векторные авторегрессии. Факторный анализ.
курсовая работа [139,8 K], добавлен 29.05.2006Понятие непрерывной случайной величины, её значения на числовых промежутках. Определение закона распределения, его функции. Плотность распределения числовых характеристик вероятности. Математическое ожидание, дисперсия и среднеквадратичное отклонение.
лекция [575,9 K], добавлен 17.08.2015Доверительное оценивание параметров законов распределения (дисперсия, математическое ожидание), классический регрессионный анализ. Проверка гипотез, методики расчета доверительных интервалов и критериев согласия для различных числовых характеристик.
курсовая работа [302,9 K], добавлен 25.07.2013Согласование выборочных распределений. Отбор статистических данных с помощью таблицы случайных чисел. Расчет числовых характеристик распределения выборочных частот. Проверка предположения, что распределение генеральной совокупности является нормальным.
курсовая работа [276,6 K], добавлен 19.01.2016