Главная Коллекция "Revolution" Математика Статистические выводы по многофакторной модели

Статистические выводы по многофакторной модели

Типичная ошибка прогнозирования: стандартная ошибка предсказания. Объясненный процент вариации. Статистический вывод в случае множественной регрессии. Модель множественной регрессий для генеральной совокупности. Критические значения для уровня значимости.

Рубрика	Математика
Вид	реферат
Язык	русский
Дата добавления	29.09.2013
Размер файла	62,8 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/ 20

Статистические выводы по многофакторной модели

Введение

Насколько хороши наши прогнозы? Этот раздел следует рассматривать в основном как обзор, поскольку стандартное отклонение оценки, S_e, и коэффициент детерминации, R², имеют для множественной регрессии, вообще говоря, ту же интерпретацию, что и для простой регрессии. Единственное отличие заключается в том, что ваши прогнозы теперь базируются на нескольких X- переменных. Но все остается очень похоже, поскольку вы по-прежнему прогнозируете только одну переменную Y.

1. Типичная ошибка прогнозирования: стандартная ошибка предсказания

Как и в случае простой регрессии, когда мы имеем дело лишь с одной X-переменной, стандартная ошибка оценки (предсказания) указывает приблизительную величину ошибок прогнозирования.

Возвращаясь к нашему примеру с тарифами на размещение рекламы в журналах, S_e = $21578. Это говорит о том, что фактические тарифы на размещение рекламы в этих журналах, как правило, отклоняются от прогнозируемых тарифов не более чем на $21578 (речь идет о стандартном отклонении). Иными словами, если распределение ошибок является нормальным, то можно ожидать, что примерно 2/3 фактических тарифов будут находиться в пределах S_e от прогнозируемых тарифов; примерно 95% -- в пределах 2S_e и т.д.

Эта стандартная ошибка оценки, S_e = $21578, указывает остаток вариации тарифов после того, как вы использовали Х- переменные (величина читательской аудитории, процент мужчин и медиана дохода) в уравнении регрессии для прогнозирования тарифов каждого журнала. Сравните этот показатель с обычным стандартным отклонением одной переменной для тарифов, S_Y = $45446, вычисленным без использования других переменных. Это стандартное отклонение, S_Y, указывает остаток вариации тарифов после того, как вы использовали для прогнозирования тарифов каждого журнала только значение У. Заметьте, что S_e = $21578 меньше, чем S_Y = $45446; ошибки, как правило, оказываются меньше, если для прогнозирования тарифов использовать уравнение регрессии, а не просто . Как видите, Х- переменные полезны для объяснения размеров тарифов.

Это можно представить себе следующим образом. Если вам ничего неизвестно об Х- переменных, вы будете использовать в качестве оптимальной приблизительной оценки среднее значение тарифа ( = $83534) и будете ошибаться приблизительно на S_Y = $45446. Но если вам известны такие характеристики, как величина читательской аудитории, процент мужчин и средний доход, то для прогнозирования тарифов можно воспользоваться уравнением регрессии; в этом случае вы ошибетесь примерно на S_e = $21578. Такое сокращение ошибки прогнозирования (с $45446 до $21578) и является одним из преимуществ использования регрессионного анализа.

2. Объясненный процент вариации: R²

Коэффициент детерминации (часто также используют термин «квадрат множественной корреляции»), R²,указывает, какой процент вариации Y объясняется влиянием всех Х- переменных.

Если вернуться к нашему примеру с тарифами на размещение рекламы в журналах, то коэффициент детерминации, R² = 0,787, или 78,7%, указывает на то, что независимые переменные (Х- переменные величины читательской аудитории, процент мужчин и средний доход) объясняют 78,7% вариации тарифов. При этом 21,3% остаются необъясненными и связываются с влиянием других факторов. 78,7% -- довольно большое значение R²; во многих исследованиях приходится работать со значительно меньшими величинами, которые, тем не менее, обеспечивают достаточно качественные прогнозы. Желательно, чтобы значение R² было как можно большим (большие значения R² свидетельствуют о том, что исследуемая взаимосвязь является достаточно сильной). В идеальном случае R² = 100%; это возможно лишь в том случае, когда все ошибки прогнозирования равны 0 (что, как правило, свидетельствует о наличии ошибок в другом месте!).

3. Статистический вывод в случае множественной регрессии: F-тест

Полученные нами к настоящему времени результаты регрессии представляют собой достаточно полное описание исследуемых (п = 55) журналов, однако статистический вывод помог бы нам обобщить этот случай на идеализированную популяцию подобных им журналов. Вместо того чтобы просто констатировать тот факт, что увеличение на один процент числа читателей-мужчин приводит к уменьшению тарифа на размещение рекламы в среднем на $124, можно сделать статистический вывод относительно большой генеральной совокупности журналов такого типа, из которой вполне могли бы быть извлечены имеющиеся данные, и попытаться выяснить, существует ли в действительности какая-либо взаимосвязь между полом читателей журнала и тарифами на рекламу, или коэффициент регрессии, равный -$124, можно объяснить просто случайностью. Может ли быть так, что обнаруженное нами влияние процента читателей-мужчин на стоимость рекламы - это просто случайное число, а не свидетельство наличия систематической взаимосвязи? Ответ на этот вопрос можно получить с помощью статистического вывода.

Чтобы не усложнять пример, предположим, что мы располагаем случайной выборкой из намного большей генеральной совокупности. Допустим также, что эта генеральная совокупность характеризуется линейной взаимосвязью со случайностью, представленной моделью множественной линейной регрессии, в соответствии с которой наблюдаемое значение Y определяется взаимосвязью в генеральной совокупности плюс нормально распределенная случайная ошибка. Предполагается также, что эти случайные ошибки для разных наблюдений (элементарных единиц наших данных) не зависят друг от друга.

4. Модель множественной регрессий для генеральной совокупности

Y = (б + в₁X₁ + в₂Х₂ + ... + в_kX_k₎ + е = (взаимосвязь в генеральной совокупности) + случайность,

где е характеризуется нормальным распределением со средним значением 0 и постоянным стандартным отклонением у, причем эта случайность является независимой для каждого из наблюдений (элементарных единиц данных).

Взаимосвязь в генеральной совокупности определяется k + 1 параметрами: б представляет сдвиг (или постоянный член) для генеральной совокупности, a в₁, в₂,…, в_k являются коэффициентами регрессии для генеральной совокупности, которые показывают среднее влияние каждой из Х- переменных на У (в данной генеральной совокупности), при условии, что все остальные Х- переменные остаются неизменными. Если бы вы имели данные обо всей генеральной совокупности, то полученные вами с помощью метода наименьших квадратов коэффициенты регрессии ничем не отличались бы от соответствующих коэффициентов, описывающих связь в генеральной совокупности. Как правило, однако, полученный методом наименьших квадратов сдвиг а является лишь статистической оценкой б, а полученные методом наименьших квадратов коэффициенты регрессии b₁, b₂, ..., b_k представляют лишь статистические оценки в₁, в₂,…, в_k соответственно. Существуют, конечно же, ошибки, обусловленные процессом оценивания, поскольку выборка намного меньше всей генеральной совокупности.

Значима ли модель? Статистический вывод начинается с F-теста, целью которого является выяснение, объясняют ли Х- переменные значимую часть вариации Y. F-тест используется как «входные ворота» в статистический вывод: если этот тест значим, следовательно, связь существует и можно приступать к ее исследованию и объяснению. Если этот тест незначим, то мы имеем дело с набором не связанных между собой случайных чисел - объяснять, в сущности, нечего. Помните, что, когда вы принимаете нулевую гипотезу, это считается слабым заключением. Вы не доказали, что взаимосвязи нет: вам просто не хватает убедительных доводов в пользу наличия такой взаимосвязи. Взаимосвязь вполне может существовать, но из-за случайности или малого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении.

Нулевая гипотеза для F-теста утверждает, что в генеральной совокупности между Х- переменными и Y прогнозирующая взаимосвязь отсутствует. Иначе говоря, Y является чисто случайной величиной и значения Х- переменных не оказывают на Y никакого влияния. Если посмотреть на модель множественной линейной регрессии, то это утверждение означает, что Y = б + е, что может иметь место в том случае, если все коэффициенты регрессии в генеральной совокупности равны 0.

Альтернативная гипотеза F-теста утверждает, что в генеральной совокупности между Х- переменными и Y существует определенная прогнозирующая взаимосвязь. Таким образом, переменная Y уже не является чисто случайной величиной и должна зависеть по крайней мере от одной из Х- переменных. Иными словами, альтернативная гипотеза утверждает, что по крайней мере один из коэффициентов регрессии не равен 0. Обратите внимание: вовсе не обязательно, чтобы каждая из Х- переменных влияла на Y - достаточно, чтобы влияла хотя бы одна из них.

В F-тесте используются следующие статистические гипотезы:

H₀_: в₁= в₂= ... = в_k = 0;

H₁_: по крайней мере один из коэффициентов регрессии в₁, в₂, ... , в_k 0.

Выполнить F-тест проще всего, отыскав в результатах работы компьютерной программы подходящее р-значение и интерпретировав результирующий уровень значимости. Если р-значение больше, чем 0,05, то полученный результат не является значимым. Если же это р-значение меньше, чем 0,05, то полученный результат является значимым. Если р < 0,01, тогда полученный результат является высоко значимым, и т.д.

Еще один способ выполнения F-теста заключается в сравнении значения R² (процент вариации Y, который объясняется Х- переменными) со значениями из таблицы критических значений R² для подходящего уровня тестирования (например, 5%). Если значение R² оказывается достаточно большим, тогда регрессия считается значимой, т.е. удалось объяснить больше, чем просто случайную величину вариации Y. Эта таблица индексирована по п (количество наблюдений) и k (количество Х- переменных).

Традиционный способ выполнения F-теста интерпретировать несколько сложнее, но он всегда дает тот же результат, что и таблица критических значений R². Классический F-тест, как правило, выполняется путем вычисления F_{статистики} и сравнения ее с критическим значением из F-таблицы для соответствующего уровня тестирования. При этом используются два разных числа степеней свободы: число степеней свободы k₁ (количество Х- переменных, предназначенных для объяснения Y или количество параметров в уравнении регрессии минус единица, т.е. k₁ = m - 1) и число степеней свободы k₂ = n - m (где. n - количество наблюдений в выборке, а m - количество параметров в уравнении регрессии).

В то же время F_{статистика} является излишним усложнением, поскольку значение R² можно проверить непосредственно. Более того, R² имеет более непосредственную интерпретацию, чем F_{статистика}, поскольку R² говорит о той части вариации Y, которая учитывается (или объясняется) Х- переменными, тогда как F не имеет столь простой и непосредственной интерпретации в терминах исходных данных. Какой бы подход - F или R² - вы ни использовали, ответ (о значимости или не значимости) всегда будет одним и тем же на любом уровне тестирования.

Почему же по традиции используется более сложная F_{статистика}, в то время как вместо нее можно было бы обратиться к тесту R², допускающему более удобную и непосредственную интерпретацию? Возможно, все объясняется именно сложившейся традицией, а возможно, и тем, что уже давно и с успехом на практике применяются именно F-таблицы. Использование осмысленного числа (такого как R²) позволяет глубже понять исследуемую ситуацию и выглядит предпочтительнее, особенно когда речь идет о сфере бизнеса.

Результат F-теста (решение принимается на основе р-значения)

Если р-значение больше, чем 0,05, значит, соответствующая модель не является значимой (вы принимаете нулевую гипотезу о том, что Х- переменные не помогают прогнозировать Y). Если р-значение оказывается меньше, чем 0,05, значит, соответствующая модель является значимой (вы отвергаете нулевую гипотезу и принимаете альтернативную гипотезу о том, что Х- переменные помогают прогнозировать Y).

Результат F-теста (решение принимается на основе R²)

Если значение R² меньше, чем критическое значение в таблице R², значит, соответствующая модель не является значимой.. Если значение R² больше, чем критическое значение в таблице R², значит, соответствующая модель является значимой. Этот ответ в любом случае будет таким же, как результат, полученный с помощью р-значения.

Результат F-теста (решение принимается на основе критерия F)

Если значение F оказывается меньше, чем критическое значение в F-таблице, значит, соответствующая модель не является значимой. Если значение F оказывается больше, чем критическое значение в F-таблице,- соответствующая модель является значимой. Этот ответ в любом случае будет таким же, как результат, полученный с помощью р-значения или R².

Помните, что статистический смысл термина «значимый» несколько отличается от его обыденного смысла. Когда вы находите значимую модель регрессии, то знаете, что взаимосвязь между Х- переменными и Y оказывается сильнее, чем обычно можно было бы ожидать от чистой случайности. Другими словами, в этой ситуации можно говорить о наличии определенной взаимосвязи. Эта взаимосвязь может быть сильной или полезной в том или ином практическом смысле (а может, и не быть таковой) - эти вопросы требуют специального рассмотрения, - но она достаточно сильна, чтобы не выглядеть как чистая случайность.

Если вернуться к нашему примеру с тарифами на размещение рекламы в журналах, то соответствующее уравнение прогнозирования действительно объясняет значимую долю отклонения в тарифах, на что указывает в результатах работы компьютерной программы р-значение 0,000000 справа от значения F, равного 62,843. В табл. 1 содержится часть результатов работы компьютерной программы, приведенных в предыдущей лекции.

Таблица 1. Результат множественной регрессионного анализа тарифов на размещение рекламы в журналах

ВЫВОД ИТОГОВ

Регрессионная статистика

Множествен. R

0,887

R-квадрат

0,787

Нормированный

R-квадрат

0,775

Стандартная ошибка

21577,870

р-значение

Наблюдения

55

Размещено на http://www.allbest.ru/ 20


Дисперсионный анализ
	df	SS	MS	F	*Значимость* F
Регрессия	3	87780733202	29260044401	62,843	0,000000
Остаток	51	23745829151	465604493
Итого	54	111525962353

Это говорит о том, что действительно обнаруживается устойчивая зависимость тарифов от этих факторов (или по крайней мере от одного из этих факторов), т.е. тарифы не являются чисто случайными величинами. Вам по-прежнему неизвестно, какие именно из этих Х- переменных реально участвуют в прогнозировании Y, но вам доподлинно известно, что есть по крайней мере одна такая переменная.

Чтобы выяснить с помощью R², действительно ли уравнение регрессии является значимым, отметим, что коэффициент детерминации R² = 0,787, или 78,7%. Таблица R² для тестирования на уровне 5% в случае п=55 журналов и k=3 переменных (табл. 2) дает критическое значение 0,141, или 14,1%. Для того чтобы уравнение было значимым на привычном уровне 5%, X- переменные должны объяснять лишь 14,1% вариации тарифов (Y). Поскольку они объясняют больше, регрессию следует признать значимой.

Таблица 2. Таблица R²: критические значения для уровня 5% (значимо)

Количество наблюдений (n)	Количество Х-переменных (k)
	1	2	3	4	5	6	7	8	9	10
3	0,994
4	0,902	0,997
5	0,771	0,950	0,998
6	0,658	0,864	0,966	0,999
7	0,569	0,776	0,903	0,975	0,999
8	0,499	0,698	0,832	0,924	0,980	0,999
9	0,444	0,632	0,764	0,865	0,938	0,983	0,999
10	0,399	0,575	0,704	0,806	0,887	0,947	0,985	0,999
11	0,362	0,527	0,651	0,751	0,835	0,902	0,954	0,987	1,000
12	0,332	0,486	0,604	0,702	0,785	0,856	0,914	0,959	0,989	1,000
13	0,306	0,451	0,563	0,657	0,739	0,811	0,872	0,924	0,964	0,990
14	0,283	0,420	0,527	0,618	0,697	0,768	0,831	0,885	0,931	0,967
15	0,264	0,393	0,495	0,582	0,659	0,729	0,791	0,847	0,896	0,937
16	0,247	0,369	0,466	0,550	0,624	0,692	0,754	0,810	0,860	0,904
17	0,232	0,348	0,440	0,521	0,593	0,659	0,719	0,775	0,825	0,871
18	0,219	0,329	0,417	0,494	0,564	0,628	0,687	0,742	0,792	0,839
19	0,208	0,312	0,397	0,471	0,538	0,600	0,657	0,711	0,761	0,807
20	0,197	0,297	0,378	0,449	0,514	0,574	0,630	0,682	0,731	0,777
21	0,187	0,283	0,361	0,429	0,492	0,550	0,604	0,655	0,703	0,749
22	0,179	0,270	0,345	0,411	0,471	0,527	0,580	0,630	0,677	0,722
23	0,171	0,259	0,331	0,394	0,452	0,507	0,558	0,607	0,653	0,696
24	0,164	0,248	0,317	0,379	0,435	0,488	0,538	0,585	0,630	0,673
25	0,157	0,238	0,305	0,364	0,419	0,470	0,518	0,564	0,608	0,650
26	0,151	0,229	0,294	0,351	0,404	0,454	0,501	0,545	0,588	0,629
27	0,145	0,221	0,283	0,339	0,390	0,438	0,484	0,527	0,569	0,609
28	0,140	0,213	0,273	0,327	0,377	0,424	0,468	0,510	0,551	0,590
29	0,135	0,206	0,264	0,316	0,365	0,410	0,453	0,495	0,534	0,573
30	0,130	0,199	0,256	0,306	0,353	0,397	0,439	0,480	0,518	0,556
31	0,126	0,193	0,248	0,297	0,342	0,385	0,426	0,466	0,503	0,540
32	0,122	0,187	0,240	0,288	0,332	0,374	0,414	0,452	0,489	0,525
33	0,118	0,181	0,233	0,279	0,323	0,363	0,402	0,440	0,476	0,511
34	0,115	0,176	0,226	0,271	0,314	0,353	0,391	0,428	0,463	0,497
35	0,111	0,171	0,220	0,264	0,305	0,344	0,381	0,417	0,451	0,484
40	0,097	0,150	0,193	0,232	0,268	0,303	0,336	0,368	0,399	0,429
50	0,078	0,120	0,155	0,186	0,216	0,244	0,272	0,298	0,323	0,348
51	0,076	0,117	0,152	0,183	0,212	0,240	0,267	0,293	0,318	0,342
52	0,075	0,115	0,149	0,180	0,208	0,235	0,262	0,287	0,312	0,336
53	0,073	0,113	0,146	0,176	0,204	0,231	0,257	0,282	0,306	0,330
54	0,072	0,111	0,143	0,173	0,201	0,227	0,252	0,277	0,301	0,324
55	0,071	0,109	0,141	0,170	0,197	0,223	0,248	0,272	0,295	0,318
56	0,069	0,107	0,138	0,167	0,194	0,219	0,244	0,267	0,290	0,313
57	0,068	0,105	0,136	0,164	0,190	0,215	0,240	0,263	0,285	0,308
58	0,067	0,103	0,134	0,161	0,187	0,212	0,236	0,258	0,281	0,303
59	0,066	0,101	0,131	0,159	0,184	0,208	0,232	0,254	0,276	0,298
60	0,065	0,100	0,129	0,156	0,181	0,205	0,228	0,250	0,272	0,293
Множитель 1	*3,84*	*5,99*	*7,82*	*9,49*	*11,07*	*12,59*	*14,07*	*15,51*	*16,92*	*18,31*
Множитель 2	*2,15*	*-0,27*	*-3,84*	*-7,94*	*-12,84*	*-18,24*	*-23,78*	*-30,10*	*-36,87*	*-43,87*

Если у вас более 60 наблюдений, критические значения можно найти с помощью двух множителей, указанных внизу таблицы R². Для этого необходимо воспользоваться следующей формулой:

Критическое значение = (Множитель 1 / n) + (Множитель 2 / n)

Когда в качестве р-значения (Значимость F) указывается 0,000000 (см. таблицу 5), его можно интерпретировать как р < 0,0005, поскольку р-значение, которое больше или равно 0,0005, будет округлено до 0,001. Используя терминологию р-значений, можно сказать, что регрессия в данном случае является очень высоко значимой (р < 0,001).

Чтобы убедиться в этом очень высоком уровне значимости, используя непосредственно F-тест, можно сравнить F_{статистику} 62,843 (из компьютерной распечатки) со значением из F-таблицы для уровня 5% (табл. 3), которое находится между 2,922 и 2,758 для k₁ = m - 1 = 3 степеней свободы и k₂ = n - m = 55 - 4 = 51 степеней свободы.

прогнозирование множественный регрессия вариация

Таблица 3. F-таблица: критические значения для уровня значимости 5%

степени свободы ()	степени свободы ()
	1	2	3	4	5	6
1	161,45	199,50	215,71	224,58	230,16	233,99
2	18,513	19,000	19,164	19,247	19,296	19,330
3	10,128	9,552	9,277	9,117	9,013	8,941
4	7,709	6,944	6,591	6,388	6,256	6,163
5	6,608	5,786	5,409	5,192	5,050	4,950
6	5,987	5,143	4,757	4,534	4,387	4,284
7	5,591	4,737	4,347	4,120	3,972	3,866
8	5,318	4,459	4,066	3,838	3,687	3,581
9	5,117	4,256	3,863	3,633	3,482	3,374
10	4,965	4,103	3,708	3,478	3,326	3,217
11	4,840	3,980	3,590	3,360	3,200	3,090
12	4,747	3,885	3,490	3,259	3,106	2,996
15	4,543	3,682	3,287	3,056	2,901	2,780
18	4,410	3,550	3,160	2,930	2,770	2,660
19	4,380	3,520	3,130	2,900	2,740	2,630
20	4,351	3,493	3,098	2,866	2,711	2,599
21	4,32	3,47	3,07	2,84	2,68	2,57
22	4,30	3,44	3,05	2,82	2,66	2,55
23	4,28	3,42	3,03	2,80	2,64	2,53
24	4,26	3,40	3,01	2,78	2,62	2,51
25	4,24	3,38	2,99	2,76	2,60	2,49
26	4,22	3,37	2,98	2,74	2,59	2,47
27	4,21	3,35	2,96	2,73	2,57	2,46
28	4,20	3,34	2,95	2,71	2,56	2,44
29	4,18	3,33	2,93	2,70	2,54	2,43
30	4,171	3,316	2,922	2,690	2,534	2,421
60	4,001	3,150	2,758	2,525	2,368	2,254
120	3,920	3,072	2,680	2,447	2,290	2,175'
	3,841	2,996	2,605	2,372	2,214	2,099

Поскольку значение 51 в таблице отсутствует, нам известно, что необходимое нам значение из F-таблицы находится в диапазоне от 2,922 для 30 степеней свободы знаменателя и для 60 степеней свободы знаменателя. Поскольку данная F_{статистика} (62,843) намного больше, чем значение из F-таблицы (значение из диапазона от 2,758 до 2,922), мы опять приходим к выводу, что полученный результат имеет очень высокую значимость.

Какие переменные являются значимыми: t-тест для каждого коэффициента

Если F-тест является значимым, то вам известно, что одна или несколько X- переменных могут быть полезны в прогнозировании Y и, следовательно, можно продолжать анализ с помощью t-тестов для отдельных коэффициентов регрессии с целью выяснять, какие именно из Х- переменных действительно полезны. Эти t-тесты определяют, оказывает ли значимое влияние на Y та или иная X- переменная, если все другие Х- переменные остаются при этом неизменными. Следует помнить, что, приняв нулевую гипотезу, вы сделали слабое заключение и, по сути, тем самым не доказали бесполезность Х- переменной, а просто у вас не хватило убедительных доказательств наличия взаимосвязи. Таким образом, взаимосвязь может существовать, но вследствие действия фактора случайности или из-за небольшого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении.

Если же F-тест не является значимым, то использовать t-тесты для отдельных коэффициентов регрессии нельзя. В редких случаях эти t-тесты могут быть значимыми даже тогда, когда F-тест не является значимым. При этом F-тест считается более важным и необходимо делать вывод о том, что все коэффициенты являются незначимыми.

t-тест для каждого коэффициента основан на оценке коэффициента регрессии и его стандартной ошибке и использует критическое значение из t-таблицы для «п - k - 1» степеней свободы (где k - количество исследуемых факторов-аргументов). Доверительный интервал для какого-либо конкретного коэффициента регрессии в генеральной совокупности (например, j-го - в_j) определяется обычным способом:

от b_j - tS_bj до b_j + tS_bj,

где t берется из t-таблицы для «п - k - 1» степеней свободы.

t-тест является значимым, если заданное значение «0» (указывающее на отсутствие влияния) не попадает в этот доверительный интервал. Здесь нет ничего нового: это обычная процедура для двустороннего тестирования.

Как альтернативный вариант можно сравнить t-статистику b_j/S_b со значением из t-таблицы и сделать вывод о значимости, если абсолютное значение этой t-статистики оказывается больше. Если посмотреть на последние значения в каждом из столбцов t-таблицы, можно увидеть достаточно простой, приблизительный способ определения значимости коэффициентов: значимыми будут те коэффициенты регрессии, для которых t-статистика по абсолютному значению равна или больше 2, поскольку для достаточно больших п и уровня значимости 5% значение из t-таблицы приблизительно равно 2. Как всегда, оба метода, и на использовании t-статистики, и на использовании доверительного интервала, должны в любом случае обеспечивать одинаковый результат (значимость или не значимость) для каждого теста.

Что же именно в данном случае тестируется? В результате t-теста для в_j; мы должны принять решение, оказывает ли X_j значимое влияние на Y в исследуемой генеральной совокупности, когда все другие Х- переменные остаются неизменными. В этом случае речь не идет о корреляции между X_j и У, которая игнорирует все остальные Х- переменные. Скорее, это проверка влияния X_j на Y после внесения поправки на все остальные факторы. Например, в исследованиях уровня заработной платы, цель которых заключается в выявлении возможных фактов дискриминации по признаку пола, обычно делают поправку на уровень образования и стаж работы. Несмотря на то что мужчины в компании могут (в среднем) получать более высокую заработную плату, чем женщины, очень важно понять, не объясняются ли эти различия какими-либо другими факторами, помимо пола. В результате включения всех этих факторов в множественную регрессию (регрессия Y = заработная плата на X₁ = пол, X₂ = образование и X₃ = стаж работы) коэффициент регрессии для пола будет отражать влияние пола на уровень заработной платы с учетом поправок на уровень образования и стаж работы.

Ниже приведены формулы для гипотез, касающихся проверки значимости j-го коэффициента регрессии.

Гипотезы для t-теста j -го коэффициента регрессии

H₀_: в_j = 0;

H₀_: в_j 0;

Если вернуться к нашему примеру с тарифами на размещение рекламных объявлений в журналах («Пример. Реклама в журналах»), то соответствующий t-тест будет иметь п - k - 1 = 55 - 3 - 1 = 51 степеней свободы. Двустороннее критическое значение из t-таблицы равно 1,960 (или, точнее, 2,008). В табл. 4 приведена соответствующая информация из компьютерной распечатки.

Таблица 8. Результат множественной регрессионного анализа тарифов на размещение рекламы в журналах

ВЫВОД ИТОГОВ

Регрессионная статистика

Множествен. R

0,887

R-квадрат

0,787

Нормированный R-квадрат

0,775

Стандартная ошибка

21577,870

Наблюдения

55

Коэффициенты

Стандартная ошибка

t-статистика

P-значение

Нижние 95%

Верхние 95%

Y-пересечение

4042,799

16884,039

0,239

0,812

-29853,298

37938,895

Переменная X 1

3,788

0,281

13,484

0,000

3,224

4,352

Переменная X 2

-123,634

137,849

-0,897

0,374

-400,377

153,108

Переменная X 3

0,903

0,370

2,442

0,018

0,161

1,645

Две из трех Х- переменных являются значимыми, поскольку для них р-значения оказываются меньше 0,05. Еще один (эквивалентный) способ проверки значимости заключается в том, чтобы выяснить, какие t-статистики (в компьютерной распечатке соответствующий столбец обозначен просто t) оказываются большими, чем 2,008. И еще один (тоже эквивалентный) способ проверки значимости состоит в том, чтобы выяснить, какие из 95% доверительных интервалов для коэффициентов регрессии не включают «0». Как мы и предполагали ранее, величина читательской аудитории оказывает огромное влияние на рекламные тарифы в журналах. Столь высокое значение t (13,48) означает, что влияние величины читательской аудитории на рекламные тарифы является очень высоко значимым (при условии, что процент читателей-мужчин и средний доход остаются постоянными). Влияние среднего дохода на рекламные тарифы в журналах также является значимым (при условии, что процент читателей-мужчин и величина читательской аудитории остаются постоянными).

Очевидно, что процент читателей-мужчин не оказывает на тарифы значительного влияния (при условии, что величина читательской аудитории и средний доход остаются постоянными), поскольку соответствующий t-тест не является значимым. Не исключено, что этот процент оказывает на тарифы определенное влияние только через доход (средний доход у мужчин может быть выше, чем у женщин). Таким образом, после внесения поправки на средний доход можно ожидать, что переменная, соответствующая проценту мужчин, уже не будет нести дополнительной информации для прогнозирования тарифов. Несмотря на то что оцениваемое влияние процента читателей-мужчин составляет $123,6, его отклонение от 0 носит лишь случайный характер. Строго говоря, этот коэффициент, $123,6, не подлежит интерпретации; поскольку он не является значимым, вы "не имеете права" объяснять его. Иными словами, его значение ($123,6) -- лишь видимость, и, по сути, ничем не отличается от $0,00; более того, в действительности вы не можете даже сказать, положительное это число или отр...

реферат "Статистические выводы по многофакторной модели" скачать

Подобные документы

Линейная модель множественной регрессии
Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.

контрольная работа [68,7 K], добавлен 21.09.2009

Проверка истинности моделей множественной регрессии
Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.

курсовая работа [352,9 K], добавлен 26.01.2010

Решение задач в системе MathCad
Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.

задача [133,0 K], добавлен 21.12.2008

Метод Милна
Численное решение дифференциальных уравнений с помощью многошагового метода прогноза и коррекции Милна. Суммарная ошибка метода Милна. Применение метода Рунге-Кутта для нахождения первых значений начального отрезка. Абсолютная погрешность значения.

контрольная работа [694,0 K], добавлен 27.02.2013

Проверка гипотезы о биномиальном распределении генеральной совокупности
Статическая проверка статистических гипотез. Ошибки первого и второго рода. Числовые характеристики случайной величины, распределенной по биномиальному закону. Проверка гипотезы о биномиальном распределении генеральной совокупности по критерию Пирсона.

курсовая работа [674,3 K], добавлен 03.05.2011

Модели множественной линейной регрессии
Определение наличия зависимости показателя Заработная плата от Возраста и Стажа с использованием корреляционной матрицы. Нормальность распределения остатков по: гистограмме остатков, числовым характеристикам асимметрии и эксцессу, критерию Пирсона.

курсовая работа [1,1 M], добавлен 05.12.2013

Методика регрессионного анализа
Описание способов нахождения коэффициентов регрессии модели полнофакторного эксперимента. Проверка многофакторных статистических гипотез на однородность ряда дисперсий, значимость и устойчивость математических коэффициентов множественной корреляции.

контрольная работа [1,2 M], добавлен 05.08.2010

Применение статистических методов для анализа эффективности экономических показателей предприятия
Построение многофакторной корреляционно-регрессионной модели доходности предприятия: оценка параметров функции регрессии, анализ факторов на управляемость, экономическая интерпретация модели. Прогнозирование доходности на основе временных рядов.

дипломная работа [5,1 M], добавлен 28.06.2011

Изучение критерия Колмогорова–Смирнова и сравнение его с другими критериями согласия
Критерий согласия – критерий проверки гипотезы о предполагаемом законе распределения генеральной совокупности. Критерий Колмогорова-Смирнова и его практическое применение. Критические значения статистик Стефенса. Критерии Пирсона и Смирнова-Крамера.

курсовая работа [629,9 K], добавлен 26.08.2012

Статистические методы моделирования связи
Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.

курсовая работа [232,7 K], добавлен 21.05.2015

Множественная линейная регрессия
Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.

контрольная работа [814,0 K], добавлен 19.12.2013

Статистический анализ гостиниц и ресторанов
Понятие, критерии и порядок формирования ценовой политики в гостиничном бизнесе, факторы, влияющие на данный процесс. Построение многофакторной модели ценообразования в гостинице на основе статистических наблюдений данных процессов в заведениях Москвы.

контрольная работа [427,0 K], добавлен 21.08.2008

Обработка экспериментальных данных методами математической статистики
Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

задача [409,0 K], добавлен 17.10.2012

Поле корреляции
Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.

контрольная работа [178,0 K], добавлен 23.11.2013

Проверка гипотезы о законе распределения генеральной совокупности X по критерию Пирсона
Интервальный вариационный ряд. Построение гистограммы плотности относительных частот. Выдвижение гипотезы о законе распределения генеральной совокупности Х. Функция плотности рассматриваемого закона распределения "Построение ее на гистограмме".

курсовая работа [104,4 K], добавлен 20.03.2011

Уравнения линейной регрессии
Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

контрольная работа [380,9 K], добавлен 05.04.2015

Исследование корреляционной зависимости по выборке
Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

курсовая работа [304,0 K], добавлен 02.03.2017

Анализ и построение зависимостей
Согласование выборочных распределений. Отбор статистических данных с помощью таблицы случайных чисел. Расчет числовых характеристик распределения выборочных частот. Проверка предположения, что распределение генеральной совокупности является нормальным.

курсовая работа [276,6 K], добавлен 19.01.2016

Элементы математической статистики
Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

реферат [332,8 K], добавлен 10.12.2010

Статистическая основа принятия решений
Выборки к генеральной совокупности: оценка параметра и построение доверительных интервалов. Интервальный статистический ряд. Оценивание параметров распределения. Статистическая проверка гипотез. Гипотеза о нормальном распределении случайной величины.

контрольная работа [391,1 K], добавлен 23.06.2012

Другие документы, подобные "Статистические выводы по многофакторной модели"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

ВЫВОД ИТОГОВ
*Регрессионная* статистика
Множествен. R	0,887
R-квадрат	0,787
Нормированный R-квадрат	0,775
Стандартная ошибка	21577,870		р-значение
	Наблюдения	55

ВЫВОД ИТОГОВ
*Регрессионная* статистика
Множествен. R	0,887
R-квадрат	0,787
Нормированный R-квадрат	0,775
Стандартная ошибка	21577,870
Наблюдения	55

	*Коэффициенты*	*Стандартная ошибка*	*t-статистика*	*P-значение*	*Нижние 95%*	*Верхние 95%*
Y-пересечение	4042,799	16884,039	0,239	0,812	-29853,298	37938,895
Переменная X 1	3,788	0,281	13,484	0,000	3,224	4,352
Переменная X 2	-123,634	137,849	-0,897	0,374	-400,377	153,108
Переменная X 3	0,903	0,370	2,442	0,018	0,161	1,645