Статистические выводы по многофакторной модели

Типичная ошибка прогнозирования: стандартная ошибка предсказания. Объясненный процент вариации. Статистический вывод в случае множественной регрессии. Модель множественной регрессий для генеральной совокупности. Критические значения для уровня значимости.

Рубрика Математика
Вид реферат
Язык русский
Дата добавления 29.09.2013
Размер файла 62,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/ 20

Статистические выводы по многофакторной модели

Введение

Насколько хороши наши прогнозы? Этот раздел следует рассматривать в основном как обзор, поскольку стандартное отклонение оценки, Se , и коэффициент детерминации, R2, имеют для множественной регрессии, вообще говоря, ту же интерпретацию, что и для простой регрессии. Единственное отличие заключается в том, что ваши прогнозы теперь базируются на нескольких X- переменных. Но все остается очень похоже, поскольку вы по-прежнему прогнозируете только одну переменную Y.

1. Типичная ошибка прогнозирования: стандартная ошибка предсказания

Как и в случае простой регрессии, когда мы имеем дело лишь с одной X-переменной, стандартная ошибка оценки (предсказания) указывает приблизительную величину ошибок прогнозирования.

Возвращаясь к нашему примеру с тарифами на размещение рекламы в журналах, Se = $21578. Это говорит о том, что фактические тарифы на размещение рекламы в этих журналах, как правило, отклоняются от прогнозируемых тарифов не более чем на $21578 (речь идет о стандартном отклонении). Иными словами, если распределение ошибок является нормальным, то можно ожидать, что примерно 2/3 фактических тарифов будут находиться в пределах Se от прогнозируемых тарифов; примерно 95% -- в пределах 2Se и т.д.

Эта стандартная ошибка оценки, Se = $21578, указывает остаток вариации тарифов после того, как вы использовали Х- переменные (величина читательской аудитории, процент мужчин и медиана дохода) в уравнении регрессии для прогнозирования тарифов каждого журнала. Сравните этот показатель с обычным стандартным отклонением одной переменной для тарифов, SY = $45446, вычисленным без использования других переменных. Это стандартное отклонение, SY, указывает остаток вариации тарифов после того, как вы использовали для прогнозирования тарифов каждого журнала только значение У. Заметьте, что Se = $21578 меньше, чем SY = $45446; ошибки, как правило, оказываются меньше, если для прогнозирования тарифов использовать уравнение регрессии, а не просто . Как видите, Х- переменные полезны для объяснения размеров тарифов.

Это можно представить себе следующим образом. Если вам ничего неизвестно об Х- переменных, вы будете использовать в качестве оптимальной приблизительной оценки среднее значение тарифа ( = $83534) и будете ошибаться приблизительно на SY = $45446. Но если вам известны такие характеристики, как величина читательской аудитории, процент мужчин и средний доход, то для прогнозирования тарифов можно воспользоваться уравнением регрессии; в этом случае вы ошибетесь примерно на Se = $21578. Такое сокращение ошибки прогнозирования (с $45446 до $21578) и является одним из преимуществ использования регрессионного анализа.

2. Объясненный процент вариации: R2

Коэффициент детерминации (часто также используют термин «квадрат множественной корреляции»), R2,указывает, какой процент вариации Y объясняется влиянием всех Х- переменных.

Если вернуться к нашему примеру с тарифами на размещение рекламы в журналах, то коэффициент детерминации, R2 = 0,787, или 78,7%, указывает на то, что независимые переменные (Х- переменные величины читательской аудитории, процент мужчин и средний доход) объясняют 78,7% вариации тарифов. При этом 21,3% остаются необъясненными и связываются с влиянием других факторов. 78,7% -- довольно большое значение R2; во многих исследованиях приходится работать со значительно меньшими величинами, которые, тем не менее, обеспечивают достаточно качественные прогнозы. Желательно, чтобы значение R2 было как можно большим (большие значения R2 свидетельствуют о том, что исследуемая взаимосвязь является достаточно сильной). В идеальном случае R2 = 100%; это возможно лишь в том случае, когда все ошибки прогнозирования равны 0 (что, как правило, свидетельствует о наличии ошибок в другом месте!).

3. Статистический вывод в случае множественной регрессии: F-тест

Полученные нами к настоящему времени результаты регрессии представляют собой достаточно полное описание исследуемых (п = 55) журналов, однако статистический вывод помог бы нам обобщить этот случай на идеализированную популяцию подобных им журналов. Вместо того чтобы просто констатировать тот факт, что увеличение на один процент числа читателей-мужчин приводит к уменьшению тарифа на размещение рекламы в среднем на $124, можно сделать статистический вывод относительно большой генеральной совокупности журналов такого типа, из которой вполне могли бы быть извлечены имеющиеся данные, и попытаться выяснить, существует ли в действительности какая-либо взаимосвязь между полом читателей журнала и тарифами на рекламу, или коэффициент регрессии, равный -$124, можно объяснить просто случайностью. Может ли быть так, что обнаруженное нами влияние процента читателей-мужчин на стоимость рекламы - это просто случайное число, а не свидетельство наличия систематической взаимосвязи? Ответ на этот вопрос можно получить с помощью статистического вывода.

Чтобы не усложнять пример, предположим, что мы располагаем случайной выборкой из намного большей генеральной совокупности. Допустим также, что эта генеральная совокупность характеризуется линейной взаимосвязью со случайностью, представленной моделью множественной линейной регрессии, в соответствии с которой наблюдаемое значение Y определяется взаимосвязью в генеральной совокупности плюс нормально распределенная случайная ошибка. Предполагается также, что эти случайные ошибки для разных наблюдений (элементарных единиц наших данных) не зависят друг от друга.

4. Модель множественной регрессий для генеральной совокупности

Y = + в1X1 + в2Х2 + ... + вkXk) + е = (взаимосвязь в генеральной совокупности) + случайность,

где е характеризуется нормальным распределением со средним значением 0 и постоянным стандартным отклонением у, причем эта случайность является независимой для каждого из наблюдений (элементарных единиц данных).

Взаимосвязь в генеральной совокупности определяется k + 1 параметрами: б представляет сдвиг (или постоянный член) для генеральной совокупности, a в1, в2,…, вk являются коэффициентами регрессии для генеральной совокупности, которые показывают среднее влияние каждой из Х- переменных на У (в данной генеральной совокупности), при условии, что все остальные Х- переменные остаются неизменными. Если бы вы имели данные обо всей генеральной совокупности, то полученные вами с помощью метода наименьших квадратов коэффициенты регрессии ничем не отличались бы от соответствующих коэффициентов, описывающих связь в генеральной совокупности. Как правило, однако, полученный методом наименьших квадратов сдвиг а является лишь статистической оценкой б, а полученные методом наименьших квадратов коэффициенты регрессии b1, b2, ..., bk представляют лишь статистические оценки в1, в2,…, вk соответственно. Существуют, конечно же, ошибки, обусловленные процессом оценивания, поскольку выборка намного меньше всей генеральной совокупности.

Значима ли модель? Статистический вывод начинается с F-теста, целью которого является выяснение, объясняют ли Х- переменные значимую часть вариации Y. F-тест используется как «входные ворота» в статистический вывод: если этот тест значим, следовательно, связь существует и можно приступать к ее исследованию и объяснению. Если этот тест незначим, то мы имеем дело с набором не связанных между собой случайных чисел - объяснять, в сущности, нечего. Помните, что, когда вы принимаете нулевую гипотезу, это считается слабым заключением. Вы не доказали, что взаимосвязи нет: вам просто не хватает убедительных доводов в пользу наличия такой взаимосвязи. Взаимосвязь вполне может существовать, но из-за случайности или малого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении.

Нулевая гипотеза для F-теста утверждает, что в генеральной совокупности между Х- переменными и Y прогнозирующая взаимосвязь отсутствует. Иначе говоря, Y является чисто случайной величиной и значения Х- переменных не оказывают на Y никакого влияния. Если посмотреть на модель множественной линейной регрессии, то это утверждение означает, что Y = б + е, что может иметь место в том случае, если все коэффициенты регрессии в генеральной совокупности равны 0.

Альтернативная гипотеза F-теста утверждает, что в генеральной совокупности между Х- переменными и Y существует определенная прогнозирующая взаимосвязь. Таким образом, переменная Y уже не является чисто случайной величиной и должна зависеть по крайней мере от одной из Х- переменных. Иными словами, альтернативная гипотеза утверждает, что по крайней мере один из коэффициентов регрессии не равен 0. Обратите внимание: вовсе не обязательно, чтобы каждая из Х- переменных влияла на Y - достаточно, чтобы влияла хотя бы одна из них.

В F-тесте используются следующие статистические гипотезы:

H0: в1 = в2 = ... = вk = 0;

H1: по крайней мере один из коэффициентов регрессии в1, в2, ... , вk 0.

Выполнить F-тест проще всего, отыскав в результатах работы компьютерной программы подходящее р-значение и интерпретировав результирующий уровень значимости. Если р-значение больше, чем 0,05, то полученный результат не является значимым. Если же это р-значение меньше, чем 0,05, то полученный результат является значимым. Если р < 0,01, тогда полученный результат является высоко значимым, и т.д.

Еще один способ выполнения F-теста заключается в сравнении значения R2 (процент вариации Y, который объясняется Х- переменными) со значениями из таблицы критических значений R2 для подходящего уровня тестирования (например, 5%). Если значение R2 оказывается достаточно большим, тогда регрессия считается значимой, т.е. удалось объяснить больше, чем просто случайную величину вариации Y. Эта таблица индексирована по п (количество наблюдений) и k (количество Х- переменных).

Традиционный способ выполнения F-теста интерпретировать несколько сложнее, но он всегда дает тот же результат, что и таблица критических значений R2. Классический F-тест, как правило, выполняется путем вычисления Fстатистики и сравнения ее с критическим значением из F-таблицы для соответствующего уровня тестирования. При этом используются два разных числа степеней свободы: число степеней свободы k1 (количество Х- переменных, предназначенных для объяснения Y или количество параметров в уравнении регрессии минус единица, т.е. k1 = m - 1) и число степеней свободы k2 = n - m (где. n - количество наблюдений в выборке, а m - количество параметров в уравнении регрессии).

В то же время Fстатистика является излишним усложнением, поскольку значение R2 можно проверить непосредственно. Более того, R2 имеет более непосредственную интерпретацию, чем Fстатистика, поскольку R2 говорит о той части вариации Y, которая учитывается (или объясняется) Х- переменными, тогда как F не имеет столь простой и непосредственной интерпретации в терминах исходных данных. Какой бы подход - F или R2 - вы ни использовали, ответ (о значимости или не значимости) всегда будет одним и тем же на любом уровне тестирования.

Почему же по традиции используется более сложная Fстатистика, в то время как вместо нее можно было бы обратиться к тесту R2, допускающему более удобную и непосредственную интерпретацию? Возможно, все объясняется именно сложившейся традицией, а возможно, и тем, что уже давно и с успехом на практике применяются именно F-таблицы. Использование осмысленного числа (такого как R2) позволяет глубже понять исследуемую ситуацию и выглядит предпочтительнее, особенно когда речь идет о сфере бизнеса.

Результат F-теста (решение принимается на основе р-значения)

Если р-значение больше, чем 0,05, значит, соответствующая модель не является значимой (вы принимаете нулевую гипотезу о том, что Х- переменные не помогают прогнозировать Y). Если р-значение оказывается меньше, чем 0,05, значит, соответствующая модель является значимой (вы отвергаете нулевую гипотезу и принимаете альтернативную гипотезу о том, что Х- переменные помогают прогнозировать Y).

Результат F-теста (решение принимается на основе R2)

Если значение R2 меньше, чем критическое значение в таблице R2, значит, соответствующая модель не является значимой.. Если значение R2 больше, чем критическое значение в таблице R2, значит, соответствующая модель является значимой. Этот ответ в любом случае будет таким же, как результат, полученный с помощью р-значения.

Результат F-теста (решение принимается на основе критерия F)

Если значение F оказывается меньше, чем критическое значение в F-таблице, значит, соответствующая модель не является значимой. Если значение F оказывается больше, чем критическое значение в F-таблице,- соответствующая модель является значимой. Этот ответ в любом случае будет таким же, как результат, полученный с помощью р-значения или R2.

Помните, что статистический смысл термина «значимый» несколько отличается от его обыденного смысла. Когда вы находите значимую модель регрессии, то знаете, что взаимосвязь между Х- переменными и Y оказывается сильнее, чем обычно можно было бы ожидать от чистой случайности. Другими словами, в этой ситуации можно говорить о наличии определенной взаимосвязи. Эта взаимосвязь может быть сильной или полезной в том или ином практическом смысле (а может, и не быть таковой) - эти вопросы требуют специального рассмотрения, - но она достаточно сильна, чтобы не выглядеть как чистая случайность.

Если вернуться к нашему примеру с тарифами на размещение рекламы в журналах, то соответствующее уравнение прогнозирования действительно объясняет значимую долю отклонения в тарифах, на что указывает в результатах работы компьютерной программы р-значение 0,000000 справа от значения F, равного 62,843. В табл. 1 содержится часть результатов работы компьютерной программы, приведенных в предыдущей лекции.

Таблица 1. Результат множественной регрессионного анализа тарифов на размещение рекламы в журналах

ВЫВОД ИТОГОВ

Регрессионная статистика

Множествен. R

0,887

R-квадрат

0,787

Нормированный

R-квадрат

0,775

Стандартная ошибка

21577,870

р-значение

Наблюдения

55

Размещено на http://www.allbest.ru/ 20

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

3

87780733202

29260044401

62,843

0,000000

Остаток

51

23745829151

465604493

Итого

54

111525962353

Это говорит о том, что действительно обнаруживается устойчивая зависимость тарифов от этих факторов (или по крайней мере от одного из этих факторов), т.е. тарифы не являются чисто случайными величинами. Вам по-прежнему неизвестно, какие именно из этих Х- переменных реально участвуют в прогнозировании Y, но вам доподлинно известно, что есть по крайней мере одна такая переменная.

Чтобы выяснить с помощью R2, действительно ли уравнение регрессии является значимым, отметим, что коэффициент детерминации R2 = 0,787, или 78,7%. Таблица R2 для тестирования на уровне 5% в случае п=55 журналов и k=3 переменных (табл. 2) дает критическое значение 0,141, или 14,1%. Для того чтобы уравнение было значимым на привычном уровне 5%, X- переменные должны объяснять лишь 14,1% вариации тарифов (Y). Поскольку они объясняют больше, регрессию следует признать значимой.

Таблица 2. Таблица R2: критические значения для уровня 5% (значимо)

Количество наблюдений

(n)

Количество Х-переменных (k)

1

2

3

4

5

6

7

8

9

10

3

0,994

4

0,902

0,997

5

0,771

0,950

0,998

6

0,658

0,864

0,966

0,999

7

0,569

0,776

0,903

0,975

0,999

8

0,499

0,698

0,832

0,924

0,980

0,999

9

0,444

0,632

0,764

0,865

0,938

0,983

0,999

10

0,399

0,575

0,704

0,806

0,887

0,947

0,985

0,999

11

0,362

0,527

0,651

0,751

0,835

0,902

0,954

0,987

1,000

12

0,332

0,486

0,604

0,702

0,785

0,856

0,914

0,959

0,989

1,000

13

0,306

0,451

0,563

0,657

0,739

0,811

0,872

0,924

0,964

0,990

14

0,283

0,420

0,527

0,618

0,697

0,768

0,831

0,885

0,931

0,967

15

0,264

0,393

0,495

0,582

0,659

0,729

0,791

0,847

0,896

0,937

16

0,247

0,369

0,466

0,550

0,624

0,692

0,754

0,810

0,860

0,904

17

0,232

0,348

0,440

0,521

0,593

0,659

0,719

0,775

0,825

0,871

18

0,219

0,329

0,417

0,494

0,564

0,628

0,687

0,742

0,792

0,839

19

0,208

0,312

0,397

0,471

0,538

0,600

0,657

0,711

0,761

0,807

20

0,197

0,297

0,378

0,449

0,514

0,574

0,630

0,682

0,731

0,777

21

0,187

0,283

0,361

0,429

0,492

0,550

0,604

0,655

0,703

0,749

22

0,179

0,270

0,345

0,411

0,471

0,527

0,580

0,630

0,677

0,722

23

0,171

0,259

0,331

0,394

0,452

0,507

0,558

0,607

0,653

0,696

24

0,164

0,248

0,317

0,379

0,435

0,488

0,538

0,585

0,630

0,673

25

0,157

0,238

0,305

0,364

0,419

0,470

0,518

0,564

0,608

0,650

26

0,151

0,229

0,294

0,351

0,404

0,454

0,501

0,545

0,588

0,629

27

0,145

0,221

0,283

0,339

0,390

0,438

0,484

0,527

0,569

0,609

28

0,140

0,213

0,273

0,327

0,377

0,424

0,468

0,510

0,551

0,590

29

0,135

0,206

0,264

0,316

0,365

0,410

0,453

0,495

0,534

0,573

30

0,130

0,199

0,256

0,306

0,353

0,397

0,439

0,480

0,518

0,556

31

0,126

0,193

0,248

0,297

0,342

0,385

0,426

0,466

0,503

0,540

32

0,122

0,187

0,240

0,288

0,332

0,374

0,414

0,452

0,489

0,525

33

0,118

0,181

0,233

0,279

0,323

0,363

0,402

0,440

0,476

0,511

34

0,115

0,176

0,226

0,271

0,314

0,353

0,391

0,428

0,463

0,497

35

0,111

0,171

0,220

0,264

0,305

0,344

0,381

0,417

0,451

0,484

40

0,097

0,150

0,193

0,232

0,268

0,303

0,336

0,368

0,399

0,429

50

0,078

0,120

0,155

0,186

0,216

0,244

0,272

0,298

0,323

0,348

51

0,076

0,117

0,152

0,183

0,212

0,240

0,267

0,293

0,318

0,342

52

0,075

0,115

0,149

0,180

0,208

0,235

0,262

0,287

0,312

0,336

53

0,073

0,113

0,146

0,176

0,204

0,231

0,257

0,282

0,306

0,330

54

0,072

0,111

0,143

0,173

0,201

0,227

0,252

0,277

0,301

0,324

55

0,071

0,109

0,141

0,170

0,197

0,223

0,248

0,272

0,295

0,318

56

0,069

0,107

0,138

0,167

0,194

0,219

0,244

0,267

0,290

0,313

57

0,068

0,105

0,136

0,164

0,190

0,215

0,240

0,263

0,285

0,308

58

0,067

0,103

0,134

0,161

0,187

0,212

0,236

0,258

0,281

0,303

59

0,066

0,101

0,131

0,159

0,184

0,208

0,232

0,254

0,276

0,298

60

0,065

0,100

0,129

0,156

0,181

0,205

0,228

0,250

0,272

0,293

Множитель 1

3,84

5,99

7,82

9,49

11,07

12,59

14,07

15,51

16,92

18,31

Множитель 2

2,15

-0,27

-3,84

-7,94

-12,84

-18,24

-23,78

-30,10

-36,87

-43,87

Если у вас более 60 наблюдений, критические значения можно найти с помощью двух множителей, указанных внизу таблицы R2. Для этого необходимо воспользоваться следующей формулой:

Критическое значение = (Множитель 1 / n) + (Множитель 2 / n)

Когда в качестве р-значения (Значимость F) указывается 0,000000 (см. таблицу 5), его можно интерпретировать как р < 0,0005, поскольку р-значение, которое больше или равно 0,0005, будет округлено до 0,001. Используя терминологию р-значений, можно сказать, что регрессия в данном случае является очень высоко значимой (р < 0,001).

Чтобы убедиться в этом очень высоком уровне значимости, используя непосредственно F-тест, можно сравнить Fстатистику 62,843 (из компьютерной распечатки) со значением из F-таблицы для уровня 5% (табл. 3), которое находится между 2,922 и 2,758 для k1 = m - 1 = 3 степеней свободы и k2 = n - m = 55 - 4 = 51 степеней свободы.

прогнозирование множественный регрессия вариация

Таблица 3. F-таблица: критические значения для уровня значимости 5%

степени свободы ()

степени свободы ()

1

2

3

4

5

6

1

161,45

199,50

215,71

224,58

230,16

233,99

2

18,513

19,000

19,164

19,247

19,296

19,330

3

10,128

9,552

9,277

9,117

9,013

8,941

4

7,709

6,944

6,591

6,388

6,256

6,163

5

6,608

5,786

5,409

5,192

5,050

4,950

6

5,987

5,143

4,757

4,534

4,387

4,284

7

5,591

4,737

4,347

4,120

3,972

3,866

8

5,318

4,459

4,066

3,838

3,687

3,581

9

5,117

4,256

3,863

3,633

3,482

3,374

10

4,965

4,103

3,708

3,478

3,326

3,217

11

4,840

3,980

3,590

3,360

3,200

3,090

12

4,747

3,885

3,490

3,259

3,106

2,996

15

4,543

3,682

3,287

3,056

2,901

2,780

18

4,410

3,550

3,160

2,930

2,770

2,660

19

4,380

3,520

3,130

2,900

2,740

2,630

20

4,351

3,493

3,098

2,866

2,711

2,599

21

4,32

3,47

3,07

2,84

2,68

2,57

22

4,30

3,44

3,05

2,82

2,66

2,55

23

4,28

3,42

3,03

2,80

2,64

2,53

24

4,26

3,40

3,01

2,78

2,62

2,51

25

4,24

3,38

2,99

2,76

2,60

2,49

26

4,22

3,37

2,98

2,74

2,59

2,47

27

4,21

3,35

2,96

2,73

2,57

2,46

28

4,20

3,34

2,95

2,71

2,56

2,44

29

4,18

3,33

2,93

2,70

2,54

2,43

30

4,171

3,316

2,922

2,690

2,534

2,421

60

4,001

3,150

2,758

2,525

2,368

2,254

120

3,920

3,072

2,680

2,447

2,290

2,175'

3,841

2,996

2,605

2,372

2,214

2,099

Поскольку значение 51 в таблице отсутствует, нам известно, что необходимое нам значение из F-таблицы находится в диапазоне от 2,922 для 30 степеней свободы знаменателя и для 60 степеней свободы знаменателя. Поскольку данная Fстатистика (62,843) намного больше, чем значение из F-таблицы (значение из диапазона от 2,758 до 2,922), мы опять приходим к выводу, что полученный результат имеет очень высокую значимость.

Какие переменные являются значимыми: t-тест для каждого коэффициента

Если F-тест является значимым, то вам известно, что одна или несколько X- переменных могут быть полезны в прогнозировании Y и, следовательно, можно продолжать анализ с помощью t-тестов для отдельных коэффициентов регрессии с целью выяснять, какие именно из Х- переменных действительно полезны. Эти t-тесты определяют, оказывает ли значимое влияние на Y та или иная X- переменная, если все другие Х- переменные остаются при этом неизменными. Следует помнить, что, приняв нулевую гипотезу, вы сделали слабое заключение и, по сути, тем самым не доказали бесполезность Х- переменной, а просто у вас не хватило убедительных доказательств наличия взаимосвязи. Таким образом, взаимосвязь может существовать, но вследствие действия фактора случайности или из-за небольшого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении.

Если же F-тест не является значимым, то использовать t-тесты для отдельных коэффициентов регрессии нельзя. В редких случаях эти t-тесты могут быть значимыми даже тогда, когда F-тест не является значимым. При этом F-тест считается более важным и необходимо делать вывод о том, что все коэффициенты являются незначимыми.

t-тест для каждого коэффициента основан на оценке коэффициента регрессии и его стандартной ошибке и использует критическое значение из t-таблицы для «п - k - степеней свободы (где k - количество исследуемых факторов-аргументов). Доверительный интервал для какого-либо конкретного коэффициента регрессии в генеральной совокупности (например, j-го - вj) определяется обычным способом:

от bj - tSbj до bj + tSbj ,

где t берется из t-таблицы для «п - k - степеней свободы.

t-тест является значимым, если заданное значение «0» (указывающее на отсутствие влияния) не попадает в этот доверительный интервал. Здесь нет ничего нового: это обычная процедура для двустороннего тестирования.

Как альтернативный вариант можно сравнить t-статистику bj/Sb со значением из t-таблицы и сделать вывод о значимости, если абсолютное значение этой t-статистики оказывается больше. Если посмотреть на последние значения в каждом из столбцов t-таблицы, можно увидеть достаточно простой, приблизительный способ определения значимости коэффициентов: значимыми будут те коэффициенты регрессии, для которых t-статистика по абсолютному значению равна или больше 2, поскольку для достаточно больших п и уровня значимости 5% значение из t-таблицы приблизительно равно 2. Как всегда, оба метода, и на использовании t-статистики, и на использовании доверительного интервала, должны в любом случае обеспечивать одинаковый результат (значимость или не значимость) для каждого теста.

Что же именно в данном случае тестируется? В результате t-теста для вj; мы должны принять решение, оказывает ли Xj значимое влияние на Y в исследуемой генеральной совокупности, когда все другие Х- переменные остаются неизменными. В этом случае речь не идет о корреляции между Xj и У, которая игнорирует все остальные Х- переменные. Скорее, это проверка влияния Xj на Y после внесения поправки на все остальные факторы. Например, в исследованиях уровня заработной платы, цель которых заключается в выявлении возможных фактов дискриминации по признаку пола, обычно делают поправку на уровень образования и стаж работы. Несмотря на то что мужчины в компании могут (в среднем) получать более высокую заработную плату, чем женщины, очень важно понять, не объясняются ли эти различия какими-либо другими факторами, помимо пола. В результате включения всех этих факторов в множественную регрессию (регрессия Y = заработная плата на X1 = пол, X2 = образование и X3 = стаж работы) коэффициент регрессии для пола будет отражать влияние пола на уровень заработной платы с учетом поправок на уровень образования и стаж работы.

Ниже приведены формулы для гипотез, касающихся проверки значимости j-го коэффициента регрессии.

Гипотезы для t-теста j -го коэффициента регрессии

H0: вj = 0;

H0: вj 0;

Если вернуться к нашему примеру с тарифами на размещение рекламных объявлений в журналах («Пример. Реклама в журналах»), то соответствующий t-тест будет иметь п - k - 1 = 55 - 3 - 1 = 51 степеней свободы. Двустороннее критическое значение из t-таблицы равно 1,960 (или, точнее, 2,008). В табл. 4 приведена соответствующая информация из компьютерной распечатки.

Таблица 8. Результат множественной регрессионного анализа тарифов на размещение рекламы в журналах

ВЫВОД ИТОГОВ

Регрессионная статистика

Множествен. R

0,887

R-квадрат

0,787

Нормированный R-квадрат

0,775

Стандартная ошибка

21577,870

Наблюдения

55

Коэффициенты

Стандартная ошибка

t-статистика

P-значение

Нижние 95%

Верхние 95%

Y-пересечение

4042,799

16884,039

0,239

0,812

-29853,298

37938,895

Переменная X 1

3,788

0,281

13,484

0,000

3,224

4,352

Переменная X 2

-123,634

137,849

-0,897

0,374

-400,377

153,108

Переменная X 3

0,903

0,370

2,442

0,018

0,161

1,645

Две из трех Х- переменных являются значимыми, поскольку для них р-значения оказываются меньше 0,05. Еще один (эквивалентный) способ проверки значимости заключается в том, чтобы выяснить, какие t-статистики (в компьютерной распечатке соответствующий столбец обозначен просто t) оказываются большими, чем 2,008. И еще один (тоже эквивалентный) способ проверки значимости состоит в том, чтобы выяснить, какие из 95% доверительных интервалов для коэффициентов регрессии не включают «0». Как мы и предполагали ранее, величина читательской аудитории оказывает огромное влияние на рекламные тарифы в журналах. Столь высокое значение t (13,48) означает, что влияние величины читательской аудитории на рекламные тарифы является очень высоко значимым (при условии, что процент читателей-мужчин и средний доход остаются постоянными). Влияние среднего дохода на рекламные тарифы в журналах также является значимым (при условии, что процент читателей-мужчин и величина читательской аудитории остаются постоянными).

Очевидно, что процент читателей-мужчин не оказывает на тарифы значительного влияния (при условии, что величина читательской аудитории и средний доход остаются постоянными), поскольку соответствующий t-тест не является значимым. Не исключено, что этот процент оказывает на тарифы определенное влияние только через доход (средний доход у мужчин может быть выше, чем у женщин). Таким образом, после внесения поправки на средний доход можно ожидать, что переменная, соответствующая проценту мужчин, уже не будет нести дополнительной информации для прогнозирования тарифов. Несмотря на то что оцениваемое влияние процента читателей-мужчин составляет $123,6, его отклонение от 0 носит лишь случайный характер. Строго говоря, этот коэффициент, $123,6, не подлежит интерпретации; поскольку он не является значимым, вы "не имеете права" объяснять его. Иными словами, его значение ($123,6) -- лишь видимость, и, по сути, ничем не отличается от $0,00; более того, в действительности вы не можете даже сказать, положительное это число или отр...


Подобные документы

  • Цели линейной модели множественной регрессии (прогноз, имитация, сценарий развития, управление). Анализ эконометрической сущности изучаемого явления на априорном этапе. Параметризация и сбор необходимой статистической информации, значимость коэффициентов.

    контрольная работа [68,7 K], добавлен 21.09.2009

  • Построение модели множественной регрессии теоретических значений динамики ВВП, определение средней ошибки аппроксимации. Выбор фактора, оказывающего большее влияние. Построение парных моделей регрессии. Определение лучшей модели. Проверка предпосылок МНК.

    курсовая работа [352,9 K], добавлен 26.01.2010

  • Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.

    задача [133,0 K], добавлен 21.12.2008

  • Численное решение дифференциальных уравнений с помощью многошагового метода прогноза и коррекции Милна. Суммарная ошибка метода Милна. Применение метода Рунге-Кутта для нахождения первых значений начального отрезка. Абсолютная погрешность значения.

    контрольная работа [694,0 K], добавлен 27.02.2013

  • Статическая проверка статистических гипотез. Ошибки первого и второго рода. Числовые характеристики случайной величины, распределенной по биномиальному закону. Проверка гипотезы о биномиальном распределении генеральной совокупности по критерию Пирсона.

    курсовая работа [674,3 K], добавлен 03.05.2011

  • Определение наличия зависимости показателя Заработная плата от Возраста и Стажа с использованием корреляционной матрицы. Нормальность распределения остатков по: гистограмме остатков, числовым характеристикам асимметрии и эксцессу, критерию Пирсона.

    курсовая работа [1,1 M], добавлен 05.12.2013

  • Описание способов нахождения коэффициентов регрессии модели полнофакторного эксперимента. Проверка многофакторных статистических гипотез на однородность ряда дисперсий, значимость и устойчивость математических коэффициентов множественной корреляции.

    контрольная работа [1,2 M], добавлен 05.08.2010

  • Построение многофакторной корреляционно-регрессионной модели доходности предприятия: оценка параметров функции регрессии, анализ факторов на управляемость, экономическая интерпретация модели. Прогнозирование доходности на основе временных рядов.

    дипломная работа [5,1 M], добавлен 28.06.2011

  • Критерий согласия – критерий проверки гипотезы о предполагаемом законе распределения генеральной совокупности. Критерий Колмогорова-Смирнова и его практическое применение. Критические значения статистик Стефенса. Критерии Пирсона и Смирнова-Крамера.

    курсовая работа [629,9 K], добавлен 26.08.2012

  • Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.

    курсовая работа [232,7 K], добавлен 21.05.2015

  • Построение линейной множественной регрессии для моделирования потребления продукта в разных географических районах. Расчет оценки дисперсии случайной составляющей. Вычисление и корректировка коэффициентов детерминации. Расчет доверительного интервала.

    контрольная работа [814,0 K], добавлен 19.12.2013

  • Понятие, критерии и порядок формирования ценовой политики в гостиничном бизнесе, факторы, влияющие на данный процесс. Построение многофакторной модели ценообразования в гостинице на основе статистических наблюдений данных процессов в заведениях Москвы.

    контрольная работа [427,0 K], добавлен 21.08.2008

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.

    контрольная работа [178,0 K], добавлен 23.11.2013

  • Интервальный вариационный ряд. Построение гистограммы плотности относительных частот. Выдвижение гипотезы о законе распределения генеральной совокупности Х. Функция плотности рассматриваемого закона распределения "Построение ее на гистограмме".

    курсовая работа [104,4 K], добавлен 20.03.2011

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

    курсовая работа [304,0 K], добавлен 02.03.2017

  • Согласование выборочных распределений. Отбор статистических данных с помощью таблицы случайных чисел. Расчет числовых характеристик распределения выборочных частот. Проверка предположения, что распределение генеральной совокупности является нормальным.

    курсовая работа [276,6 K], добавлен 19.01.2016

  • Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат [332,8 K], добавлен 10.12.2010

  • Выборки к генеральной совокупности: оценка параметра и построение доверительных интервалов. Интервальный статистический ряд. Оценивание параметров распределения. Статистическая проверка гипотез. Гипотеза о нормальном распределении случайной величины.

    контрольная работа [391,1 K], добавлен 23.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.