Планирование эксперимента и обработка экспериментальных данных

Введение в регрессионный анализ и планирование эксперимента. Типовые задачи практики статистического изучения зависимостей. Проведение исследования нелинейной, непараметрической и пошаговой регрессии. Анализ оценки степени тесноты связи переменных.

Рубрика Экономико-математическое моделирование
Вид курс лекций
Язык русский
Дата добавления 01.09.2017
Размер файла 391,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Y=f(Х, )+

- остаточная случайная компонента, обусловливающая погрешность;

f(Х, ) - функция из некоторого известного параметрического семейства F={f(Х, )}, где A - неизвестно.

Значение интерпретируется, как средний нормативный показатель при значениях объясняющих переменных, равных X.

В качестве примера типовой задачи нормирования можно привести задачу расчета численности служащих (по разным функциям) на промышленном предприятии отрасли по набору ТЭП.

Прогноз, планирование, диагностика. Пусть у - интересующий нас показатель, а x(1),..., x(p) - факторы, содержащие информацию о у. Между ними имеет место статистическая связь типа (5.1). В этих задачах в качестве одного из объясняющих факторов x(к) вводится в явном виде «длина прогноза» t (в единицах времени). Наличие в (5.1) говорит о том, что X содержит не всю информацию о у. Исходные статистические данные вида (4.1) регистрируются на объектах в прошлом (в базовом периоде), или на других (однородных с данным) объектах.

Примеры задач: прогноз и планирование объема выпускаемой продукции по факторам производства, прогноз урожайности сельскохозяйственных культур по климатическим данным и факторам сельскохозяйственного производства, медицинская диагностика, оперативный и долгосрочный прогноз потребления электроэнергии.

Оценка труднодоступных для непосредственного наблюдения параметров. К таким задачам относится, например, восстановление возраста археологической находки по ряду косвенных признаков. Для установления связи между труднодоступным показателем у и косвенным измерениям Х необходимы статистические данные вида (4.1). Когда связь выявлена (оценена степень ее точности), она используется для определения у по X.

Оценка эффективности функционирования системы. Например: оценка эффективности деятельности отдельного специалиста, подразделения; ранжировка страны по интегральному качеству; проставление балльных оценок спортсмену. По частным показателям X, которые можно измерить и которые характеризуют некоторую частную сторону понятия «эффективность», мы с помощью их взвешивания выходим на некоторый скалярный агрегированный показатель эффективности у (латентный-скрытый). Он принципиально не поддается непосредственному измерению: нет или мы не знаем объективной шкалы, в которой можно его измерить. Но он с некоторой точностью восстанавливается с помощью X. Т.е. между у и X (частные критерии эффективности) существует статическая связь типа (5.1).

При сборе данных (4.1) у можно получить только с помощью специально организованного экспертного опроса. Форма экспертной информации о у различна: балльные оценки, упорядочивания, парные сравнения. Построив оценку для агрегированного критерия эффективности функционирования системы, можно оценивать у(X) без привлечения экспертов. Такая форма использования аппарата СИЗ носит название экспертно-статистического метода построения неизвестной целевой функции.

Примером такой типовой задачи является квалиметрия, т.е. измерение «качества» сложного изделия у с помощью отдельных частных характеристик качества x(1),..., x(p) таких как надежность, удобство пользования, эстетический вид и т д.

Оптимальное регулирование параметров системы. Рассмотрим эту типовую задачу на примере. Например, изучается производительность мартеновских печей (y), измеряемая в тонно/часах, в зависимости от процентного содержания углерода в металле (х). Если сквозь кажущуюся хаотичность взаимосвязи результирующего у от х видна нелинейная закономерность с наличием максимума, то можно выдать рекомендации технологу: поддерживать процентное содержание углерода в окрестности диапазоне максимума.

5.4 Основные типы зависимостей между количественными переменными

Под типом зависимости мы понимаем не аналитический вид функции Yср(X) = f(X,), а природу анализируемых переменных (X,y) и, соответственно, интерпретацию функции f(X,).

Зависимость между неслучайными переменными. В этом случае y детерминировано восстанавливается по значению неслучайной переменной X. Это чисто функциональная зависимость y=f(Х)= f(x(1),...,x(p)), т.е. в формуле (4.3) = 0.

Такие примеры адекватного описания реальных зависимостей встречаются редко (например, определение возраста дерева по количеству колец на срезе). Для них не надо использовать вероятностно-статистическую теорию.

Регрессионная зависимость случайного результирующего показателя от неслучайных предсказывающих переменных X. Природа связи носит двойственный характер.

а) замеры с ошибкой, а - X без ошибки.

б) зависит не только от X, поэтому для всех X * значения ( X *) подвержены разбросу. Здесь X играют роль параметра, от которого зависит распределение . Удобной математической моделью является

( X) = f(X) + ( X))

Yср(X) = M( X) = f(X), M( X) = 0.

Природа ( X) и ее характеристики распределения не связаны со структурой функции f(X).

Корреляционно-регрессионная зависимость между случайными векторами (результирующим показателем) и (объясняющими переменными). Компоненты векторов и зависят от множества факторов, которые исследователь по разным причинам не может проконтролировать т.е. для него эти переменные являются случайными. Удобно представление

= f() +

- остаточное влияние неучтенных факторов, причем

M(k) = 0, D(k) = <

cov (f(k)(), (k) )= 0.

Для частного случая: m=1; а f() - линейная функция имеем:

Если в (5.3) = 0, то случайные величины оказываются связанными чисто функциональной зависимостью =f(), но ее следует отличать от функциональной зависимости неслучайных переменных.

Например, если описывать процесс обжига стекла в стекольном производстве с помощью параметров - вакуум в печи и - процента брака, то случайные изменения свойств сырья приводят к случайным колебаниям и . Эллипсообразная форма облака говорит о целесообразности модели (5.3). Связь и носит название корреляционно-регрессионной. К вопросам регрессионного анализа (построение конкретного вида зависимостей между переменными, оценка точности) добавляются вопросы корреляционного анализа (исследование степени тесноты связи между переменными).

Тема 6. Корреляционный анализ

6.1 Корреляционный анализ

В начале СИЗ необходимо установить сам факт наличия статистических связей и измерить степень их тесноты. Для количественных переменных с этой целью используют: индекс корреляции, корреляционное отношение, парные, частные и множественные коэффициенты корреляции, коэффициент детерминации.

Парные и частные коэффициенты корреляции оценивают тесноту линейной связи. Они могут быть положительными и отрицательными в зависимости от тенденции взаимосвязанного изменения переменных.

Парные корреляционные характеристики оценивают тесноту статистической связи между двумя переменными без учета опосредованного или совместного влияния других показателей. Для расчета используются значения только анализируемой пары показателей. Частный коэффициент корреляции позволяет оценить степень тесноты множественной связи между двумя переменными, очищенной от опосредованного влияния других факторов. Для расчета используются значения как по анализируемой паре переменных, так и тех, опосредованное влияние которых хотим исключить.

Степень тесноты связи любой формы определяют: множественный коэффициент корреляции, коэффициент детерминации и корреляционное отношение. Множественный коэффициент корреляции определяет степень тесноты связи между одним результирующим и совокупностью объясняющих показателей. Коэффициент детерминации определяется, как квадрат множественного коэффициента корреляции и показывает, какая доля дисперсии детерминируется совокупным влиянием (в виде функции регрессии). Оставшаяся часть дисперсии показывает верхнюю границу точности при восстановлении по заданным значениям Х.

Таблица 6.1 - Особенности корреляционных характеристик

Вид зависимости

Показатель связи переменных

Особенность

Линейная

Парный коэффициент корреляции

Неочищенная от совместного влияния других переменных

Частный коэффициент корреляции

Очищенная от совместного влияния других переменных

Множественный коэффициент корреляции

Один результирующий и совокупность объясняющих переменных

Произвольная

Коэффициент детерминации

Множественный коэффициент корреляции в квадрате

Корреляционное отношение

Используется при группировании значений х в интервалах

Индекс корреляции

Наиболее общая теоретическая оценка степени тесноты связи

6.2 Оценка степени тесноты связи переменных

Определение индекса корреляции. Для простоты рассмотрим случай единственного результирующего показателя, т.е m=1. Пусть - случайный объясняющий вектор, - случайный результирующий вектор. На них влияют неконтролируемые факторы , тоже случайные. Удобно представление . Пусть полная вариация , - дисперсия функции регрессии , - усредненная по различным значениям величина дисперсии , т.е. средняя величина дисперсии неконтролируемой случайной компоненты . Эти меры разброса связаны соотношениями

.

Индексом корреляции называется

Данный показатель является наиболее общей характеристикой тесноты связи и . Отметим, что . Причем означает отсутствие влияния на , а - полное отсутствие варьирования случайной компоненты (), т. е. возможность детерминированного восстановления по . Величина () - показывает точность восстановления по .

6.3 Особенности корреляционного анализа для количественных переменных

Парный коэффициент корреляции. Пусть (,) - двумерная нормальная случайная величина. Подставив в (6.1) формулу плотности двумерного нормального распределения, получим соотношение для индекса корреляции , которое называется парным коэффициентом корреляции r:

Пусть (xi, yi), - выборка из двумерного нормального распределения, тогда выборочное значение определяется по формуле:

Парный коэффициент корреляции r характеризует степень тесноты линейной статистической связи между анализируемыми признаками. Однако лишь если совместное распределение (,) нормальное, то r имеет четкий смысл. Значение - говорит о чисто функциональной линейной зависимости, а r=0 - о независимости. Если же совместное распределение (,) не нормальное, или одна из величин не случайна, то r является лишь одной из возможных характеристик степени тесноты связи. Но для общего случая не предложено характеристики, обладающей преимуществами в сравнении с парным коэффициентом корреляции, хотя его интерпретация часто ненадежна. Возможно, что линейной зависимости нет (r=0), а переменные и связаны функционально . Поэтому, если r=0, то в общем случае говорят, что и не коррелированы. Из высокой степени коррелированности () при отклонении (,) от нормального закона не следует их тесная зависимость.

Геометрический смысл коэффициента корреляции состоит в том, что, если для большинства пар в (6.2) произведения будут иметь один и тот же знак, то их суммирование дает значение, существенно отличающееся от нуля. Причем, чем выше будет угол наклона предполагаемой линии взаимосвязи, тем выше должен быть коэффициент корреляции. В случае, если большинство значений и отклоняются от средних и несогласованно (т.е. и имеют разные знаки), то сумма разнознаковых слагаемых будет близка к нулю. Подобная ситуация на диаграмме рассеяния соответствует облаку точек с центром . Большинство пакетов статистических программ для анализа корреляций вычисляют корреляцию между и и строят диаграмму рассеяния одновременно. При одном прогоне такой программы исследователь может получить корреляции и диаграммы рассеяния для любой комбинации преобразований и например , , и т.д. Преобразование, для которого получается наибольшее по абсолютной величине значение коэффициента корреляции, будет тем преобразованием, которому соответствует наиболее сильная линейная взаимосвязь.

Некоторые особенности интерпретации степени тесноты связи с помощью коэффициента корреляции. Отметим, что при анализе тесноты связи случайных величин по выборочным данным нельзя забывать об однородности выборки. Например, исследуется взаимосвязь числа телевизионных точек от численности населения . Так, для n=9 городов США получено, что оценка коэффициента корреляции равна 0.403 (см.рисунок 6.1), т.е. это говорит о малой степени коррелированности случайных величин и . Если же добавить Нью-Йорк, то n=10, а =0.995 (см.рисунок 6.2).

И, наконец, если между двумя переменными установлена зависимость, то это не означает их причинную взаимообусловленность. Например, на заводе установлена положительная корреляция между временем плавки и процентом брака. Позже выяснили, что длительная плавка связана с использованием сырья специального состава. Оно и приводило одновременно к длительному времени плавки и большому проценту брака, хотя между собой они не зависимы, т.е. обусловлено влиянием третьего неучтенного фактора.

Рисунок 6.1 - Оценка r=0.403 для n=9, Рисунок 6.2 - Оценка r=0.995 для n=10

6.4 Особенности корреляционного анализа для неколичественных характеристик

СИЗ между порядковыми переменными сводится к статистическому анализу различных упорядочений (ранжировок) множества объектов. Он осуществляется с помощью методов ранговой корреляции. Процесс упорядочения осуществляется либо экспертами, либо формализовано (переходом от количественных значений к вариационному ряду). Исходные данные представлены таблицей рангов статистически обследованных объектов размера . При формировании матрицы возможны случаи неразличимости двух и более объектов, т.е. «объединенные» ранги.

К основным задачам теории и практики в этом случае относятся:

– анализ структуры исследуемой совокупности упорядочения (например, точки равномерно разбросаны по области значений, т.е. нет статистической связи; наличие сгустка-ядра при произвольном разбросе других точек говорит о наличии согласованности в переменных; существование нескольких ядер говорит о статистической зависимости переменных внутри них);

– анализ интегральной согласованности переменных и условная ранжировка по критерию степени тесноты связи каждой со всеми остальными (разные эксперты упорядочили объекты, их необходимо упорядочить по компетентности);

– построение единого упорядочения объектов по имеющейся совокупности упорядочений.

В качестве основных характеристик парной статистической связи между упорядочениями используются ранговые коэффициенты корреляции Спирмэна и Кендалла . Значения этих коэффициентов меняются в диапазоне от -1 до +1. Причем =-1, если ряды прямо противоположно упорядочены, =+1, если по упорядочению ряды совпадают, =0, если в упорядочении рядов отсутствует связь. Пусть - порядковое место (ранг) объекта по степени проявления -го свойства (переменной). Тогда степень тесноты между ранжировками (при отсутствии объединенных рангов) и с помощью коэффициента Спирмэна определяется по формуле 6.3. При наличии объединенных рангов формула усложняется.

Коэффициент Кендалла (при отсутствии объединенных рангов) вычисляется по формуле:

где - минимальное число обменов соседних элементов последовательности , необходимое для приведения ее к упорядочению . Величина симметрична относительно аргументов. При подсчете полезным оказывается факт тождественного совпадения величин и , где число инверсий - это число расположенных в неодинаковом порядке пар элементов последовательностей и , являющееся мерой нарушения порядка объектов в одной последовательности относительно другой.

где если а иначе .

Анализируемые ранжировки видоизменяются к представлению:

Ранговые коэффициенты корреляции Спирмэна и Кендалла связаны так как они являются линейными функциями от числа инверсий, имеющихся в сравнении последовательностей и . При подсчете коэффициента корреляции Спирмэна инверсиям отдаленных (по величине) друг от друга элементов приписываются большие веса. Между масштабами шкал, в которых измеряют корреляцию коэффициенты и нет простого соотношения. Однако при N>10 и при условии, что абсолютные значения этих коэффициентов не слишком близки к 1, их связывает приближенное соотношение

1.5

Отметим некоторые преимущества коэффициента корреляции Кендалла по сравнению с коэффициентом корреляции Спирмэна : лучше изучены его статистические свойства (выборочное распределение), возможность его использования при определении частной (очищенной) корреляции рангов, отсутствие потребности полного пересчета при добавлении новых объектов.

С целью измерения статистической связи между несколькими переменными (при отсутствии объединенных рангов) Кендаллом был предложен коэффициент конкордации (или согласованности)

где m - число анализируемых порядковых переменных (сравниваемых упорядочений); N - число объектов (объем выборки); k1,..., km - номера отобранных для анализа порядковых переменных (из исходной совокупности) m<p.

Заметим, что . В отличии от парных связей противоположные понятия согласованности и несогласованности утрачивают прежнюю симметричность относительно нуля.

Используя коэффициент конкордации, можно решить, например, задачу анализа структуры имеющейся совокупности упорядочений путем разбиения имеющегося набора порядковых переменных x(0),..., x(p) на группы высоко коррелированных переменных. При статистическом анализе совокупности экспертных мнений (ранжировок) существенным оказывается вопрос упорядочения самих переменных (интерпретируемых в качестве экспертов) по степени их коррелированности со всеми остальными переменными. Для ответа на этот вопрос можно предложить следующий алгоритм.

Пусть - коэффициент конкордации, подсчитанный по всем рассматриваемым переменным x(0),..., x(p) за исключением переменных . Варьируя состав группы исключенных переменных, мы получим различных значений . Последовательно вычислим значения всех этих коэффициентов для k=0,1,2,...,k0 и упорядочим их (при каждом фиксированном k) в соответствии с убыванием их значений. Получим:

;

Эти упорядочения (на каждом этаже) и дают нам одновременно ранжировки самих переменных (по одной, по паре и т.д.) по степени их согласованности с остальными переменными: очевидно, ту переменную, выбрасывание которой приводит к максимальному значению меры согласованности по остальным переменным, естественно объявить наименее связанной (согласующейся) с остальными переменными.

Тема 7. Регрессионный анализ

7.1 Примеры использования регрессионного анализа

Регрессионный анализ представляет собой статистический аппарат, позволяющий выявлять и описывать зависимость некоторого количественного результирующего показателя от набора объясняющих переменных.

Рассмотрим совокупность студентов, изучавших сначала математику, а затем статистику (одинаковые учебники и преподаватели). Оценки по математике - X, по статистике - Y. Если будет установлена хорошая корреляция между переменными, то усвоение студентами курса статистики может быть спрогнозировано с помощью оценки по математике. Если будет установлено отсутствие корреляции, то курс статистики может быть прочитан вне зависимости от того, прочитан ли курс математики.

Администрация постоянно берет на работу начинающих чертежников. Обучение чертежников дорого, поэтому администрация решает использовать тест (квалификационный). Вновь принятых на работу тестируют, регистрируют баллы. Через некоторое время людей оценивают. Если низким результатам тестирования соответствует в среднем низкая оценка работы, то тест хороший и может быть использован при найме на работу.

7.2 Классическое определение регрессии

Понятие регрессии результирующего показателя по объясняющим переменным является базовым в регрессионном анализе. Функция f(X), описывающая изменение условного среднего значения результирующего показателя в зависимости от изменения заданного значения Х предикторной переменной называется функцией регрессии.

7.3 Оптимизационный подход в регрессионном анализе

Точного описания функции регрессии f(X) в статистической практике никогда не имеется, поэтому ограничиваются поиском подходящих аппроксимаций для, основанных на статистических данных вида (4.1). Значит необходимо уметь измерять качество предполагаемой аппроксимации искомой функции регрессии f(X) с помощью. Для этого в теории и практике статистического исследования зависимостей используют функции -регрессии, являющиеся наилучшими прогностическими моделями для анализируемого результирующего показателя в смысле минимизации заданного критерия адекватности .

1. Пусть - неотрицательная монотонно неубывающая функция потерь, измеряющая неточность восстановления с помощью , u=-.

2. Введем критерий адекватности модели и , используемых для восстановления : - усреднение по всем возможным значениям ошибки при каждом фиксированном X.

Его выборочный аналог: - усреднение по имеющимся наблюдениям.

3. Зададимся классом допустимых решений F, в рамках которого будем вести поиск наилучшей в смысле критерия (или) аппроксимации для . Если при этом некоторое параметрическое семейство функций, то задача подбора сводится к определению, для которого некоторая характеристика точности восстановления является наилучшей. 4. Будем называть функцию функцией -регрессии, если она дает прогноз для условных значений результирующего показателя , являющегося наилучшим в смысле критерия адекватности

В практике статистического исследования зависимостей чаще всего используют функции потерь следующего вида:

=. Получаемая с помощью (7.1) регрессия называется среднеквадратической, а метод, реализующий минимизацию функционала - методом наименьших квадратов.

=. Получаемая с помощью (7.1) регрессия называется среднеабсолютной (медианной), а метод, реализующий минимизацию функционала - методом наименьших модулей.

=. Минимизация сводится к поиску , поэтому регрессия называется минимаксной.

Таким образом, наиболее распространенными случаями -регрессии являются среднеквадратическая, медианная и минимаксная регрессии.

Соотношение истинной f(X), теоретической аппроксимирующей и выборочной аппроксимирующей регрессий существенно зависит от выбора критерия адекватности (определяемого природой регрессионных остатков ) и класса допустимых решений F. В частности, даже при удачном выборе критерия адекватности в ситуациях, когда истинная функция регрессии f(X) не накрывается классом допустимых решений F, выборочная аппроксимирующая функция регрессии не будет стремиться к истинной при неограниченном росте объема выборки.

7.4 Рекомендации по выбору вида регрессии

Удачность статистического исследования зависимостей зависит от того, насколько верно выбран класс F, в котором будет осуществлен поиск . Стандартных рекомендаций и методов для этого нет, но есть некоторые моменты, которые необходимо учитывать при выборе общего вида регрессии: максимальное использование априорной информации о содержательной (физической, экономической, социологической) сущности анализируемой зависимости; предварительный анализ геометрической структуры данных вида {(xi, yi)}, по которым конструируется зависимость; различные статистические приемы обработки данных, улучшающие выбор одного из нескольких вариантов.

Использование априорной информации. Необходимо продумать: будет ли f(x) монотонна, или она должна иметь один экстремум; следует ли ожидать, что f(x) стремится к константе (при x) и какова ее содержательная интерпретация; какова природа воздействия объясняющих переменных на y: аддитивная или мультипликативная; не диктует ли смысл зависимости прохождение через определенные точки.

Поясним на примере, как могут использоваться профессионально-теоретические соображения при выборе вида зависимости.

Например, в процессе изучения зависимости тормозного пути от скорости автомобиля x в момент получения сигнала об остановке можно заметить, что для автомобиля и водителя тормозной путь определяется: скоростью x , временем реакции водителя , а также тормозами автомобиля. Автомобиль успеет пройти путь: x до момента включения тормозов и после включения тормозов (согласно элементарным физическим законам) - расстояние, пропорциональное квадрату скорости, т.е. y=x+x2. Используя выборочные данные, с помощью метода наименьших квадратов можно получить, что y=0.76x+0.056x2.

Анализ геометрической структуры. При предварительном анализе характера исследуемых зависимостей изучают геометрию парных корреляционных полей. Под корреляционным полем понимают графическое представление имеющихся измерений (u1,v1),..., (uN,vN) этих переменных в плоскости (u,v). Для всевозможных пар (xj,xk) из (x(1),..., x(p),у) строятся корреляционные поля. Визуально анализируется характер вытянутости (эллипсоидально-линейный, нелинейно-монотонный, с экстремумом). В результате анализа получают формулировку нескольких рабочих гипотез об общем виде искомой зависимости.

Отметим одну простую закономерность при выборе общего вида исследуемой регрессионной зависимости, Если общий параметрический вид зависимости f(x,) угадан правильно, то результаты оценивания по различным подвыборкам мало отличаются, а при неудачном выборе - сильно отличаются.

Тема 8. Линейный регрессионный анализ

8.1 Простая линейная регрессия

Если предполагается линейная зависимость между и , то теоретическая модель задается уравнением

и называется моделью простой линейной регрессии по . Величины и являются неизвестными параметрами, а суть некоррелированные ошибки случайной переменной со средним 0 и неизвестной дисперсией , т.е.

,

Наилучшие оценки и по выборке объема N для и получаются минимизацией соответственно по и суммы квадратов отклонений

Эти оценки называются оценками наименьших квадратов и даются формулами

Заметим, что S есть мера ошибки, возникающей при аппроксимации зависимости выборочных значений (x,y) с помощью прямой. Оценки и минимизируют ошибку.

Оценкой уравнения (8.1) регрессии (или прямой наименьших квадратов) будет

так что оценка значения при есть Разница между наблюдаемым и оцененным значением при называется отклонением (или остатком)

Рисунок 8.1- Соотношение между теоретической регрессионной прямой, прямой наименьших квадратов и точками выборки.

Прямая наименьших квадратов доставляет минимум сумме квадратов отклонений Соотношение между теоретической регрессионной прямой, прямой наименьших квадратов и точками выборки можно увидеть на рисунке 8.1.

Оценка обычно называется коэффициентом регрессии, а оценка -свободным членом уравнения регрессии.

8.2 Доверительные интервалы и проверка гипотез

Чтобы сделать статистические выводы о , и , сначала необходимо оценить дисперсию , а затем описать распределение ошибки случайной переменной . Согласно теории общей линейной модели, обычная несмещенная оценка для определяется через дисперсию оценки

Положительный квадратный корень из этой величины называют стандартной ошибкой оценки. Дисперсию оценки можно также найти из таблицы дисперсионного анализа, которая во многих пакетах статистических программ выводится на печать.

Таблица 8.1 - Таблица дисперсионного анализа для простой линейной регрессии

Источник дисперсии

Сумма квадратов

Степеней свободы

Средний квадрат

F-отношение

Регрессия

Отклонение от регрессии

Полная

Остаточная сумма квадратов и остаточное число степеней свободы являются соответственно числителем и знаменателем в формуле (8.4). Обусловленная регрессией сумма квадратов получила такое название потому, что ее можно записать как функцию оцененного коэффициента регрессии , а именно

Итак, чем больше коэффициент регрессии, тем больше сумма квадратов, "обусловленная регрессией". Последняя колонка, F-отношение, может быть использована для проверки гипотез, если ошибки предполагаются нормально распределенными.

Для проверки гипотезы о том, что простая линейная регрессия по отсутствует (т.е. гипотезы против альтернативы ) мы используем F-отношение из таблицы дисперсионного анализа

Если верна гипотеза , то имеет F-распределение с и степенями свободы. P-значение есть площадь области под кривой плотности распределения справа от . Мы отвергаем , если P меньше, чем уровень значимости . Если принимается, то наилучшей оценкой при любом будет среднее значение .

Если ошибки предполагаются нормальными, можно проверить дополнительные гипотезы и построить доверительные интервалы. Для проверки , где - константа, используем статистику

где

В выводе программ регрессионного анализа величина часто называется стандартной ошибкой коэффициента регрессии. Если гипотеза верна, то имеет t-распределение Стьюдента с степенями свободы. Критическая область определяется в зависимости от вида альтернативной гипотезы по таблице t-распределения. Соответственно 100(1-)%-ый доверительный интервал для есть

Для проверки гипотезы , где -константа, используем статистику

где

В выводе программ регрессионного анализа величина часто называется стандартной ошибкой свободного члена. Для статистика имеет t-распределение Стьюдента с степенями свободы. Соответствующий 100(1-)%-ый доверительный интервал для есть

Приведем теперь два доверительных интервала, основанных на оценке . Если в (8.3) интерпретируется как оценка единственного значения при любом , то 100(1-)%-ый доверительный интервал для определяется выражением

Если, с другой стороны, в (8.3) интерпретируется как оценка среднего значения при заданном , то 100(1-)%-ый доверительный интервал есть

Выбор доверительного интервала зависит от того, как используется оценка исследователем. Заметим, что, когда удаляется от , доверительный интервал увеличивается, т.е. наша оценка становится менее точной. Кроме того, если N и велики, то выражение (8.5) аппроксимируется "быстрым" доверительным интервалом . Поэтому s действительно можно назвать "стандартной" ошибкой оценки .

8.3 Множественная линейная регрессия

Множественная линейная регрессионная модель имеет вид

Задача множественного линейного регрессионного анализа состоит в нахождении и дисперсии случайной ошибки по данным выборки (4.1) в предположении, что 1) структура регрессионного уравнения известна и близка к линейной (8.6); 2) внешний шум (случайная ошибка) имеет распределение и не коррелирована с независимыми переменными; 3) ошибки регистрации малы.

Оценки ищутся с помощью метода наименьших квадратов путем решения системы линейных уравнений

,

В уравнении (8.6) некоторые независимые переменные X могут быть функциями других переменных. Например, - есть модель множественной линейной регрессии с и . В частности, если , то получается модель полиномиальной регрессии

Линейность здесь подразумевается относительно параметров , но не по отношению к независимым переменным. Так, не является линейной функцией параметров.

Тема 9. Нелинейная, непараметрическая и пошаговая регрессия

9.1 Итерационные методы поиска оценок наименьших квадратов для параметров регрессии

Если на этапе параметризации модели было установлено, что искомая функция регрессии не задается параметрическим семейством линейных функций, то линейная модель может рассматриваться в качестве первого приближения к истинной модели, или иногда искомую модель можно привести к линейной с помощью преобразования. Однако имеется большое число ситуаций, для которых линейная модель непригодна (например, когда зависимость выражается суммой экспоненциальных или тригонометрических функций), а простое преобразование переменных, приводящее к ней, отсутствует. В этом случае используется модель нелинейной регрессии.

Любая модель, вид которой не совпадает с уравнением (8.6) называется моделью нелинейной регрессии

,

где - нелинейная функция параметров , а - некоррелированные ошибки.

Для нелинейной модели (9.1) решение системы

уже нельзя представить в явном виде. Поэтому используются итерационные методы для численного определения . В математическом обеспечении практически любой современной ЭВМ имеются многочисленные стандартные алгоритмы и программы для решения задач нелинейного программирования (9.2), причем наибольшее распространение получили итерационные алгоритмы: квазиградиентного типа; градиентного спуска; метод Ньютона и его модификации.

При вычислительной реализации метода наименьших квадратов в нелинейном (по оцениваемым параметрам) случае приходится исследовать вопросы существования и единственности. В лучшем случае описанные методы оптимизации приводят к локальному минимуму критериальной функции.

Процесс последовательного приближения останавливается, если различие в двух соседних приближениях становится пренебрежимым, т.е.

для некоторого заранее заданного малого или при стабилизации остаточной суммы квадратов.

Для поиска численного приближения оценок наименьших квадратов параметров нелинейной регрессии с помощью итерационных алгоритмов необходимо задать начальные значения параметров , а также верхние и нижние границы их значений.

Дадим краткую характеристику основных итерационных алгоритмов.

Итерационные алгоритмы позволяют на каждой следующей итерации ((s+1)-й) получать приближенные значения искомых оценок параметров, лежащие «ближе» к истинному решению соответствующей оптимизационной задачи, чем значения предыдущей итерации , т.е. , где s- номер итерации; - вектор, определяющий направление движения на s-ой итерации; - длина шага.

Если движение осуществляется в направлении под острым углом к антиградиепнту оптимизируемой функции, то алгоритм относится к классу алгоритмов квазиградиентного типа.

Если движение в итерационной процедуре осуществляется непосредственно в направлении антиградинта, то процедуру относят к алгоритмам градиентного спуска. Подобные алгоритмы обеспечивают (при определенных ограничениях на минимизируемую функцию) сходимость последовательности со скоростью сходимости геометрической прогрессии (линейная сходимость). Из-за того, что реальная скорость сходимости таких алгоритмов резко снижается при приближении к предельному значению , градиентный спуск целесообразно применять лишь на начальных этапах минимизации, используя найденные в результате сравнительно небольшого числа итераций величины в качестве начальных приближений для более сложных методов обладающих большей скоростью сходимости.

В методе Ньютона значения неизвестных параметров на каждой следующей итерации находятся из условия минимума квадратичного полинома, аппроксимирующего исходную критериальную функцию в окрестности точки. При этом соответствующая процедура будет менее чувствительна к выбору начального приближения (в частности, будет менее подвержена эффекту «раскачки» при его неудачном выборе), если использовать ее вариант с регулировкой шага. При определенных условиях метод Ньютона обеспечивает квадратичную скорость сходимости последовательности к .

Используя линейную (по параметрам) аппроксимацию исследуемой функции регрессии в окрестности точки , можно прийти к модификации метода Ньютона - методу Ньютона-Гаусса. Он существенно проще в вычислительном плане, однако бывает слишком чувствительным к эффекту слабой обусловленности используемых в нем матриц.

Первостепенное значение для скорости сходимости используемых итерационных процедур решения оптимизационной задачи метода наименьших квадратов имеет удачность выбора начального приближения . Для реализации этого выбора используется ряд приемов: «поиск на сетке»; вспомогательное (линеаризующее) преобразование модели; разбиение имеющейся выборки на подвыборки; разложение регрессионной функции в ряд Тейлора. Общего правила, пригодного для всех возможных нелинейных функций , не существует. Каждый раз приходится искать свое решение. Рассмотрим некоторые способы нахождения грубых начальных приближений, которые на практике могут служить отправной точкой поиска удовлетворительных приближений в конкретной задаче.

9.2 Поиск начального приближения для итерационных процедур

Особенно эффективен этот метод при небольшом числе собственно нелинейных параметров. Часто функции устроены так, что при фиксации значений одних параметров (которые и называем собственно нелинейными параметрами) остальная часть параметров становится линейной. Задаваясь тогда нижней и верхней границей для нелинейных параметров, с некоторым шагом можно устроить перебор вариантов на полученной сетке значений этих собственно нелинейных параметров и выявить ту линейную регрессию, которая приводит к минимальной сумме.

В качестве примера рассмотрим функцию:

.

Здесь собственно нелинейным параметром будет . Допустим, известно, что . Пусть h - шаг для параметра . Вычислим линейных регрессий

,

где и найдем для каждой из них минимальную сумму квадратов. Наименьшей из них соответствует оптимальное начальное приближение. В принципе шаг h, от которого зависит «густота» сетки, может варьироваться, так что за счет уменьшения величины h значения параметров могут быть найдены с любой точностью.

9.3 Непараметрический подход в регрессионном анализе

На практике не всегда удается найти подходящий аналитический вид регрессионной зависимости. Использование стандартных классов функций может привести к заметной систематической ошибке. Для избежания этого используют методы локального оценивания регрессии (так называемые непараметрические) или же разбивают область возможных значений на несколько частей и строят свое аналитическое описание регрессионной зависимости.

Классический подход в регрессионном анализе опирается на: предположение о том, что M(y\x) как функция, представима в виде параметрического семейства f(x,) и требование постоянства дисперсии случайной ошибки. Если эти допущения нарушаются, то меньшее смещение при оценивании f(x) дает непараметрический подход, в котором первое предположение заменяется на более слабое: f(x) - непрерывная и гладкая функция; а второе - на требование о непрерывности .

Простейшая непараметрическая оценка строится в окрестности точки x0 при предположении, что f(x) в окрестности точки x0 постоянна. При построении оценки f(x0) используется не вся выборка, а только ее часть: совокупность пар (xi,yi), для которых xiO(x0):

или ее обобщенный вариант:

где ,

b - параметр масштаба, задающий окрестность O(x0);

- функция, стремящаяся к 0 при бесконечно больших значениях аргумента. Например,

=exp(-u2/2), =1/(1+ u2).

9.4 Пошаговая регрессия

Во многих случаях применения регрессионного анализа экспериментатор не имеет достаточной информации о порядке независимых переменных x(1),..., x(p) по их важности для предсказания независимой переменной Y. Проверка гипотезы H0: i=0 для переменной x(i), i=1,..., p, также не дает такой информации.

Поскольку статистикой, измеряющей эффективность набора независимых переменных как предикторов, служит множественный коэффициент корреляции, одно из решений упомянутой выше проблемы сводится к регрессии Y по всем возможным подмножествам независимых переменных и выбору наилучшего подмножества согласно следующей процедуре.

Среди всех подмножеств переменных размерности k, k = 1,..., p, выбирается подмножество Sk, которому соответствует наибольшее значение множественного коэффициента корреляции. Для подмножества S1 проверяется гипотеза о том, что добавление оставшихся p-1 переменных не улучшает предсказание Y. Если эта гипотеза отвергается, то проверяется аналогичная гипотеза о том, что добавление в подмножество S2 оставшихся р-2 переменных не улучшает предсказание Y. Такая проверка последовательно применяется до тех пор, пока для некоторого подмножества Sm , 1 m p, не принимается гипотеза об отсутствии улучшения предсказания Y при добавлении p-m оставшихся переменных. Подмножество Sm является наилучшим подмножеством переменных для предсказания Y, поскольку: a) ему соответствует наибольшее значение коэффициента множественной корреляции среди всех подмножеств размерности m; б) добавление оставшихся p-m переменных не улучшает значимо предсказание Y.

Если число независимых переменных велико, такой подход для определения наилучшего подмножества практически бесполезен даже при применении компьютеров нового поколения. Когда число переменных равно p, имеется 2p-1 регрессионных уравнений.

Одним из решений является пошаговая регрессия (прямая), когда независимые переменные одна за другой включаются в подмножество согласно предварительно заданному критерию. В то же время некоторая переменная может быть заменена другой переменной, не входящей в набор, либо удалена из него. Совокупность критериев, определяющих, какие переменные включать, заменять и удалять, называется пошаговой процедурой.

С помощью пошаговой процедуры получается упорядоченный список предикторов. Например, если p=5, такой список может иметь вид X2, X5, X1, X4 и X3. Для определения «наилучшего» подмножества из этого списка выбираются m p первых переменных так, чтобы они возможно лучше предсказывали Y и их число m было по возможности меньше.

Литература

1 Айвазян, С.А.. Прикладная статистика: Классификация и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков. - М.: Финансы и статистика. 1989. - 605с.

2 Айвазян, С.А. Прикладная статистика: основы моделирования и первичная обработка данных / С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин. - М.: Финансы и статистика. 1983. - 472c.

3 Айвазян, С.А. Прикладная статистика: исследование зависимостей / С.А Айвазян, И.С. Енюков, Л.Д. Мешалкин. - М.: Финансы и статистика. 1985. - 488с.

4 Афифи, А. Статистический анализ. Подход с использованием ЭВМ / А.Афифи, С.-Эйзен.-М.: Мир.1982. -405с.

5 Мандель, И.Д. Кластерный анализ / И.Д. Мандель. - М.: Финансы и статистика, 1988. - 172с.

6 Мелник, М. Основы прикладной статистики / М. Мелник. - М.: Энергоатомиздат. 1983. - 416 с.

7 Налимов, В.В. Теория эксперимента / В.В. Налимов - М.: Наука, 1971. - 207 с.

8 Налимов, В.В. Статистические методы планирования экспериментальных экспериментов / В.В. Налимов, Н.А. Чернова - М.: Наука, 1965. - 340 с.

9 Новые идеи в планировании эксперимента./ Под ред. В.В. Налимова. - М.: Наука, 1969. - 334 с.

10 Пособие для лабораторных занятий по спецкурсу «Обработка экспериментальных данных на ЭВМ» (для специальностей Н.01.01 и Н.01.08) / И.В. Максимей, Н.Б. Осипенко, А.Н. Осипенко. - Гомель: ГГУ им.Ф.Скорины, 1999. - 54с.

11 Применение математических методов и ЭВМ. Планирование и обработка результатов эксперимента. - Мн.: Вышэйшя школа, 1989. - 218 с.

Размещено на Allbest.ru

...

Подобные документы

  • Получение функции отклика показателя качества Y2 и формирование выборки объемом 15 и более 60. Зависимость выбранного Y от одного из факторов Х. Дисперсионный анализ и планирование эксперимента. Проведение корреляционного и регрессионного анализа.

    курсовая работа [827,2 K], добавлен 19.06.2012

  • Понятие планирования эксперимента, его стадии и этапы развития. Математическое планирование факторного эксперимента в научных исследованиях, порядок и правила представления результатов. Требования к факторам и параметрам эксперимента, оценка ошибок.

    лекция [220,4 K], добавлен 13.11.2009

  • Проведение регрессионного анализа опытных данных в среде Excel. Построение графиков полиномиальной зависимости и обобщенной функции желательности Харрингтона. Определение дисперсии коэффициентов регрессии. Оценка частных откликов по шкале желательности.

    контрольная работа [375,6 K], добавлен 21.01.2014

  • Контроль информации на наличие выбросов в массиве. Описательная статистика, вывод итогов. Матрица коэффициентов парной корреляции. Количественный критерий оценки тесноты связи. Регрессионный анализ статистических данных. Анализ качества модели регрессии.

    контрольная работа [5,7 M], добавлен 14.12.2011

  • Сущность и особенности планирования эксперимента, кодирование исходных факторов. Составление плана эксперимента для определения зависимости концентрации меди от расхода шихты, содержания кислорода в дутье. Выбор математической модели объекта исследования.

    курсовая работа [1,8 M], добавлен 11.12.2012

  • Поиск несмещенных оценок математического ожидания и для дисперсии X и Y. Расчет выборочного коэффициента корреляции, анализ степени тесноты связи между X и Y. Проверка гипотезы о силе линейной связи между X и Y, о значении параметров линейной регрессии.

    контрольная работа [19,2 K], добавлен 25.12.2010

  • Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.

    курсовая работа [440,3 K], добавлен 27.07.2015

  • Определение воспроизводимости эксперимента по критерию Кохрина и коэффициентов линейной модели. Проверка адекватности модели при помощи критерия Фишера. Значимость коэффициентов регрессии и расчеты в автоматическом режиме в программе Statgraphics plus.

    лабораторная работа [474,1 K], добавлен 16.06.2010

  • Понятие корреляционной связи. Связь между качественными признаками на основе таблиц сопряженности. Показатели тесноты связи между двумя количественными признаками. Определение коэффициентов уравнения линейной регрессии методом наименьших квадратов.

    контрольная работа [418,7 K], добавлен 22.09.2010

  • Изучение показателей качества конструкционного газобетона как случайных величин. Проведение модульного эксперимента и дисперсионного анализа с целью определения достоверности влияния факторов на поведение выбранных показателей качества данной продукции.

    курсовая работа [342,3 K], добавлен 08.05.2012

  • Планирование эксперимента как математико-статистическая дисциплина. Поиск оптимальных условий и правил проведения опытов с целью получения информации об объекте с наименьшей затратой труда. Теория корреляционного исследования, меры корреляционной связи.

    курсовая работа [1,8 M], добавлен 03.08.2014

  • Приведение логарифмированием уравнения к линейному виду. Расчет средних значений арифметических переменных и коэффициентов регрессии. Определение средних квадратичных отклонений. Корреляционный анализ экспериментальных данных с помощью критерия Стьюдента.

    контрольная работа [312,7 K], добавлен 10.03.2015

  • Общие сведения о планировании эксперимента. Анализ методики составления планов эксперимента для моделей первого и второго порядков. Положения о планировании второго порядка. Ортогональные и рототабельные центральные композиционные планы второго порядка.

    реферат [242,7 K], добавлен 22.06.2011

  • Построение корреляционного поля зависимости между y и x1, определение формы и направления связи. Построение двухфакторного уравнения регрессии y, x1, x2, оценка показателей тесноты связи. Оценка модели через F-критерий Фишера и t-критерий Стьюдента.

    лабораторная работа [1,0 M], добавлен 23.01.2011

  • Оценка тесноты связи с помощью показателей корреляции и детерминации. Построение поля корреляции и расчёт параметров линейной регрессии. Результаты вычисления функций и нахождение коэффициента детерминации. Регрессионный анализ и прогнозирование.

    курсовая работа [1,1 M], добавлен 07.08.2011

  • Аппроксимация данных с учетом их статистических параметров. Математическая постановка задачи регрессии, ее принципы. Виды регрессии: линейная и нелинейная, полиномиальная. Сглаживание данных и предсказание зависимостей. Реализация задач в Mathcad.

    реферат [167,8 K], добавлен 12.04.2009

  • Связь между случайными переменными и оценка её тесноты как основная задача корреляционного анализа. Регрессионный анализ, расчет параметров уравнения линейной парной регрессии. Оценка статистической надежности результатов регрессионного моделирования.

    контрольная работа [50,4 K], добавлен 07.06.2011

  • Метод наименьших квадратов; регрессионный анализ для оценки неизвестных величин по результатам измерений. Приближённое представление заданной функции другими; обработка количественных результатов естественнонаучных опытов, технических данных, наблюдений.

    контрольная работа [382,4 K], добавлен 16.03.2011

  • Составление матрицы плана факторного эксперимента и разработка матрицы его базисных функций. Написание алгебраического полинома плана и корреляционный анализ результатов эксперимента. Функция ошибки и среднеквадратичное отклонение регрессионной модели.

    контрольная работа [698,2 K], добавлен 13.06.2014

  • Понятие, задачи и основные цели регрессионного анализа. Прогнозирование, основанное на использовании моделей временных рядов. Определение степени детерминированности вариации критериальной переменной предикторами. Ошибки, возникающие при измерении данных.

    контрольная работа [785,9 K], добавлен 13.11.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.