Регрессионный анализ

Применение регрессионного анализа для моделирования и изучения данных в математической статистике. Оценивание коэффициентов регрессии с помощью метода наименьших квадратов. Составление алгоритма регрессионного анализа линейного уравнения в Mathcad.

Рубрика Математика
Вид курсовая работа
Язык русский
Дата добавления 12.12.2014
Размер файла 213,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Министерство образования и науки РФ

Государственное образовательное учреждение высшего профессионального образования

"национальный исследовательский Томский политехнический университет"

Институт природных ресурсов

Кафедра геологии и разработки нефтяных месторождений

Курсовая работа

на тему "Регрессионный анализ"

Выполнил: студент гр. 2Б 15

К.И. Шелепов

Руководитель: доц. каф. ПМ, к. ф.-м. н.

Г.Е. Шевелев

Томск 2014

Оглавление

    • Введение
      • 1. Описание задачи
      • 2. Регрессионный анализ
      • 3. Регрессионные модели
      • 4. Метод наименьших квадратов
      • 5. Оценивание коэффициентов регрессии с помощью МНК
      • 6. Регрессионный анализ в Mathcad
      • 7. Программная реализация алгоритма решения задачи
      • Список используемой литературы
      • Приложение. Список обозначений
      • Введение
      • Термин "регрессия" был введён Фрэнсисом Гальтоном в конце 19-го века. Гальтон обнаружил, что дети родителей с высоким или низким ростом обычно не наследуют выдающийся рост и назвал этот феномен "регрессия к посредственности". Сначала этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона этот термин стали использовать и в статистике.
      • Аппроксимация функций: непрерывная функция приближает непрерывную или дискретную функцию
      • В статистической литературе различают регрессию с участием одной свободной переменной и с несколькими свободными переменными - одномерную и многомерную регрессию. Предполагается, что мы используем несколько свободных переменных, то есть, свободная переменная - вектор . В частных случаях, когда свободная переменная является скаляром, она будет обозначаться . Различают линейную и нелинейную регрессию. Если регрессионнуя модель не является линейной комбинацией функций от параметров, то говорят о нелинейной регрессии. При этом модель может быть произвольной суперпозицией функций из некоторого набора. Нелинейными моделями являются, экспоненциальные, тригонометрические и другие (например, радиальные базисные функции или персептрон Розенблатта), полагающие зависимость между параметрами и зависимой переменной нелинейной.
      • Различают параметрическую и непараметрическую регрессию. Строгую границу между этими двумя типами регрессий провести сложно. Сейчас нет существует общепринятого критерия отличия одного типа моделей от другого. Например, считается, что линейные модели являются параметрическими, а модели, включающие усреднение зависимой переменной по пространству свободной переменной - непараметрическими. Пример параметрической регрессионной модели: линейный предиктор, многослойный персептрон. Примеры смешанной регрессионной модели: функции радиального базиса. Непараметрическая модель - скользящее усреднение в окне некоторой ширины. В целом, непараметрическая регрессия отличается от параметрической тем, что зависимая переменная зависит не от одного значения свободной переменной, а от некоторой заданной окрестности этого значения.
      • Интерполяция: функция задана значениями узловых точек
      • Есть различие между терминами: "приближение функций", "аппроксимация", "интерполяция", и "регрессия". Оно заключается в следующем.
      • Приближение функций. Дана функция дискретного или непрерывного аргумента. Требуется найти функцию из некоторого параметрическую семейства, например, среди алгебраических полиномов заданной степени. Параметры функции должны доставлять минимум некоторому функционалу, например,
      • Термин аппроксимация - синоним термина "приближение функций". Чаще используется тогда, когда речь идет о заданной функции, как о функции дискретного аргумента. Здесь также требуется отыскать такую функцию , которая проходит наиболее близко ко всем точкам заданной функции. При этом вводится понятие невязки - расстояния между точками непрерывной функции и соответствующими точками функции дискретного аргумента.
      • Интерполяция функций - частный случай задачи приближения, когда требуется, чтобы в определенных точках, называемых узлами интерполяции совпадали значения функции и приближающей ее функции . В более общем случае накладываются ограничения на значения некоторых производных . То есть, дана функция дискретного аргумента. Требуется отыскать такую функцию , которая проходит через все точки . При этом метрика обычно не используется, однако часто вводится понятие "гладкости" искомой функции.
      • Регрессия и классификация тесно связаны друг с другом. Термин алгоритм в классификации мог бы стать синонимом термина модель в регрессии, если бы алгоритм не оперировал с дискретным множеством ответов-классов, а модель - с непрерывно-определенной свободной переменной.

1. Описание задачи

Для характеристики зависимости у от х рассчитать параметры функции равносторонней гиперболы.

Исходные данные:

По семи территориям Уральского района За 199Х г. известны значения двух признаков.

Район

Расходы на покупку продовольственных товаров в общих расходах, %, у

Среднедневная заработная плата одного работающего, руб., х

Удмуртская респ.

68,8 + N/2

45,1 - K/2

Свердловская обл.

61,2 + M/2

59,0 - N/2

Башкортостан

59,9 + K/2

57,2 - M/2

Челябинская обл.

56,7 + N/2

61,8 - K/2

Пермская обл.

55,0 + K/2

58,8 - N/2

Курганская обл.

54,3 + M/2

47,2 - K/2

Оренбургская обл.

49,3 + K/2

55,2 - M/2

N=3; M=5; K=3. Следовательно,

X

Y

43.6

70.3

57.5

63.7

54.7

61.4

60.3

58.2

57.3

56.5

45.7

56.8

52.7

50.8

2. Регрессионный анализ

Регрессионный анализ - метод моделирования измеряемых данных и изучения их характеристик. Данные состоят из пар значений переменной отклика и объясняющей переменной. Регрессионная модель - это функция независимой переменной и параметров с добавленной случайной переменной. Показатели модели настраиваются так, чтобы она наилучшим образом приближала данные. В большинстве случаев, среднеквадратичная ошибка, то есть сумма квадратов разности значений модели и зависимой переменной для всех значений независимой переменной в качестве аргумента является критерием качества приближения (целевой функцией).

Рассматриваемый нами анализ - это неотъемлемая часть математической статистики. Полагается, что переменная отклика - это сумма значений некоторой модели, а также СВ. Что касается характера распределения этой величины, то делаются предположения, которые называются гипотезой порождения данных. Для опровержения или подтверждения данной гипотезы осуществляются статистические тесты (анализ остатка). Считают, что независимая переменная является безошибочной. В основном, регрессионный анализ применяется для прогноза, тестирования гипотез, разбора временных рядов и обнаружения скрытых взаимосвязей в данных.

Стандартная процедура регрессионного анализа получила широкое практическое применение, поскольку она справедлива при некоторых достаточно часто выполняемых предположениях.

Прежде всего, ограничим рассматриваемые модели классом линейных, т.е. таких, что выходная характеристика представима в виде

, (2.1)

где - номер наблюдения, fiu - произвольные функции факторов, не включающие неизвестные коэффициенты (регрессоры).

В классическом регрессионном анализе делают следующие основные предположения:

1. Величина есть случайная величина. В силу этого и - тоже случайная величина с распределением того же вида, что и что непосредственно вытекает из равенства

,

где - неслучайная величина.

2. Случайная величина имеет нулевое математическое ожидание, т.е.

при .

Это означает, что средние отклонения от константы равны нулю, что легко выполнимо. Поэтому данному условию можно подчинить все реальные наблюдения. Действительно, допустим, что

.

Тогда

.

Значит, наблюдения можно записать так:

,

где

,

и вместо случайного возмущения используется , для которого предположение 2 выполняется. Замена на означает, что к "истинному" значению отклика прибавляется константа , которая вычитается из среднего значения случайного возмущения. Поскольку постоянна, при любых повторных - х опытах она действует на отклик одинаково. Поэтому нет никакого смысла отделять её от .

3. Значения случайной величины не коррелированны и имеют одинаковые дисперсии , т.е.

при , (2.2)

при . (2.3)

Если помнить, что

и - константа, нетрудно увидеть - то же условие выполняется и для отклика:

при .

Предположение (2.2) часто не выполняется. Это имеет особое значение для случайных процессов и временных рядов, где наблюдения статистически зависимы в соседних временных интервалах. Только использование моделей распределённого лага и авторегрессии показывает, что наблюдения отклика в i-й момент зависят от его значений в предыдущие моменты времени.

Вместе с тем существует очень много реальных задач, для которых условие (2.2) выполняется. Таковы почти все исследования статики производственных процессов, когда результаты предыдущих опытов не оказывают никакого влияния на последующие.

Условие (2.3) часто называют условием однородности или гомоскедастичности наблюдений. Если же оно не выполняется, наблюдения неоднородны (гетероскедастичны).

Однородность наблюдений означает, что интенсивность случайных возмущений не изменяется ни при изменениях факторов, ни во времени, в течение которого делаются наблюдения. Данное условие выполняется очень часто, поскольку обычно и условия проведения эксперимента, и его точность остаются неизменными при различных значениях факторов. Однако встречаются и такие случаи, когда наблюдения гетероскедастичны. Иногда это можно установить из содержательных соображений, если известно, что дисперсия случайного возмущения некоторым образом связана с математическим ожиданием отклика.

4. Случайная величина имеет нормальное распределение.

Это предположение выполняется очень часто. Причина заключается в том, что согласно центральной предельной теореме влияние множества случайных величин с примерно одинаковыми дисперсиями эквивалентно влиянию единственной случайной величины с нормальным законом распределения. На практике мы нередко сталкиваемся именно с такими условиями. На исследуемый объект влияет множество случайных возмущений с относительно слабым воздействием. Их совокупное действие гораздо сильнее и соответствует действию одной случайной величины с нормальным распределением.

Для формулировки дальнейших предположений воспользуемся следующей - матрицей:

Назовём F матрицей регрессоров.

5. Матрица F не случайна.

Это означает, что её элементы - известные числа, точно заданные исследователем. Предположение нарушается, когда факторы устанавливаются на заданные уровни или измеряются с ошибками. Однако для исследователя гораздо интереснее получить оценки коэффициентов регрессии и оценки их статистических свойств, т.е. при заданном распределении ошибок измерения или ошибок в задании уровней факторов.

Нарушение предположения 5 происходит и в случае, когда исследователь хочет распространить выводы на более широкий класс значений факторов , чем позволяют его данные.

6. На значения параметров в модели (2.1) не налагается никаких ограничений, т.е. предварительно об их значениях ничего не известно, и при вычислениях они могут получиться какими угодно. В некоторых случаях есть априорная информация о значениях параметров , которую можно эффективно использовать для улучшения оценок.

7. Ранг матрицы F равен числу коэффициентов в модели , т.е.

.

Предположение 7 необходимо для реализации процедуры вычисления коэффициентов модели. Заранее ясно, что оно нарушено, если число опытов меньше, чем число коэффициентов , но нарушение данного условия может быть налицо, и если , достаточно, чтобы между некоторыми столбцами матрицы F существовала линейная зависимость.

Классическим регрессионным анализом будем называть процедуру оценивания регрессионных коэффициентов и статистический анализ модели, когда выполняются все семь предположений.

3. Регрессионные модели

регрессия моделирование статистика mathcad

Главная задача, которая решается с помощью регрессионного анализа, - создание математических моделей некоторых объектов или явлений на основе экспериментов или наблюдений. Эти модели представляют собой определённые математические соотношения между показателями работы объекта или характеристиками наблюдаемого явления и обусловливающими их величинами . Будем называть зависимыми переменными, выходными характеристиками или откликами объекта, а - входными переменными, независимыми характеристиками или факторами. Для одного и того же объекта можно создать множество моделей:

причём каждая описывает лишь один из показателей, интересующих исследователя. В зависимости от целей исследования один и тот же объект с одинаковыми показателями может описываться различными моделями.

Выбор подходящей модели - это в значительной степени искусство, и при определении её вида часто решающую роль играют опыт и знания исследователя. Модель всегда отражает данное явление с некоторым приближением.

Есть и ещё одна причина, по которой модель не отражает протекающее явление абсолютно точно. Всегда есть величины, которые влияют на результаты, но не измеряются во время эксперимента. Часть из них имеет систематический характер и в силу этого может с течением времени вызвать изменения коэффициентов модели. Другая же часть меняется случайным образом, подчиняясь некоторому закону распределения. Такие величины ещё называют случайными возмущениями. В силу их действия повторные опыты при одних и тех же значениях факторов будут давать различные значения зависимой переменной. Модель не может точно учесть влияние случайных возмущений в каждом отдельном измерении, она показывает лишь некоторые усреднённые характеристики.

Следовательно, нет оснований говорить об "истинной" модели в полном смысле слова. Тем не менее, модели с успехом используются на практике. Обычно под "истинным" значением понимают условное математическое ожидание зависимой переменной при заданных значениях факторов:

,

где Е - знак математического ожидания.

Это равенство называется уравнением регрессии и показывает изменение среднего значения отклика объекта при изменениях факторов. Фактически измеряемая выходная характеристика есть

где - случайное возмущение. Чаще всего принимают, что действие на объект множества случайных возмущений эквивалентно действию одного единственного возмущения с нормальным распределением, нулевым математическим ожиданием и дисперсией . Это предположение выполняется достаточно хорошо для многих практических задач, в которых все случайные возмущения оказывают воздействия, соизмеримые одно с другим. Основанием этому служит центральная предельная теорема теории вероятностей.

Существует большое число различных регрессионных моделей, определяемых конкретным видом функции , где всегда присутствуют некоторые коэффициенты , которые надо определять по экспериментальным данным. В зависимости от того, как эти коэффициенты входят в уравнение регрессии, модели делятся на линейные и нелинейные по параметрам.

Например, модель

- нелинейна, а

- линейна.

Под линейной обычно понимают модель, линейную по параметрам. Например, модель

- линейна

по отношению к коэффициентам , не нелинейна по отношению к факторам.

Нередко регрессионные модели представляют полиномами по степеням факторов. Подобное представление опирается на тот факт, что отклики - часто непрерывные функции от факторов и их можно разложить в ряд Тейлора.

Ясно, что все функции, разложимые в ряд Тейлора, можно аппроксимировать полиномами. Это важно отметить, так как полиномами трудно аппроксимировать функции с разрывами, т.е. не имеющие производных. Полиномы не годятся для описания явлений со скачкообразными изменениями выходной характеристики при изменении факторов, функций с гистерезисом, релейных функций и т.п.

Когда исследуется периодический процесс, его наилучшее описание можно получить разложением в ряд Фурье:

, (1.1)

где - частота, меняющаяся в пределах . Такие модели используются в электротехнике, геофизике, океанологии, биологии, медицине и других прикладных областях.

Для описания временных характеристик используется ещё так называемая модель распределённого лага:

. (1.2)

Это выражение предполагает, что измерения делаются в дискретные моменты времени, отстоящие друг от друга на интервал . Через обозначена выходная характеристика в -й момент времени, т.е.

,

а - та же самая величина, измеренная на тактов раньше; - значение фактора, измеренное с запаздыванием на тактов по отношению к текущему i-му моменту.

В уравнении (1.1) записана одна выходная характеристика, но аналогичные модели можно строить и когда в исследовании участвует несколько откликов. Если для случайных процессов вход явно не определён, то пользуются так называемой моделью авторегрессии:

. (1.3)

Моделью авторегрессии, например, описывается изменение числа пассажиров на железнодорожной магистрали через определённое время. Отклик может рассматриваться и как функция некоторого фактора (нескольких факторов), заданного через определённые промежутки времени:

.

Представление всех моделей в единой форме удобно при организации вычислительных процедур регрессионного анализа, однако, аналогия между моделями разных видов отнюдь не полная. Например, модели (1.2) и (1.3) описывают зависимость выходной характеристики в i-й момент от её значений в предыдущие моменты, а это предполагает зависимость между наблюдениями во времени, которая влечёт за собой значительные изменения как в вычислительной процедуре, так и в статистическом анализе результатов.

Многие нелинейные по параметрам модели линеаризуемы с помощью подходящего преобразования переменных. В биологии, например, используется так называемая логистическая функция, показывающая зависимость доли погибших вредных насекомых

- число погибших насекомых, - общее число насекомых при заданной дозе инсектицида. Логистическая зависимость имеет вид

и говорит о том, что очень маленькие и очень большие дозы яда не приводят к существенному изменению доли погибших насекомых (при очень малых дозах гибнут самые не жизнестойкие, а при очень больших - все).

Если к логистической зависимости применить преобразование

,

то, как легко проверить, она примет вид

,

а эта зависимость линейна относительно искомых параметров.

В моделях, которые рассматривались до сих пор, предполагалось, что все независимые переменные могут меняться в заданных интервалах непрерывно. Однако в некоторых задачах часть факторов имеет качественный характер и может принимать только определённые дискретные значения. В этом случае в модель вводят так называемые индикаторные переменные, показывающие, имел ли некоторый фактор в определённом наблюдении заданное значение или нет. Фактор с качественными уровнями можно представить индикаторными переменными, принимающими только значения 0 и 1.

Примером послужит задача построения модели количества газовых пор в сварном шве при аргонодуговой сварке никеля в зависимости от состава покрытия электрода (криолит - , титан - , алюминий -, фтористый натрий - ), а также от условий сварки - времени горения - и длины дуги - Длина дуги - качественный фактор, который может принимать только два значения: длинная дуга () и короткая дуга . Линейная по параметрам и факторам модель имеет вид:

,

причём переменная равна 1 в экспериментах с длинной дугой и 0 - с короткой.

Другой пример индикаторной переменной даёт исследование выхода химической реакции в зависимости от температуры (), давления () и pH раствора (). Опыты проводятся с сырьём, поставляемым фирмами А, В и С. Фирму-поставщик можно рассматривать как фактор с качественными уровнями, принимающими значения. Его влияние можно представить двумя индикаторными переменными и . Вот линейная по параметрам и факторам модель для этого случая:

.

Если используется сырьё фирмы А, то в этом уравнении полагаем =1, =0, для сырья фирмы В - =0, =1, а для фирмы С - =0 и =0.

В данном случае нельзя было бы выбрать для фирмы С отдельную индикаторную переменную (), поскольку такой выбор всегда приводил бы к равенству

,

а это - линейная зависимость между переменными, наличие которой приводит к серьёзным вычислительным трудностям.

Индикаторные переменные могут участвовать и в более сложных моделях. Если, например, предполагается, что действие факторов (температура, давление, pH раствора на выход у) зависит и от взаимного влияния между факторами, модель может принять вид:

Могут использоваться и некоторые другие модели. Одни удобнее при описании данных наблюдения определённых явлений, другие дают известные преимущества при обработке данных.

4. Метод наименьших квадратов

Поскольку результаты наблюдений суть случайные величины, получить "истинные" значения коэффициентов из модели (2.1) нельзя. Вместо этого на основе данных таблицы 1 можно получить их оценки . Если речь идёт о модели (2.1), то она принимает вид:

. (3.1)

Величина в (3.1) называется предсказанным значением отклика.

В регрессионном анализе для получения оценок коэффициентов модели (2.1) используется метод наименьших квадратов.

5. Оценивание коэффициентов регрессии с помощью МНК

Пусть на основе данных таблицы 1 нужно найти такие оценки коэффициентов регрессии, которые минимизируют сумму Q, определённую в (3.2). В силу предположения П.6 на возможные значения оценок не наложены никакие ограничения, поэтому минимум получим, приравняв к нулю производные по неизвестным оценкам . Но сначала подставим (3.1) в (3.2):

.

После дифференцирования этого выражения по искомым оценкам и приравнивания нулю первых производных получаем систему уравнений:

Константы -2, входящие во все уравнения, не играют роли, ибо для равенства нулю произведения достаточно, чтобы равными нулю оказались соответствующие суммы. Поэтому полученная система сводится к виду:

Полученная система линейна относительно искомых оценок , а число уравнений в ней равно числу неизвестных коэффициентов k модели. Она называется системой нормальных уравнений.

Запись системы нормальных уравнений можно упростить, если положить:

.

Очевидно , поскольку порядок перемножения функций под знаком суммы не важен. В новых обозначениях система нормальных уравнений примет такой вид:

В дальнейшем мы воспользуемся матричной записью. Обозначим - матрицу величин буквой G, - вектор оценок искомых коэффициентов буквой b, - вектор правой части системы буквой Z. Тогда

Важно заметить, что G - симметричная матрица, так как .

Вот матричная запись системы нормальных уравнений:

.

Матрица G называется информационной матрицей. Её можно представить через введённую в 2 матрицу регрессоров F:

G=FТF.

Это утверждение проверяется непосредственно транспонированием F и перемножением FТ и F. Точно так же проверяется, что

Z= FTy.

Значит, систему нормальных уравнений можно переписать так

FТF b= FTy. (3.3)

Это чаще всего встречающаяся форма записи нашей системы.

Если выполнено предположение П.7, т.е. ранг F равен k, то ранг FТF тоже равен k, так как из теории матриц известно, что произведение матриц FТ и F есть положительно определённая матрица.

При этих условиях можно получить матрицу, обратную к информационной. Обозначим её

C=G-1= (FТF)-1.

Поскольку

(FТF)-1 FТF=I,

умножение выражения (3.3) слева на матрицу (FТF)-1 приводит к решению системы нормальных уравнений:

b= (FТF)-1 FTy. (3.4)

Матрица С=(FТF)-1 называется матрицей дисперсий-ковариаций, или матрицей ошибок. Иногда её называют просто дисперсионной или ковариационной матрицей.

6. Регрессионный анализ в Mathcad

Пакет Mathcad создан разработчиками как инструмент для работы расчетчиков-инженеров. Он не предназначен для профессиональных математиков. Для них есть другие системы, ориентированные на области символьной математики и математической статистики. Пакет Mathcad в том виде, в котором он создан, не предназначен и для программирования сложных задач. Для этого есть система Matlab и различные языки программирования.

Пакет Mathcad создавался как мощный микрокалькулятор, позволяющий справляться с рутинными задачами инженерной практики, ежедневно встречающимися в работе. Сюда можно отнести решение алгебраических и дифференциальных уравнений с постоянными и переменными параметрами, анализ функций, поиск их экстремумов, численное и аналитическое дифференцирование и интегрирование, вывод таблиц и графиков при анализе найденных решений.

Главным достоинством пакета Mathcad и его колоссальным преимуществом перед подобными системами являются:

* легкость и наглядность программирования задач;

* запись сложных математических выражений в том виде, в котором они обычно записываются инженерами на листе бумаги (то есть отсутствие специального языка программирования);

* простота в использовании;

* возможность создания встроенными средствами высококачественных технических отчетов с таблицами, графиками, текстом.

Пакет Mathcad завоевал популярность во всем мире. Им пользуются свыше 5 млн. человек. Ежегодно выпускаются новые версии. Однако складывается впечатление, что в последнее время усовершенствования программы носят больше косметический характер. Улучшается интерфейс, расширяются возможности отдельных функций, совершенствуются средства для работы в Интернете.

Настоящим украшением MathCAD, доступным уже в первых версиях, была поддержка дискретных переменных, позволяющих одновременно вычислять функции для целого ряда значений аргумента, что обеспечивало возможность построения таблиц и графиков без применения операторов программирования. Почти до совершенства доведены средства построения графиков поверхностей, позволяющие создавать из графиков произведения искусства. Еще в версии 2001і доработана до логического завершения великолепная функция решения дифференциальных уравнений Odesolve.

На этом фоне в полном забвении находится раздел программирования MathCAD. По-видимому, этот раздел изначально задумывался как инструмент создания несложных программных модулей, необходимых для многократного вычисления небольших расчетных блоков из нескольких операторов.

Однако даже при таком состоянии программирования в Mathcad можно программировать и решать задачи повышенной сложности.

К недостаткам этого замечательного пакета можно отнести недостаточную скорость расчетов, да и загрузки в оперативную память.

Следует иметь в виду, что MathCAD можно эффективно использовать в любых инженерных, экономических, математических и научных расчетах, так и при решении задач повседневного характера.

Навыки работы в Mathcad приходят "через пальцы". Невозможно выучить список функций, все способы обращения к ним. Нельзя запомнить все приемы работы, да это и не нужно. Нужно иметь навыки работы с панелями инструментов, навыки построения выражений и графиков, понять и запомнить основные правила работы в Mathcad, основные возможности этого пакета. А главное, надо иметь под рукой большой набор типовых решенных примеров, где в любой момент можно посмотреть "как это делается" и вставить в свою программу готовые фрагменты из примеров.

Необходимо обратить внимание, что при изучении пакета MathCAD особая роль выделяется самостоятельной работе и чтению рекомендуемой литературы.

В конце февраля 2012 года вышла новая версия PTC Mathcad Prime 2.0, в интернете появились статьи, посвященные данному событию и описанию новых возможностей системы, "целому ряду интересных новшеств", "дополнению инструментария" и прочему, внесены изменения в алгоритмы символьной математики, изменен интерфейс, программа стала красивее, однако работает в несколько раз медленнее, т.к. написана под Microsoft .NET Framework 4.

Регрессионный анализ

При решении многих инженерных задач возникает необходимость в установлении связи между k независимыми переменными x1, х2,…, xk и зависящей от них величиной у. Между переменными величинами возможны следующие типы связей:

1. Функциональная связь между неслучайными величинами. В этом случае зависимая переменная у вполне определенно задается независимыми переменными x1, х2,…, xk.

2. Функциональная связь между случайными величинами.

3. Стохастическая связь между случайными величинами. Стохастическая связь проявляется в том, что одна из случайных величин реагирует на изменения другой изменениями своего закона распределения. Наиболее простым видом стохастической связи является корреляционная связь. Корреляционная связь между двумя случайными величинами выражается в том, что на изменения одной случайной величины другая случайная величина реагирует изменениями своего математического ожидания или среднего значения.

4. Связь случайной величины с величинами неслучайными.

Анализу последнего вида связи, который широко используют в статистических методах планирования эксперимента, посвящена данная работа. Природа связи случайной величины с величинами неслучайными может быть двоякой:

а) измерения зависимой переменной у связаны с некоторой ошибкой измерения, а переменные x1, х2,…, xk измеряются без ошибок или эти ошибки пренебрежимо малы по сравнению с ошибкой измерения зависимой переменной;

б) значения переменной у зависят не только от контролируемых факторов x1, х2,…, xk, но и от ряда неконтролируемых факторов, поэтому при каждом сочетании значений x1, х2,…, xk зависимая переменная у подвержена колебаниям случайного характера.

Часто возникает необходимость в установлении связи между случайной величиной у и неслучайными переменными x1, х2,…, xk, принимающими в каждой серии опытов определенные значения. Величина у является случайной, имеет нормальное распределение с центром распределения М[у], изменяющимся при изменении значений факторов x1, х2,…, xk.

Случайная величина у имеет постоянную дисперсию, т. е. дисперсию, не зависящую от x1, х2,…, xk. Математическое ожидание М[у] является функцией x1, х2,…, xk, т. е. на каждое изменение неслучайных величин x1, х2,…, xk случайная величина у реагирует изменением своего математического ожидания. Выражение называют уравнением регрессии математического ожидания случайной величины у по неслучайным величинам x1, х2,…, xk. Тип функции может быть линейным или криволинейным. Таким образом, в основе регрессионного анализа лежат следующие предположения:

1. при каждом сочетании значений x1, х2,…, xk, величина у имеет нормальное распределение;

2. дисперсия теоретического распределения случайной величины у постоянна;

3. тип функции известен;

4. независимые переменные x1, х2,…, xk измеряются с пренебрежимо малыми ошибками по сравнению с ошибкой в определении у;

5. переменные x1, х2,…, xk линейно независимы.

Таким образом, регрессионный анализ линейного уравнения можно представить в виде последовательности следующих операций:

* Составляют Х-матрицу условий опытов и Y -матрицу наблюдений.

* Строят матрицу X*, транспонированную к Х-матрице.

* Вычисляют матрицу произведения Х*Х.

* Находят матрицу (Х*Х)-1, обратную матрице Х*Х.

* Вычисляют матрицу произведения X*Y.

* Определяют коэффициенты уравнения регрессии.

7. Программная реализация алгоритма решения задачи

Ввод исходных данных:

Число опытов:

Количество серий в опыте:

Сортировка строк матрицы С по возрастанию элементов 1-го столбца:

Построение линейной эмпирической зависимости:

Построение нелинейной эмпирической зависимости:

Гиперболическая

Сделаем замену

Тогда получим линейную зависимость:

График эмпирических зависимостей

Список используемой литературы

1. Вучков И., Бояджиева Л., Солаков Е. "Прикладной линейный регрессионный анализ". - М.: Финансы и статистика, 1987.

2. Бондарь А.Г. "Математическое моделирование в химической технологии".- К.: Вища школа, 1973.

3. Асатурян В.И. "Теория планирования эксперимента". - М.: Радио и связь, 1983.

4. М. Херхагер, Х. Партолль "MathCAD 2000: полное руководство": Пер. с нем. - К.: Издательская группа BHV, 2000.

5. Регрессионный анализ. [http://ru.wikipedia.org/wiki]

6. Регрессионный анализ. [http://www.machinelearning.ru/wiki/]

Приложение. Список обозначений

Матрицы обозначены заглавными буквами, векторы - полужирными прописными буквами, множества (как правило) - каллиграфическими буквами.

§ - множество действительных чисел

§ - множество натуральных чисел

§ - матрица плана (объект-признак),

§ - множество признаков

§ - подмножество столбцов (признаков), заданное индексным множеством

§ - множество значений свободной переменной,

§ - реализации -й свободной переменной, признак, -й столбец матрицы

§ - -й объект выборки,

§ - многомерная свободная переменная,

§ - зависимая переменная, многомерная случайная величина

§ - выборка, множество пар , также

§ - множество индексов (объектов) элементов выборки

§ - множество индексов опорных объектов,

§ - множество индексов свободных переменных (признаков)

§ - множество индексов активных признаков,

§ - число зависимых переменных, размерность пространства зависимых переменных,

§ - число свободных переменных, размерность пространства свободной переменной,

§ - регрессионная модель, , по определению

§ - регрессионная модель (вектор-функция),

§ - вектор параметров модели

§ - многомерная случайная величина

§ - ковариационная матрица многомерной случайной величины

§ - ковариационная матрица многомерной случайной величины , вариант -

§ - матрица Якоби фукнции с элементами

§ - матрица Гессе фукнции с элементами

§ - порождающая функция,

§ - множество порождающий функций,

§ - множество индуктивно-порожденных регрессионных моделей,

§ - целевая функция (критерий качества), , полный вариант для модели на выборке

§ - сумма квадратов невязок,

§ - среднеквадратичная ошибка,

Размещено на Allbest.ru

...

Подобные документы

  • Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.

    презентация [100,3 K], добавлен 16.12.2014

  • Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.

    курсовая работа [232,7 K], добавлен 21.05.2015

  • Расчеты с помощью метода наименьшего квадрата для определения мольной теплоёмкости. Составление с помощью метода программирования системы нелинейных уравнений. Получение в среде Mathcad уравнения, максимально приближенного к экспериментальным данным.

    лабораторная работа [469,6 K], добавлен 17.06.2014

  • Вероятностное обоснование метода наименьших квадратов как наилучшей оценки. Прямая и обратная регрессии. Общая линейная модель. Многофакторные модели. Доверительные интервалы для оценок метода наименьших квадратов. Определение минимума невязки.

    реферат [383,7 K], добавлен 19.08.2015

  • Знакомство с уравнениями линейной регрессии, рассмотрение распространенных способов решения. Общая характеристика метода наименьших квадратов. Особенности оценки статистической значимости парной линейной регрессии. Анализ транспонированной матрицы.

    контрольная работа [380,9 K], добавлен 05.04.2015

  • Описание способов нахождения коэффициентов регрессии модели полнофакторного эксперимента. Проверка многофакторных статистических гипотез на однородность ряда дисперсий, значимость и устойчивость математических коэффициентов множественной корреляции.

    контрольная работа [1,2 M], добавлен 05.08.2010

  • Функциональные и стохастические связи. Статистические методы моделирования связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Проверка адекватности регрессионной модели.

    курсовая работа [214,6 K], добавлен 04.09.2007

  • Понятие доверительного интервала, сущность и определение критерия согласия Пирсона. Особенности точечного оценивания неизвестных параметров, основные требования к оценкам и статистикам. Характеристика классической линейной модели регрессионного анализа.

    дипломная работа [440,4 K], добавлен 23.07.2013

  • Особенности метода аппроксимации табулированных функций. Рассмотрение преимуществ работы в среде математической программы Mathcad. Метод наименьших квадратов как наиболее распространенный метод аппроксимации экспериментальных данных, сферы применения.

    курсовая работа [1,2 M], добавлен 30.09.2012

  • Изучение аппроксимации таблично заданной функции методом наименьших квадратов при помощи вычислительной системы Mathcad. Исходные данные и функция, вычисляющая матрицу коэффициентов систему уравнений. Выполнение вычислений для разных порядков полинома.

    лабораторная работа [166,4 K], добавлен 13.04.2016

  • Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.

    задача [133,0 K], добавлен 21.12.2008

  • Исследование вопросов построения эмпирических формул методом наименьших квадратов средствами пакета Microsoft Excel и решение данной задачи в MathCAD. Сравнительная характеристика используемых средств, оценка их эффективности и перспективы применения.

    курсовая работа [471,3 K], добавлен 07.03.2015

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Применение системы MathCAD при решении прикладных задач технического характера. Основные средства математического моделирования. Решение дифференциальных уравнений. Использование системы MathCad для реализации математических моделей электрических схем.

    курсовая работа [489,1 K], добавлен 17.11.2016

  • На основе корреляционно-регрессионного анализа выявление зависимости успеваемости учащихся от таких факторов как: табакокурение; проблемы в семье; времяпровождение в сети Интернет; время, уходящее на телефонные разговоры; посещение дополнительных занятий.

    научная работа [212,8 K], добавлен 23.05.2012

  • Алгоритм проведения регрессионного анализа для создания адекватной модели, прогнозирующей цены на бензин на будущий период. Основы разработки программного обеспечения, позволяющего автоматизировать исследования операций в заданной предметной области.

    контрольная работа [182,0 K], добавлен 06.02.2013

  • Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

    курсовая работа [304,0 K], добавлен 02.03.2017

  • Определение частных производных первого и второго порядков заданной функции, эластичности спроса, основываясь на свойствах функции спроса. Выравнивание данных по прямой методом наименьших квадратов. Расчет параметров уравнения линейной парной регрессии.

    контрольная работа [99,4 K], добавлен 22.07.2009

  • Описание методов решения системы линейного алгебраического уравнения: обратной матрицы, Якоби, Гаусса-Зейделя. Постановка и решение задачи интерполяции. Подбор полиномиальной зависимости методом наименьших квадратов. Особенности метода релаксации.

    лабораторная работа [4,9 M], добавлен 06.12.2011

  • Числовые характеристики выборки. Статистический ряд и функция распределения. Понятие и графическое представление статистической совокупности. Метод наибольшего правдоподобия для нахождения плотности распределения. Применение метода наименьших квадратов.

    контрольная работа [62,6 K], добавлен 20.02.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.