Элементы теории корреляции
Примеры корреляционной и прямолинейной зависимостей. Линейная регрессия и метод наименьших квадратов. Пояснение к оценке коэффициентов методом наименьших квадратов. Выборочный коэффициент корреляции. Построение модели, описывающей изменения величин.
Рубрика | Математика |
Вид | практическая работа |
Язык | русский |
Дата добавления | 28.03.2020 |
Размер файла | 738,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Элементы теории корреляции
Объекты ряда генеральных совокупностей обладают несколькими подлежащими изучению признаками Х, У, ..., которые можно интерпретировать как систему взаимосвязанных величин. Примерами могут служить: масса животного и количество гемоглабина в крови, рост мужчины и объем грудной клетки, увеличение рабочих мест в помещении и уровень заболеваемости вирусными инфекциями, количество вводимого препарата и концентрация его в крови и т.д.
Очевидно, что между этими величинами существует связь, но она не может быть строгой фукциональной зависимостью, так как на изменение одной из величин влияет не только изменение второй величины, но и другие факторы. В таких случаях говорят, что две величины связаны стохастической (т.е. случайной) зависимостью. Мы будем изучать частный случай стохастической зависимости - корреляционную зависимость.
ОПРЕДЕЛЕНИЕ: Зависимость случайных величин называют стохастической, если на изменение одной из них влияет не только изменение второй величины, но и другие факторы.
ОПРЕДЕЛЕНИЕ: Зависимость случайных величин называют статистической, если изменения одной из них приводит к изменению закона распределения другой.
ОПРЕДЕЛЕНИЕ: Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной.
Примерами корреляционной зависимости являются связи между:
- массой тела и ростом;
- дозой ионизирующего излучения и числом мутаций;
- пигментом волос человека и цветом глаз;
- показателями уровня жизни населения и процентом смертности;
- количеством пропущенных студентами лекций и оценкой на экзамене и т.д.
Именно корреляционные зависимости наиболее часто встречаются в природе в силу взаимовлияния и тесного переплетения огромного множества самых различных факторов, определяющих значения изучаемых показателей.
Результаты наблюдения, проведенные над тем или иным биологическим объктом по корреляционно связанным признакам У и Х можно изобразить точками на плоскости, построив систему прямоугольных координат. В результате получается некая диаграмма рассеяния, позволяющая судить о форме и тесноте связи между варьирующими признаками.
Если эту связь можно будет апроксимировать некоторой кривой, то можно будет прогнозировать изменение одного из параметров при целенаправленном изменении другого параметра.
Корреляционную зависимость от можно описать с помощью уравнения вида
(1)
где условное среднее величины , соответствующее значению величины , а некоторая функция. Уравнение (1) называется выборочным уравнением регрессии на .
Рис.1. Линейная регрессия значима. Модель .
Функцию называют выборочной регрессией на , а ее график - выборочной линией регрессии на .
Совершенно аналогично выборочным уравнением регрессии на является уравнение .
В зависимости от вида уравнения регрессии и формы соответствующей линии регрессии определяют форму корреляционной зависимости между рассматриваемыми величинами - линейной, квадратической, показательной, экспоненциальной.
Важнейшим является вопрос выбора вида функции регрессии [или ], например линейная или нелинейная (показательная, логарифмическая и т.д.)
На практике вид функции регрессии можно определить построив на координатной плоскости множество точек, соответствующих всем имеющимся парам наблюдений ().
Рис. 2. Линейная регрессия незначима. Модель .
Рис. 3. Нелинейная модель.
Например, на рис.1. видна тенденция роста значений с ростом , при этом средние значения располагается визуально на прямой. Имеет смысл использовать линейную модель (вид зависимости от принято называть моделью) зависимости от .
На рис.2. средние значения не зависят от , следовательно линейная регрессия незначима (функция регрессии постоянна и равна ).
На рис. 3. прослеживается тенденция нелинейности модели.
Примеры прямолинейной зависимости:
- увеличение количество потребляемого йода и снижение показателя заболеваемости зобом,
- увеличение стажа рабочего и повышение производительности.
Примеры криволинейной зависимости:
- с увеличением осадков - увеличивается урожай, но это происходит до определенного предела осадков. После критической точки осадки уже оказываются излишними, почва заболачивается и урожай снижается,
- связь между дозой хлора, примененной для обеззараживания воды и количеством бактерий в 1 мл. воды. С увеличением дозы хлора количество бактерий в воде снижается, но по достижению критической точки количество бактерий будет оставаться постоянным (или совсем отсутствовать), как бы мы не увеличивали дозу хлора.
Линейная регрессия
Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости от Х (или Х от У), например, линейную модель , необходимо определить конкретные значения коэффициентов модели.
При различных значениях а и можно построить бесконечное число зависимостей вида т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.
Метод наименьших квадратов (МНК)
Линейную функцию ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используем метод наименьших квадратов.
Рис.4. Пояснение к оценке коэффициентов методом наименьших квадратов
Обозначим: - значение, вычисленное по уравнению
- измеренное значение,
- разность между измеренными и вычисленными по уравнению значениям,
.
В методе наименьших квадратов требуется, чтобы , разность между измеренными и вычисленными по уравнению значениям , была минимальной. Следовательно, находимо подобрать коэффициенты а и так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:
.
Это условие достигается если параметры а и будут вычислены по формулам :
называют коэффициентом регрессии; называют свободным членом уравнения регрессии.
Полученная прямая является оценкой для теоретической линии регрессии. Имеем
.
Итак, является уравнением линейной регрессии.
Регрессия может быть прямой и обратной .
ОПРЕДЕЛЕНИЕ: Обратная регрессия означает, что при росте одного параметра, значения другого параметра уменьшаются.
ОПРЕДЕЛЕНИЕ: Прямая регрессия означает, что при росте одного параметра, значения другого параметра тоже увеличиваются.
Пример 1. Заданному уровню потребления пресной воды на санитарно - бытовые нужды в л/чел. сутки в n населенных пунктах соответствует множество значений уровня общей заболеваемости в %. При этом отмечается, что с ростом наблюдается уменьшение . Это - обратная, отрицательная корреляционная связь. (Рис. 5)
Пример 2. Возрастание уровня инфекционной заболеваемости в % при увеличении плотности рабочих мест в производственном помещении , чел. - является примером прямой, положительной корреляционной связи. (Рис. 6)
Рис. 5. Поле наблюдений при обратной корреляционной связи между фактором и параметром
Рис. 6. Поле наблюдений при прямой корреляционной связи между фактором и параметром
Проверка гипотезы о значимости коэффициента регрессии.
Не всегда можно утверждать, что предполагаемая линейная зависимость действительно имет место.
Построив модель, описывающую изменения величин, необходимо определить верна ли она.
В регрессионном анализе проверяют гипотезы о значимости свободного члена а и о значимости коэффициента регрессии .
1. Определяем гипотезы H0 и H1:
H0: =0 (между величинами нет линейной зависимости),
H1: ?0.
2. Зададим уровень значимости б.
3. Статистика критерия.
, где
4. Критические точки и критическая область. Статистика F имеет распределение Фишера с 1 и (n-2) степенями свободы. Fб,1,n-2
5. Если , то H0 отвергается, т.е. можно сделать вывод, что линейная зависимость значима.
Если , то у нас нет оснований отвергать H0, т.е. можно сделать вывод, что линейная зависимость - незначима или что данные нельзя описать моделью линейной регрессии.
Корреляционный анализ.
Для достаточно полного описания особенностей корреляционной зависимости между величинами недостаточно определить форму этой зависимости и в случае линейной зависимости описать ее вид по величине коэффициента регрессии. Необходимо так же оценить тесноту связи.
Корреляционный анализ экспериментальных данных для двух случайных величин заключает в себе следующие основные приемы:
1. Вычисление выборочных коэффициентов корреляции.
2. Составление корреляционной таблицы.
3. Проверка статистической гипотезы значимости связи.
Линейная корреляция корреляция регрессия линейный
ОПРЕДЕЛЕНИЕ: Корреляционная зависимость между случайными величинами Х и называется линейной корреляцией, если обе функции регрессии и являются линейными. В этом случае обе линии регрессии являются прямыми; они называются прямыми регрессии.
Выборочный коэффициент корреляции.
Например, корреляционная зависимость возраста учеников средней школы от года Х их обучения в школе является, как правило, более тесной, чем аналогичная зависимость возраста студентов высшего учебного заведения от года обучения, поскольку среди студентов одного и того же года обучения в вузе обычно наблюдается больший разброс в возраcте, чем у школьников одного и того же класса.
Для оценки тесноты линейных корреляционных зависимостей между величинами Х и по результатам выборочных наблюдений вводится понятие выборочного коэффициента линейной корреляции, определяемого формулой
Следует отметить, что основной смысл выборочного коэффициента линейной корреляции состоит в том, что он представляет собой эмпирическую (т.е. найденную по результатам наблюдений над величинами Х и ) оценку соответствующего генерального коэффициента линейной корреляции :
(6)
Принимая во внимание формулы
видим, что выборочные уравнения линейной регрессии на Х имеют вид
(7)
где .
То же можно сказать о выборочном уравнений линейной регрессии Х на
(5)
Основные свойства выборочного коэффициента линейной корреляции:
1. Коэффициент корреляции двух величин, не связанных линейной корреляционной зависимостью, равен нулю.
2. Коэффициент корреляции двух величин, связанных линейной корреляционной зависимостью, положителен в случае прямой зависимости и отрицателен в случае обратной зависимости.
3. Абсолютная величина коэффициента корреляции двух величин, связанных линейной корреляционной зависимостью, удовлетворяет неравенству .
4. Чем ближе к 1, тем теснее прямолинейная корреляция между величинами .
По своему характеру корреляционная связь может быть прямой и обратной, а по силе - сильной, средней, слабой. Кроме того, связь может отсутствовать или быть полной.
Сила и характер связи между параметрами
Сила связи |
Характер связи |
||
Прямая (+) |
Обратная (-) |
||
Полная |
1 |
-1 |
|
Сильная |
От 0,7 до 1 |
От -0,7 до -1 |
|
Средняя |
От 0,699 до 0,3 |
От -0,699 до -0,3 |
|
Слабая |
От 0,299 до 0 |
От -0,299 до 0 |
|
Связь отсутствует |
0 |
0 |
Проверка гипотезы о значимости коэффициента корреляции.
О статистической взаимосвязи говорят, что она существует или отсутствует, имеет направление и характеризуется силой.
Если в результате исследования нулевая гипотеза не отвергается, то «взаимосвязи нет» . В случае, когда нулевая гипотеза отклоняется говорят о существовании связи исследуемых случайных величин.
1. Сформулируем гипотезы H0 и H1:
H0: r =0 (корреляции нет),
H1: r ?0.
2. Зададим уровень значимости б.
3. Статистика критерия
4. tб,n-2 . t-статистика, имеющая распределение Стьюдента с (n-2) степенями свободы.
5. При ¦t¦? tб,n-2 , H0 отвергается. Это значит, что между параметрами существует значимая корреляция. При ¦t¦< tб,n-2 , H0 принимается.
Пример. Даны значения х и у.
-2 |
0 |
1 |
2 |
4 |
||
0,5 |
1 |
1,5 |
2 |
3 |
1) найти выборочное уравнение регрессии y от x;
2) построить график регрессии;
3) вычислить коэффициент корреляции;
4) определить силу и характер корреляционной связи.
Решение. n=5
1) а) Считая, что зависимость между Х и линейная () вычислим методом наименьших квадратов коэффициент регрессии и свободный член .
.
Так как , то регрессия прямая.
.
Тогда уравнение будет иметь вид .
в)
.
Проверка гипотезы о значимости коэффициента регрессии.
1. Определяем гипотезы H0 и H1:
H0: =0 (между величинами нет линейной зависимости),
H1: ?0.
2. Зададим уровень значимости =0,05.
3. Статистика критерия.
где
4. Критические точки и критическая область. Статистика F имеет распределение Фишера с 1 и (n-2) степенями свободы. Fб,1,n-2. .
5. , то H0 отвергается, т.е. можно сделать вывод, что линейная зависимость значима.
2) график
3) Выборочный коэффициент корреляции
или
4) Так как , то корреляционная связь по своему характеру прямая, а по силе - сильная.
Проверка гипотезы о значимости коэффициента корреляции.
1. Сформулируем гипотезы H0 и H1:
H0: r =0 (корреляции нет),
H1: r ?0.
2. Зададим уровень значимости б=0,05.
3. Статистика критерия
4. -t-статистика, имеющая распределение Стьюдента с (n-2) степенями свободы.
6. , то H0 отвергается. Это значит, что между параметрами существует значимая корреляция.
Задания.
1. Даны показатели охвата населения прививками Х (%) и заболеваемости брюшным тифом (в %).
Районы |
A |
B |
C |
D |
E |
F |
G |
H |
I |
|
X |
14,7 |
13,4 |
9,6 |
8,1 |
5,5 |
5,2 |
4,4 |
4,4 |
4,0 |
|
Y |
1,4 |
1,4 |
2,3 |
2,1 |
6,2 |
6,9 |
8,6 |
10,8 |
11,0 |
1) найти выборочное уравнение регрессии y от x;
2) построить график регрессии;
3) вычислить коэффициент корреляции;
4) определить силу и характер корреляционной связи.
2. У окуня озера Баторино измерены длина головы Х и длина грудного плавника У:
Х 66 61 67 73 51 59 48 47 58 44 41 54 52 47 51 45
У 38 31 36 43 29 33 28 25 36 26 21 30 28 27 28 26
Проведите корреляционно-регрессионный анализ полученных данных.
3. Надо было установить, есть ли корреляция между высотой головы Х
и длиной 3-го членика усика У у Drosophila funebris. Для этого с ромощью окуляр-микрометра получены следующие данные по Х и У (в делениях окуляр-микрометра):
Х 15 16 15 16 17 18 17 17 15 16 15 17 13 14 17 16 15 16 16 15 18 17 14 15
У 29 31 33 32 33 36 35 35 35 33 31 35 30 31 35 33 32 33 33 30 34 34 31 33
Проведите корреляционно-регрессионный анализ полученных данных.
Литература
1. Ю.В. Морозов. Основы высшей математики и статистики, М., «Медицина», 2001г.
2. И.В. Павлушков и др. Основы высшей математики и математической статистики, М., Издательский дом ГЭОТАР-МЕД, 2003г.
3. В.Е. Гмурман Теория вероятностей и математическая статистика М., «Высшая школа», 2003г.
4. В.Е. Гмурман Руководство к решению задач по теории вероятностей и математической статистики, М., «Высшая школа», 2003г.
Размещено на Allbest.ru
...Подобные документы
Вероятностное обоснование метода наименьших квадратов как наилучшей оценки. Прямая и обратная регрессии. Общая линейная модель. Многофакторные модели. Доверительные интервалы для оценок метода наименьших квадратов. Определение минимума невязки.
реферат [383,7 K], добавлен 19.08.2015Изучение аппроксимации таблично заданной функции методом наименьших квадратов при помощи вычислительной системы Mathcad. Исходные данные и функция, вычисляющая матрицу коэффициентов систему уравнений. Выполнение вычислений для разных порядков полинома.
лабораторная работа [166,4 K], добавлен 13.04.2016Аппроксимация функции y = f(x) линейной функцией y = a1 + a2x. Логарифмирование заданных значений. Расчет коэффициентов корреляции и детерминированности. Построение графика зависимости и линии тренда. Числовые характеристики коэффициентов уравнения.
курсовая работа [954,7 K], добавлен 10.01.2015Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Оценка неизвестных величин по результатам измерений, содержащим случайные ошибки, при помощи метода наименьших квадратов. Аппроксимация многочленами, обзор существующих методов аппроксимации. Математическая постановка задачи аппроксимации функции.
курсовая работа [1,9 M], добавлен 12.02.2013Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.
курсовая работа [782,6 K], добавлен 19.05.2014Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Исследование вопросов построения эмпирических формул методом наименьших квадратов средствами пакета Microsoft Excel и решение данной задачи в MathCAD. Сравнительная характеристика используемых средств, оценка их эффективности и перспективы применения.
курсовая работа [471,3 K], добавлен 07.03.2015Постановка задачи аппроксимации методом наименьших квадратов, выбор аппроксимирующей функции. Общая методика решения данной задачи. Рекомендации по выбору формы записи систем линейных алгебраических уравнений. Решение систем методом обратной матрицы.
курсовая работа [77,1 K], добавлен 02.06.2011Построение теоретико-вероятностной модели исследуемого явления случайной величины математическими выводами. Реализация выборки статистической моделью, описывающей серию опытов. Точечная (выборочная) оценка неизвестного параметра и кривая регрессии.
курсовая работа [311,7 K], добавлен 10.04.2011Аппроксимация и теория приближений, применение метода наименьших квадратов для оценки характера приближения. Квадратичное приближение таблично заданной функции по дискретной норме Гаусса. Интегральное приближение функции, которая задана аналитически.
реферат [82,0 K], добавлен 05.09.2010Неопределенный интеграл. Объем тела вращения. Эмпирическая формула. Сходимость ряда. Вычисление объема тела, образованного вращением вокруг оси ОХ фигуры, ограниченной линиями. Исследование на условную сходимость по признаку Лейбница.
контрольная работа [25,8 K], добавлен 27.05.2004Исследование точности прогнозирования случайного процесса с использованием метода наименьших квадратов. Анализ расхождения между трендом и прогнозом, последующая оценка близости распределения расхождений наблюдений и распределения сгенерированного шума.
курсовая работа [1,0 M], добавлен 29.01.2010Преобразование коэффициентов полиномов Чебышева. Функции, применяемые в численном анализе. Интерполяция многочленами, метод аппроксимации - сплайн-аппроксимация, ее отличия от полиномиальной аппроксимации Лагранжем и Ньютоном. Метод наименьших квадратов.
реферат [21,5 K], добавлен 27.01.2011Аппроксимация экспериментальных зависимостей методом наименьших квадратов. Правило Крамера. Графическое отображение точек экспериментальных данных. Аномалии и допустимые значения исходных данных. Листинг программы на С++. Результаты выполнения задания.
курсовая работа [166,7 K], добавлен 03.02.2011Интерполяция (частный случай аппроксимации). Аппроксимация функцией. Метод наименьших квадратов. Из курса математики известны 3 способа задания функциональных зависимостей: аналитический, графический, табличный.
реферат [70,4 K], добавлен 26.05.2006Вычисление приближенных величин и погрешностей. Решение алгебраических и трансцендентных уравнений, интерполяция функций и методы численного интегрирования. Применение метода наименьших квадратов к построению эмпирических функциональных зависимостей.
курсовая работа [378,5 K], добавлен 08.01.2013Закон больших чисел. Нахождение точечных оценок. Построение неизвестной дисперсии погрешности измерений. Выборочная функция распределения. Теорема Ляпунова и распределение Стьюдента. Вычисление доверительных интервалов. Построение интервальных оценок.
курсовая работа [4,3 M], добавлен 18.12.2011Решение системы линейных уравнений методом Якоби вручную и на Бейсике. Построение интерполяционного многочлена Ньютона с помощью Excel. Получение аппроксимирующей функции методом наименьших квадратов. Построение кубического сплайна по шести точкам.
курсовая работа [304,9 K], добавлен 07.09.2012Статистическое описание и выборочные характеристики двумерного случайного вектора. Оценка параметров линейной регрессии, полученных по методу наименьших квадратов. Проверка гипотезы о равенстве средних нормальных совокупностей при неизвестных дисперсиях.
контрольная работа [242,1 K], добавлен 05.11.2011