Корреляционный анализ как инструмент научного исследования
Цель и задачи корреляционного анализа. Коэффициент корреляции и корреляционное отношение. Множественная корреляция. Корреляционные модели. Корреляционные уравнения в лесном хозяйстве. Корреляционные уравнения как разновидность стохастических моделей.
Рубрика | Математика |
Вид | реферат |
Язык | русский |
Дата добавления | 29.03.2018 |
Размер файла | 108,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ КАК ИНСТРУМЕНТ НАУЧНОГО ИССЛЕДОВАНИЯ
1. Цель и задачи корреляционного анализа
Ранее мы разобрали связи между двумя величинами. Установили, что они бывают прямолинейные и криволинейные. Для характеристики тесноты связи используется коэффициент корреляции (r) и корреляционное отношение ().
Но, установив сам факт зависимости одной величины от другой, получили еще недостаточную информацию. Необходимо знать форму этой связи, ее числовое выражение. Тогда, имея одну из коррелирующих величин, обычно ту, которая легче и проще определяется, можно с определенной долей вероятности предсказывать значение другой (искомой) величины y=f(x). Для решения этой задачи используют корреляционные уравнения или, как их еще называют, корреляционные модели.
Мы уже отмечали, что определений моделей есть много, но лучше других их выражает следующая формулировка, данная В.А. Штоффом: «Модель - это мысленно представляемая или материально реализуемая система, которая отображая или воспроизводя объект исследования, способна замещать его так, что ее изучение дает нам новую информацию об этом объекте». Именно это определение используют в лесных исследованиях К.Е. Никитин и А.З. Швиденко.
Следовательно, модель - это некоторая абстракция, возможная на определенной стадии изучения некоторого предмета или явления, для дальнейшего его познания или используемая для решения практических задач.
Корреляционные уравнения представляют собой разновидность стохастических моделей. При исследовании моделей, выражающих некоторую зависимость между изучаемыми величинами, еще раз подчеркнем, что это может быть и взаимозависимость, либо только зависимость. Примером взаимозависимости служит соотношение диаметра и высоты в древостое, а зависимости - изменение средней высоты или прироста при разном плодородии почвы, но не наоборот.
Теория корреляции разработана в основном в конце XIX и начале ХХ века Карлом Пирсоном и Юлом. Она позволяет описать разные связи, но не вскрывает причины их происхождения. Здесь нужен специальный анализ: биологический, лесоводственный, генетический и т.п. При этом причинную связь, изучая корреляцию, мы должны знать, т.к. иначе можем совершить ошибку, найдя связь там, где ее нет. Об этом хорошо сказал великий английский писатель Бернард Шоу (1856-1956) еще в 1906 году в предисловии к «Доктору на распутье»: «Даже опытные статистики часто оказываются не в состоянии оценить, до какой степени смысл статистических данных искажается молчаливыми предположениями их интерпретаторов... Легко доказать, что ношение цилиндров и зонтиков расширяет грудную клетку, удлиняет жизнь и дает относительный иммунитет от болезней... Математик, чьи корреляции привели бы в восхищение Ньютона, может собирая данные и делая из них выводы впасть в совершенно грубые ошибки на основе таких популярных заблуждений, как описанные выше». Здесь Б. Шоу подчеркнул, что не сами цилиндры и зонтики приводят к описанным следствиям, а образ жизни их обладателей, которыми в те времена были богатые люди.
Ранее уже отмечено, что и в начале широкого распространения статистики, а затем в 60-70-е годы, когда математические методы стали широко применять в лесном хозяйстве, математики, слабо разбирающиеся в причинных связях предметов, которые они описывали с помощью корреляционных уравнений, совершили много ошибок. Об этой опасности предупреждали основатели учения о корреляции. Так, Юл в 1926 году напугал ученых примерами высоких корреляций между количеством самоубийств в Англии и принадлежностью к англиканской церкви. Причинной связи здесь нет, а высочайшая корреляция есть. Дело здесь объясняется просто - подавляющее большинство жителей Англии в те годы принадлежало к англиканской церкви.
Поэтому еще раз напомним о важности проведения профессионального анализа причинно-следственных связей, прежде чем взяться за конкретные вычисления.
2. Множественная корреляция
При рассмотрении корреляции часто встречаются случаи, когда две величины, вроде бы взаимозависимы, но более подробный анализ показывает, что эта «взаимозависимость» есть отражение того факта, что они обе коррелированны с некоторой третьей величиной или с совокупностью величин. В природе мы часто встречаемся с такими явлениями, когда изменение одной величины (функции) определяется изменением не одного, а нескольких аргументов.
Например, высота дерева зависит от почвенного плодородия, количества влаги в корнеобитаемом слое почвы, древесной породы, возраста древостоя и т.д. Величина суммы площадей сечения или запас древостоя зависят от высоты (H) и полноты насаждения. Включение в это уравнение диаметра древостоя (D) будет лишним из-за высокой корреляции H-D. Аналогичный пример можно привести, рассматривая коэффициент формы древесного ствола (q2), который равен частному от деления диаметра на половине высоты дерева к диаметру на 1, 3 м: q2 = D0, 5м/D1, 3м. Рассматривая корреляцию q2-D, мы можем придти к выводу о ее наличии. На самом деле есть корреляция q2-H и H-D. Такие закономерности приводят нас к понятию множественной корреляции. Ее суть заключается в следующем. Коэффициент множественной корреляции - это показатель тесноты связи (линейной) между одной зависимой величиной и совокупностью независимых.
Если у нас есть 3 сопряженные величины Х, У, Z, то коэффициент множественной корреляции определяется из матрицы
Решение этой матрицы приводит к уравнениям для определения RXYZ, RYXZ, RZXY:
RXYZ = (1)
RYXZ = (2)
RZXY= (3)
где rxy, rxz, ryz - парные коэффициенты корреляции между величинами X, Y, Z.
Вместо коэффициента множественной корреляции, который обычно обозначают как R в отличие от парного - r, часто при моделировании удобнее использовать коэффициент множественной детерминации - D=R2 (в отличие от парного d=r2). Он измеряет ту долю общей дисперсии зависимой переменной у, которая может быть объяснена влиянием изменения аргументов.
Значимость коэффициента множественной корреляции оценивают по F-критерию Фишера
,
где N - объем выборки;
k - количество факторов влияния (число независимых переменных).
Критические значения F берут из таблиц (приложение Ж) при числе степеней свободы г1=k-1; г2=N-k. При Fфакт<Fтаб=Н0, т.е. принимается нулевая гипотеза об отсутствии корреляции и, наоборот, принимают альтернативную или рабочую гипотезу, т.е. о наличии корреляции, при Fфакт?Fтаб. Величина R (как и частные r) колеблется в пределах (-1)-(0)-(1).
Пределы (l), в которых может находиться RYZ, если известны RXY и RXZ определяют по формуле
(4)
Для того чтобы выяснить долю влияния одной из величин на другую в общей системе нескольких взаимовлияющих показателей, введено понятие частного коэффициента корреляции. Графически это можно выразить следующим образом.
Если существует тесная корреляция между x-z и y-z, то связь между х-у может создаваться за счет одновременного влияния на х и у третьего признака z. Чтобы найти то влияние, которое оказывает х на у (или у на х), надо исследовать зависимость х-у при постоянном z, т.е. х и у будут изменяться, а z=const, т.е. z мы элиминируем.
Вычисленный в этом случае коэффициент корреляции х-у называется частным коэффициентом корреляции. Формула его вычисления следующая
rxy-(z) = (5)
rxz-(y) = (6)
rzy-(x) = (7)
Статистиками множественной нелинейной корреляции являются множественные и частные корреляционные отношения.
Эмпирическое множественное корреляционное отношение з1.23 величины Х1 к величинам Х2 и Х2 дается выражением
(8)
или равносильными ему выражениями
, (9)
. (10)
Эмпирическое частное корреляционное отношение з12.3 величины Х1 и Х2 при данном значении Х3 вычисляется по формуле
, (11)
, (12)
где mij, мij - соответствующие моменты, описанные в разделе 12;
p'ij - частости, описанные там же.
В качестве примера применения частного коэффициента корреляции в лесном хозяйстве приведем установленные зависимости q2 от d и h, где q2 - второй коэффициент формы, d - диаметр дерева на 1, 3 м, h - высота дерева.
Коэффициент множественной корреляции здесь достигает 0, 95-0, 96. В то же время частные коэффициенты корреляции оказались rHD - 0, 75-0, 90; rDH - 0, 73-0, 92; rHq2 - 0, 90-0, 92; rDq2 - 0, 16-0, 20.
Долгое время считалось, что q2 зависит от обеих величин d и h. Подобную ошибку совершил даже крупный ученый-таксатор Матвеев-Мотин. Лишь Ф.П. Моисеенко, изучив частную корреляцию q2 - d и q2 - h, доказал, что величина коэффициента корреляции в связи q2 - d определяется высокой корреляцией d - h. При фиксированных h коэффициент корреляции q2 - d оказался не выше 0, 2, т.е. этой связи практически не было. Почему же до Ф.П. Моисеенко ученые впадали в ошибку? Ведь как методически построить исследование большинство из них знало. Но для этого нужен был огромный экспериментальный материал. Имея около 18 тысяч срубленных и обмеренных деревьев, Ф.П. Моисеенко такой материал собрал, смог вычислить частные r, а у других столь обширных замеров не было. В то же время в те годы, когда проводилась эта работа (1936-1941 гг.), подобные вычисления требовали длительного времени, на что не все шли. Теперь на ПК такая работа делается очень быстро.
3. Корреляционные модели
Корреляционные модели представляют собой уравнения, где на основе связи или взаимозависимости двух величин строится уравнение, в котором одна из величин выступает в качестве аргумента, а другая - функции, т.е. y = f(x). Построение таких моделей связано с вычислением коэффициента корреляции, т.е. здесь предполагается линейная зависимость. Из курса математики мы знаем, что линейная зависимость реализуется в виде уравнения прямой. Ее формула
у = а + вх (13)
где а, в - некоторые коэффициенты.
Здесь коэффициент а показывает величину отступления от начала координат, а в - угол наклона прямой к оси ох.
Приведем пример. Для этого воспользуемся результатами замеров диаметров и высот сосны в молодом возрасте (таблица 1).
Таблица 1 - Результаты измерения диаметров и высот молодых деревьев сосны
№ п/п |
Диаметр, см |
Высота, м |
№ п/п |
Диаметр, см |
Высота, м |
№ п/п |
Диаметр, см |
Высота, м |
|
1 |
7, 6 |
8, 7 |
6 |
8, 8 |
9, 8 |
11 |
8, 2 |
9, 2 |
|
2 |
6, 4 |
7, 5 |
7 |
9, 0 |
10, 1 |
12 |
4, 0 |
5, 6 |
|
3 |
5, 2 |
6, 6 |
8 |
6, 2 |
7, 2 |
13 |
5, 6 |
7, 0 |
|
4 |
4, 1 |
5, 7 |
9 |
7, 0 |
8, 1 |
14 |
4, 8 |
6, 5 |
|
5 |
3, 7 |
5, 2 |
10 |
7, 4 |
8, 5 |
15 |
6, 9 |
8, 0 |
Для того, чтобы оценить вид модели и общую закономерность изменения функции в зависимости от изменения аргумента построим график. На оси абсцисс будем откладывать диаметры, на оси ординат - высоты (рисунок 2)
Из рисунка 2 видно, что точки, показывающие соотношение D-Н лежат практически на прямой линии. Ранее в лесных исследованиях ограничивались графическим построением прямой. Достоинства графического построения очевидны: простота и наглядность. Его недостатками является определенный субъективизм. Даже анализируя убедительный рисунок 2, можно разойтись во мнении, как провести прямую линию, хотя расхождения у разных исполнителей будут невелики.
Корреляционные уравнения бывают не только двухмерные (парные), но и многомерные. Их вид следующий:
у=ах1 + bх2 + сх3 +... + nxn (14)
Графическое изображение множественных связей (после трех аргументов) затруднительно. Поэтому графические построения здесь обычно не делают.
Здесь же еще остановимся на некоторых особенностях применения корреляционных уравнений.
В общую формулу корреляционного уравнения все показатели проставляются в своих единицах измерения: действия производятся над их абсолютными величинами, не обращая внимания на наименования. Ответ получается в единицах измерения зависимой величины. Для проверки правильности полученного уравнения в него подставляется среднее значение независимого признака в его единицах измерения, а в ответе должно получиться среднее значение зависимого переменного, равное исходному.
Корреляционное уравнение применяется для получения точного среднего значения зависимого переменного, за которое принимается трудно измеримый признак, зная точное среднее значение независимого переменного, за которое принимается более быстро и легко измеримый признак, корреляционно взаимосвязанный с первым. Так при изучении диаметров и высот древостоя за независимую переменную принимают диаметр на высоте 1, 3 м, который значительно легче, проще и точнее измеряется, чем высота.
В этом случае необходимое число наблюдений для зависимого признака требуется значительно меньше того, какое было бы необходимо при самостоятельном анализе этого признака, и вычисляется по формуле (если точность задана в процентах)
n= , (15)
а точность опыта
р = (16)
Вспомним, что для одного статистического ряда n = .
Пусть требуется определить среднюю высоту с точностью 1 %, зная точный средний диаметр на отведенном участке леса. По данным, имеющимся в лесотаксационной литературе, известно, что коэффициент вариации высот в пределах спелого древостоя равен 12 - 15%. Значит, для получения средней высоты с точностью 1% потребовалась бы измерить n= = 152/12 =225 стволов, что трудно выполнимо.
Поскольку есть высокая корреляционная связь между диаметрами и высотами, то для получения средней высоты с той же точностью требуется значительно меньшее количество измеренных высот. Так, при обычном коэффициенте корреляции между D и Н, равном 0, 90, оно составит всего 225(1-0, 902) = 225(1-0, 81) = 43. Измерив у 43 деревьев высоты и диаметры, обрабатываем полученные данные и составляем корреляционное уравнение, в которое подставляем точную величину среднего диаметра. Среднюю высоту затем находим по корреляционному уравнению с заданной точностью.
Так, пусть по данным измерения высот у 43 стволов уравнение связи получилось h=0, 40d+14, 2 м, а точный средний диаметр 32, 2см; отсюда искомая высота равна h = 0, 4032, 2+14, 2 = 12, 9+14, 2 = 27, 1 м. При этом оказалось: V = 15%, а r = 0, 90. Точность опыта, т.е. полученной средней высоты, будет равняться
- p =
Угловой коэффициент корреляционного уравнения R = r называется коэффициентом регрессии; он показывает, на сколько единиц в среднем изменяется зависимый признак, если независимый изменился на одну единицу.
В вышеприведенном примере (уд=6, 96 и ун=2, 69 вычислены ранее) угловой коэффициент получился
R = 0, 90 = 0, 900, 386 = 0, 35 м.
Это значит, что при изменении диаметра на 1 см высота деревьев в среднем изменяется на 0, 36 м.
В общем виде линейная регрессия между двумя переменными величинами может быть выражена с помощью следующего общего уравнения
у = + r (х - ), (17)
где у, х - переменные вариационных рядов;
, - средние величины рядов;
- среднеквадратические отклонения вариационных рядов;
r - коэффициент корреляции.
Основная ошибка уравнения корреляционной связи определяется по формуле
my/x = y .
4. Применение корреляционных уравнений в лесном хозяйстве
корреляционный анализ уравнение лесной
Корреляционные уравнения очень широко применяются как в лесных исследованиях, так и в практической работе, особенно в лесоустройстве и при проведении проектных работ. Примеров этому очень много.
Так, связь диаметров и высот и конкретное выражение этой связи самым непосредственным образом используют при построении сортиментных и товарных таблиц. Первые обычно строят по разрядам высот. Для определения разряда высот используют замеры диаметров и высот у 9-12 деревьев. Далее для вычисления объема деревьев применяют специальные сортиментные таблицы, где заложены уравнения связи Н-D, выведенные при проведении научных исследований. Ранее, до выведения таких связей, были таблицы, которые требовали измерения высоты у каждого дерева. Это очень трудоемко. Использование здесь корреляционных уравнений снизило затраты труда на отводах лесосек в десятки и сотни раз.
Продолжая тему сорментации отметим, что для вычисления объемов стволов и выхода сортиментов у сосны после подсочки, когда форма ствола на высоте 1, 3 м деформирована карами, с которых собирают живицу, использована связь диаметра на 1, 3 м, измеренного по ремням, т.е. по неповрежденной части ствола и диаметра на 0, 5 Н.
Запас древостоя при проведении лесоинвентаризации инженер-таксатор определяет по таблице, где входами служат высота и полнота, т.е. используется корреляция. Очень широко используются корреляционные зависимости в охотоведении. Например, по форме следов и их размерам опытные охотоведы определяют пол, возраст, состояние животного.
Велико значение корреляции в защите леса от вредителей. Есть уравнения описывающие характер размножения вредителя, ожидаемый ущерб от состояния популяции в некоторый момент времени, погодных условий и состояния лесного насаждения. Использование таких уравнений позволит сделать прогнозы массового размножения вредителей и принять превентивные меры защиты насаждений.
Нахождение величин у по корреляционным уравнениям из формулы у = а + вх называется выравниванием или аппроксимацией. Выравненные значения функции отражают закономерное ее изменение (с некоторой основной ошибкой), где исключены случайные влияния на отдельные измеренные значения вариационного ряда.
В научных исследованиях необходимо не просто измерить или определить какие-то величины, но и найти закономерные связи между ними, определить то общее, что связывает функцию и аргументы и выразить это математически.
Более общие случаи определения зависимости у = f(x) будут рассмотрены в следующей главе.
Размещено на Allbest.ru
...Подобные документы
Значение математической статистики для анализа закономерностей массовых явлений. Основные теоретические выкладки корреляционного анализа. Применение его инструментария в контексте металлургической промышленности в среде программного средства Statistica 6.
реферат [261,4 K], добавлен 03.08.2014Обработка одномерной и двумерной случайных выборок. Нахождение точечных оценок. Построение гистограммы функций распределения, корреляционной таблицы. Нахождение выборочного коэффициента корреляции. Построение поля рассеивания, корреляционные отношения.
курсовая работа [1,3 M], добавлен 10.06.2013Понятие комплекса случайных величин, закона их распределения и вероятностной зависимости. Числовые характеристики случайных величин: математическое ожидание, момент, дисперсия и корреляционный момент. Показатель интенсивности связи между переменными.
курсовая работа [2,4 M], добавлен 07.02.2011Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.
контрольная работа [178,0 K], добавлен 23.11.2013Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.
лабораторная работа [22,3 K], добавлен 15.04.2014Функциональные и корреляционные зависимости. Сущность корреляционной связи. Методы выявления наличия корреляционной связи между двумя признаками и измерение степени ее тесноты. Построение корреляционной таблицы. Уравнение регрессии и способы его расчета.
контрольная работа [55,2 K], добавлен 23.07.2009Задачи Коши для дифференциальных уравнений. График решения дифференциального уравнения I порядка. Уравнения с разделяющимися переменными и приводящиеся к однородному. Однородные и неоднородные линейные уравнения первого порядка. Уравнение Бернулли.
лекция [520,6 K], добавлен 18.08.2012Аналитическое решение уравнения для вынужденных поперечных колебаний консольного стержня. Численное решение уравнения с помощью метода "бегущего счёта". Вывод уравнения движения из основных законов физики. Построение дискретной модели и выбор сетки.
курсовая работа [1,0 M], добавлен 25.02.2013Основные модели естествознания, подходы к исследованию явлений природы, её фундаментальных законов на основе математического анализа. Динамические системы, автономные дифференциальные уравнения, интегро-дифференциальные уравнения, законы термодинамики.
курс лекций [1,1 M], добавлен 02.03.2010Определение вероятности наступления события по формуле Бернулли. Построение эмпирической функции распределения и гистограммы для случайной величины. Вычисление коэффициента корреляции, получение уравнения регрессии. Пример решения задачи симплекс-методом.
контрольная работа [547,6 K], добавлен 02.02.2012Общий вид линейного однородного уравнения. Нахождение производных, вещественные и равные корни характеристического уравнения. Пример решения дифференциального уравнения с постоянными коэффициентами. Общее и частное решение неоднородного уравнения.
презентация [206,3 K], добавлен 17.09.2013Проверка непрерывности заданных функций. Интегрирование заданного уравнения и выполние преобразования с ним. Интегрирование однородного дифференциального уравнения. Решение линейного дифференциального уравнения. Общее решение неоднородного уравнения.
контрольная работа [65,3 K], добавлен 15.12.2010Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.
дипломная работа [256,0 K], добавлен 29.06.2017Понятие иррационального уравнения. Применение формул сокращённого умножения. Посторонние корни и причины их появления. Возведение обеих частей уравнения в одну и ту же степень. Метод замены переменной. Иррациональные уравнения, не имеющие решений.
презентация [94,6 K], добавлен 08.11.2011Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.
презентация [92,4 K], добавлен 01.11.2013Исследование задачи Дирихле для вырождающегося уравнения смешанного типа в прямоугольной области методами спектрального анализа. Обоснование корректности постановки нелокальных начально-граничных задач различных вырождающихся дифференциальных уравнений.
курсовая работа [135,1 K], добавлен 06.05.2011Порядок решения дифференциального уравнения 1-го порядка. Поиск частного решения дифференциального уравнения, удовлетворяющего указанным начальным условиям. Особенности применения метода Эйлера. Составление характеристического уравнения матрицы системы.
контрольная работа [332,6 K], добавлен 14.12.2012Теория решения диофантовых уравнений. Однородные уравнения. Общие линейные уравнения. Единственности разложения натурального числа на простые множители. Решение каждой конкретной задачи в целых числах с помощью разных методов. Основные неизвестные х и у.
материалы конференции [554,8 K], добавлен 13.03.2009Общий интеграл уравнения, применение метода Лагранжа для решения неоднородного линейного уравнения с неизвестной функцией. Решение дифференциального уравнения в параметрической форме. Условие Эйлера, уравнение первого порядка в полных дифференциалах.
контрольная работа [94,3 K], добавлен 02.11.2011Порядок и процедура поиска решения дифференциального уравнения. Теорема существования и единственности решения задачи Коши. Задачи, приводящие к дифференциальным уравнениям. Дифференциальные уравнения первого порядка, с разделяющими переменными.
лекция [744,1 K], добавлен 24.11.2010