Корреляция и взаимосвязь величин
Коэффициент ранговой корреляции Кендалла, определение ограничений корреляционного анализа. Коэффициент корреляции знаков Фехнера, характеристика параметрических показателей корреляции. Коэффициент ранговой корреляции Спирмена, сущность ковариации.
Рубрика | Математика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 13.04.2023 |
Размер файла | 79,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Содержание
Введение
1. Корреляция и взаимосвязь величин
2. Показатели корреляции
2.1 Параметрические показатели корреляции
2.1.1 Ковариация
2.1.2 Линейный коэффициент корреляции
2.2 Непараметрические показатели корреляции
2.2.1 Коэффициент ранговой корреляции Кендалла
2.2.2 Коэффициент ранговой корреляции Спирмена
2.2.3 Коэффициент корреляции знаков Фехнера
2.2.4 Коэффициент множественной ранговой корреляции (конкордации)
2.3 Свойства коэффициента корреляции
3. Корреляционный анализ
3.1 Ограничения корреляционного анализа
3.2 Область применения
Примечания
Литература
Введение
Коррелямция (корреляционная зависимость) -- статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения значений одной или нескольких из этих величин приводят к систематическому изменению значений другой или других величин.[1] Математической мерой корреляции двух случайных величин служит корреляционное отношение Размещено на http://www.allbest.ru/
[2], либо коэффициент корреляции Размещено на http://www.allbest.ru/
(или Размещено на http://www.allbest.ru/
)[1]. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической[3]. коэффициент ранговой корреляции ковариации
Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.[4]
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи -- например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция -- корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях -- корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.
1. Корреляция и взаимосвязь величин
Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бомльшее количество пожарных приводит к бомльшему ущербу», и тем более не имеет смысла попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.[5]
В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Более тонкий инструмент для изучения связи между двумя случайными величинами является понятие взаимной информации.
2. Показатели корреляции
2.1 Параметрические показатели корреляции
2.1.1 Ковариация
Важной характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент). Ковариация являетcя совместным центральным моментом второго порядка.[6] Ковариация определяется как математическое ожидание произведения отклонений случайных величин[7]:
где -- математическое ожидание.
Свойства ковариации:
· Ковариация двух независимых случайных величин и равна нулю[8].
Доказательство
Так как Размещено на http://www.allbest.ru/
и Размещено на http://www.allbest.ru/
-- независимые случайные величины, то и их отклонения Размещено на http://www.allbest.ru/
и Размещено на http://www.allbest.ru/
также независимы. Пользуясь тем, что математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий сомножителей, а математическое ожидание отклонения равно нулю, имеем
· Абсолютная величина ковариации двух случайных величин Размещено на http://www.allbest.ru/
и не превышает среднего геометрического их дисперсий: [9].
Доказательство
Введём в рассмотрение случайную величину (где -- среднеквадратическое отклонение) и найдём её дисперсию . Выполнив выкладки получим:
Любая дисперсия неотрицательна, поэтому
Отсюда
Введя случайную величину Размещено на http://www.allbest.ru/
, аналогично
Объединив полученные неравенства имеем
Или
Итак,
· Ковариация имеет размерность, равную произведению размерности случайных величин, то есть величина ковариации зависит от единиц измерения независимых величин. Данная особенность ковариации затрудняет её использование в целях корреляционного анализа[8].
2.1.2 Линейный коэффициент корреляции
Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон (англ.)русск. в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле[10][8]:
Коэффициент корреляции изменяется в пределах от минус единицы до единицы[11].
Доказательство
Разделив обе части двойного неравенства на получим
Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости:Размещено на http://www.allbest.ru/
где Размещено на http://www.allbest.ru/
-- коэффициент регрессии, Размещено на http://www.allbest.ru/
-- среднеквадратическое отклонение соответствующего факторного признака[12].
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».
Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или Размещено на http://www.allbest.ru/
(тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).
2.2 Непараметрические показатели корреляции
2.2.1 Коэффициент ранговой корреляции Кендалла
Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:
где S = P ? Q.
P -- суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.
Q -- суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)
Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:
t -- число связанных рангов в ряду X и Y соответственно.
2.2.2 Коэффициент ранговой корреляции Спирмена
Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности d и вычисляется коэффициент корреляции Спирмена:
2.2.3 Коэффициент корреляции знаков Фехнера
Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.
C -- число пар, у которых знаки отклонений значений от их средних совпадают.
H -- число пар, у которых знаки отклонений значений от их средних не совпадают.
2.2.4 Коэффициент множественной ранговой корреляции (конкордации)
m -- число групп, которые ранжируются.
n -- число переменных.
Rij -- ранг i-фактора у j-единицы.
Значимость:
, то гипотеза об отсутствии связи отвергается.
В случае наличия связанных рангов:
2.3 Свойства коэффициента корреляции
· Неравенство Коши -- Буняковского:
если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши -- Буняковского будет:
· Коэффициент корреляции равен Размещено на http://www.allbest.ru/
тогда и только тогда, когда X и Y линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):
где . Более того в этом случае знаки и k совпадают:
Доказательство
Рассмотрим случайные величины X и Y c нулевыми средними, и дисперсиями, равными, соответственно, и . Подсчитаем дисперсию случайной величины о = aX + bY:
Если предположить, что коэффициент корреляции
то предыдущее выражение перепишется в виде
Поскольку всегда можно выбрать числа a и b так, чтобы Размещено на http://www.allbest.ru/
(например, если , то берём произвольное a и ), то при этих a и b дисперсия , и значит о = aX + bY = 0 почти наверное. Но это и означает линейную зависимость между X и Y. Доказательство очевидным образом обобщается на случай величин X и Y с ненулевыми средними, только в вышеприведённых выкладках надо будет X заменить на , и Y -- на .
· Если X,Y независимые случайные величины, то Размещено на http://www.allbest.ru/
. Обратное в общем случае неверно.
3. Корреляционный анализ
Корреляционный анализ -- метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).[1][2]
3.1 Ограничения корреляционного анализа
Множество корреляционных полей. Распределения значений (x, y) с соответствующими коэффициентами корреляций для каждого из них. Коэффициент корреляции отражает «зашумлённость» линейной зависимости (верхняя строка), но не описывает наклон линейной зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка). Для распределения, показанного в центре рисунка, коэффициент корреляции не определен, так как изменчивость y равна нулю.
1. Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно быть не менее, чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию не менее, чем в 10 раз превышающую количество факторов). В случае, если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.[13]
2. Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае, если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.[14].
3. Исходная совокупность значений должна быть качественно однородной.[13]
4. Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.[5]
3.2 Область применения
Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.
Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.
Литература
1. Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. -- 10-е издание, стереотипное. -- Москва: Высшая школа, 2004. -- 479 с. -- ISBN 5-06-004214-6
2. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. -- 4-е издание, переработанное и дополненное. -- Москва: Финансы и Статистика, 2002. -- 480 с. -- ISBN 5-279-01956-9
3. Общая теория статистики: Учебник / Под ред. Р.А. Шмойловой. -- 3-е издание, переработанное. -- Москва: Финансы и Статистика, 2002. -- 560 с. -- ISBN 5-279-01951-8
4. Суслов В.И., Ибрагимов Н.М., Талышева Л.П., Цыплаков А.А. Эконометрия. -- Новосибирск: СО РАН, 2005. -- 744 с. -- ISBN 5-7692-0755-8
Размещено на Allbest.ru
...Подобные документы
Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.
контрольная работа [178,0 K], добавлен 23.11.2013Сущность, цели применения, основные достоинства метода канонических корреляций. Оценка тесноты связи между новыми каноническими переменными U и V. Максимальный канонический коэффициент корреляции, методика его расчета. Использование критерия Бартлетта.
презентация [109,2 K], добавлен 10.02.2015Математическое ожидание дискретной случайной величины, его свойства и определение. Дисперсия и формула для ее вычисления. Среднее квадратическое отклонение. Ковариация и коэффициент корреляции. Коррелированные и некоррелированные случайные величины.
курсовая работа [133,7 K], добавлен 05.06.2011Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.
презентация [92,4 K], добавлен 01.11.2013Математическое ожидание случайной величины. Свойства математического ожидания, дисперсия случайной величины, их суммы. Функция от случайных величин, ее математическое ожидание. Коэффициент корреляции, виды сходимости последовательности случайных величин.
лекция [285,3 K], добавлен 17.12.2010Функция распределения вероятностей двух случайных величин. Функция и плотность распределения вероятностей случайного вектора. Многомерное нормальное распределение. Коэффициент корреляции. Распределение вероятностей функции одной случайной величины.
реферат [241,8 K], добавлен 03.12.2007В каждой из двух урн содержится 6 черных и 4 белых шаров. Из первой урны наудачу извлечен один шар и переложен во вторую. Найти вероятность того, что шар, извлеченный из второй урны, окажется черным.
контрольная работа [619,9 K], добавлен 19.05.2003Нахождение плотности, среднеквадратического отклонения, дисперсии, ковариации и коэффициента корреляции системы случайных величин. Определение доверительного интервала для оценки математического ожидания нормального распределения с заданной надежностью.
контрольная работа [200,3 K], добавлен 16.08.2010Обработка данных измерений величин и представление результатов с нужной степенью вероятности. Определение среднего арифметического и вычисление среднего значения измеренных величин. Выявление грубых ошибок. Коэффициенты корреляции. Косвенные измерения.
реферат [116,2 K], добавлен 16.02.2016Алгебраический расчет плотности случайных величин, математических ожиданий, дисперсии и коэффициента корреляции. Распределение вероятностей одномерной случайной величины. Составление выборочных уравнений прямой регрессии, основанное на исходных данных.
задача [143,4 K], добавлен 31.01.2011Длина интервала группирования. Гистограмма относительных частот. Кусочно-постоянная функция. Среднеквадратичное отклонение оценки математического ожидания случайной величины. Коэффициент корреляции. Границы доверительного интервала для ожидания.
курсовая работа [622,9 K], добавлен 18.02.2009Случайная выборка значений двух случайных величин для исследования их совместного распределения. Диаграмма рассеяния опытных данных для четырех видов распределения. Вычисление коэффициента корреляции при большом объеме выборок; проверка его значимости.
реферат [811,7 K], добавлен 27.01.2013Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.
дипломная работа [256,0 K], добавлен 29.06.2017Адекватная линейная регрессионная модель. Правило проверки адекватности. Определение математического ожидания, коэффициента детерминации, множественного коэффициента корреляции по характеристикам случайных величин. Оценка дисперсии случайной ошибки.
контрольная работа [160,0 K], добавлен 13.08.2013Предмет и метод математической статистики. Распределение непрерывной случайной величины с точки зрения теории вероятности на примере логарифмически-нормального распределения. Расчет корреляции величин и нахождение линейной зависимости случайных величин.
курсовая работа [988,5 K], добавлен 19.01.2011Функция распределения непрерывной случайной величины. Математическое ожидание непрерывной случайной величины, плотность распределения вероятностей системы. Ковариация. Коэффициент корреляции.
лабораторная работа [52,3 K], добавлен 19.08.2002Обоснование оценок прямых и косвенных измерений и их погрешностей. Введение доверительного интервала в асимптотическом приближении бесконечно большого числа экспериментов. Вычисление коэффициента корреляции для оценки зависимости случайных величин.
реферат [151,5 K], добавлен 19.08.2015Проведение аналитической группировки и дисперсионного анализа данных, с целью количественно определить тесноту связи. Определение степени корреляции между группировочными признаками и вариационной зависимости переменной, обусловленной регрессией.
контрольная работа [140,5 K], добавлен 17.08.2014Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Классификация взаимосвязи явлений, различаемых в статистике, их разновидности и характеристика, отличительные признаки. Сущность коэффициента парной корреляции, его особенности и методика оценки достоверности, применение доверительных интервалов.
реферат [1,3 M], добавлен 30.04.2009