Оценка значимости линейного коэффициента корреляции и связанные с ним задачи

Понятие корреляции, сущность корреляции между двумя случайными величинами. Параметрические и непараметрические показатели корреляции. Свойства коэффициента корреляции, понятие ложной корреляции. Оценка корреляционной связи по коэффициенту корреляции.

Рубрика Математика
Вид реферат
Язык русский
Дата добавления 30.10.2015
Размер файла 171,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Министерство образования и науки Российской Федерации

Институт математики, естествознания и техники

Кафедра математики и методики её преподавания

РЕФЕРАТ

на тему:

Оценка значимости линейного коэффициента корреляции и связанные с ним задачи

Елец - 2015

СОДЕРЖАНИЕ:

  • Введение
  • §1. Корреляция и взаимосвязь величин
  • §2. Показатели корреляции
  • 2.1 Параметрические показатели корреляции
  • 2.2 Непараметрические показатели корреляции
  • §3. Свойства коэффициента корреляции
  • §4. Корреляционный анализ, ложная корреляция

§5. Оценка корреляционной связи по коэффициенту корреляции

  • Заключение
  • Список литературы

ВВЕДЕНИЕ

Корреляция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная зависимость -- это статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Математической мерой корреляции двух случайных величин служит корреляционное отношение , либо коэффициент корреляции или . В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Впервые в научный оборот термин корреляция ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

§1. Корреляция и взаимосвязь величин

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад. В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором -- также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция -- корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях -- это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи -- например, для независимых случайных величин.

§2. ПОКАЗАТЕЛИ КОРРЕЛЯЦИИ

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или ф(тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими -- четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).

2.1 Параметрические показатели корреляции

Важной характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент). Ковариация является совместным центральным моментом второго порядка. Ковариация определяется как математическое ожидание произведения отклонений случайных величин. корреляция величина параметрический коэффициент

,

где -- математическое ожидание.

Свойства ковариации:

1) Ковариация двух независимых случайных величин и равна нулю.

Доказательство:

Так как и -- независимые случайные величины, то и их отклонения и также независимы. Пользуясь тем, что математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий сомножителей, а математическое ожидание отклонения равно нулю, имеем:

.

2) Абсолютная величина ковариации двух случайных величин и не превышает среднего геометрического их дисперсий:

Доказательство:

Введём в рассмотрение случайную величину (где -- среднеквадратическое отклонение) и найдём её дисперсию .

Выполнив выкладки получим: .

Любая дисперсия неотрицательна, поэтому:

.

Отсюда .

Введя случайную величину , аналогично .

Объединив полученные неравенства имеем .

Или . Итак, .

3) Ковариация имеет размерность, равную произведению размерности случайных величин, то есть величина ковариации зависит от единиц измерения независимых величин. Данная особенность ковариации затрудняет её использование в целях корреляционного анализа.

Для устранения недостатка ковариации был введен линейный коэффициент коррелляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле:

,

где - среднее значение выборок.

Коэффициент корреляции изменяется в пределах (-1; 1).

Доказательство:

Разделив обе части двойного неравенства на получим .

Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости: , где - коэффициент регрессии, - среднеквадратическое отклонение соответствующего факторного признака.

2.2 Непараметрические показатели корреляции

Коэффициент ранговой корреляции Кендалла.

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя и рассчитывают коэффициент корреляции Кендалла:

, где .

-- суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов .

-- суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов . (равные ранги не учитываются)

.

Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:

, ,

-- число связанных рангов в ряду и соответственно.

Коэффициент ранговой корреляции Спирмена.

Степень зависимости двух случайных величин (признаков) и может характеризоваться на основе анализа получаемых результатов Каждому показателю и присваивается ранг. Ранги значений расположены в естественном порядке . Ранг записывается как и соответствует рангу той пары , для которой ранг равен. На основе полученных рангов и рассчитываются их разности и вычисляется коэффициент корреляции Спирмена:

.

Значение коэффициента меняется от ?1 (последовательности рангов полностью противоположны) до +1 (последовательности рангов полностью совпадают). Нулевое значение показывает, что признаки независимы.

Коэффициент корреляции знаков Фехнера.

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.

-- число пар, у которых знаки отклонений значений от их средних совпадают.

-- число пар, у которых знаки отклонений значений от их средних не совпадают.

Коэффициент множественной ранговой корреляции (конкордации).

,

-- число групп, которые ранжируются.

-- число переменных.

- ранг -фактора у -единицы.

Значимость:

, , ,

то гипотеза об отсутствии связи отвергается.

В случае наличия связанных рангов:

, .

§3. СВОЙСТВА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

1) Неравенство Коши -- Буняковского: если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши -- Буняковского будет: .

2) Коэффициент корреляции равен тогда и только тогда, когда и линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):

,

где . Более того в этом случае знаки и совпадают: .

Доказательство:

Рассмотрим случайные величины и c нулевыми средними, и дисперсиями, равными, соответственно, и . Подсчитаем дисперсию случайной величины : .

Если предположить, что коэффициент корреляции , то предыдущее выражение перепишется в виде

.

Поскольку всегда можно выбрать числа и так, чтобы (например, если , то берём произвольное и , то при этих и дисперсия , и значит . Но это и означает линейную зависимость между и . Доказательство очевидным образом обобщается на случай величин и с ненулевыми средними, только в вышеприведённых выкладках надо будет заменить на , и -- на .

3) Если независимые случайные величины, то . Обратное в общем случае неверно.

§4. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ, ЛОЖНАЯ КОРРЕЛЯЦИЯ

Корреляционный анализ - метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Корреляционный анализ тесно связан с регрессионным анализом (также часто встречается термин «корреляционно-регрессионный анализ», который является более общим статистическим понятием), с его помощью определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям (используя коэффициент детерминации).

Ограничения корреляционного анализа:

1) Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.

2) Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.

3) Исходная совокупность значений должна быть качественно однородной.

4) Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

В современной количественной методологии социальных наук, фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.

§5. ОЦЕНКА КОРРЕЛЯЦИОННОЙ СВЯЗИ ПО КОЭФФИЦИЕНТУ КОРРЕЛЯЦИИ

При изучении корреляционной связи важным направлением анализа является оценка степени тесноты связи. Понятие степени тесноты связи между двумя признаками возникает вследствие того, что в реальной действительности на изменение результативного признака влияют несколько факторов. При этом влияние одного из факторов может выражаться более заметно и четко, чем влияние других факторов. С изменением условий в качестве главного, решающего фактора может выступать другой.

Теснота связи - степень связи между признаками при наличии корреляционной зависимости, когда средняя величина значений одного признака меняется в зависимости от изменения другого признака.

При статистическом изучении взаимосвязей, как правило, учитываются только основные факторы. А вопрос необходимо ли вообще изучать более подробно данную связь и практически ее использовать, решается с учетом степени тесноты связи. Зная количественную оценку тесноты корреляционной связи, таким образом можно решить следующую группу вопросов: необходимо ли глубокое изучение данной связи между признаками и целесообразно ли ее практическое применение; сопоставляя оценки тесноты связи для различных условий, можно судить о степени различий в ее проявлении в конкретных условиях; последовательное рассмотрение и сравнение признака у с различными факторами позволяет выявить, какие из этих факторов в данных конкретных условиях являются главными, решающими факторами, а какие второстепенными, незначительными факторами.

Показатели тесноты связи должны удовлетворять ряду основных требований: величина показателя степени тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует; при наличии между изучаемыми признаками ( и ) функциональной связи величина степень тесноты связи равна единице; при наличии между признаками ( и ) корреляционной связи показатель тесноты связи выражается правильной дробью, которая по величине тем больше, чем теснее связь между изучаемыми признаками (стремится к единице); при прямолинейной корреляционной связи показатели тесноты связи отражают и направление связи: знак (+) означает наличие прямой (положительной)связи; а знак (-) - обратной (отрицательной).

Для характеристики степени тесноты корреляционной связи могут применяться различные статистические показатели: коэффициент Фехнера (КФ), коэффициент линейной (парной) корреляции (), коэффициент детерминации, корреляционное отношение (), индекс корреляции, коэффициент множественной корреляции (), коэффициент частной корреляции () и др. В данном вопросе рассмотрим коэффициент линейной корреляции () и корреляционное отношение.

Более совершенным статистических показателем степени тесноты корреляционной связи является линейный коэффициент корреляции (), предложенный в конце XIX в. При расчете коэффициента корреляции сопоставляются абсолютные значения отклонений индивидуальных величин факториального признака х и результативного признака у от их средних.

На практике коэффициент корреляции используется как некоторый «градусник», который показывает «ноль» в случае независимости переменных, плюс единицу в случае прямой линейной зависимости переменных и минус единицу в случае обратной линейной зависимости переменных. Значения коэффициента, находящиеся между нулем и единицей понимаются (с математической точки зрения не обосновано) так: чем ближе значение коэффициента корреляции к нулю, тем слабее зависимость, чем ближе к (плюс или минус) единице- тем сильнее зависимость. Отметим, что речь идет лишь об интерпретации свойств коэффициента корреляции, при этом аналитик далеко выходит за рамки математически точных утверждений.

Есть случаи, когда корреляция может говорить о причинно-следственной связи. Это случаи, когда одна из переменных объективна, а вторая субъективна. К объективным переменным относятся возраст, стаж, рост, которые просто не могут зависеть от субъективных переменных: настроения, особенностей личности, мотивации и т.д. Однако, такие объективные переменные, как вес, количество детей в семье, частота смены места работы, количество контактов и т.п. могут и часто зависят от субъективных психологических показателей.

К примеру, профессионализм рабочего повышается со стажем. Стаж и профессионализм коррелируют и мы можем быть уверены, что для повышения профессионализма стаж является объективной причиной. Объективные переменные, основанные на времени всегда являются причиной при наличии корреляции с субъективными характеристиками. В остальных случаях нужно очень осторожно относиться к причинно-следственным интерпретациям коэффициента корреляции.

Если причинно-следственная связь обоснована в теоретической части работы и подтверждается многими авторами, то корреляцию так же можно интерпретировать как причинно-следственную связь.

Виды взаимосвязи:

1) прямая положительная и отрицательная взаимосвязь. Два явления непосредственно совпадают, поэтому взаимосвязаны. Интеллект и успеваемость в школе, общительность и застенчивость - яркие примеры прямой взаимосвязи;

2) косвенная взаимосвязь. Два явления сильно коррелируют с третьим, поэтому между собой так же имеют корреляцию. К примеру, стиль общения ребенка взаимосвязан со стилем воспитания в семье за счет третьей переменной - установок личности. Очевидно, что воспитание в семье формирует установки ребенка, в свою очередь установки влияют на поведение;

3) нулевая корреляция. Предполагает отсутствие закономерной взаимосвязи между переменными;

4) случайная взаимосвязь. Корреляция может быть случайной! Очень многие процессы происходят одновременно и совпадают.

Достоинства корреляционного отношения:

Корреляционное отношение служит мерой тесноты связи любой, в том числе и линейной. В этом его достоинство перед коэффициентом корреляции, который оценивает степень тесноты только линейной связи.

Недостатки корреляционного отношения:

Корреляционное отношение не позволяет судить на сколько близко расположены точки найденным по данным наблюдения к кривой определенного вида (гипербола, парабола, синусоида и т.д.). Это объясняется тем, что при определении корреляционного отношения вид связи не учитывается.

ЗАКЛЮЧЕНИЕ

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

СПИСОК ЛИТЕРАТУРЫ

1) Елисеева, И.И. Общая теория статистики: Учебник. 4-е издание / Под ред. И.И. Елисеевой - Москва: Финансы и Статистика, 2002 - 480 с.

2) Гмурман, В.Е. Теория вероятностей и математическая статистика: Учебное пособие для ВУЗов. 10-е издание - Москва: Высшая школа, 2004. - 479 с.

3) Общая теория статистики: Учебник. 3-е издание / Под ред. Р.А. Шмойловой - Москва: Финансы и Статистика, 2002 - 560 с.

Размещено на Allbest.ru

...

Подобные документы

  • Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.

    контрольная работа [178,0 K], добавлен 23.11.2013

  • Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

    курсовая работа [304,0 K], добавлен 02.03.2017

  • Понятие и примеры шкалы отношений. Что такое стратифицированная (или расслоенная) выборка. Определение медианы и мощности критерия. Характеристика термина "процентиль". Влияние коэффициента корреляции на зависимость между исследуемыми величинами.

    контрольная работа [51,0 K], добавлен 29.09.2010

  • Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.

    курсовая работа [782,6 K], добавлен 19.05.2014

  • Вычисление по классической формуле вероятности. Определение вероятности, что взятая наугад деталь не соответствует стандарту. Расчет и построение графиков функции распределения и случайной величины. Вычисление коэффициента корреляции между величинами.

    контрольная работа [708,2 K], добавлен 02.02.2011

  • Адекватная линейная регрессионная модель. Правило проверки адекватности. Определение математического ожидания, коэффициента детерминации, множественного коэффициента корреляции по характеристикам случайных величин. Оценка дисперсии случайной ошибки.

    контрольная работа [160,0 K], добавлен 13.08.2013

  • Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.

    лабораторная работа [22,3 K], добавлен 15.04.2014

  • Теория вероятности, понятие вероятности события и её классификация. Понятие комбинаторики и её основные правила. Теоремы умножения вероятностей. Понятие и виды случайных величин. Задачи математической статистики. Расчёт коэффициента корреляции.

    шпаргалка [945,2 K], добавлен 18.06.2012

  • Случайная выборка значений двух случайных величин для исследования их совместного распределения. Диаграмма рассеяния опытных данных для четырех видов распределения. Вычисление коэффициента корреляции при большом объеме выборок; проверка его значимости.

    реферат [811,7 K], добавлен 27.01.2013

  • Понятие корреляционного момента двух случайных величин. Математическое ожидание произведения независимых случайных величин Х и У. Степень тесноты линейной зависимости между ними. Абсолютное значение коэффициента корреляции, его расчет и показатель.

    презентация [92,4 K], добавлен 01.11.2013

  • Обработка одномерной и двумерной случайных выборок. Нахождение точечных оценок. Построение гистограммы функций распределения, корреляционной таблицы. Нахождение выборочного коэффициента корреляции. Построение поля рассеивания, корреляционные отношения.

    курсовая работа [1,3 M], добавлен 10.06.2013

  • Нахождение выборочной средней и дисперсии. Построение гистограммы продолжительности телефонных разговоров и нормальной кривой Гаусса. Нахождение групповых средних и коэффициента корреляции. Выборочные характеристики и параметры уравнений регрессии.

    контрольная работа [87,8 K], добавлен 30.11.2013

  • Классификация взаимосвязи явлений, различаемых в статистике, их разновидности и характеристика, отличительные признаки. Сущность коэффициента парной корреляции, его особенности и методика оценки достоверности, применение доверительных интервалов.

    реферат [1,3 M], добавлен 30.04.2009

  • Нахождение плотности, среднеквадратического отклонения, дисперсии, ковариации и коэффициента корреляции системы случайных величин. Определение доверительного интервала для оценки математического ожидания нормального распределения с заданной надежностью.

    контрольная работа [200,3 K], добавлен 16.08.2010

  • Определение вероятности наступления события по формуле Бернулли. Построение эмпирической функции распределения и гистограммы для случайной величины. Вычисление коэффициента корреляции, получение уравнения регрессии. Пример решения задачи симплекс-методом.

    контрольная работа [547,6 K], добавлен 02.02.2012

  • Сущность, цели применения, основные достоинства метода канонических корреляций. Оценка тесноты связи между новыми каноническими переменными U и V. Максимальный канонический коэффициент корреляции, методика его расчета. Использование критерия Бартлетта.

    презентация [109,2 K], добавлен 10.02.2015

  • Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

    задача [409,0 K], добавлен 17.10.2012

  • Вычисление математического ожидания, дисперсии и коэффициента корреляции. Определение функции распределения и его плотности. Нахождение вероятности попадания в определенный интервал. Особенности построения гистограммы частот. Применение критерия Пирсона.

    задача [140,0 K], добавлен 17.11.2011

  • Алгебраический расчет плотности случайных величин, математических ожиданий, дисперсии и коэффициента корреляции. Распределение вероятностей одномерной случайной величины. Составление выборочных уравнений прямой регрессии, основанное на исходных данных.

    задача [143,4 K], добавлен 31.01.2011

  • Длина интервала группирования. Графическое описание выборки. Гистограмма относительных частот. Кусочно-постоянная функция. Границы доверительного интервала математического ожидания. Вычисление коэффициента корреляции. Эмпирическая функция распределения.

    практическая работа [737,5 K], добавлен 14.02.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.