Этапы корреляционно-регрессионного анализа данных

Измерение тесноты связи показателей с помощью коэффициента корреляции с помощью методов корреляционно-регрессионного анализа, аналитики. Статистическая функция КОРРЕЛ для вычисления парных коэффициентов корреляции. Алгоритм разработки имитационной модели.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 28.03.2020
Размер файла 969,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru//

Этапы корреляционно-регрессионного анализа данных

Полученные в результате каких-либо исследований данные почти всегда представлены в виде таблиц. Числовые данные, содержащиеся в таблицах, обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа заранее неизвестны. Однако люди должны уметь объяснять и предсказывать (прогнозировать) сложные явления, поведение объектов или систем для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели. В экономике значимое уравнение используется, как правило, для прогнозирования изучаемого явления или показателя.

Корреляционно-регрессионный анализ связей между переменными показывает, как один набор переменных (X) может влиять на другой набор (У). Таким образом, регрессионные вычисления и подбор хороших уравнений - это ценный, универсальный исследовательский инструмент в самых разнообразных отраслях деловой и научной деятельности (маркетинг, торговля, медицина, техника и т. д.).

Рассмотрим этапы корреляционно-регрессионного анализа данных.

Нулевой этап - это сбор данных. Как в строительстве нулевой цикл обеспечивает фундамент будущему зданию, так в корреляционно-регрессионном анализе решающую роль играет качество данных. Сбор данных создает фундамент прогнозам. Поэтому имеется ряд требований и правил, которые следует соблюдать при сборе данных.

Данные должны быть наблюдаемыми, т. е. полученными в результате замера, а не расчета. Наблюдения следует спланировать. Чем больше неодинаковых (не повторяющихся) данных, и чем они однороднее, тем лучше получится уравнение, если связи существенны. Подозрительные данные могут быть вызваны ошибками наблюдений и экспериментов.

Первый этап - корреляционный анализ. Его цель - определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений. При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей: связи зависимой переменной с независимыми, связи между самими независимыми.

Для определения тесноты связи результативного признака у с определяющими его х1, х2, х3 и влияния определяющих признаков друг на друга вычисляются парные коэффициенты корреляции ryx1, ryx2, ryx3, rx1x2, rx1x3, rx2x3.

, где - выборочное среднее значение переменных х1, у по всем группам значений переменных, , , где m - количество групп исследуемых изделий, размерность выборки. Аналогично рассчитываются значения ryx2, ryx3 по приведённым выше формулам, только переменная х1 заменяется на х2 или на х3 соответственно. Аналогично рассчитываются коэффициенты корреляции определяющих признаков друг на друга:

,

где - выборочное среднее значение переменных х1, x2 по всем группам значений переменных,

, ,

где m - количество групп исследуемых изделий, размерность выборки.

В библиотеке функций табличного процессора MS Excel есть статистическая функция КОРРЕЛ() для вычисления парных коэффициентов корреляции.

Второй этап - расчет параметров и построение регрессионных моделей. Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин Х1, Х2, …, Хn. Эту меру можно выразить математической моделью линейной множественной регрессионной зависимости: у = а0 + b1x1 + b2x2 + … + bn xn.

Для нахождения коэффициентов используют метод наименьших квадратов. Смысл метода в том, что строят функционал:

, затем он минимизируется .

Для решения поставленной задачи составляется система уравнений:

, что эквивалентно

Для

система уравнений имеет вид:

После выполнения несложных эквивалентных преобразований получаем систему уравнений:

Решением данной системы являются коэффициенты уравнения регрессии а0, а1, а2, а3. Их значения можно получить, например, методом Крамера.

Осуществление второго этапа сильно зависит от выводов, которые получены при анализе корреляционной матрицы. Можно значительно ускорить проведение регрессионного анализа и снизить затраты на исследование, если принять правильную стратегию поиска наилучшего уравнения. Для этого необходимо знать основные и наиболее эффективные методы поиска наилучшего уравнения.

После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости, поэтому второй этап корреляционно-регрессионного анализа неразрывно связан с третьим. Однако в связи с тем, что расчеты выполняет ЭВМ, а решение на основе оценки значимости уравнения принимает исследователь (принять или отбросить уравнение), условно можно выделить третий этап этой человеко-машинной технологии как интеллектуальный немашинный этап, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.

На третьем этапе выясняют статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. Задачей третьего этапа построения регрессионных моделей является вычисление коэффициента детерминации или коэффициента множественной корреляции, на основании которого можно сделать заключение о значимости построенной регрессионной модели и возможности её дальнейшего использования для объяснения и анализа процессов, проявляющихся, в данной задаче. Коэффициент множественной корреляции определяется по формуле: Rxy = , где Kx- 1 - обратная матрица корреляции, а матрица корреляции для трёх факторных признаков x1, x2 имеет вид: . Причём корреляционная матрица любой размерности будет симметричной, так как rxiхj = rxjхi. Для трёх факторных признаков вектор = - вектор коэффициентов парной регрессии результативного признака Y и факторных признаков X1, X2, X3.

На этом этапе исключительно важную роль играют коэффициент детерминации и F-критерий значимости регрессии. Rxy2 = D = Rxy Squared - коэффициент детерминации - это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретическим значением, вычисленным на основе модели с определенным набором факторов. Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.

На четвертом этапе корреляционно-регрессионного исследования, если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.

Влияние отдельных факторов в многофакторных моделях может быть охарактеризовано с помощью частных коэффициентов эластичности, которые в случае линейной трёхфакторной модели рассчитываются по формулам:

. Частные коэффициенты эластичности показывают на сколько процентов изменится результативный признак, если значение одного из факторных признаков изменится на 1 %, а значения других признаков останутся неизменными.

Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать. Например, с самого начала работы (как бы по умолчанию) строилась и проверялась линейная регрессионная модель. Незначимость ее служит основанием для того, чтобы отвергнуть только линейную форму модели. Возможно, что более подходящей будет нелинейная форма модели.

Для выполнения всех перечисленных выше этапов корреляционно - регрессионного анализа данных можно средствами MS Excel построить имитационную модель. Алгоритм разработки имитационной модели можно представить следующим образом.

1) Оформление главного листа приложения. Размещения на нём названия приложения и кнопок для вызова необходимых модулей. На главном листе содержатся следующие кнопки «Вспомогательные расчёты», «Расчёт коэффициентов корреляции», «Расчёт коэффициентов модели», «Оценка значимости уравнения», «Построение графика».

2) Разработка макроса «Oforml» для оформления базовой таблицы данных для проведения корреляционно - регрессионного анализа. Опция «Сервис», закладка «Макрос», закладка «Начать запись». Осуществляется оформление границ таблицы, ввод наименований столбцов (зависимой и независимых переменных), наименований строк таблицы. Здесь же производятся вспомогательные расчёты, связанные с перемножением столбцов исходных данных, нахождением их сумм. Выполнение этих расчётов требуется для нахождения значений коэффициентов будущей системы нормальных уравнений. После завершения всех указанных действий нажимается кнопка «Остановить запись». Макрос считается созданным, его можно вызывать по нажатию кнопки «Вспомогательные расчёты» (см. рис. 1). корреляционный данные имитационный модель

Рис. 1. Главный лист приложения на VBA for Excel для проведения корреляционно - регрессионного анализа данных

3) Запись макроса “Rasch_kor” для расчёта коэффициентов корреляции. Опция «Сервис», закладка «Макрос», закладка «Начать запись». С помощью функции КОРЕЛЛ() табличного процессора MS Excel'2000 по формулам вида: (вместо y и x1 могут быть использованы переменные xi xj) рассчитываются парные коэффициенты факторных признаков и результирующего и каждого из факторных признаков. После окончания ввода формул для расчёта парных коэффициентов корреляции нажимается кнопка «Остановить запись». Макрос считается записанным и назначается кнопке «Расчёт коэффициентов корреляции», размещённой на главном листе приложения.

4) Запись макроса «Rasch_koef», который осуществляет расчёт коэффициентов регрессионного уравнения линейного вида. Запись макроса производится из опции «Сервис», закладки «Макрос», закладки «Начать запись». Далее с применением стандартной функции MS Excel'2000 МОПРЕД() осуществляется расчёт главного и остальных определителей, соответствующих системе линейных уравнений, полученной на основе метода наименьших квадратов, из которой будут определяться коэффициенты уравнения регрессии с помощью метода Крамера. После выполнения расчётов определителей системы линейных уравнений выполняется расчёт коэффициентов регрессионного уравнения по формуле: - определитель, соответствующий i - й переменной, - главный определитель системы. По заверешении всех указанных действий необходимо остановить запись макроса нажатием кнопки «Остановить запись». Созданный макрос назначается кнопке «Расчёт коэффициентов модели», размещённой на главном листе приложения.

5) Запись макроса «Koef_Det», который позволяет вычислить множественный коэффициент корреляции и коэффициент детерминации по формулам: Rxy = -- коэффициент множественной корреляции, где Kx- 1 - обратная матрица корреляции; Rxy2 = D - коэффициент детерминации. Обратная матрица корреляции вычисляется с помощью функции MS Excel'2010 МОБР(). Запись макроса осуществляется из опции «Сервис», закладки «Макрос», закладки «Начать запись». После ввода расчётных формул для коэффициентов множественной корреляции и детерминации необходимо остановить запись макроса нажатием кнопки «Остановить запись». Созданный макрос назначается кнопке «Оценка значимости уравнения», размещённой на главном листе приложения.

6) Запись макроса «Grafik», позволяющего построить график полученного уравнения и исходные значения результирующего в одной системе координат. Запись макроса осуществляется из опции «Сервис», закладки «Макрос», закладки «Начать запись». После этого из опции «Вставка», закладки «Диаграмма» осуществляется выбор типа графика, задание диапазона исходных данных для его построения и непосредственно его построение. По завершении указанных действий остановить запись макроса нажатием кнопки «Остановить запись». Созданный макрос назначается кнопке «Построение графика», размещённой на главном листе приложения.

7) Проверка работоспособности имитационной модели путём нажатия всех кнопок и проверки правильности выполненных модулями VBA расчётов (учитывая, что правильно рассчитанные коэффициенты парной и множественной корреляции должны находиться в диапазоне от -1 до 1, а коэффициент детерминации - в диапазоне от 0 до 1 (см. рис. 2)), визуальный контроль построенного графика.

Рис. 2. Результаты расчётов коэффициентов парной корреляции и детерминации

Размещено на Allbest.ru

...

Подобные документы

  • Расчет стоимости оборудования с использованием методов корреляционного моделирования. Метод парной и множественной корреляции. Построение матрицы парных коэффициентов корреляции. Проверка оставшихся факторных признаков на свойство мультиколлинеарности.

    задача [83,2 K], добавлен 20.01.2010

  • Расчет параметров уравнения линейной регрессии, оценка тесноты связи с помощью показателей корреляции и детерминации; определение средней ошибки аппроксимации. Статистическая надежность регрессионного моделирования с помощью критериев Фишера и Стьюдента.

    контрольная работа [34,7 K], добавлен 14.11.2010

  • Построение поля корреляции, оценка тесноты связи с помощью показателей корреляции и детерминации, адекватности линейной модели. Статистическая надёжность нелинейных моделей по критерию Фишера. Модель сезонных колебаний и расчёт прогнозных значений.

    практическая работа [145,7 K], добавлен 13.05.2014

  • Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.

    контрольная работа [71,7 K], добавлен 17.09.2016

  • Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.

    курсовая работа [151,0 K], добавлен 27.03.2009

  • Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.

    курсовая работа [440,3 K], добавлен 27.07.2015

  • Оценка тесноты связи с помощью показателей корреляции и детерминации. Построение поля корреляции и расчёт параметров линейной регрессии. Результаты вычисления функций и нахождение коэффициента детерминации. Регрессионный анализ и прогнозирование.

    курсовая работа [1,1 M], добавлен 07.08.2011

  • Построение поля корреляции по данным, гипотеза о форме связи. Оценка тесноты связи с помощью показателей корреляции и детерминации. Определение коэффициента эластичности и индекса корреляции. Расчет критериев Фишера. Модель денежного и товарного рынков.

    контрольная работа [353,7 K], добавлен 21.06.2011

  • Проведение корреляционно-регрессионного анализа в зависимости выплаты труда от производительности труда. Построение поля корреляции, выбор модели уравнения и расчет его параметров. Вычисление средней ошибки аппроксимации и тесноту связи между признаками.

    практическая работа [13,1 K], добавлен 09.08.2010

  • Определение методом регрессионного и корреляционного анализа линейных и нелинейных связей между показателями макроэкономического развития. Расчет среднего арифметического по столбцам таблицы. Определение коэффициента корреляции и уравнения регрессии.

    контрольная работа [4,2 M], добавлен 14.06.2014

  • Корреляционный и регрессионный анализ экономических показателей. Построение матрицы парных коэффициентов корреляции. Расчет и сравнение частных и парных коэффициентов корреляции. Построение регрессионной модели и её интерпретация, мультиколлинеарность.

    курсовая работа [314,1 K], добавлен 21.01.2011

  • Понятие корреляционно-регрессионного анализа как метода изучения по выборочным данным статистической зависимости ряда величин. Оценка математического ожидания, дисперсии, среднего квадратического отклонения и коэффициента корреляции случайных величин.

    курсовая работа [413,0 K], добавлен 11.08.2012

  • Построение поля корреляции. Оценка данной зависимости линейной, степенной и гиперболической регрессией. Оценка тесноты связи с помощью показателей корреляции и детерминации. Расчет коэффициента эластичности. Определение доверительного интервала прогноза.

    контрольная работа [508,1 K], добавлен 13.11.2011

  • Построение математической модели выбранного экономического явления методами регрессионного анализа. Линейная регрессионная модель. Выборочный коэффициент корреляции. Метод наименьших квадратов для модели множественной регрессии, статистические гипотезы.

    курсовая работа [1,1 M], добавлен 22.05.2015

  • Задачи на выявление зависимости между объемом продаж и расходами на рекламу методом парного корреляционно-регрессионного анализа. Построение поля корреляции. Использование для аппроксимации прямолинейной, параболической и логарифмической зависимости.

    контрольная работа [118,6 K], добавлен 11.12.2009

  • Контроль информации на наличие выбросов в массиве. Описательная статистика, вывод итогов. Матрица коэффициентов парной корреляции. Количественный критерий оценки тесноты связи. Регрессионный анализ статистических данных. Анализ качества модели регрессии.

    контрольная работа [5,7 M], добавлен 14.12.2011

  • Построение поля корреляции с формулировкой гипотезы о форме связи. Построение моделей парной регрессии. Оценка тесноты связи с помощью коэффициента (индекса) корреляции. Расчет прогнозного значения результата и доверительного интервала прогноза.

    контрольная работа [157,9 K], добавлен 06.08.2010

  • Расчет параметров уравнения линейной регрессии, оценка тесноты связи с помощью показателей корреляции и детерминации. Определение средней ошибки аппроксимации. Статистическая надежность моделирования с помощью F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа [58,3 K], добавлен 17.10.2009

  • Построение поля корреляции и формулирование гипотезы о форме связи. Параметры уравнений линейной, степенной и гиперболической регрессии. Оценка тесноты связи с помощью показателей корреляции и детерминации. Оценка средней ошибки аппроксимации уравнения.

    контрольная работа [136,3 K], добавлен 25.09.2014

  • Теоретические основы прикладного регрессионного анализа. Проверка предпосылок и предположений регрессионного анализа. Обнаружение выбросов в выборке. Рекомендации по устранению мультиколлинеарности. Пример практического применения регрессионного анализа.

    курсовая работа [1,2 M], добавлен 04.02.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.