Процедуры выбора наилучшего регрессионного уравнения
Процедура выбора наилучшего регрессионного уравнения, краткий анализ. Метод выбора "наилучшего подмножества" предикторов. Регрессия на главных компонентах, на собственных значениях. Расчет коэффициента детерминации. Средняя ошибка аппроксимации.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 02.02.2019 |
Размер файла | 2,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Статья по теме:
Процедуры выбора наилучшего регрессионного уравнения
А.В. Быкова, О.Н. Канева Омский государственный технический университет, г. Омск, Россия
В ходе проведения исследования были изучены процедуры выбора наилучшего регрессионного уравнения, проведен их анализ. Был разработан и реализован программный продукт для выбора наилучшего регрессионного уравнения.
Ключевые слова: регрессия, предиктор, наилучшее регрессионное уравнение, МГУА, МНК, полином Колмогорова-Габора.
В работе рассмотрено 10 различных процедур выбора наилучшего регрессионного уравнения.
1) Метод всех возможных регрессий. Данный метод требует построения каждого из всех возможных регрессионных уравнений с переменными Zi. Поскольку для каждой Zi есть всего две возможности: либо входить, либо не входить в уравнение, то всего будет 2iуравнений.
2) Метод выбора «наилучшего подмножества» предикторов. В данном методе обрабатывается только часть всех возможных регрессий при определении наилучшего набора, включающего K уравнений, так называемого «K-подмножества»[1].
3) ПРЕСС - это комбинация метода всех возможных регрессий, анализа остатков и метода перепроверки.
4) Гребневая регрессия. Процедура используется, когда имеются значительные корреляции между разными предикторами, входящими в модель, и оценки параметров становятся неустойчивыми.
5) Регрессия на главных компонентах. В данном методе проблему мультиколлинеарности можно попытаться обойти используя в качестве новых переменных некоторые линейные комбинации исходных переменных, выбранные так, чтобы корреляции между ними были малы или вообще отсутствовали.
6) Регрессия на собственных значениях - это развитие регрессии на главных компонентах с расширенной матрицей данных, содержащей центрированные и нормированные предикторные переменные, дополненной центрированными и нормированными значениями отклика.
7) Ступенчатый регрессионный метод. После получения регрессионного уравнения для переменной X, наиболее сильно коррелированной с Y, находят остатки. Эти остатки рассматриваются как значения отклика, и строится регрессия этого отклика на предикторную переменную X, которая наиболее сильно коррелирована с этим новым откликом.
8) Метод исключения. Данный метод более экономичен, чем метод всех регрессий, поскольку в нем делается попытка исследовать только наилучшие регрессионные уравнения, содержащие определенное число переменных.
9) Шаговый регрессионный метод. Данный метод представляет собой попытку прийти к тем же результатом, что и метод исключения, действуя в обратном направлении, т. е. включая переменные по очереди в уравнение до тех пор, пока уравнение не станет удовлетворительным. Порядок включения определяется с помощью частного коэффициента корреляции как меры важности переменных, еще не включенных в уравнение[2].
Для программной реализации выбора наилучшей регрессионной модели было решено использовать процедуру группового учета аргументов.
10) Метод группового учета аргументов. Целью данного метода является получение модели в результате перебора моделей из индуктивно-порождаемого множества. Каждая модель настраивается - методом наименьших квадратов находятся значения параметров. Из моделей-претендентов выбираются лучшие в соответствии с выбранным критерием.[3]
Выбирается общий вид перебираемых моделей с помощью полинома Колмогорова-Габора:
Для двух факторов количество построенных уравнений регрессии по полиному Колмогорова-Габора равно 31, для 3 факторов - 1023. Для 4 факторов количество моделей равно 131071. Так как число моделей велико,рассчитать все значения становится достаточно затруднительно, для этого была предложена реализация метод группового учета аргументов на языке программирования С#.
На вход в программу поступают массивы значений переменных из файлов формата csv. На выходе пользователь видит коэффициенты регрессии, оценки качества, а также построенный график наилучшей модели. На рисунках 1 и 2 представлены результаты работы программы для рядов с двумя и тремя факторами соответственно.
Рисунок 1 - Результат работы программы для двух факторов
Рисунок 2 - Результат работы программы для трех факторов
Для оценки качества модели используется средняя ошибка аппроксимации, которая представляет собой среднее относительное отклонение расчетных значений от наблюдаемых:
.(1)
Построенное уравнение регрессии можно считать удовлетворительным, если величина MAPI не превышает 8-10 %.
Точность построенной модели регрессии можно оценить по средней квадратической ошибке:
. (2)
Для анализа общего качества оцененной линейной регрессии используют обычно коэффициент детерминации , называемый также квадратом коэффициента множественной корреляции. Он характеризует долю вариации (разброса) зависимой переменой, объясненной с помощью данного уравнения. Коэффициент детерминации рассчитывается по формуле:
, (3)
регрессионный уравнение предиктор детерминация
На реальных данных были построены модели, найдены коэффициенты регрессии и вычислены прогнозируемые значения уравнений. Найдены оценки качества, построенных моделей, с помощью которых можно было выявить наилучшее регрессионное уравнение.
Библиографический список
1. Ханк Д. Бизнес-прогнозирование [Текст] / Д. Ханк, А. Райтс, Д. Уичерн. - 7-е изд. - М., СПб., Киев: Вильямс, 2003. - 656 с.
2. Дрейпер, Н. Прикладной регрессионный анализ [Текст]: пер. с англ. Ю. П. Адлером, В. Г. Горским. / Н. Дрейпер, Г. Смит. - книга 2, 2-е изд. - М.: Финансы и статистика, 2012. - 304 с.
3. Профессиональный информационно-аналитический ресурс [Электронный ресурс]. - Режим доступа: http://www.machinelearning.ru/wiki, свободный. - Загл. с экрана.
Размещено на Allbest.ru
...Подобные документы
Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.
презентация [100,3 K], добавлен 16.12.2014Методика и основные этапы расчета параметров линейного уравнения парной регрессии с помощью программы Excel. Анализ качества построенной модели, с использованием коэффициента парной корреляции, коэффициента детерминации и средней ошибки аппроксимации.
лабораторная работа [22,3 K], добавлен 15.04.2014Значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а). Определение стандартной ошибки предсказания являющейся мерой качества зависимости величин Y и х с помощью уравнения линейной регрессии. Значимость коэффициента регрессии.
задача [133,0 K], добавлен 21.12.2008Понятие иррационального уравнения. Применение формул сокращённого умножения. Посторонние корни и причины их появления. Возведение обеих частей уравнения в одну и ту же степень. Метод замены переменной. Иррациональные уравнения, не имеющие решений.
презентация [94,6 K], добавлен 08.11.2011Построение таблицы и графика решения линейного дифференциального уравнения. Зависимость погрешности решения от выбора шага интегрирования. Метод Адамса-Башфорта и его применение. Основные функции и переменные, использованные в реализованной программе.
контрольная работа [2,0 M], добавлен 13.06.2012История квадратных уравнений: уравнения в Древнем Вавилоне и Индии. Формулы четного коэффициента при х. Квадратные уравнения частного характера. Теорема Виета для многочленов высших степеней. Исследование биквадратных уравнений. Сущность формулы Кордано.
реферат [75,8 K], добавлен 09.05.2009Предмет, метод и история возникновения статистики. Построение таблиц, понятие абсолютных и относительных величин и правила действия с ними. Сущность вариации, свойства дисперсии и расчет индексов. Особенности корреляционно-регрессионного анализа.
курс лекций [302,0 K], добавлен 14.07.2011Характеристика и прогноз развития Ленинградской области: демография, промышленность. Исследование показателей объема произведенного ВРП, собственных доходов бюджета, инвестиций, промышленного производства с помощью методов регрессионного анализа.
курсовая работа [432,7 K], добавлен 21.08.2008Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.
курсовая работа [304,0 K], добавлен 02.03.2017Исследование и подбор матрицы, удовлетворяющей условиям заданного уравнения. Разложение функции по формуле Тейлора в окрестности точки, расчет коэффициентов. Формирование уравнения гиперболы, имеющего заданные координаты фокусов. Расчет корней уравнения.
контрольная работа [113,2 K], добавлен 16.04.2016Общий вид линейного однородного уравнения. Нахождение производных, вещественные и равные корни характеристического уравнения. Пример решения дифференциального уравнения с постоянными коэффициентами. Общее и частное решение неоднородного уравнения.
презентация [206,3 K], добавлен 17.09.2013Проверка непрерывности заданных функций. Интегрирование заданного уравнения и выполние преобразования с ним. Интегрирование однородного дифференциального уравнения. Решение линейного дифференциального уравнения. Общее решение неоднородного уравнения.
контрольная работа [65,3 K], добавлен 15.12.2010Метод аналитического решения (в радикалах) алгебраического уравнения n-ой степени с возвратом к корням исходного уравнения. Собственные значения для нахождения функций от матриц. Устойчивость решений линейных дифференциальных и разностных уравнений.
научная работа [47,7 K], добавлен 05.05.2010Прямолинейные, обратные и криволинейные связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Метод наименьших квадратов. Оценка значимости коэффициентов регрессии. Проверка адекватности модели по критерию Фишера.
курсовая работа [232,7 K], добавлен 21.05.2015Анализ уравнения гиперболического типа - волнового уравнения. Метод распространяющихся волн. Формула Даламбера, неоднородное уравнение. Задача Коши, двумерное волновое уравнение. Теорема устойчивости решения задачи Коши. Формулы волнового уравнения.
реферат [1,0 M], добавлен 11.12.2014Основные правила расчета значений дифференциального уравнения. Изучение выполнения оценки погрешности вычислений, осуществления аппроксимации решений. Разработка алгоритма и написание соответствующей программы. Построение интерполяционного многочлена.
курсовая работа [212,6 K], добавлен 11.12.2013Задачи Коши для дифференциальных уравнений. График решения дифференциального уравнения I порядка. Уравнения с разделяющимися переменными и приводящиеся к однородному. Однородные и неоднородные линейные уравнения первого порядка. Уравнение Бернулли.
лекция [520,6 K], добавлен 18.08.2012Функциональные и стохастические связи. Статистические методы моделирования связи. Статистическое моделирование связи методом корреляционного и регрессионного анализа. Проверка адекватности регрессионной модели.
курсовая работа [214,6 K], добавлен 04.09.2007Порядок решения дифференциального уравнения 1-го порядка. Поиск частного решения дифференциального уравнения, удовлетворяющего указанным начальным условиям. Особенности применения метода Эйлера. Составление характеристического уравнения матрицы системы.
контрольная работа [332,6 K], добавлен 14.12.2012Порядок и процедура поиска решения дифференциального уравнения. Теорема существования и единственности решения задачи Коши. Задачи, приводящие к дифференциальным уравнениям. Дифференциальные уравнения первого порядка, с разделяющими переменными.
лекция [744,1 K], добавлен 24.11.2010