Восстановление зависимости методом наименьших квадратов на основе непараметрической модели с периодической составляющей
Решение непараметрической задачи восстановления зависимости, которая описывается суммой линейного тренда и периодической функции с известным периодом. Асимптотические распределения параметров и трендовой составляющей, построение интервального прогноза.
Рубрика | Экономико-математическое моделирование |
Вид | статья |
Язык | русский |
Дата добавления | 29.04.2017 |
Размер файла | 174,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Московский государственный технический университет им. Н.Э. Баумана
ВОССТАНОВЛЕНИЕ ЗАВИСИМОСТИ МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ НА ОСНОВЕ НЕПАРАМЕТРИЧЕСКОЙ МОДЕЛИ С ПЕРИОДИЧЕСКОЙ СОСТАВЛЯЮЩЕЙ
Орлов Александр Иванович
д.э.н., д.т.н., к.ф.-м.н., профессор
г. Москва
Аннотация
Рассмотрена непараметрическая задача восстановления зависимости, которая описывается суммой линейного тренда и периодической функции с известным периодом. Получены асимптотические распределения оценок параметров и трендовой составляющей. Разработаны методы оценивания периодической компоненты и построения интервального прогноза. В рамках модели точек наблюдения, естественной для приложений, обоснованы условия применимости. В частности, установлена асимптотическая несмещенность оценки коэффициента линейного члена
Ключевые слова: метод наименьших квадратов, непараметрические методы, периодическая составляющая, оценивание, прогнозирование
We consider the nonparametric problem of reneval dependence, which is described by the sum of a linear trend and periodic function with a known period. We obtain the asymptotic distribution of the parameter estimates and the trend component. The methods of estimating the periodic component and designing interval forecast. In the model of the points of observation, natural for applications, justified by the conditions of use. In particular, we prove an asymptotically unbiased estimate of the coefficient of the linear term
Keywords: method of least squares, nonparametric methods, periodic component, estimatiom, forecasting
Метод наименьших квадратов восстановления зависимости - один из наиболее распространенных статистических методов анализа данных. В статье рассмотрена непараметрическая постановка: восстанавливаемая зависимость - сумма линейной функции и периодической составляющей произвольного вида (с известным периодом), распределение случайных погрешностей (остатков, невязок) произвольно.
1. Задача восстановления линейной зависимости
Начнем с простейшего случая - задачи восстановления линейной зависимости. Пусть t - независимая переменная, а x - зависимая. Рассмотрим задачу восстановления зависимости x = x(t) на основе набора n пар чисел (tk, xk), k = 1,2,…,n, где tk -- значения независимой переменной, а xk - соответствующие им значения зависимой переменной.
Восстанавливать зависимость можно на основе различных моделей. Обычно применяют модели временных рядов, включающие три составляющие: трендовую (T), периодическую (S) и случайную (E). Рассматривают, как в [1] и аналогичных изданиях, аддитивную модель T + S + E и мультипликативную модель TSE.
Простейшая аддитивная модель имеет вид
xk = a (tk - )+ d + ek = a (tk - ) + d+ f(tk) + Ek, k = 1,2,…,n. (1)
Здесь трендовая составляющая - линейная функция a (tk - ) + d (такая запись тренда предпочтительнее для облегчения выкладок); периодическая составляющая f(t) обычно описывает сезонность, т.е период известен (в зависимости от моделируемой ситуации он равен году, неделе, суткам и т.п.); случайная составляющая представлена слагаемыми Ek, которые являются реализациями независимых одинаково распределенных случайных величин с нулевым математическим ожиданием и дисперсией , неизвестной статистику. В рассматриваемой модели ek = f(tk) + Ek, = 1,2,…,n, т.е. отклонения от линейного тренда ek не являются одинаково распределенными. Однако их распределения отличаются лишь сдвигами (на значения детерминированной периодической составляющей).
Соответствующая модели (1) мультипликативная модель имеет вид
. (2)
В модели (2) сомножители имеют описанный выше смысл. При логарифмировании модель (2) переходит в аналог модели (1), следовательно, достаточно рассматривать модель (1).
Иногда принимают предположение о нормальности распределения погрешностей. Однако давно известно, что распределения реальных данных, как правило, отличаются от нормальных [2]. Поэтому далее рассматриваем непараметрическую модель, не предполагающую, что распределение погрешностей входит в то или иное параметрическое семейство. Отказ от задания распределения погрешностей в параметрическом виде - одно из оснований для того, чтобы именовать рассматриваемые модель и метод непараметрическими. Второе основание - отказ от выбора периодической составляющей из какого-либо параметрического семейства функций.
Практическая значимость модели (1) очевидна. Однако расчетные методы, описанные в [1] и аналогичных изданиях, являются эвристическими. Цель настоящей статьи - построить непараметрическую вероятностно-статистическую теорию прогноза временного ряда на базе линейного тренда с учетом аддитивной периодической составляющей.
Метод наименьших квадратов был разработан К. Гауссом в 1794 г. [2]. Согласно нему этому методу для расчета наилучшей функции, приближающей линейным образом зависимость x от t в модели (1), следует рассмотреть функцию двух переменных
.
Оценки метода наименьших квадратов (кратко: оценки МНК) - это такие значения a* и d*, при которых функция f(a,d) достигает минимума по всем значениям аргументов. Как известно (см., например, [2]), оценки МНК имеют вид
. (3)
Следуя эвристическому подходу [1], изучим асимптотическое поведение оценок МНК a* и d*, заданных формулами (3), установим их асимптотическую нормальность в предположениях модели (19), а затем состоятельно оценим периодическую составляющую f(t) и построим интервальный прогноз для x(t).
2. Асимптотические распределения оценок параметров
Из формулы (3) следует, что
. (4)
Согласно Центральной предельной теореме (для выполнения ее условий необходимо предположить, например, что погрешности ek, k = 1, 2, …, n, финитны или имеют конечный третий абсолютный момент; однако заострять внимание на этих внутриматематических "условиях регулярности" здесь нет необходимости) оценка d* имеет асимптотически нормальное распределение с математическим ожиданием и дисперсией , ее оценка приводится ниже. Из формул (3) и (4) вытекает, что
,
.
Последнее слагаемое во втором соотношении при суммировании по k обращается в 0, поэтому
(5)
Формулы (5) показывают, что оценка a* является асимптотически нормальной с математическим ожиданием и дисперсией
Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (5) мало сравнительно со всей суммой, т.е.
. (6)
Условие (6) выполнено, например, если tk образуют (полную, т.е. без пропусков) арифметическую прогрессию, число членов которой безгранично растет.
Итак, дисперсии оценок МНК параметров a* и d* линейного тренда - те же, что и при отсутствии сезонных искажений (см., например, [2]). А вот их математические ожидания зависят от периодической составляющей. Однако в случае
(7)
оценки a* и d* являются несмещенными.
Условия (7) являются необходимыми и достаточными для несмещенности и состоятельности оценок МНК коэффициентов линейной зависимости. Проверка условий (7) рассмотрена в конце статьи.
Несмещенность (в предположениях (7) и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0.
3. Асимптотическое распределение трендовой составляющей
Из формул (4) и (5) следует, что при справедливости соотношений (7)
т.е. оценка
y*(t) = a* (tk - )+ d*
трендовой составляющей
y(t) = a (t - )+ d
рассматриваемой зависимости является несмещенной. Поэтому
При этом, поскольку погрешности Ek независимы в совокупности и M(Ek) = 0, то
Таким образом,
. (8)
Итак, оценка y*(t) является несмещенной и асимптотически нормальной. Для ее практического использования (построения доверительных интервалов, проверки статистических гипотез) необходимо состоятельно уметь оценивать остаточную дисперсию .
В частности, не представляет труда выписывание нижней и верхней границ для трендовой составляющей прогностической функции:
где полуширина доверительного интервала имеет вид
. (9)
Здесь - доверительная вероятность, - квантиль нормального распределения порядка , т.е.
,
где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. При = 0,95 (наиболее применяемое значение) имеем = 1,96. В формуле (9) - состоятельная оценка дисперсии y*(t). В соответствии с (8) она является произведением состоятельной оценки среднего квадратического отклонения случайных погрешностей Ek на известную исследователю детерминированную функцию от t.
4. Математическое ожидание остаточной суммы квадратов
В точках tk, k = 1, 2, …, n, имеются исходные значения зависимой переменной xk и восстановленные значения y*(tk). Рассмотрим остаточную сумму квадратов
При отсутствии периодической составляющей используют [2] состоятельные оценки среднего квадратического отклонения случайных погрешностей, построенные на основе остаточной суммы квадратов
или .
Однако при наличии периодической составляющей так делать нельзя. Приходится использовать "обходный путь".
В соответствии с формулами (4) и (5) при справедливости условий (7)
.
Найдем математическое ожидание каждого из слагаемых:
.
Поскольку Ek независимы, одинаково распределены и имеют нулевое математическое ожидание, то
.
Далее,
.
Наконец,
.
На основе трех последних равенств можно показать, что при выполнении условия асимптотической нормальности (6)
.
Следовательно,
. (10)
В правой части (10) первое слагаемое соответствует вкладу случайной составляющей, второе - вкладу периодической составляющей.
В некоторых случаях второе слагаемое в правой части (10) может быть известно из предыдущего опыта или же оценено экспертами, однако в большинстве ситуаций целесообразно исходить из оценки периодической составляющей.
5. Оценивание периодической составляющей
В литературе рассматривают как параметрические, так и непараметрические подходы. Популярный метод исходит из того, что достаточно гладкую функцию можно разложить в ряд Фурье и получить хорошее приближение с помощью небольшого числа гармоник. В простейшем случае - одна гармоника. Так, динамику индекса инфляции можно попытаться изучать с помощью модели
xk = a (tk - ) + d+ f(tk) + Ek = a (tk - ) + d+ g + Ek, k = 1,2,…,n
(время t измеряется в годах). Тогда неизвестные параметры a, b, g оцениваются методом наименьших квадратов.
Однако обычно нет оснований предполагать, что периодическая составляющая входит в то или иное параметрическое семейство функций. Приходится строить непараметрические оценки. Опишем одну из возможных постановок.
Пусть в согласии с предположениями (7) рассматривается целое число периодов, т.е. n = mq, где n - объем наблюдений, m - количество периодов, q - число наблюдений в одном периоде. Предполагается, что первые q моментов наблюдения при сдвиге на длину периода дают следующие q моментов времени, при сдвиге на две длины периода дают третий набор из q моментов наблюдения, и т.д. Тогда в соответствии с определением периодической составляющей справедливы равенства
. (11)
Если наблюдения проводятся ежемесячно в течение m лет, то число наблюдений в одном периоде q = 12, общий объем наблюдений n = 12m, далее s - номер месяца в году, s = 1, 2, …, 12. Пусть gs - общее значение в (11). Для оценки периодической составляющей требуется оценить g1, g2, …, gq.
Естественный подход состоит в том. чтобы усреднить m значений xk - y*(tk), соответствующих моментам времени, отстоящим друг от друга на целое число периодов. Другими словами, усреднить "очищенные" от трендовой составляющей исходные данные, соответствующие одноименным месяцам различных лет. Речь идет об оценках
. (12)
Оценка периодической составляющей распространяется на весь интервал наблюдений очевидным образом:
. (13)
Сложив восстановленные значения трендовой и периодической оставляющей, получим оценку зависимости, "очищенную" от случайной составляющей
. (14)
Здесь оценки a* и d* находят по формулам (3), а оценки f*(t) - по формулам (12) - (13).
С помощью формулы (14) можно строить точечный прогноз, используя ее вне интервала наблюдений. Для этого достаточно распространить сезонную составляющую f*(t) вплоть до рассматриваемого момента времени по правилу (13) и суммировать ее с прогнозом трендовой составляющей y*(t). Интерполяция и экстраполяция на моменты времени t, не входящие в исходное множество {tk, k = 1, 2, …, n} и множества, полученные из него сдвигами на целое число периодов, может быть осуществлена путем линейной интерполяции ближайших значений или иным методом сглаживания.
Обсудим свойства оценок (12) - (14).
При безграничном росте объема данных и справедливости условий (6) и (7) оценки a* и d* параметров трендовой составляющей являются состоятельными и несмещенными, а потому, как можно показать, в рассматриваемых в настоящей статье условиях суммы (12) оценивают периодическую составляющую состоятельно (при ) и несмещенно. Как следствие,
(15)
по вероятности при . В соответствии с (10) последнее соотношение дает возможность оценить , а затем построить интервальный прогноз для трендовой составляющей согласно (9).
Отметим, что в рассматриваемой ситуации, как правило, n растет, увеличиваясь на величины, кратные q - числу наблюдений в одном периоде. Как следствие, уменьшаемое в (15) - константа, зависимости от n нет. Эти особенности связаны с тем, что выполнение условий (7) предполагает рассмотрение целого числа периодов.
Рассмотрим оценки (12) подробнее. Как вытекает из (4.1.19), (11) и (12),
.
С учетом (4), (5) и (7) получаем, что
.
Таким образом,
(16)
где
,
если ,
и
при всех остальных значениях индекса суммирования k, и
.
Соотношение (16) означает, что рассматриваемые оценки есть суммы независимых случайных величин, а потому с помощью Центральной предельной теоремы можно построить доверительные интервалы для рассматриваемых значений периодической составляющей (в предположении справедливости условий (6)).
6. Интервальный прогноз
Точечный прогноз строят по формуле (11) на основе x*(t) - оценки зависимости, "очищенной" от случайной составляющей, но включающей трендовый и периодический компоненты. Если выполнены условия (7), то
Mx*(t) = x(t) = a (t - ) + d + f(t),
т.е. оценка x*(t) является несмещенной.
При справедливости условий (7) с учетом (4), (5) и (16) получаем, что для момента времени t, входящего в исходное множество {tk, k = 1, 2, …, n} или в множества, полученные из него сдвигами на целое число периодов,
. (17)
В (17) при определении значений коэффициентов hks в качестве s следует взять номер наименьшего из исходных моментов времени {tk, k = 1, 2, …, n}, отстоящих от рассматриваемого момента t на целое число периодов. С помощью (16) заключаем, что
,
где
,
если ,
и
при всех остальных значениях индекса суммирования k, и rs - то же, что и в формуле (16).
В правой части формулы (17) стоит сумма независимых случайных величин, поэтому оценка x*(t) является асимптотически нормальной (при справедливости условий (6)) с математическим ожиданием x(t) и дисперсией
. (18)
Следовательно, нижняя и верхняя доверительные границы для прогностической функции (с учетом как трендовой, так и периодической составляющих) имеют вид:
,
где
. (19)
Здесь - доверительная вероятность, - квантиль нормального распределения порядка . В формуле (19) - состоятельная оценка дисперсии точечного прогноза x*(t). В соответствии с (18) она является произведением состоятельной оценки среднего квадратического отклонения случайных погрешностей Ek на известную статистику детерминированную функцию от t. Величину рассчитывают согласно (10) и (15).
7. Пример применения непараметрического метода наименьших квадратов в модели с периодической составляющей
Обработаем фактические данные ОАО "Магнитогорский металлургический комбинат" о закупочных ценах на лом черных металлов [3]. Как показано в [3], может быть использована модель (1) линейного тренда с периодической составляющей. Для облегчения расчетов оставим из каждого квартала данные только по одному месяцу. Введем условные моменты времени, а именно, будем измерять время в кварталах, начиная с первого квартала 2003 г. Исходные данные для демонстрации примера применения непараметрического метода наименьших квадратов в модели с периодической составляющей - пары чисел (tk, xk), k = 1, 2, …, 12, - представлены в табл.1 в столбцах (3) и (4) соответственно.
По формулам (3) найдем оценки параметров a* и d*, что позволяет построить оценку трендовой составляющей
y*(t) = a*(t - ) + d* =212,26 (t - 6,5) + 3967,17 = 212,26 t + 2587,48.
Численные значения трендовой составляющей приведены в столбце (5) табл.1.
Рассчитав отклонения исходных значений закупочных цен от оценок трендовой составляющей (столбец (6) табл.1), возведя их в квадрат и сложив, получаем остаточную сумму квадратов SS = 4 539 214 и SS/n = SS/12 = 378 267,843.
Таблица 1 Построение модели прогнозирования цен на лом марки 3А
№ п/п |
Периоды времени |
Условные моменты времени |
Закупочные цены, руб./т |
Оценка тренда |
Отклонения от оценки тренда |
Восстановленные значения |
Кажущиеся невязки |
|
k |
y*() |
-y*() |
|
|
||||
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
(7) |
(8) |
|
1 |
янв.03 |
1 |
2 750 |
2 800 |
- 50 |
2 424 |
326 |
|
2 |
апр.03 |
2 |
3 800 |
3 012 |
788 |
3 545 |
255 |
|
3 |
июл.03 |
3 |
2 900 |
3 224 |
- 324 |
2 655 |
245 |
|
4 |
окт.03 |
4 |
3 100 |
3 437 |
- 337 |
3 848 |
- 748 |
|
5 |
янв.04 |
5 |
2 761 |
3 649 |
- 888 |
3 273 |
- 512 |
|
6 |
апр.04 |
6 |
4 602 |
3 861 |
741 |
4394 |
208 |
|
7 |
июл.04 |
7 |
3 540 |
4 073 |
- 533 |
3504 |
36 |
|
8 |
окт.04 |
8 |
5 268 |
4 286 |
982 |
4 697 |
571 |
|
9 |
янв.05 |
9 |
4 307 |
4 498 |
- 191 |
4 122 |
185 |
|
10 |
апр.05 |
10 |
4 779 |
4 710 |
69 |
5 243 |
- 464 |
|
11 |
июл.05 |
11 |
4 071 |
4 922 |
- 851 |
4 353 |
- 280 |
|
12 |
окт.05 |
12 |
5 723 |
5 135 |
588 |
5546 |
177 |
Сгруппировав отклонения исходных значений закупочных цен от оценок трендовой составляющей по месяцам (табл.2), наглядно убеждаемся в наличии периодической составляющей. Взяв среднее арифметическое отклонений от тренда за конкретный месяц, рассчитываем оценку периодической составляющей (в соответствии с формулой (12)). Результаты приведены в табл.2.
Рассчитав по формуле (13) оценки периодической составляющей на весь интервал времени и сложив их с оценками трендовой составляющей, получаем в соответствии с формулой (14) оценку зависимости, "очищенную" от случайной составляющей, т.е. восстановленные значения (столбец (7) табл.1). Кажущиеся невязки, т.е. отклонения исходных значений закупочных цен от восстановленных значений, приведены в столбце (8) табл.1. Сравнивая столбцы (6) и (8), убеждаемся в целесообразности введения в модель периодической составляющей. В 9 случаях из 12 абсолютные величины отклонений уменьшились, в остальных трех, хотя и возросли, но линь до среднего уровня среди остальных.
Таблица 2 Оценивание периодической составляющей
Номер квартала s |
Месяц |
Отклонения от тренда |
Оценка периодической составляющей |
|||
В 2003 г. |
В 2004 г. |
В 2005 г. |
||||
1 |
Январь |
-50 |
- 888 |
-191 |
- 376 |
|
2 |
Апрель |
788 |
741 |
69 |
533 |
|
3 |
Июль |
- 324 |
- 533 |
- 851 |
- 569 |
|
4 |
Октябрь |
- 337 |
982 |
588 |
411 |
Возведя в квадрат оценки периодической составляющей (табл.2), сложив эти квадраты, умножив на число лет и поделив на n, получаем, что = 229 537. В соответствии с формулой (10) оценкой дисперсии случайной составляющей является
= 378 267,83 - 229 537 = 148 731,
а оценкой среднего квадратического отклонения
.
В соответствии с формулами (4) и (5) оценим дисперсии оценок параметров
Средние квадратические отклонения a* и d* оцениваются как 32,25 и 111,33 соответственно, а доверительные интервалы для доверительной вероятности 0,95 таковы:
.
Первое из условий (7) выполнено в силу построения оценок периодической составляющей по целому числу периодов. Действительно, согласно данным табл.2 сумма оценок периодической составляющей для 12 точек наблюдений равна (-3), незначительное отклонение от 0 вызвано ошибками округления.
В соответствии с формулой (5) смещение оценки a* оценивается как
.
Таким образом, смещение имеет тот же порядок, что и среднее квадратичное отклонение оценки а*, и заведомо меньше, чем полуширина доверительного интервала. Дальнейшее сравнение может быть проведено на основе оценки дисперсии смещения - случайной величины
.
Алгоритм вычисления дисперсии Z аналогичен таковым для периодической составляющей и интервального прогноза (см. (16) и (18) соответственно), но более сложен, поэтому не включен в статью. Таким образом, можно считать, что предположения (7) модели (1) выполнены для данных табл.1.
Перейдем к оценке дисперсий значений периодической составляющей. Как следует из равенства (16),
,
где
,
если ,
и
при иных значениях индекса суммирования k, и
.
Начнем со значения s = 1 (периодическая составляющая для января). Тогда . Понадобятся значения
.
Расчет удобно проводить с помощью таблицы (табл.3).
В табл. 3 столбец (3) получен из столбца (2) умножением на , каждый элемент столбца (6) равен сумма элементов столбцов (3), (4) и (5), стоящих в той же строке, а в столбце (7) стоят квадраты соседних элементов из столбца (6). Цель построения табл.3 - расчет суммы элементов столбца (7). Эта сумма равна 0,28275. Следовательно,
.
Таблица 3 Расчет дисперсии периодической составляющей
k |
-1/n |
+1/m |
|||||
(1) |
(2) |
(3) |
(4) |
(5) |
(6) |
(7) |
|
1 |
- 5,5 |
0,0577 |
- 0,0833 |
0,3333 |
0,3077 |
0,09468 |
|
2 |
- 4,5 |
0,0472 |
- 0,0833 |
- |
- 0,0361 |
0,00130 |
|
3 |
- 3,5 |
0,0367 |
- 0,0833 |
- |
- 0,0466 |
0,00217 |
|
4 |
- 2,5 |
0,0262 |
- 0,0833 |
- |
- 0,0571 |
0,00326 |
|
5 |
- 1,5 |
0,0157 |
- 0,0833 |
0,3333 |
0,2657 |
0,07060 |
|
6 |
- 0,5 |
0,0052 |
- 0,0833 |
- |
- 0,0781 |
0,00610 |
|
7 |
0,5 |
- 0,0052 |
- 0,0833 |
- |
- 0,0885 |
0,00783 |
|
8 |
1,5 |
- 0,0157 |
- 0,0833 |
- |
- 0,0990 |
0,00980 |
|
9 |
2,5 |
- 0,0262 |
- 0,0833 |
0,3333 |
0,2238 |
0,05009 |
|
10 |
3,5 |
- 0,0367 |
-0,0833 |
- |
0,1200 |
0,01440 |
|
11 |
4,5 |
- 0,0472 |
-0,0833 |
- |
0,1305 |
0,01703 |
|
12 |
5,5 |
- 0,0577 |
-0,0833 |
- |
0,1410 |
0,01988 |
Доверительный интервал для значения периодической составляющей в январе (- 376 - 1,96204,8; -376 + 1,96204,8) захватывает 0 (при доверительной вероятности 0,95), отличие значения периодической составляющей от 0 не значимо (на уровне значимости 0,05).
Аналогичный расчет для значения s = 2 (периодическая составляющая для апреля) дает
.
Доверительный интервал для значения периодической составляющей в апреле (533 - 1,96194,86; 533 + 1,96194,86) = (533 - 381,93; 533 + 381,93) не захватывает 0 (при доверительной вероятности 0,95), отличие значения периодической составляющей от 0 значимо (на уровне значимости 0,05).
Приступим к завершающему этапу анализа данных табл.1 - построению интервального прогноза. Необходимо рассчитать величины
,
если ,
и
при всех остальных значениях индекса суммирования k, где rs - то же, что и в формуле (16), поскольку точечный прогноз x*(t) является несмещенным, асимптотически нормальным, а его дисперсия оценивается согласно (18) так:
.
Начнем с прогноза на январь 2006 г. (по данным за 2003 - 2005 гг.). Тогда t = 13, s = 1, ,
,
если ,
и
при всех остальных значениях индекса суммирования. При этом
.
Расчет удобно проводить с помощью таблицы (табл.4).
Сумма значений, стоящих в последнем столбце табл.4, равна 0,61299. Согласно формуле (19)
.
Согласно (14) точечный прогноз прогностической функции таков:
.
Нижняя и верхняя доверительные границы для прогностической функции (с учетом как трендовой, так и периодической составляющих) имеют вид:
.
Таблица 4 Расчет дисперсии прогностической функции
k |
1/m |
||||
1 |
- 0,3077 |
0,3333 |
0,0256 |
0,00066 |
|
2 |
- 0,2517 |
- |
- 0,2517 |
0,06336 |
|
3 |
- 0,1958 |
- |
- 0,1958 |
0,03834 |
|
4 |
- 0,1399 |
- |
- 0,1399 |
0,01957 |
|
5 |
- 0,0839 |
0,3333 |
0,2494 |
0,06220 |
|
6 |
- 0,0280 |
- |
- 0,0280 |
0,00078 |
|
7 |
0,0280 |
- |
0,0280 |
0,00078 |
|
8 |
0,0839 |
- |
0,0839 |
0,00700 |
|
9 |
0,1399 |
0,3333 |
0,4732 |
0,22392 |
|
10 |
0,1958 |
- |
0,1958 |
0,03834 |
|
11 |
0,2517 |
- |
0,2517 |
0,06336 |
|
12 |
0,3077 |
- |
0,3077 |
0,09468 |
Реальное значение (табл.4.1.7) - 4336. Оно практически совпадает с нижней доверительной границей прогностической функции .
Аналогичные расчеты для апреля 2006 г. (t = 14, s = 2, ) дают . Точечный прогноз равен x*(14) = 6092, а нижняя и верхняя доверительные границы таковы: . Реальное значение (табл.4.1.7) - 5430. Оно практически совпадает с нижней доверительной границей прогностической функции .
8. Интервальный прогноз индивидуальных значений
Формула (19) позволяет строить интервальный прогноз для прогностической функции, т.е. для математического ожидания временного ряда. Наблюдаемое значение отличается от него на величину невязки. Распределение невязки можно оценить по значениям кажущихся невязок (см. столбец (8) в табл.1). Напомним, что это распределение не является нормальным, не описывается элементом какого-либо параметрического семейства. Интервальный прогноз индивидуального значения построить, скорректировав интервальный прогноз для прогностической функции с помощью выборочных квантилей кажущихся невязок.
Для рассмотренного выше примера вариационный ряд n = 12 кажущихся невязок таков: -748, - 512, - 464, - 280, 36, 177, 185, 208, 245, 255, 326, 571. Нижний дециль оценим как второй член вариационного ряда (-512), верхний - как предпоследний (одиннадцатый) член вариационного ряда 326. Для расчета нижней доверительной границы индивидуального значения надо взять нижнюю доверительную границу прогностической функции и отнять 512. Для расчета верхней доверительной границы индивидуального значения надо взять верхнюю доверительную границу прогностической функции и прибавить 326.
Итак, для данных табл.1 индивидуальные значения лежат "глубоко внутри" доверительных интервалов. Прогнозы полностью оправдались.
9. О проверке условий (7)
Рассмотрим три вопроса. Верны ли условия (7) в моделях, соответствующих реальным ситуациям? Как проверять справедливость условий по результатам наблюдений? Каковы свойства оценок, если эти условия оказываются невыполненными?
В условиях (7) важную роль играет система точек наблюдения tk, k = 1, 2, …, n. Более тщательно рассмотрим ранее принятую модель с целым числом периодов, для которой справедливо соотношение (11). При этом объем наблюдений
n = mq,
где m - количество периодов, q - число наблюдений в одном периоде. Предполагается, что первые q моментов наблюдения при сдвиге на длину периода дают следующие q моментов времени, при сдвиге на две длины периода дают третий набор из q моментов наблюдения, и т.д. Для значений периодической составляющей выше построены точечные оценки и доверительные интервалы (в предположении, что количество периодов m безгранично растет), в чем и состоит оценивание периодической составляющей. (Для гладкой функции f(t) при безграничном росте числа наблюдений q в одном периоде можно получить сходимость оценок периодической составляющей не только в q точках, но и на всем периоде. При этом от оценок в q точках придется перейти к оценкам на всем периоде, например, кусочно-линейным, соединив соседние точки графика отрезками прямых.) тренд периодический интервальный прогноз
Описанная модель справедлива, когда, например, в течение некоторого числа лет имеются поквартальные или помесячные данные бухгалтерского учета. При изучения посещений сайта или торгового заведения - почасовые данные за целое число недель. Если в ряду наблюдений есть пропуски (временной ряд не является полным) - предпосылки модели не выполняются. Если система точек наблюдения не образует арифметическую прогрессию,
В рассматриваемой модели естественно принять, что
, (20)
суммарное отклонение значений восстанавливаемой функции от линейного тренда за один период является нулевым. Тогда первое из условий (7) выполнено:
.
В реальных ситуациях система точек наблюдения может включать в себя, кроме целого числа периодов, еще несколько начальных точек следующего периода. Можно априори принять первое условие (7), для этого изменив - при необходимости - величину свободного члена d в модели тренда (та же логика рассуждений, что и при принятии условий M(ek) = 0 - в модели без периодической составляющей - и M(Ek) = 0 в общем случае). Однако возникает противоречие между первым условием (7) и условием (20). Условие первое условие (7) автоматически обеспечивается методом наименьших квадратов, а условие (20) соответствует логике моделирования. Однако поскольку рассматриваем асимптотическую теорию при безграничном росте числа периодов, указанное различие исчезает при . Таким образом, первое из условий (7) вытекает из свойств рассматриваемой модели и потому вообще не требует проверки по экспериментальным данным, в отличие от второго условия (7), которое выполнено не всегда.
Добавим к модели с целым числом периодов два предположения - симметричности множества {tk, k = 1, 2, …, n} относительно и четности периодической составляющей f(t) относительно той же точки. Эти предположения выполнены, если, например, график f(t) симметричен относительно середины года. Тогда второе условие (7) выполнено. Ясно, что обычно нет оснований априори считать, что реальные данные описываются такой моделью.
10. Проверка второго условия (7) по экспериментальным данным
Естественно использовать статистику
,
где - ранее построенная оценка периодической составляющей f(t). Оценка является несмещенной, а потому
.
При справедливости (6) распределение Y является асимптотически нормальным (при безграничном росте количества периодов m). Для проверки второго условия (7), т.е. для проверки нулевой гипотезы H0: M(Y) = 0 при альтернативной гипотезе о неравенстве математического ожидания 0 достаточно оценить дисперсию Y.
В соответствии с (11) формулу (16) можно записать для любого j = 1, 2, …, n, если под k = k(j) понимать k(j) = j - aq при максимально возможном a, при котором k(j) остается положительным, т.е. k(j) - это остаток от деления j на q, если этот остаток ненулевой, и k(j) = q при нулевом остатке. Таким образом,
, (21)
где hik - те же, что и в формуле (16). В соответствии с определением Y из (21) следует, что
. (22)
Изменим порядок суммирования во втором слагаемом в (22):
.
Следовательно, поскольку Ei - независимые одинаково распределенные случайные величины с математическим ожиданием 0 и дисперсией , то
. (23)
Величину оцениваем по формулам (10) и (15), величины описаны после формулы (16). Подставив оценку в (23), получаем оценку D*(Y) дисперсии Y.
В соответствии с асимптотической нормальностью Y правило принятия решений при проверке гипотезы H0: M(Y) = 0 таково: если
, (24),
где - критическое значение, соответствующее уровню значимости , то нулевая гипотеза принимается (второе условие (7) выполнено), если же неравенство (24) не выполнено, то принимается альтернативная гипотеза (второе условие (7) не выполнено).
11. Асимптотическая несмещенность оценки параметра а
Приведем пример, когда второе условие (7) не выполнено. Измерять время будем в месяцах. Пусть данные берутся на середину квартала. Тогда последовательность моментов времени такова: 2, 5, 8, 11, 14, 17, 20, 23, … Задан период - год. Периодическая составляющая задается четырьмя числами: g1 = - 1, g2 = -2, g3 = -3, g4 = 6. Для таких данных выполнено равенство (20), т.е. . Следовательно, выполнено первое условие (7). Используя это условие, можно упростить второе условие (7):
.
Для простоты расчетов ограничимся двумя годами. Тогда
.
Второе условие (7) не выполнено. Оно не будет выполнено и для любого иного числа лет. Действительно, если х - начало года (для первого года х = 0, для второго х = 12, и т.д.), то вклад этого года в рассматриваемую сумму будет равен
.
Причина нарушения второго условия (7) ясна - периодическая составляющая не симметрична в течение года. Такое поведение периодической составляющей естественно для сельскохозяйственных предприятий. Противоположную ситуацию демонстрирует периодическая составляющая для временного ряда цен на лом черных металлов (по данным Магнитогорского металлургического комбината), проанализированного выше.
Смещение оценки параметра а равно
. (25)
В рассматриваемом примере числитель за m лет равен 30m. А знаменатель, очевидно, имеет порядок m3. Смещение имеет порядок m-2, т.е. быстро убывает с ростом числа периодов. Оценка а* параметра а является асимптотически несмещенной.
Нетрудно показать, что для модели с целым числом периодов всегда имеет асимптотическая несмещенность оценки а* параметра а. Если второе условие (7) выполнено - эта оценка является несмещенной, если не выполнено - смещенной, но смещение стремится к 0 при росте числа периодов. Таким образом, выполнение второго условия (7) не является необходимым для применения рассматриваемых методов. Тем не менее проверка второго условия (7) по экспериментальным данным является полезным для решения о том, можно ли пользоваться асимптотической несмещенностью оценки при имеющемся объеме данных.
12. Заключительные замечания
Подведем итоги. По сравнению с эвристическими алгоритмами, разобранными в [1] и других литературных источниках, разработанная в настоящей статье теория позволила:
1) дать общее обоснование этим алгоритмам в рамках асимптотических методов математической статистики и указать условия их применимости (формула (6));
2) выявить принципиально важные условия (7), необходимые и достаточные для несмещенности и состоятельности рассматриваемых оценок;
3) построить доверительные интервалы для зависимости (прогностической функции), трендовой и периодической составляющих, индивидуальных значений временного ряда.
Обсуждение отдельных сторон рассматриваемой проблемы проведено в работах [2, 4, 5]. В рамках математической статистики удается провести анализ не всех распространенных эвристических алгоритмов. Так, довольно часто рекомендуют вначале провести сглаживание ("выравнивание") временного ряда, например, методом скользящих средних [1, с.137]. При этом периодическая (сезонная) составляющая меняется (также сглаживается), а погрешности (отклонения от суммы трендовой и периодической составляющих) становятся зависимыми случайными величинами, что делает невозможным применение описанных в настоящей статье методов.
Теория устойчивости [6] отвергает идею поиска оптимального метода, поскольку зачастую оказывается, что для любого выбранного для рассмотрения метода анализа данных можно подобрать такое понимание оптимальности, что именно этот метод является оптимальным. Например, метод наименьших квадратов в определенном смысле оптимален, если погрешности имеют нормальное распределение, в то время как метод наименьших модулей оптимален, если погрешности имеют распределение Лапласа. В задаче проверки однородности двух независимых выборок установлено [7], что для любого из обычно используемых критериев однородности существует такое распределение на множестве альтернативных гипотез, что рассматриваемый критерий является оптимальным (в том смысле, который определен в [7]).
Работа выполнена в рамках новой парадигмы прикладной (математической) статистики [8, 9]. Изучена непараметрическую модель, не предполагающая, что распределение погрешностей (ошибок, невязок) входит в то или иное параметрическое семейство. Второе основание для того, чтобы именовать рассматриваемые модель и метод непараметрическими - оценивание периодической составляющей произвольного вида, т.е. отказ от выбора периодической составляющей из какого-либо параметрического семейства функций.
Полученные в статье [10] научные результаты, касающиеся средних величин и законов больших чисел в пространствах произвольной природы, могут быть применены для анализа данных в различных научных и прикладных областях. В отличие от них результаты настоящей работы нацелены прежде всего на анализ динамических рядов экономических показателей (временных рядов), необходимость которого часто возникает при организационно-экономическом моделировании с целью решения задач управления хозяйственными единицами [11]. Именно потребности экономики и управления ставят во главу угла модели с одной независимой переменной - временем. Длина периода задается существом рассматриваемой прикладной задачи (для оценки длины периода по статистическим данным нужен другой математический аппарат, разработанный в [12]). Рассмотренные в настоящей работе постановки можно относить к эконометрике [2], т.е. статистическим методам в экономике. Полученные результаты могут быть применены для прогнозирования и построения экономико-математических моделей, в частности, в рамках неформальной информационной экономики будущего [13].
Литература
1. Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика. 2001. - 192 с.
2. Орлов А.И. Эконометрика. Изд. 4-е, доп. и перераб. Учебник для вузов. - Ростов-на-Дону: Феникс, 2009. - 572 с.
3. Крюкова Е.М. Применение методов организационно-экономического прогнозирования в отрасли лома черных металлов // Заводская лаборатория. Диагностика материалов. - 2008. - Т.74. - №7. - С.67 - 72.
4. Орлов А.И. Непараметрический метод наименьших квадратов: учет сезонности // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. Вып. XXI. - Пермь: Перм. ун-т, 2008. - С.135-148.
5. Орлов А.И. Непараметрический метод наименьших квадратов с периодической составляющей: условия применимости // Статистические методы оценивания и проверки гипотез: межвуз. сб. науч. тр. Вып. XXII. - Пермь: Перм. ун-т, 2010. - С.96-108.
6. Орлов А.И. Устойчивые экономико-математические методы и модели. Разработка и развитие устойчивых экономико-математических методов и моделей для модернизации управления предприятиями. - Saarbrucken: LAP, 2011. - 436 с.
7. Никитин Я.Ю. Асимптотическая эффективность непараметрических критериев. - М.: Наука, 1995. - 240 с.
8. Орлов А.И. Новая парадигма прикладной статистики // Заводская лаборатория. Диагностика материалов. - 2012. - Том 78. - №1, часть I. - С.87-93.
9. Орлов А.И. Основные черты новой парадигмы математической статистики / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №06(090). С.188-214. - IDA [article ID]: 0901306013. - Режим доступа: http://ej.kubagro.ru/2013/06/pdf/13.pdf, 1,688 у.п.л.
10. Орлов А.И. Средние величины и законы больших чисел в пространствах произвольной природы / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №05(89). - С. 554 - 584. IDA [article ID]: 0891304038. - Режим доступа: http://ej.kubagro.ru/2013/05/pdf/38.pdf, 1,938 у.п.л., импакт-фактор РИНЦ=0,577
11. Орлов А.И. Организационно-экономическое моделирование при решении задач управления хозяйственными единицами / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №03(87). - С. 679-705. - Режим доступа: http://ej.kubagro.ru/2013/03/pdf/53.pdf
12. Орлов А.И. Метод оценивания длины периода и периодической составляющей сигнала // Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1999. - С.38-49.
13. Орлов А.И. Проблемы методологии государственной политики и управления в неформальной информационной экономике будущего / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №04(88). - С. 592 - 618. - IDA [article ID]: 0881304041. - Режим доступа: http://ej.kubagro.ru/2013/04/pdf/41.pdf
Размещено на Allbest.ru
...Подобные документы
Основные элементы эконометрического анализа временных рядов. Задачи анализа и их первоначальная обработка. Решение задач кратко- и среднесрочного прогноза значений временного ряда. Методы нахождения параметров уравнения тренда. Метод наименьших квадратов.
контрольная работа [37,6 K], добавлен 03.06.2009Сущность метода наименьших квадратов. Экономический смысл параметров кривой роста (линейная модель). Оценка погрешности и проверка адекватности модели. Построение точечного и интервального прогноза. Суть графического построения области допустимых решений.
контрольная работа [32,3 K], добавлен 23.04.2013Оценка влияния разных факторов на среднюю ожидаемую продолжительность жизни по методу наименьших квадратов. Анализ параметров линейной двухфакторной эконометрической модели с помощью метода наименьших квадратов. Графическое изображение данной зависимости.
практическая работа [79,4 K], добавлен 20.10.2015Линеаризация нелинейных зависимостей. Специальный вид линейной зависимости. Элементы теории корреляции. Вычисление прогнозных значений величины содержания ионов Cl- по сформированным уравнениям. Решение задачи с помощью средств MS Excel и MathCad.
курсовая работа [1,7 M], добавлен 11.12.2012Вычисление парных коэффициентов корреляции и построение их матрицы. Нахождение линейного уравнения связи, коэффициентов детерминации и эластичности. Аналитическое выравнивание ряда динамики методом наименьших квадратов. Фактические уровни вокруг тренда.
контрольная работа [121,1 K], добавлен 01.05.2011Расчет зависимости товарооборота за месяц. Параметры уравнения множественной регрессии, их оценка методом наименьших квадратов. Получение системы нормальных уравнений, ее решение по методу Крамера. Экономическая интерпретация параметров уравнения.
контрольная работа [45,6 K], добавлен 13.04.2014Данные для разработки трендовой модели изменения объемов грузооборота предприятий транспорта. Проверка гипотезы на наличие тенденции. Понятие и обоснование периода упреждения прогноза. Выбор оптимальной прогнозной модели по коэффициенту детерминации.
курсовая работа [1008,3 K], добавлен 01.10.2014Общая характеристика экономики Германии, история и основные этапы ее становления и современное состояние. Идентификация двухшаговым методом наименьших квадратов упрощенной модели Клейна. Построение прогноза эндогенных переменных исследуемой модели.
контрольная работа [77,1 K], добавлен 26.04.2010Общее понятие о прогнозировании, методы. Абсолютные, сравнительные и качественные показатели оценки качества прогноза. Метод наименьших квадратов. Модели линейного роста. Новшества программы Excel 5.0. Пример решения задачи по прогнозу объема кредита.
курсовая работа [1,1 M], добавлен 07.08.2013Построение одноиндексной математической модели задачи линейного программирования, ее решение графическим методом. Разработка путей оптимизации сетевой модели по критерию "минимум исполнителей". Решение задачи управления запасами на производстве.
контрольная работа [80,8 K], добавлен 13.12.2010Формулировка проблемы в практической области. Построение моделей и особенности экономико-математической модели транспортной задачи. Задачи линейного программирования. Анализ постановки задач и обоснования метода решения. Реализация алгоритма программы.
курсовая работа [56,9 K], добавлен 04.05.2011Теория и анализ временных рядов. Построение линии тренда и прогнозирование развития случайного процесса на основе временного ряда. Сглаживание временного ряда, задача выделения тренда, определение вида тенденции. Выделение тригонометрической составляющей.
курсовая работа [722,6 K], добавлен 09.07.2019Формулирование экономико-математической модели задачи в виде основной задачи линейного программирования. Построение многогранника решений, поиск оптимальной производственной программы путем перебора его вершин. Решение задачи с помощью симплекс-таблиц.
контрольная работа [187,0 K], добавлен 23.05.2010Задачи операционного исследования. Построение базовой аналитической модели. Описание вычислительной процедуры. Решение задачи оптимизации на основе технологии симплекс-метода. Анализ результатов базовой аналитической модели и предложения по модификации.
курсовая работа [1,5 M], добавлен 12.12.2009Симплекс метод решения задач линейного программирования. Построение модели и решение задачи определения оптимального плана производства симплексным методом. Построение двойственной задачи. Решение задачи оптимизации в табличном процессоре MS Excel.
курсовая работа [458,6 K], добавлен 10.12.2013Эконометрические регрессионные модели и прогнозирование на их основе. Построение множественной линейной регрессии с использованием метода наименьших квадратов. Расчет минеральных удобрений сельскохозяйственной организации по полям и кормовым угодьям.
курсовая работа [2,6 M], добавлен 29.11.2014Порядок построения линейного регрессионного уравнения, вычисление его основных параметров и дисперсии переменных, средней ошибки аппроксимации и стандартной ошибки остаточной компоненты. Построение линии показательной зависимости на поле корреляции.
контрольная работа [75,1 K], добавлен 29.01.2010Построение поля рассеяния, его визуальный анализ. Определение точечных оценок параметров методом наименьших квадратов. Расчет относительной ошибки аппроксимации. Построение доверительных полос для уравнения регрессии при доверительной вероятности У.
контрольная работа [304,0 K], добавлен 21.12.2013Составление математической модели, целевой функции, построение системы ограничений и симплекс-таблиц для решения задач линейного программирования. Решение транспортной задачи: определение опорного и оптимального плана, проверка методом потенциалов.
курсовая работа [54,1 K], добавлен 05.03.2010Исследование линейных моделей парной (ЛМПР) и множественной регрессии (ЛММР) методом наименьших квадратов. Исследование зависимости производительности труда от уровня механизации. Анализ развития товарооборота по данным о розничном товарообороте региона.
контрольная работа [23,8 K], добавлен 08.12.2008