Математическая статистика

Понятия случайной выборки, временного ряда и выборочной дисперсии. Критерии серий, "поворотных" точек, Кендалла, согласия. Математическое ожидание случайной величины. Выборочный коэффициент асимметрии. Определение отклонения от нормальности распределения.

Рубрика Экономико-математическое моделирование
Вид лекция
Язык русский
Дата добавления 29.10.2013
Размер файла 68,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

К лекции №1

В начальном курсе математической статистики базовым понятием является случайная выборка. Мы имеем некоторое количество наблюдений значений некоторого признака (фактора, характеристики) и предполагаем, что эти значения случайным образом выбраны из некоторой (теоретически, бесконечной) совокупности, называемой генеральной совокупностью, так что являются реализациями независимых (в совокупности) случайных величин , имеющих одинаковое распределение вероятностей (одинаковый закон распределения), характеризующееся функцией распределения , . При этом говорят, что мы имеем дело со случайной выборкой из распределения F (точнее, из распределения, имеющего функцию распределения F).

Нас интересуют, главным образом, непрерывные распределения, для которых определена функция плотности вероятности , . В этом случае для любых и , , , причем знаки неравенств могут быть здесь как строгими, так и нестрогими.

Под временным рядом понимается последовательность наблюдений, сделанных через равные промежутки времени. Если принять величину такого промежутка за единицу времени, то можно считать, что наблюдения произведены в моменты . Впрочем, для некоторых экономических и финансовых показателей производить измерения через равные промежутки времени не удается. Например, значения биржевых индексов на момент закрытия фиксируются только в те дни, когда биржа работает. В последнем случае наблюдения соответствуют последовательным рабочим дням биржи.

Основная отличительная особенность статистического анализа временных рядов состоит в том, что последовательность наблюдений рассматривается как реализация статистически зависимых случайных величин , имеющих некоторое совместное распределение с функцией распределения

.

Мы будем рассматривать, в основном, временные ряды, у которых совместное распределение случайных величин имеет совместную плотность распределения , так что

.

Пусть функция распределения известна (задана). Тогда для каждого момента , , становится известной одномерная функция распределения ; например, . Ей соответствует - одномерная плотность распределения случайной величины .

Если у временного ряда

,

,

то такой ряд представляет случайную выборку из распределения F , имеющего функцию плотности .

В практических исследованиях реальных временных рядов, особенно на первом этапе исследования обычно нет никаких предварительных данных о вероятностной модели, порождающей наблюдения. Поэтому естественно начинать анализ с проверки гипотезы о том, что наблюдаемый ряд следует модели случайной выборки - простейшей модели временного ряда. Для краткости мы будем называть эту гипотезу гипотезой случайности, хотя более точно ее следовало бы именовать гипотезой случайной выборки. На протяжении некоторого времени эта гипотеза будет у нас исходной (основной), и мы будем обозначать ее, следуя традиции, символом H0 ("нулевая" гипотеза).

На практике используется целый ряд критериев проверки этой гипотезы, отличающихся своей мощностью при различных альтернативных гипотезах. Мы рассмотрим некоторые из таких критериев, предполагая непрерывность распределения F .

Критерий серий

Этот критерий основан на следующем соображении. Пусть M - медиана распределения F , так что . Тогда последовательные значения не должны “слишком долго” задерживаться по одну сторону от уровня M .

Если мы не знаем распределение F, то мы не знаем и его медиану, и поэтому приходится использовать ее выборочный аналог - выборочную медиану. Для ее вычисления расположим значения в порядке возрастания, т.е. образуем вариационный ряд (ряд порядковых статистик): . Выборочная медиана вычисляется по формуле:

По исходному временному ряду построим последовательность из плюсов и минусов следующим образом: вместо ставится «+», если , и «», если . Под «серией» понимается последовательность подряд идущих плюсов или подряд идущих минусов.

Пусть в полученной последовательности имеется плюсов и минусов, , и при этом имеется серий плюсов и серий минусов - всего серий. Значения ли можно рассматривать как реализации соответствующих случайных величин Z1 и Z2 . Если гипотеза верна, то для случайной величины

, ,

а если при этом числа и велики, то для случайной величины

можно использовать нормальное приближение , отвергая гипотезу при “слишком больших” отклонениях наблюдаемого количества числа серий от ожидаемого.

Критерий "поворотных" точек

Этот критерий особенно удобен при графическом представлении данных, т.к. значение его тестовой статистики S непосредственно определяется по графику ряда и представляет собой суммарное количество "пиков" и "впадин" на этом графике.

"Пик" - это наблюдаемое значение, которое больше двух соседних: "впадина" - наблюдаемое значение, которое меньше двух соседних. Каждое из таких наблюдений называется "поворотной" (или "экстремальной") точкой. Начальное и конечное значения не могут входить в число поворотных точек, т.к. у нет соседнего наблюдения слева, а у нет соседнего наблюдения справа.

Для определим “считающую переменную”

При этом тогда и только тогда, когда - поворотная точка, и суммарное число поворотных точек в ряду наблюдений равно .

Математическое ожидание случайной величины S равно

.

Если гипотеза верна, а распределение F непрерывно, то

,

так что

.

Дисперсия случайной величины S при гипотезе равна

.

При больших стандартизованная случайная величина

имеет распределение, близкое к .

Гипотеза отвергается, если наблюдаемое количество поворотных точек значимо отличается от ожидаемого.

Замечание. При практическом применении критерия поворотных точек, когда данные являются округленными в той или иной степени, возникают трудности, связанные с тем, что некоторые соседние значения оказываются совпадающими. В таких ситуациях можно рекомендовать следующий подход. По имеющимся данным анализируются последствия возможного (хотя бы и гипотетически) уточнения совпадающих значений. Исследуются все потенциальные возможности возрастания или уменьшения округленных значений при их уточнении ("разокруглении"). В результате можно найти верхнюю и нижнюю границы для "истинного" количества поворотных точек, соответствующего исходному "неокругленному" ряду. Для этих граничных значений применяется критерий, указанный выше, и делаются соответствующие выводы относительно гипотезы случайности.

Критерий Кендалла

Этот критерий основан на попарном сравнении всех наблюдений. Для каждой пары индексов , , положим

т.е. тогда и только тогда, когда значения , расположены в порядке, обратном порядку их индексов, т.е. образуют инверсию. Случайная величина

равна суммарному количеству инверсий в ряду . Минимальное значение достигается при , а максимальное при .

Среднее значение , соответствует "наибольшему беспорядку" среди значений ряда; при этом, .

Критерий Кендалла использует статистику

;

в литературе ее часто называют “тау Кендалла”. При гипотезе распределение случайной величины имеет симметричную относительно нуля плотность с нулевым математическим ожиданием и дисперсией

,

а стандартизованная величина

имеет распределение, которое уже при хорошо аппроксимируется стандартным нормальным распределением. Гипотеза отвергается при значениях , значимо отличающихся от нуля.

Замечание. Как и в случае критерия поворотных точек, при применении критерия Кендалла возникают трудности, связанные с наличием у ряда двух или нескольких совпадающих наблюдений. Обойти эти трудности можно двумя способами.

· Первый способ состоит в том, что производится прореживание ряда, в процессе которого удаляются "дублирующие" значения. При этом ряд становится короче, но если гипотеза Н0 верна для всего ряда, то она верна и для "укороченного" ряда, а для последнего она проверяется без проблем.

· Второй способ состоит в том, что сначала каждой паре совпадающих значений сопоставляется нулевой вклад ; при этом получается нижняя граница для значения , соответствующего "истинному" (разокругленному) ряду. Затем каждой паре совпадающих значений сопоставляется единичный вклад ; при этом получается верхняя граница для . Полученные два граничных значения используются для вычисления соответствующих им значений , и на основании этих вычисленных значений делаются заключения относительно справедливости гипотезы .

Критерий Кендалла оказывается чувствительнее критерия поворотных точек при наличии в данных линейного тренда. Однако в случае, когда исследуемая характеристика подвержена сезонным изменениям, критерий Кендалла оказывается бесполезным, поскольку он, как правило, не отвергает гипотезу случайности даже при наличии выраженного периодического тренда. Напротив, критерий поворотных точек может помочь в выявлении такого тренда, отвергая в такой ситуации гипотезу случайности.

В этом проявляется общий принцип, состоящий в том, что каждый конкретный критерий наилучшим образом работает при вполне определенных альтернативах, так что не существует какого-то одного универсального критерия проверки гипотезы случайности, эффективно работающего абсолютно во всех ситуациях. В связи с этим полезно иметь на вооружении целый арсенал критериев проверки случайности, которые в совокупности помогают либо принять модель случайной выборки либо отказаться от нее в пользу той или иной более сложной модели временного ряда.

Критерии согласия

В приложениях интерес представляет не только проверка гипотезы о том, что наблюдаемый ряд значений представляет случайную выборку, но и проверка гипотез о том, что это случайная выборка из вполне определенного распределения F или что это случайная выборка из распределения, принадлежащего некоторому семейству распределений, без уточнения параметров этого распределения.

В пакете EViews 6 для таких проверок предусмотрены встроенные процедуры, реализующие критерии, основанные на сравнении эмпирической функции распределения и специфицированной теоретической функции распределения и использовании той или иной меры расхождения между этими функциями.

Для случайной выборки эмпирическая функция распределения определяется формулой

,

где - индикаторная функция, равная 1, если Xi ? x, и равная 0 в противном случае.

Kolmogorov-Smirnov statistic

Для заданной функции распределения F(x) статистика Колмогорова-Смирнова определяется соотношением:

Если F - непрерывное распределение, то при функция распределения случайной величины сходится к функции некоторого специального распределения, которое называется распределением Колмогорова.

Критерий согласия Колмогорова-Смирнова использует критические значения рапсределения Колмогорова. Нулевая гипотеза о том, что набор соответствует случайной выборке из заранее специфицированного распределения F , отвергается на уровне значимости , если .

При практическом вычислении значения статистики можно воспользоваться соотношением:

,

в котором - вариационный ряд для .

Lilliefors test

Этот критерий предназначен для проверки гипотезы о том, что набор соответствует случайной выборке из нормального распределения, но заранее не специфицируются значения параметров этого распределения (математического ожидания и дисперсии).

Здесь сначала производится оценивание по выборке математического ожидания и дисперсии распределения, и после этого производится сравнение эмпирической функции распределения с функцией нормального распределения, имеющего в качестве значений параметров оцененные значения математического ожидания и дисперсии. Поскольку сравнение производится не с заранее заданной функцией распределения, а с функцией с параметрами, оцененными по выборке, максимальное расхождение этих функций оказывается меньшим, и распределение статистики критерия будет другим - распределение Лиллиефорса.

Критерий Крамера - фон Мизеса (критерий омега-квадрат)

Здесь в качестве меры расхождения между эмпирическим распределением Fn и теоретическим распределением F берется величина

;

можно показать, что

.

Критерий Андерсона - Дарлинга

Этот критерий является одним из наиболее мощных критериев для проверки нормальности, его можно использовать при малых выборках, n ? 25. В качестве меры расхождения между эмпирическим распределением Fn и теоретическим распределением F берется величина

Пусть данные упорядочены в порядке возрастания. Эти данные стандартизуются на выборочное среднее и выборочную дисперсию:

выборка математический ожидание коэффициент

.

Статистика критерия вычисляется как

,

где - функция стандартного нормального распределения.

Статистика, скорректированная на размер выборки, имеет вид

Уровню значимости 0.05 соответствует отвержение нулевой гипотезы при A * 2 > 0.752.

Watson test

В качестве меры расхождения между эмпирическим распределением Fn и теоретическим распределением F берется величина

.

При рассмотрении финансовых рядов отклонение от нормальности распределения часто проявляется в наличии у распределения F тяжелых (длинных) хвостов, в более медленном убывании функции плотности при удалении от центра распределения, по сравнению с плотностью нормального распределения. Такие отклонения улавливает хорошо нам известная статистика Харке-Бера:

,

где - выборочный коэффициент асимметрии, - выборочный эксцесс,

= (выборочный куртозис минус 3).

Размещено на Allbest.ru

...

Подобные документы

  • Расчет выборочной средней, дисперсии, среднего квадратического отклонения и коэффициента вариации. Точечная оценка параметра распределения методом моментов. Решение системы уравнений по формулам Крамера. Определение уравнения тренда для временного ряда.

    контрольная работа [130,4 K], добавлен 16.01.2015

  • Особенности метода проверки гипотезы о законе распределения по критерию согласия хи-квадрат Пирсона. Свойства базовой псевдослучайной последовательности. Методы оценки закона распределения и вероятностных характеристик случайной последовательности.

    лабораторная работа [234,7 K], добавлен 28.02.2010

  • Вид одномерного распределения для номинальной шкалы с совместимыми альтернативами. Меры центральной тенденции. Математическое ожидание, отклонение. Показатели асимметрии, эксцесса. Построение распределений в пакете ОСА и SPSS, визуальное представление.

    курс лекций [2,4 M], добавлен 09.10.2013

  • Построение вариационного (статистического) ряда, гистограммы и эмпирической функции распределения. Определение выборочных оценок числовых характеристик случайной величины. Расчет матрицы парных коэффициентов корреляции и создание модели парной регрессии.

    контрольная работа [2,0 M], добавлен 05.04.2014

  • Анализ различных подходов к определению вероятности. Примеры стохастических зависимостей в экономике. Проверка ряда гипотез о свойствах распределения вероятностей для случайной компоненты как один из этапов эконометрического исследования. Вариации.

    реферат [261,0 K], добавлен 17.11.2008

  • Способы описания случайной величины, основные распределения и их генерация в Excel. Дисперсионный анализ как особая форма анализа регрессии. Применение элементов линейной алгебры в моделировании экономических процессов и решение транспортной задачи.

    курс лекций [1,6 M], добавлен 05.05.2010

  • Понятия доверительного интервала и доверительной вероятности и их применение в эконометрических задачах. Доверительный интервал для математического ожидания нормальной случайной величины при известной и при неизвестной дисперсии, генеральная совокупность.

    реферат [2,0 M], добавлен 12.12.2009

  • Использование статистических характеристик для анализа ряда распределения. Частотные характеристики ряда распределения. Показатели дифференциации, абсолютные характеристики вариации. Расчет дисперсии способом моментов. Теоретические кривые распределения.

    курсовая работа [151,4 K], добавлен 11.09.2010

  • Теория и анализ временных рядов. Построение линии тренда и прогнозирование развития случайного процесса на основе временного ряда. Сглаживание временного ряда, задача выделения тренда, определение вида тенденции. Выделение тригонометрической составляющей.

    курсовая работа [722,6 K], добавлен 09.07.2019

  • Описание оборудования предприятия автосервиса. Построение интервального ряда экспериментального распределения. Проверка адекватности математической модели экспериментальным данным. Расчет значений интегральной и дифференциальной функции распределения.

    курсовая работа [522,9 K], добавлен 03.12.2013

  • Формулы вычисления критерия Пирсона, среднего квадратического отклонения и значений функций Лапласа. Определение свойств распределения хи-квадрата. Критерий согласия Колмогорова-Смирнова. Построение графика распределения частот в заданном массиве.

    контрольная работа [172,2 K], добавлен 27.02.2011

  • Построение временной ряда величины по данным об уровне безработицы в России за 10 месяцев 2010 г., вычисление ее числовых характеристик. Регрессионная модель временного тренда. Краткосрочный и долгосрочный прогнозы изменения рассматриваемой величины.

    контрольная работа [118,1 K], добавлен 26.02.2012

  • Анализ упорядоченных данных, полученных последовательно (во времени). Модели компонентов детерминированной составляющей временного ряда. Свободные от закона распределения критерии проверки ряда на случайность. Теоретический анализ системы линейного вида.

    учебное пособие [459,3 K], добавлен 19.03.2011

  • Изучение понятия имитационного моделирования. Имитационная модель временного ряда. Анализ показателей динамики развития экономических процессов. Аномальные уровни ряда. Автокорреляция и временной лаг. Оценка адекватности и точности трендовых моделей.

    курсовая работа [148,3 K], добавлен 26.12.2014

  • Исследование системы методов планирования и управления разработкой проектов путем применения сетевых графиков. Правила построения сетевого графа. Расчет параметров и анализ сетей случайной структуры. Определение дисперсии ожидаемого выполнения проекта.

    курсовая работа [265,3 K], добавлен 31.05.2013

  • Коэффициент корреляции, расчетное значение статистики Стьюдента. Предварительный анализ одновременного включения показателей процентных ставок банка по кредитованию и депозитным вкладам юридических лиц в модель. Графический анализ временного ряда.

    контрольная работа [133,2 K], добавлен 03.02.2013

  • Вычисление парных коэффициентов корреляции и построение их матрицы. Нахождение линейного уравнения связи, коэффициентов детерминации и эластичности. Аналитическое выравнивание ряда динамики методом наименьших квадратов. Фактические уровни вокруг тренда.

    контрольная работа [121,1 K], добавлен 01.05.2011

  • Построение интервального вариационного ряда распределения предприятий по объему реализации. Графическое изображение ряда (гистограмма, кумулята, огива). Расчет средней арифметической; моды и медианы; коэффициента асимметрии; показателей вариации.

    контрольная работа [91,1 K], добавлен 10.12.2013

  • Основные понятия математической статистики. Нахождение коэффициента эластичности модели. Проведение экономического анализа, составление прогноза и построение доверительной области. Вычисление зависимости показателя от фактора. Проверка созданной модели.

    контрольная работа [173,9 K], добавлен 19.06.2009

  • Математическая модель задачи принятия решения в условиях риска. Нахождение оптимального решения по паре критериев. Построение реализационной структуры задачи принятия решения. Ориентация на математическое ожидание, среднеквадратичное отклонение.

    курсовая работа [79,0 K], добавлен 16.09.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.