Оценивание параметров: одношаговые оценки предпочтительнее оценок максимального правдоподобия

Использование параметрических и непараметрических методов и моделей в прикладной математической статистике. Асимптотические свойства и оценка максимального правдоподобия. Анализ результатов расчетов по данным о наработке резцов до предельного состояния.

Рубрика Математика
Вид статья
Язык русский
Дата добавления 20.05.2017
Размер файла 129,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1

Научный журнал КубГАУ, №109(05), 2015 года

Московский государственный технический университет им. Н.Э. Баумана

ОЦЕНИВАНИЕ ПАРАМЕТРОВ: ОДНОШАГОВЫЕ ОЦЕНКИ ПРЕДПОЧТИТЕЛЬНЕЕ ОЦЕНОК МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ

Орлов Александр Иванович

д.э.н., д.т.н., к.ф.-м.н., профессор

Согласно новой парадигме прикладной математической статистики следует отдавать предпочтение непараметрическим методам и моделям. Однако в настоящее время в прикладной статистике используются разнообразные параметрические модели. Термин «параметрический» означает, что вероятностно-статистическая модель полностью описывается конечномерным вектором фиксированной размерности, причем эта размерность не зависит от объема выборки. В параметрической статистике задача оценивания состоит в том, чтобы оценить неизвестное статистику значение параметра наилучшим (в каком-либо смысле) образом. В статистических задачах стандартизации и управления качеством используют трехпараметрическое семейство гамма-распределений. В настоящей статье это семейство рассматривается как пример. Сравним методы оценивания параметров. Метод моментов является универсальным. Однако получаемые с его помощью оценки лишь в редких случаях обладают оптимальными свойствами. Оценки максимального правдоподобия (ОМП) входят в класс наилучших асимптотически нормальных оценок. В большинстве случаев аналитических решений не существует, следовательно, для нахождения ОМП необходимо применять численные методы. Однако применение численных методов порождает многочисленные проблемы. Сходимость итерационных алгоритмов требует обоснования. В ряде примеров анализа конкретных данных функция правдоподобия имеет много локальных максимумов, а потому естественные итерационные процедуры не сходятся. Предлагаем использовать одношаговые оценки (ОШ-оценки). Они имеют столь же хорошие асимптотические свойства, что и оценки максимального правдоподобия, при тех же условиях регулярности, что и ОМП. Одношаговые оценки выписываются в виде явных формул. В статье доказано, что одношаговые оценки являются наилучшими асимптотически нормальными оценками (при выполнении естественных условий). Найдены ОШ-оценки для гамма-распределения. Приведены результаты расчетов по данным о наработке резцов до предельного состояния

Ключевые слова: МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, ПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА, ОЦЕНИВАНИЕ ПАРАМЕТРОВ, ОЦЕНКИ МЕТОДА МОМЕНТОВ, ОЦЕНКИ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ, ОДНОШАГОВЫЕ ОЦЕНКИ, НАИЛУЧШИЕ АСИМПТОТИЧЕСКИ НОРМАЛЬНЫЕ ОЦЕНКИ, СРАВНЕНИЕ МЕТОДОВ ОЦЕНИВАНИЯ, ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ, ГАММА-РАСПРЕДЕЛЕНИЕ, АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ

Согласно новой парадигме прикладной математической статистики следует отдавать предпочтение непараметрическим методам и моделям [1 -4]. Однако в настоящее время в прикладной статистике используются разнообразные параметрические модели. Термин «параметрический» означает, что вероятностно-статистическая модель полностью описывается конечномерным вектором фиксированной размерности, причем эта размерность не зависит от объема выборки.

Рассмотрим выборку x1, x2,…, xn из распределения с плотностью f(x0), где f(x0) - элемент параметрического семейства плотностей распределения вероятностей {f(x;и), иєИ}. Здесь И - заранее известное k-мерное пространство параметров, являющееся подмножеством евклидова пространства Rk, в то время как конкретное значение параметра и0 статистику неизвестно и подлежит оцениванию по выборке. Обычно в прикладной статистике применяются параметрические семейства с k = 1,2,3 (см. [5, гл.2]). В статистике нечисловых данных вместо плотности часто рассматриваются вероятности попадания в точки. В параметрических задачах оценивания принимают вероятностную модель, согласно которой результаты наблюдений x1, x2,…, xn рассматривают как реализации n независимых случайных величин.

В параметрической статистике задача оценивания состоит в том, чтобы оценить неизвестное статистику значение параметра и0 наилучшим (в каком-либо смысле) образом.

Пример 1. В статистических задачах стандартизации и управления качеством используют семейство гамма-распределений. Плотность гамма-распределения имеет вид

(1)

Плотность вероятности в формуле (1) определяется тремя параметрами a, b, c, где a>2, b>0. При этом a является параметром формы, b - параметром масштаба и с - параметром сдвига. Множитель 1(а) является нормировочным, он введен, чтобы

математический статистика правдоподобие параметрический

Здесь Г(а) - одна из используемых в математике специальных функций, так называемая «гамма-функция», по которой названо и распределение, задаваемое формулой (1),

Подробные решения задач оценивания параметров для гамма-распределения содержатся в разработанном нами государственном стандарте ГОСТ 11.011-83 «Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения» [6]. В настоящее время эта публикация используется в качестве методического материала для инженерно-технических работников промышленных предприятий и прикладных научно-исследовательских институтов.

Поскольку гамма-распределение зависит от трех параметров, то имеется 23 - 1 = 7 вариантов постановок задач оценивания. Они описаны в табл.1.

Таблица 1

Задачи оценивания для параметров гамма-распределения

№ п/п

Параметр формы

Параметр масштаба

Параметр сдвига

1

Известен

Оценивается

Известен

2

Оценивается

Известен

Известен

3

Известен

Известен

Оценивается

4

Оценивается

Оценивается

Известен

5

Известен

Оценивается

Оценивается

6

Оценивается

Известен

Оценивается

7

Оценивается

Оценивается

Оценивается

В табл. 2 приведены данные о наработке резцов до предельного состояния, в часах. Упорядоченная выборка (вариационный ряд) объема n = 50 взята из государственного стандарта [6]. Проверка согласия данных о наработке резцов с семейством гамма-распределений проведена в [5, гл.7] и [7]. Именно эти данные будут служить исходным материалом для демонстрации тех или иных методов оценивания параметров.

Выбор «наилучших» оценок в определенной параметрической модели прикладной статистики - научно-исследовательская работа, растянутая во времени. Выделим в ней два этапа.

Этап асимптотики: оценки строятся и сравниваются по их свойствам при безграничном росте объема выборки. На этом этапе рассматривают такие характеристики оценок, как состоятельность, асимптотическая эффективность и др.

Этап конечных объемов выборки: оценки сравниваются, скажем, при n = 10. Ясно, что исследование начинается с этапа асимптотики: чтобы сравнивать оценки, надо сначала их построить и быть уверенными, что они не являются абсурдными (такую уверенность дает доказательство состоятельности).

Таблица 2

Наработка резцов до предельного состояния (ч)

№ п/п

Наработка

№ п/п

Наработка

№ п/п

Наработка

1

9

18

47,5

35

63

2

17,5

19

48

36

64,5

3

21

20

50

37

65

4

26,5

21

51

38

67,5

5

27,5

22

53,5

39

68,5

6

31

23

55

40

70

7

32,5

24

56

41

72,5

8

34

25

56

42

77,5

9

36

26

56,5

43

81

10

36,5

27

57,5

44

82,5

11

39

28

58

45

90

12

40

29

59

46

96

13

41

30

59

47

101,5

14

42,5

31

60

48

117,5

15

43

32

61

49

127,5

16

45

33

61,5

50

130

17

46

34

62

Метод моментов

С какой оценки начинать? Одним из наиболее известных и простых в употреблении методов является метод моментов. Название связано с тем, что этот метод опирается на использование выборочных моментов

где x1, x2,…, xn - выборка, т.е. набор независимых одинаково распределенных случайных величин с числовыми значениями.

В прикладной статистике метод анализа данных называется методом моментов, если он использует статистику

(2)

где g: Rq > Rk - некоторая функция (здесь k - число неизвестных числовых параметров). Чаще всего термин «метод моментов» используют, когда речь идет об оценивании параметров. В этом случае обычно предполагают, что плотность вероятности распределения элементов выборки f(x) входит в заранее известное статистику параметрическое семейство {f(x;и), иєИ}, т.е. f(x) = f(x0) при некотором и0. Здесь И - заранее заданное k-мерное пространство параметров, являющееся подмножеством евклидова пространства Rk, а конкретное значение параметра и0 статистику неизвестно, его и следует оценить. Известно также, что неизвестный параметр определяется с помощью известной статистику функции через начальные моменты элементов выборки:

(3)

В методе моментов в качестве оценки и0 используют статистику Yn вида (2), которая отличается от правой части формулы (2) тем, что теоретические моменты заменены выборочными.

Статистики Yn вида (2) применяются не только для оценивания параметров, но и для непараметрического оценивания характеристик случайной величины, таких, как коэффициент вариации, и для проверки гипотез. Во всех случаях применения статистики Yn вида (2) говорят о методе моментов.

Распределение вектора Yn во всех практически важных случаях является асимптотически нормальным. Это утверждение опирается на следующий общий факт.

Пусть случайный вектор Zn є Rq асимптотически нормален с математическим ожиданием z? и ковариационной матрицей ||cij||/n, а функция h: Rq > R1 достаточно гладкая. Тогда случайная величина h(Zn) асимптотически нормальна с математическим ожиданием h(z?) и дисперсией

(4)

Этот способ нахождения предельного распределения известен как д-метод Рао [8], метод линеаризации [9]. Последний термин и будем использовать. Условия регулярности, накладываемые на распределение случайной величины Zn и функцию h, при которых метод линеаризации обоснован, хорошо известны (см. [10], [2, с.337-339], [5, гл.4]).

Для получения асимптотического распределения статистики Yn вида (2) можно применить метод линеаризации к асимптотически нормальному вектору выборочных моментов (Mn1, Mn2, …, Mnq) и функции g из формулы (2). В силу многомерной центральной предельной теоремы [5, гл. 4] указанная асимптотическая нормальность имеет место, если, например,

Это условие выполнено, в частности, для результатов измерений, распределения которых сосредоточены на ограниченных сверху и снизу интервалах.

При реализации намеченного плана для применения формулы (4) необходимо использовать асимптотические дисперсии и ковариации выборочных моментов, т.е. величины, обозначенные в формуле (4) как crs. Эти величины имеют вид [8, с.388]:

(5)

Здесь мr - теоретический центральный момент порядка r, т.е.

Таким образом, для получения асимптотического распределения случайной величины Yn вида (2) достаточно знать теоретические центральные моменты результатов наблюдений и вид функции g. Отметим, что асимптотическим смещением оценок в рассматриваемом случае можно пренебречь, поскольку его вклад в средний квадрат ошибки статистической оценки - бесконечно малая величина более высокого порядка по сравнению с асимптотической дисперсией.

Однако моменты неизвестны. Их приходится оценивать. В соответствии с теоремами о наследовании сходимости для нахождения асимптотического распределения функции от выборочных моментов можно воспользоваться не теоретическими моментами, а их состоятельными оценками. Эти оценки можно получить разными способами. Можно непосредственно применить формулы (5), заменив теоретические моменты выборочными. Можно выразить моменты через параметры рассматриваемого распределения. Можно применять более сложные процедуры, например, на основе непараметрических устойчивых (робастных) оценок моментов типа урезанных средних Пуанкаре и др. (в первой в России книге по общей теории устойчивости [14] проблематика робастных оценок рассмотрена в гл.2).

Для оценивания параметров гамма-распределения воспользуемся известной формулой [6, с.42], согласно которой для случайной величины Х, имеющей гамма-распределение с параметрами формы а, масштаба b =1 и сдвига c=0,

(6)

Следовательно, M(X) = a, M(X2) = a(a+1), D(X) = M(X2) - (M(X))2 = a(a+1) - a2 = a. Найдем третий центральный момент M(X - M(X))3. Справедливо равенство

M(X - M(X))3 = M(X3) - 3 M(X2) M(X) + 3 M(X) (M(X))2 - (M(X))3.

Из равенства (6) вытекает, что

M(X - M(X))3 = a(a+1)(a+2) - 3 a (a+1) a + 3 a a2 - a3 = 2a.

Если Y - случайная величина, имеющая гамма-распределение с произвольными параметрами формы a, масштаба b и сдвига c, то Y = bX + c. Следовательно,

M(Y) = ab+c, D(Y) = ab2, M(Y - M(Y))3 = 2 a b3.

Пример 2. Оценивание методом моментов параметров гамма-распределения в случае трех неизвестных параметров (строка 7 табл.1).

В соответствии с проведенными выше рассуждениями для оценивания трех параметров достаточно использовать три выборочных момента - выборочное среднее арифметическое

выборочную дисперсию

и выборочный третий центральный момент

Приравнивая теоретические моменты, выраженные через параметры распределения, и выборочные моменты, получаем систему уравнений метода моментов:

Решая эту систему, находим оценки метода моментов. Подставляя второе уравнение в третье, получаем оценку метода моментов для параметра сдвига:

Подставляя эту оценку во второе уравнение, находим оценку метода моментов для параметра формы:

Наконец, из первого уравнения находим оценку для параметра сдвига:

Для данных [6], приведенных выше в табл.2, выборочное среднее арифметическое = 57,88, выборочная дисперсия s2 = 663,00, выборочный третий центральный момент m3 = 14927,91. Согласно только что полученным формулам оценки метода моментов таковы: a* = 5,23; b* = 11,26, c* = - 1,01.

Оценки параметров гамма-распределения, полученные методом моментов, являются функциями от выборочных моментов. В соответствии со сказанным выше они являются асимптотически нормальными случайными величинами. Их распределения аппроксимируются нормальными распределениями, математические ожидания которых равны соответствующим параметрам, а дисперсии находятся с помощью формулы (4) с учетом формул (5) и (6). В табл.3 приведены оценки метода моментов и их асимптотические дисперсии при различных вариантах сочетания известных и неизвестных параметров гамма-распределения.

Все оценки метода моментов, приведенные в табл.3, включены в государственный стандарт [6]. Они охватывают все постановки задач оценивания параметров гамма-распределения (см. табл.1), кроме тех, когда неизвестен только один из двух параметров - a или b. Для этих исключительных случаев в [6] разработаны специальные методы оценивания.

Поскольку асимптотическое распределение оценок метода моментов известно, то не представляет труда формулировка правил проверки статистических гипотез относительно значений параметров распределений, а также построение доверительных границ для параметров.

Таблица 3

Оценки метода моментов и их асимптотические дисперсии

Описание модели

Оцениваемый параметр

Вид оценки

Асимптотическая дисперсия оценки

a

b

c

1

-

-

+

a

2

-

-

+

b

3

-

-

-

a

4

-

-

-

b

5

-

-

-

c

6

+

-

-

b

7

+

-

-

c

8

-

+

-

A

9

-

+

-

c

10

+

+

-

c

Примечание. При описании вероятностной модели известные статистику параметры отмечены плюсами, оцениваемые - минусами.

Например, в вероятностной модели, когда все три параметра неизвестны, в соответствии с третьей строкой таблицы 3 нижняя доверительная граница для параметра а, соответствующая доверительной вероятности г = 0,95, в асимптотике имеет вид

а верхняя доверительная граница для той же доверительной вероятности:

Где а* - оценка метода моментов параметра формы (табл.3).

Метод моментов является универсальным. Однако получаемые с его помощью оценки лишь в редких случаях обладают оптимальными свойствами. Поэтому в прикладной статистике применяют и другие виды оценок.

Оценки максимального правдоподобия

В работах, предназначенных для первоначального знакомства с математической статистикой, обычно рассматривают оценки максимального правдоподобия (сокращенно ОМП):

(7)

Таким образом, сначала строится плотность распределения вероятностей, соответствующая выборке. Поскольку элементы выборки независимы, то эта плотность представляется в виде произведения плотностей для отдельных элементов выборки. Совместная плотность рассматривается в точке, соответствующей наблюденным значениям. Это выражение как функция от параметра (при заданных элементах выборки) называется функцией правдоподобия. Затем тем или иным способом ищется значение параметра, при котором значение совместной плотности максимально. Это и есть оценка максимального правдоподобия.

Хорошо известно, что оценки максимального правдоподобия входят в класс наилучших асимптотически нормальных оценок (определение дано ниже). Однако при конечных объемах выборки в ряде задач ОМП недопустимы, так как они хуже (дисперсия и средний квадрат ошибки больше), чем другие оценки, в частности, несмещенные [13]. Именно поэтому в ГОСТ 11.010-81 для оценивания параметров отрицательного биномиального распределения используются несмещенные оценки, а не ОМП [14]. Из сказанного следует, что априорно предпочитать ОМП другим видам оценок можно - если можно - лишь на этапе изучения асимптотического поведения оценок.

В отдельных случаях ОМП находятся явно, в виде конкретных формул, пригодных для вычисления.

Пример 3. Найдем ОМП для выборки из нормального распределения, каждый элемент которой имеет плотность

Таким образом, надо оценить двумерный параметр (m, у2).

Произведение плотностей вероятностей для элементов выборки, т.е. функция правдоподобия, имеет вид

(8)

Требуется решить задачу оптимизации

Как и во многих иных случаях, задача оптимизации проще решается, если прологарифмировать функцию правдоподобия, т.е. перейти к функции

,

называемой логарифмической функцией правдоподобия. Для выборки из нормального распределения

(9)

Необходимым условием максимума является равенство 0 частных производных от логарифмической функции правдоподобия по параметрам, т.е.

(10)

Система (10) называется системой уравнений максимального правдоподобия. В общем случае число уравнений равно числу неизвестных параметров, а каждое из уравнений выписывается путем приравнивания 0 частной производной логарифмической функции правдоподобия по тому или иному параметру.

При дифференцировании по m первые два слагаемых в правой части формулы (9) обращаются в 0, а последнее слагаемое дает уравнение

Следовательно, оценкой m* максимального правдоподобия параметра m является выборочное среднее арифметическое,

.

Для нахождения оценки дисперсии необходимо решить уравнение

.

Легко видеть, что

Следовательно, оценкой (у2)* максимального правдоподобия для дисперсии у2 с учетом найденной ранее оценки для параметра m является выборочная дисперсия,

Итак, система уравнений максимального правдоподобия решена аналитически, ОМП для математического ожидания и дисперсии нормального распределения - это выборочное среднее арифметическое и выборочная дисперсия. Отметим, что последняя оценка является смещенной.

Отметим, что в условиях примера 3 оценки метода максимального правдоподобия совпадают с оценками метода моментов. Причем вид оценок метода моментов очевиден и не требует проведения каких-либо рассуждений.

В большинстве случаев аналитических решений не существует, следовательно, для нахождения ОМП необходимо применять численные методы. Так обстоит дело, например, с выборками из гамма-распределения. или распределения Вейбулла-Гнеденко. Во многих работах каким-либо итерационным методом решают систему уравнений максимального правдоподобия ([15] и др.) или впрямую максимизируют функцию правдоподобия типа (8) (см. [16] и др.).

Однако применение численных методов порождает многочисленные проблемы. Сходимость итерационных алгоритмов требует обоснования. В ряде примеров анализа конкретных данных функция правдоподобия имеет много локальных максимумов, а потому естественные итерационные процедуры не сходятся [17]. Для данных ВНИИ железнодорожного транспорта по усталостным испытаниям стали уравнение максимального правдоподобия имеет 11 корней [18]. Какой из одиннадцати использовать в качестве оценки параметра?

Как следствие осознания указанных трудностей, стали появляться работы по доказательству сходимости алгоритмов нахождения оценок максимального правдоподобия для конкретных вероятностных моделей и конкретных алгоритмов. Примером является статья [19].

Однако теоретическое доказательство сходимости итерационного алгоритма - это еще не всё. Возникает вопрос об обоснованном выборе момента прекращения вычислений в связи с достижением требуемой точности. В большинстве случаев он не решен.

Но и это не все. Точность вычислений необходимо увязывать с объемом выборки - чем он больше, тем точнее надо находить оценки параметров, в противном случае нельзя говорить о состоятельности метода оценивания. Более того, при увеличении объема выборки необходимо увеличивать и количество используемых в компьютере разрядов, переходить от одинарной точности расчетов к двойной и далее - опять-таки ради достижения состоятельности оценок.

Таким образом, при отсутствии явных формул для оценок максимального правдоподобия нахождение ОМП натыкается на ряд проблем вычислительного характера. Специалисты по математической статистике позволяют себе игнорировать все эти проблемы, рассуждая об ОМП в теоретическом плане. Однако прикладная статистика не может их игнорировать. Отмеченные проблемы ставят под вопрос целесообразность практического использования ОМП.

Нет необходимости абсолютизировать ОМП. Кроме них, существуют другие виды оценок, обладающих хорошими статистическими свойствами. Примером являются одношаговые оценки (ОШ-оценки).

Одношаговые оценки

В прикладной статистике разработано много видов оценок. Упомянем квантильные оценки. Они основаны на идее, аналогичной методу моментов, но только вместо выборочных и теоретических моментов приравниваются выборочные и теоретические квантили. Другая группа оценок базируется на идее минимизации расстояния (показателя различия) между эмпирическими данными и элементом параметрического семейства. В простейшем случае минимизируется евклидово расстояние между эмпирическими и теоретическими гистограммами, а точнее, векторами, составленными из высот столбиков гистограмм.

Одношаговые оценки имеют столь же хорошие асимптотические свойства, что и оценки максимального правдоподобия, при тех же условиях регулярности, что и ОМП. Грубо говоря, они представляют собой результат первой итерации при решении системы уравнений максимального правдоподобия по методу Ньютона - Рафсона. Одношаговые оценки выписываются в виде явных формул, а потому требуют существенно меньше машинного времени, а также могут применяться при ручном счете (на калькуляторах или с использованием электронных таблиц EXCEL). Снимаются вопросы о сходимости алгоритмов, о выборе момента прекращения вычислений, о влиянии округлений при вычислениях на окончательный результат. ОШ-оценки были использованы нами при разработке ГОСТ 11.011-83 [6] вместо ОМП.

Как и раньше, рассмотрим выборку x1, x2,…, xn из распределения с плотностью f(x0), где f(x0) - элемент параметрического семейства плотностей распределения вероятностей {f(x;и), иєИ}. Здесь И - известное статистику k-мерное пространство параметров, являющееся подмножеством евклидова пространства Rk, а конкретное значение параметра и0 неизвестно. Его и будем оценивать.

Обозначим и =(и1, и2,…, иk). Рассмотрим вектор-столбец частных производных логарифма плотности вероятности

и матрицу частных производных второго порядка для той же функции

Положим

Пусть матрица информации Фишера I0) = M[-bn0)] положительно определена.

Определение 1 [17, с.269]. Оценку и(n) параметра и0 называют наилучшей асимптотически нормальной оценкой (сокращенно НАН-оценкой), если распределение случайного вектора сходится при n > ? к нормальному распределению с нулевым математическим ожиданием и ковариационной матрицей, равной I-10).

Определение 1 корректно: I-10) является нижней асимптотической границей для ковариационной матрицы случайного вектора , где и*(n) - произвольная оценка; ОМП - это НАН-оценки (см. [17] и др.). Некоторые другие оценки также являются НАН-оценками, например, байесовские. Сказанное об ОМП и байесовских оценках справедливо при некоторых условиях регулярности (см., например, [20]). В ряде случаев несмещенные оценки являются НАН-оценками, более того, они лучше, чем ОМП (их дисперсия меньше), при конечных объемах выборки [13].

Для анализа реальных данных естественно рекомендовать какую-либо из НАН-оценок. (Это утверждение всегда верно на этапе асимптотики при изучении конкретной задачи прикладной статистики. Теоретически можно предположить, что при тщательном изучении для конкретных конечных объемов выборки наилучшей окажется какая-либо оценка, не являющаяся НАН-оценкой. Однако такие ситуации нам пока не известны.)

Пусть и1(n) и - некоторые оценки и0 и I-10) соответственно.

Определение 2. Одношаговой оценкой (ОШ-оценкой, или ОШО) называется оценка

Теорема 1. Пусть выполнены следующие условия.

(I) Распределение сходится при n > ? к нормальному распределению с математическим ожиданием 0 и ковариационной матрицей I0) и, кроме того, существует

(II) При некотором е > 0 и n > ?

(III) Для любого е > 0

Тогда ОШ-оценка является НАН-оценкой.

Доказательство. Рассмотрим тождество

(11)

Рассмотрим второе слагаемое в правой части формулы (11). В силу условия (II) теоремы

(12)

Из условия (I) теоремы следует, что первое слагаемое в правой части формулы (12) сходится при n > ? по распределению к нормальному закону с математическим ожиданием 0 и ковариационной матрицей I-10). Согласно условию (III)

по вероятности. Кроме того, согласно тому же условию последовательность матриц ограничена по вероятности. Поэтому третье слагаемое в правой части формулы (12) сходится к 0 по вероятности. Для завершения доказательства теоремы осталось показать, что

(13)

по вероятности. Левая часть формулы (13) преобразуется к виду

(14)

где Е - единичная матрица. Поскольку из условия (I) теоремы следует, что для bn0) справедлива (многомерная) центральная предельная теорема, то

С учетом условия (III) теоремы заключаем, что

(15)

Из соотношений (14), (15) и условия (III) теоремы вытекает справедливость формулы (13). Теорема доказана (первоначальный вариант см. в [21]).

Прокомментируем условия теоремы. Условия (I) и (II) обычно предполагаются справедливыми при рассмотрении оценок максимального правдоподобия [17]. Эти условия можно выразить в виде требований, наложенных непосредственно на плотность f(x;и) из параметрического семейства, как это сделано, например, в [20]. Условие (III) теоремы, наложенное на исходные оценки, весьма слабое. Обычно используемые оценки и1(n) и являются не n-1/4-состоятельными, а -состоятельными, т.е. условие (III) заведомо выполняется.

Какие оценки годятся в качестве начальных? В качестве и1(n) можно использовать оценки метода моментов, как это сделано в ГОСТ 11.011-83 [6], или, например, квантильные. В качестве в теоретической работе [17] предлагается использовать простейшую оценку

(16)

Для гамма-распределения с неизвестными параметрами формы, масштаба и сдвига ОШ-оценки применены в [6]. При этом оценка (16) оказалась непрактичной, поскольку с точностью до погрешностей измерений и вычислений det(bn) = 0 для данных о наработке резцов до предельного состояния, приведенных выше в табл. 2. Поскольку det(bn) = 0, то обратная матрица не существует, вычисления по формуле (16) невозможны. Поэтому в [6] в качестве ОШ-оценки была применена непосредственно первая итерация метода Ньютона - Рафсона решения системы уравнений максимального правдоподобия, т.е. была использована оценка

(17)

В формуле (17) непосредственно используется явный вид зависимости матрицы информации Фишера от неизвестных параметров распределения.

В других случаях выбор тех или иных начальных оценок, в частности, выбор между (16) и (17), может определяться, например, простотой вычислений. Можно использовать также устойчивые аналоги [12, 22 - 28] перечисленных выше оценок.

Необходимо отметить, что еще в 1925 г., т.е. непосредственно при разработке метода максимального правдоподобия, его создатель Р.Фишер считал, что первая итерация по методу Ньютона - Рафсона дает хорошую оценку вектору неизвестных параметров [17, с.298]. Он однако рассматривал эту оценку как аппроксимацию ОМП. А.А. Боровков воспринимает ОШ-оценки как способ «приближенного вычисления оценок максимального правдоподобия» [11, с.225] и показывает асимптотическую эквивалентность ОШ-оценок и ОМП (в более сильных предположениях, чем в теореме 1; другими словами, теорема 1 обобщает результаты А.А. Боровкова относительно ОШ-оценок). Мы же полагаем, что ОШ-оценки имеют самостоятельную ценность, причем не меньшую, а в ряде случаев большую, чем ОМП. По нашему мнению, ОМП целесообразно применять (на этапе асимптотики) только тогда, когда они находятся явно. Во всех остальных случаях следует использовать на этом этапе ОШ-оценки (или какие-либо иные, выбранные из дополнительных соображений).

С чем связана популярность оценок максимального правдоподобия? Из всех НАН-оценок они наиболее просто вводятся и ранее других предложены. Поэтому среди математиков сложилась устойчивая традиция рассматривать ОМП в курсах математической статистики. Однако при этом игнорируются вычислительные вопросы, а также отодвигаются в сторону многочисленные иные НАН оценки.

В прикладной статистике - иные приоритеты. На первом месте - ОШ-оценки, все остальные НАН-оценки, в том числе ОМП, рассматриваются в качестве дополнительных возможностей.

Пример 4. Найдем ОШ-оценки для гамма-распределения. Напомним, это распределение имеет плотность

(18)

Плотность вероятности в формуле (18) определяется тремя параметрами a, b, c, где a>0, b>0. При этом a является параметром формы, b - параметром масштаба и с - параметром сдвига. Здесь Г(а) - одна из используемых в математике специальных функций, так называемая «гамма-функция», по которой названо и распределение, задаваемое формулой (18),

Как следует из явного вида плотности (18), логарифмическая функция правдоподобия имеет вид [29, с.98]:

а уравнения правдоподобия таковы:

Где

Ясно, что выписанная система нелинейных уравнений не имеет аналитического решения, в отличие от аналогичной системы для семейства нормальных распределений. Построим ОШ-оценки для задачи оценивания трех неизвестных параметров [30].

В качестве начальных оценок и1(n) будем использовать оценки метода моментов:

где - выборочное среднее арифметическое, s2 - выборочная дисперсия,

m3 - выборочный третий центральный момент.

Матрица информации Фишера согласно [29, с.98] при a > 2 имеет вид

(19)

Вектор-столбец частных производных логарифма плотности вероятности

имеет координаты

Таким образом, для получения sn(a*, b*, c*) необходимо вычислить две суммы

и произвести еще несколько арифметических действий, число которых не зависит от объема выборки.

Одношаговые оценки an, bn, cn для параметров гамма-распределения вычисляют по формуле

где I-1 - обратная матрица к матрице информации Фишера I, заданной формулой (19). Матрицу I-1 нетрудно рассчитать аналитически. Формулы для нахождения одношаговых оценок расписаны в [6]. Расчеты облегчает то обстоятельство, что для гамма-распределения вторая координата вектора sn(a*, b*, c*) тождественно равна 0, т.е. sn(2)(a*, b*, c*) ? 0.

При n > ? распределение вектора оценок (an, bn, cn) приближается трехмерным нормальным распределением с математическим ожиданием, равным вектору истинных значений параметров (a, b, c), и ковариационной матрицей I-1(an, bn, cn). На этом приближении основаны правила расчета доверительных границ для параметров гамма-распределения [6, 31]. Дисперсии оценок неизвестны, но зато имеются известные статистику зависимости этих дисперсий от параметров гамма-распределения. Эти зависимости непрерывные. Они стоят на главной диагонали ковариационной матрицы I-1(an,bn, cn). Поэтому можно вместо неизвестных параметров подставить в них оценки этих параметров и на основе принципа наследования сходимости (см. [5, гл. 4]) получить состоятельные оценки дисперсий. Затем на основе оценок дисперсий обычным образом строятся доверительные интервалы для параметров гамма-распределения.

В табл. 4 приведены результаты реализации описанной выше схемы расчетов - точечные и интервальные (при односторонней доверительной вероятности 0,95) оценки параметров гамма-распределения для данных, содержащихся в табл.2.

Таблица 4

Одношаговые оценки и доверительные границы для параметров гамма-распределения

Параметр

Одношаговая оценка

Верхняя довери-тельная граница

Нижняя довери-тельная граница

Формы

7,32

16,41

-1,77

Масштаба

8,77

15,24

2,30

Сдвига

- 11,46

23,28

- 46,20

Приведенные в табл.4 данные получены на основе асимптотических формул. Из-за конечности объема выборки необходимо внести некоторые коррективы. Поскольку параметр формы всегда положителен, a > 0, то нижняя доверительная граница для этого параметра должна быть неотрицательна, т.е. следует положить aH = 0. Поскольку плотность гамма-распределения положительна только правее параметра с, то, очевидно, c < xmin = 9,00, верхняя доверительная граница для параметра сдвига должна быть заменена на cB = 9,00.

Может ли параметр сдвига быть отрицательным в данной прикладной задаче? Отрицательность параметра сдвига означает, что с положительной вероятностью рассматриваемая случайная величина отрицательна, т.е. наработка резца до предельного состояния отрицательна. Ясно, что такого быть не может, хотя для специалиста по математической статистике отрицательность параметра сдвига вполне приемлема. Однако специалист по прикладной статистике должен признать неотрицательность параметра с при обработке данных, составляющих рассматриваемую выборку. Следовательно, нижнюю доверительную границу для параметра сдвига необходимо заменить на сн = 0.

Как следует из проведенных выше рассуждений и выкладок (см. также [29, с.98 - 100]), отношение дисперсий оценок метода моментов и ОШ-оценок имеет вид

(20)

при больших а. Это отношение, как и должно быть из общих соображений, всегда меньше 1. Отношение дисперсий возрастает при приближении к 0 коэффициента асимметрии распределения. Если a > 39,1 (коэффициент асимметрии меньше 0,102), то эффективность оценки метода моментов превышает 80%. При а = 20 (коэффициент асимметрии 0,20) она равна 65%. Напомним, что при безграничном росте параметра формы а гамма-распределение приближается к нормальному, для которого оценки метода моментов и ОМП совпадают, а потому имеют равные дисперсии. Поэтому вполне естественно, что отношение дисперсий в формуле (20) стремится к 1 при безграничном росте параметра формы а.

Хотя дисперсии оценок метода моментов, как правило, больше, чем дисперсии НАН-оценок, таких, как ОШО и ОМП, метод моментов играет большую роль в прикладной статистике. Во-первых, обычно их расчет проще (в частности, требует меньшего числа компьютерных операций), чем оценок других типов. К тому же оценки находятся с помощью выборочных моментов, которые, как правило, вычисляются на этапе описания статистических данных. Во-вторых, они служат основой для вычисления оценок других типов, например, ОШО. Для запуска итерационных методов нахождения ОМП также нужны начальные значения, и ими обычно являются оценки метода моментов. В-третьих, в статистике интервальных данных установлено, что при учете погрешностей результатов наблюдений оценки метода моментов могут оказаться точнее ОМП и асимптотически эквивалентных им ОШО (см. [5, гл.12], [32 - 35]). Соответствующие рекомендации по выбору метода оценивания включены в [6].

Методы оценивания параметров гамма-распределения и примеры расчетов для всех семи постановок, перечисленных в табл.1, приведены в [6]. Большинство из них основано на асимптотических (при n > ?) теоретических результатах прикладной статистики. Методом статистических испытаний (Монте-Карло) показано, что уже при n > 10 используемые приближения удовлетворительны. Другими словами, асимптотической нормальностью оценок и другими важными для проведенных выше рассуждений предельными результатами можно пользоваться уже при n > 10.

Алгоритмическое и программное обеспечение ОШ-оценок для распределения Вейбулла-Гнеденко и гамма-распределения рассмотрено в монографии [36]. Одношаговые оценки разработаны для оценивания параметров смещения и формы распределения фон Мизеса в статье [37]. История вопроса разобрана в статье [21].

Литература

1. Орлов А.И. Основные черты новой парадигмы математической статистики // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. Краснодар: КубГАУ, 2013. №06(090). С.188-214. IDA [article ID]: 0901306013. Режим доступа: http://ej.kubagro.ru/2013/06/pdf/13.pdf.

2. Орлов А.И. Новая парадигма прикладной статистики // Заводская лаборатория. Диагностика материалов. 2012. Том 78. №1, часть I. С. 87-93.

3. Орлов А.И. Новая парадигма анализа статистических и экспертных данных в задачах экономики и управления / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. Краснодар: КубГАУ, 2014. №04(098). С. 105 - 125. IDA [article ID]: 0981404008. Режим доступа: http://ej.kubagro.ru/2014/04/pdf/08.pdf

4. Орлов А.И. Новая парадигма математических методов экономики // Экономический анализ: теория и практика. 2013. № 36 (339). С. 25-30.

5. Орлов А.И. Прикладная статистика. М.: Экзамен, 2006. 672 с.

6. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. М.: Изд-во стандартов, 1984. 53 с. Переиздание: М.: Изд-во стандартов, 1985. 50 с.

7. Орлов А.И. Метод моментов проверки согласия с параметрическим семейством распределений // Заводская лаборатория. Диагностика материалов. 1989. №10. С. 90-93.

8. Рао С.Р. Линейные статистические методы и их применения. М.: Наука, 1968. 548 с.

9. Вентцель Е.С. Теория вероятностей. М.: Наука, 1964. 576 с.

10. Крамер Г. Математические методы статистики. М.: Мир, 1975. 648 с.

11. Боровков А.А. Математическая статистика. М.: Наука, 1984. 472 с.

12. Орлов А.И. Устойчивость в социально-экономических моделях. М.: Наука, 1979. 296 с.

13. Лумельский Я.П. К вопросу сравнения несмещенных и других оценок // Прикладная статистика: Сб. тр. М.: Наука, 1983. С. 316-319.

14. ГОСТ 11.010-81. Прикладная статистика. Правила определения оценок параметров и доверительных границ для биномиального и отрицательного биномиального распределений. М.: Изд-во стандартов, 1982. 32 с.

15. Сатаров Г.А., Шмерлинг Д.С. Новая статистическая модель парных сравнений // Экспертные оценки в задачах управления: Сборник трудов. М.: Изд-во Института проблем управления АН СССР, 1982. С. 67-79.

16. Лапига А.Г. Многокритериальные задачи управления качеством: построение прогноза качества в балльной шкале // Заводская лаборатория. Диагностика материалов. 1983. Т.49. № 7. С. 55-59.

17. Закс Ш. Теория статистических выводов. М.: Мир, 1975. 776 с.

18. Бахмутов В.О., Косарев Л.Н. Использование метода максимального правдоподобия для оценки однородности результатов усталостных испытаний // Заводская лаборатория. Диагностика материалов. 1986. Т.52. № 5. С. 52-57.

19. Резникова А.Я., Шмерлинг Д.С. Оценивание параметров вероятностных моделей парных и множественных сравнений // Статистические методы оценивания и проверки гипотез: Межвузовский сб. науч. тр. Пермь: Изд-во Пермского госуниверситета, 1984. С. 110-120.

20. Ибрагимов И.А., Хасьминский Р.З. Асимптотическая теория оценивания. М.: Наука, 1979. 528 с.

21. Орлов А.И. О нецелесообразности использования итеративных процедур нахождения оценок максимального правдоподобия // Заводская лаборатория. Диагностика материалов. 1986. Т.52. № 5. С. 67-69.

22. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания: Статистическая обработка неоднородных совокупностей. М.: Статистика, 1980. 208 с.

23. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. М.: Мир, 1989. 512 с.

24. Хьюбер П. Робастность в статистике. М.: Мир, 1984. 304 с.

25. Эльясберг П.Е. Измерительная информация. Сколько ее нужно, как ее обрабатывать? М.: Наука, 1983. 208 с.

26. Орлов А.И. Устойчивые математические методы и модели // Заводская лаборатория. Диагностика материалов. 2010. Т.76. № 3. С.59-67.

27. Орлов А.И. Устойчивые экономико-математические методы и модели. Разработка и развитие устойчивых экономико-математических методов и моделей для модернизации управления предприятиями. Saarbrucken: Lambert Academic Publishing, 2011. 436 с.

28. Орлов А.И. Новый подход к изучению устойчивости выводов в математических моделях / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. Краснодар: КубГАУ, 2014. №06(100). С. 1 - 30. IDA [article ID]: 1001406001. Режим доступа: http://ej.kubagro.ru/2014/06/pdf/01.pdf.

29. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи. М.: Наука, 1973. 900 с.

30. Орлов А.И., Миронова Н.Г. Одношаговые оценки для параметров гамма-распределения // Надежность и контроль качества. 1988. № 9. С. 18-22.

31. Орлов А.И. Об оценивании параметров гамма-распределения // Обозрение прикладной и промышленной математики. 1997. Т.4. Вып.3. С. 471-482.

32. Орлов А.И. Теория принятия решений. М.: Экзамен, 2006. 574 с.

33. Орлов А.И. Организационно-экономическое моделирование: учебник: в 3 ч. Часть 1: Нечисловая статистика. М.: Изд-во МГТУ им. Н.Э. Баумана. 2009. 541 с.

34. Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). Краснодар, КубГАУ. 2014. 600 с.

35. Орлов А.И., Луценко Е.В., Лойко В.И. Перспективные математические и инструментальные методы контроллинга. Под научной ред. проф. С.Г. Фалько. Монография (научное издание). Краснодар, КубГАУ. 2015. 600 с.

36. Петрович М.Л., Давидович М.И. Статистическое оценивание и проверка гипотез на ЭВМ. М.: Финансы и статистика, 1989. 191 с.

37. Струков Т.С. Оценивание параметров смещения и формы распределения фон Мизеса // Заводская лаборатория. Диагностика материалов. 2004. Том 70. №5. С. 60 - 64.

Размещено на Allbest.ru

...

Подобные документы

  • Цель и задачи статистического анализа. Методы получения оценок: максимального правдоподобия, моментов. Доверительный интервал. Точечная оценка параметров распределения. Генеральная и выборочная дисперсии. Интервальное оценивание математического ожидания.

    презентация [395,9 K], добавлен 19.07.2015

  • Основные понятия математической статистики, интервальные оценки. Метод моментов и метод максимального правдоподобия. Проверка статистических гипотез о виде закона распределения при помощи критерия Пирсона. Свойства оценок, непрерывные распределения.

    курсовая работа [549,1 K], добавлен 07.08.2013

  • Оценки неизвестных параметров закона распределения случайной величины Х по данным выборки. Интервальное оценивание. Случайный интервал. Граничные точки доверительного интервала. Нижний и верхний доверительные пределы.

    реферат [30,0 K], добавлен 31.03.2003

  • Числовые характеристики выборки. Статистический ряд и функция распределения. Понятие и графическое представление статистической совокупности. Метод наибольшего правдоподобия для нахождения плотности распределения. Применение метода наименьших квадратов.

    контрольная работа [62,6 K], добавлен 20.02.2011

  • Методы регистрации, описания и анализа статистических экспериментальных данных, получаемых в результате наблюдения массовых случайных явлений. Обзор задач математической статистики. Закон распределения случайной величины. Проверка правдоподобия гипотез.

    презентация [113,3 K], добавлен 01.11.2013

  • Оценки параметров распределения, наиболее важные распределения, применяемые в математической статистике: нормальное распределение, распределения Пирсона, Стьюдента, Фишера. Факторное пространство, формулирование цели эксперимента и выбор откликов.

    реферат [105,5 K], добавлен 01.01.2011

  • Теория вероятности – математическая наука, изучающая закономерности в случайных явлениях. Метод наибольшего правдоподобия. Доверительные оценки. Точечные оценки и критерий согласия. Теорема Чебышева. Распределение Пуассона. Доверительный интервал.

    курсовая работа [349,0 K], добавлен 16.01.2009

  • Графическое решение задачи по определению оптимальных суточных объемов производства радиоприемников разной конструкции. Исследование данных моделей на чувствительность с целью оценки предельного возрастания дефицитного ресурса, ведущего к росту прибыли.

    задача [195,9 K], добавлен 21.08.2010

  • Распределение случайной величины c помощью закона Пуассона. Вычисления математического ожидания и дисперсии. Метод наибольшего правдоподобия. Асимметрия распределения Пуассона, его дополнительные характеристики, точечная и интервальная оценка параметра.

    презентация [710,3 K], добавлен 01.11.2013

  • Оценивание параметров закона распределения случайной величины. Точечная и интервальная оценки параметров распределения. Проверка статистической гипотезы о виде закона распределения, нахождение параметров системы. График оценки плотности вероятности.

    курсовая работа [570,4 K], добавлен 28.09.2014

  • Составление математической модели для предприятия, характеризующей выручку предприятия "АВС" в зависимости от капиталовложений (млн. руб.) за последние 10 лет. Расчет поля корреляции, параметров линейной регрессии. Сводная таблица расчетов и вычислений.

    курсовая работа [862,4 K], добавлен 06.05.2009

  • Преимущества и недостатки параметрических методов оценки. Процедура Роббинса-Монро, алгоритмы Литвакова и Кестена. Исследование стохастических аппроксимаций непараметрического типа. Непараметрическая оценка плотности вероятности и кривой регрессии.

    реферат [470,6 K], добавлен 22.04.2014

  • Обоснование оценок прямых и косвенных измерений и их погрешностей. Введение доверительного интервала в асимптотическом приближении бесконечно большого числа экспериментов. Вычисление коэффициента корреляции для оценки зависимости случайных величин.

    реферат [151,5 K], добавлен 19.08.2015

  • Понятие математической статистики как науки о математических методах систематизации и использования статистических данных для научных и практических выводов. Точечные оценки параметров статистических распределений. Анализ вычисления средних величин.

    курсовая работа [215,1 K], добавлен 13.12.2014

  • Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа [132,1 K], добавлен 24.05.2013

  • Определение закона распределения вероятностей результатов измерения в математической статистике. Проверка соответствия эмпирического распределения теоретическому. Определение доверительного интервала, в котором лежит значение измеряемой величины.

    курсовая работа [2,0 M], добавлен 11.02.2012

  • Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.

    презентация [100,3 K], добавлен 16.12.2014

  • Математическая статистика как наука о математических методах систематизации статистических данных, ее показатели. Составление интегральных статистических распределений выборочной совокупности, построение гистограмм. Вычисление точечных оценок параметров.

    курсовая работа [241,3 K], добавлен 10.04.2011

  • Классификация взаимосвязи явлений, различаемых в статистике, их разновидности и характеристика, отличительные признаки. Сущность коэффициента парной корреляции, его особенности и методика оценки достоверности, применение доверительных интервалов.

    реферат [1,3 M], добавлен 30.04.2009

  • Что такое абсолютные и относительные величины. Применение абсолютной и относительной величины в статистике. Прикладные варианты использования методов математической статистики в различных случаях решения задач. Опыт построения статистических таблиц.

    контрольная работа [39,6 K], добавлен 12.12.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.