Использование аппроксимации Розенблатта-Парзена для восстановления функции распределения непрерывной случайной величины с ограниченным одномодальным законом распределения
Результаты сравнительного анализа погрешностей аппроксимации функции распределения непрерывной случайной величины с ограниченной областью, вычисляемого методом Розенблатта-Парзена. Целесообразность использования в данной задаче метода мнимых источников.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 12.05.2017 |
Размер файла | 214,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
1
Научный журнал КубГАУ, №92(08), 2013 года
http://ej.kubagro.ru/2013/08/pdf/76.pdf
ИСПОЛЬЗОВАНИЕ АППРОКСИМАЦИИ РОЗЕНБЛАТТА-ПАРЗЕНА ДЛЯ ВОССТАНОВЛЕНИЯ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ НЕПРЕРЫВНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ С ОГРАНИЧЕННЫМ ОДНОМОДАЛЬНЫМ ЗАКОНОМ РАСПРЕДЕЛЕНИЯ
Поршнев Сергей Владимирович, д.т.н., профессор
Копосов Александр Сергеевич, аспирант
Уральский федеральный университет имени первого Президента России Б.Н. Ельцина, Екатеринбург
В статье изложены результаты сравнительного анализа погрешностей аппроксимации функции распределения непрерывной случайной величины с ограниченной областью, вычисляемого методом Парзена-Розенблата и методом мнимых источников, полученные при их сравнении теоретическим законом распределения, и обоснована целесообразность использования в рассматриваемой задаче метода мнимых источников
Ключевые слова: НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА, ВОССТАНОВЛЕНИЕ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ, АППРОКСИМАЦИЯ РОЗЕНБЛАТТА-ПАРЗЕНА, ПАРАМЕТР РАЗМЫТОСТИ, МЕТОД МНИМЫХ ИСТОЧНИКОВ
Восстановление функции распределения по выборке случайных данных, полученных в результате проведения тех или иных экспериментов, является основной задачей математической статистики [1]. Данная задача имеет важное практическое значение, например, при решении задач прочностной надежности элементов и объектов нефтегазового оборудования [2]. Данная задача имеет следующую постановку: по экспериментальной выборке, полученной из генеральной совокупности значений случайной величины найти функцию распределения , связанную с плотностью распределения интегральным соотношением
(1)
Известны два основных подхода к решению этой задачи: параметрический и непараметрический. Параметрический подход предусматривает выбор на основе имеющейся априорной информации вида функции распределения случайной величины , зависящей в общем случае от некоторого набора параметров, и получении оценок значений этих параметров по имеющейся выборке данных. При этом искомые оценки значений параметров должны обеспечивать максимальную близость теоретической функции распределения и эмпирической функций распределения
(2)
где функция Хэвисайда
в соответствие с выбранной мерой близости, зависящей, вообще говоря, от вида распределения [3].
Существование решения обсуждаемой задачи обеспечивает центральная теорема математической статистики, согласно которой с ростом объема выборки N функция с вероятностью, равной единице, равномерно приближается к :
В основе непараметрической статистики лежит подход, позволяющий получать адаптивные оценки эмпирических распределений в виде некоторых функционалов, независящих от вида неизвестного априорного распределения [6]. Для восстановления неизвестной функции распределения в непараметрической статистике известен ряд методов и алгоритмов [6]: метод гистограмм, «гребенка», метод ближайших соседей, метод разложения по базисным функциям, аппроксимация Розенблатта-Парзена и ряд других.
Работоспособность методов непараметрической статистики и целесообразность их применения при анализе экспериментальных данных подтверждается результатами, полученными различными исследователями (см., например, список литературы к разделу «Введение» в [6]). Отметим, что аппроксимация Розенблатта-Парзена, как показано в [2], что оказывается эффективной в задаче оценки долговечности нефте- и газопроводов на основе анализа накопленной статистической информации. При этом оказывается, что распределение экспериментальных данных, представляющих собой выборку из генеральной совокупности случайной величины, закон распределения которой не может быть описан ни одним из известных теоретических законов.
Напомним, следуя [6], что обсуждаемый метод восстановления плотности распределения экспериментальной выборки основан на предположении о том, что функция плотности распределения оценивается локально в каждой точке с помощью элементов обучающей выборки из некоторой окрестности . При этом общая функция вероятности есть сумма локальных функций
(3)
где - ядерная функция, удовлетворяющая следующим условиям:
а) монотонно неубывающая функция, область значений которой принадлежит интервалу
б) функция, симметричная относительно 0;
в) при
- параметр «размытости», определяющий гладкость получаемой оценки.
Соответственно, плотности вероятности вычисляется по формуле
(4)
Оценки плотности вероятности (4) предложены Розенблаттом [7] и исследованы Парзеном [8]. На практике наиболее часто в качестве ядерных функций используются функции, представленные в таблице 1 [2].
Таблица 1. Ядерные функции, наиболее часто используемые на практике
№ |
Ядро |
Формула |
|
1 |
Нормальное |
||
2 |
Лапласа |
||
3 |
Фишера |
||
4 |
Коши |
||
5 |
Логистическое |
||
6 |
Епанечникова |
||
7 |
Равномерное |
||
8 |
Треугольное |
||
9 |
Квадратичное |
аппроксимация розенблатт парзен распределение
Оптимальные значения ядерной функции и параметра h находятся из условия достижения функционалом
(5)
максимального значения, которое, как очевидно, выполняется при .
При анализе экспериментальных данных, представляющих собой некоторую дискретную случайную последовательность в [2] рекомендовано находить оптимальное значения параметра «размытости» в два этапа. На первом этапе для каждой из ядерных функций, представленных в табл. 1, находить значения из условия
(6)
и далее выбирать ту ядерную функцию , для которой значение функции
(7)
в точке будет наибольшим.
При этом качество аппроксимации функции распределения в рассматриваемом методе оказывается зависящим от вида ядерной функции и значения параметра размытости [6], что иллюстрирует рис. 1.
Рисунок 1 Плотность распределения случайной последовательности , сгенерированной в соответствие с нормальным законом распределения :1 гистограмма случайной последовательности; 2 нормальное ядро, , где пока не определено; 3 нормальное ядро, , где пока не определено; 4 нормальное ядро, , где пока не определено.
Отметим, что формально метод Розенблатта-Парзена позволяет, построить аппроксимацию функции распределения любой конечной случайной последовательности, которая при условии правильного выбора параметра h, оказывается достаточно гладкой (см. [6]). При оценка (3) является непараметрической и асимптотически оптимальной оценкой функции распределения в классе непрерывных функций [6]. Однако на практике случайные последовательности для которых ищется функция распределения, имеют конечную длину. В этой ситуации метод Розенблатта-Парзена, вообще говоря, не гарантирует близости аппроксимирующей функции, найденной с его помощью, и истинной функции распределения. В этой связи представляет практический интерес провести анализ точности восстановления методом Розенблатта-Парзена функции распределения случайных последовательностей конечной длины, теоретический закон распределения которых известен.
В статье изложены результаты анализа точности восстановления функции распределения случайной величины с ограниченной областью рассеяния, основные свойства которой описаны в [3], методом Розенблатта-Парзена [7,8] и методом мнимых источников, в котором параметры аппроксимирующей функции находятся с помощью генетических алгоритмов [9].
Методика исследования. Для анализа точности восстановления функции распределения случайной величины с ограниченной областью выбранными методами мы использовали методику, реализующуюся следующей последовательностью действий.
В соответствие с заданным законом распределения случайной величины с ограниченной областью рассеяния
х0 - положение центра рассеяния в системе координат с началом в центре отрезка ,
? СКО случайного процесса при отсутствии ограничения,
- размаха области рассеяния,
А - нормировочный коэффициент, определяемый из условия:
здесь вычисляются в по формулам:
генерировались методом обратного преобразования (см., например, [2]) случайные последовательности .
2. Далее для каждой последовательности находились эмпирические оценки функций распределения и плотностей распределения методом Розенблатта-Парзена ( и , соответственно) и методом мнимых источников ( и , соответственно), которые сравнивались далее с известными теоретическими функциями распределения и плотностью распределения .
Для реализации описанной выше методики в пакете MATLAB было создано соответствующее программное обеспечение.
Анализ качества аппроксимации функции распределения случайной последовательности методом Парзена-Розенблатта. Рассмотрим типичные результаты, полученные для следующих параметров блуждания:
количество элементов в случайной последовательности
размер области рассеяния
координаты центра распределения
СКО случайной величины
представленные на рис. 2, 3
Рис. 2. Результаты аппроксимации плотности функции распределения случайной последовательности : а) ; б) ;в) ; 1 - 2 - ядерная функция № 5, №2, №1 (см. табл. 1), соответственно; 3 -
a)
б)
в)
Рис. 3. Результаты аппроксимации плотности распределения случайной последовательности : а) ; б) ; в) ;1 - 2 - ядерная функция №3, №1, №3 (см. табл. 1), соответственно; 3 -
В качестве количественной меры отличия эмпирических функций распределения , от теоретической функции распределения было использовано среднеквадратическое отклонение остатков моделей от теоретической плотности распределения:
представленные в табл. 2, табл. 3.
Таблица 2. Погрешность оценки функции распределения методом Розенблатта-Парзена
Метод Парзена-Розенблатта |
Центр распределения, |
||||||
-5 |
-2,5 |
0 |
2,5 |
5 |
|||
СКО, |
1 |
1,432·10-3 |
3,531·10-5 |
1,389·10-4 |
7,225·10-5 |
1,428·10-3 |
|
3 |
2,274·10-4 |
2,608·10-4 |
8,821·10-5 |
1,752·10-4 |
5,532·10-4 |
||
5 |
2,792·10-4 |
1,855·10-4 |
1,638·10-4 |
1,616·10-4 |
2,011·10-4 |
||
7 |
2,004·10-4 |
1,440·10-4 |
1,298·10-4 |
1,093·10-4 |
1,518·10-4 |
||
10 |
1,431·10-4 |
1,316·10-4 |
1,379·10-4 |
1,727·10-4 |
1,470·10-4 |
Таблица 3. Погрешность оценки функции распределения методом мнимых источников
Метод мнимых источников |
Центр распределения, |
||||||
-5 |
-2,5 |
0 |
2,5 |
5 |
|||
СКО, |
1 |
6,412·10-4 |
3,423·10-5 |
1,498·10-5 |
7,267·10-5 |
1,125·10-4 |
|
3 |
7,934·10-5 |
2,924·10-5 |
2,274·10-5 |
2,917·10-5 |
9,254·10-5 |
||
5 |
2,315·10-5 |
3,184·10-5 |
4,368·10-5 |
6,254·10-5 |
4,132·10-5 |
||
7 |
3,157·10-5 |
8,193·10-5 |
2,141·10-5 |
5,432·10-5 |
6,778·10-5 |
||
10 |
5,682·10-5 |
6,647·10-5 |
2,798·10-5 |
1,782·10-5 |
1,167·10-5 |
Из таблиц 2 и 3 видно, что аппроксимация функции распределения непрерывной случайной величины в ограниченной области рассеяния методом мнимых источников для большинства рассмотренных значений параметров оказывается более точной, чем аппроксимация Розенблатта-Парзена. Данный результат, с нашей точки зрения, объясняется следующим: аппроксимация Розенблатта-Парзена при правильном выборе значения параметра размытости h гарантирует получение гладких оценок функции распределения. Однако данный метод является, в известной мере, формальным, поскольку выбор ядерной функции оказывается независящим от математической модели изучаемого процесса. В то время как в методе мнимых источников математическая модель распределения является решением уравнения случайных блужданий броуновской частицы в ограниченной области рассеяния, а потому более адаптированным к особенностям распределения изучаемых случайных последовательностей.
Также было проведено сравнение времен, затрачиваемых для вычисления аппроксимаций функций распределения случайных последовательностей каждым из методов. Оказалось, что в методе мнимых источников программной реализации генетического алгоритма, использующегося для поиска параметров распределения (1), одна итерация выполняется 5 с. При этом параметры распределения, обеспечивающие минимальное значение целевой функции генетического алгоритма, находится за 4 итерации. Таким образом, общее время нахождения решения методом мнимых источников составляет 20 с. В методе Розенблатта-Парзена наиболее затратной по времени оказывается операция нахождения максимума информационного функционала (6) для ядер с неограниченной областью определения № 1, 2, 4, 5. Здесь для нахождения значения в соответствие с (6) приходится вычислять значения функции в соответствие с (7) для нескольких значений т.е. для каждого значения приходится вычислять в (7) двойную сумму по индексам i и j, поэтому в зависимости от типа ядра затрачивается от 140 до 200 с (при условии удачного выбора интервала поиска (см. подробнее [10]). Для ограниченных ядер в [10] получены простые с вычислительной точки зрения аналитические выражения для вычисления оптимального значения параметра размытости искомого значения параметра размытости, поэтому время вычисления является незначительным. Таким образом, общее время нахождения аппроксимации функции распределения случайной последовательностиметодом Розенблатта-Парзена составляет 640800 секунд. Таким образом, в рассматриваемой задаче временные затраты при использовании метода мнимых источников оказывают в 3240 раз меньше, чем у метода Парзена-Розенблата.
Выводы. Проведено сравнение точности аппроксимации функции распределения непрерывной случайной величины с ограниченной областью, вычисляемого методом Парзена-Розенблата и методом мнимых источников, с теоретическим законом распределения. Результаты сравнения показывают, что в рассматриваемой задаче метод мнимых источников, основанный на физической модели изучаемого процесса, оказывается предпочтительнее как с точностной, так и вычислительной точек зрения.
Список использованной литературы
Крамер Г. Математические методы статистики. -М.: Мир, 1975. -648 с.
Сызранцев В.Н. Расчет прочностной надежности изделий на основе методов непараметрической статистики / В.Н. Сызранцев, Я.П. Невелев, С.Л. Голофаст //- Новосибирск: Наука, 2008. - 218 с.
Поршнев С.В. Теория и алгоритмы аппроксимации эмпирических зависимостей и распределений / Е. В. Овечкина, В.Е. Каплан // -Екатеринбург: УрО РАН, 2006. -166 с.
Поршнев С.В. О выборе математических моделей распределений ограниченных случайных последовательностей / С.В. Поршнев, А.С. Копосов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2012. - №10(84). - Режим доступа: http://ej.kubagro.ru/2012/10/pdf/53.pdf, 1,000 у.п.л.
Поршнев С.В., Копосов А.С. Аналитическое исследование особенностей случайных блужданий броуновской частицы в ограниченной области рассеяния // Фундаментальные исследования. - 2013. - № 4 (часть 1). - стр. 57-64;
Симахин В.А. Робастные непараметрические оценки: адаптивные оценки взвешенного максимального правдоподобия в условиях статистической априорной неопределенности/ В.А. Симахин// -Saarbrucken, Germany: LAPLAMBERTAcademicPublishingGmbH&Co. KG, 2011. -292 с.
Rozenblatt M. Remarks on some nonparametric estimates of density function// Ann. Math. Statist., 1956, 27, 832-835 p.
Parzen E. On estimation of probability density function and mode // Ann. Math. Statist., 33, 3, 162, 1065-1076 p.
Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы / Под ред. В.М. Курейчика. - 2-е изд., исправл. и доп. - М.: ФИЗМАТЛИТ, 2010. - 368 с.
Поршнев С.В., Копосов А.С. Об особенностях численных оценок параметра размытости плотностей распределений случайных последовательностей в аппроксимации Розенблатта-Парзена // В мире научных открытий. - 2013. -
Размещено на Allbest.ru
...Подобные документы
Непрерывная случайная величина и функция распределения. Математическое ожидание непрерывной случайной величины. Среднее квадратичное отклонение. Кривая распределения для непрерывной случайной величины. Понятие однофакторного дисперсионного анализа.
контрольная работа [165,5 K], добавлен 03.01.2012Функция распределения непрерывной случайной величины. Математическое ожидание непрерывной случайной величины, плотность распределения вероятностей системы. Ковариация. Коэффициент корреляции.
лабораторная работа [52,3 K], добавлен 19.08.2002Плотность распределения непрерывной случайной величины. Характеристика особенностей равномерного и нормального распределения. Вероятность попадания случайной величины в интервал. Свойства функции распределения. Общее понятие о регрессионном анализе.
контрольная работа [318,9 K], добавлен 26.04.2013Использование формулы Бернулли для нахождения вероятности происхождения события. Построение графика дискретной случайной величины. Математическое ожидание и свойства интегральной функции распределения. Функция распределения непрерывной случайной величины.
контрольная работа [87,2 K], добавлен 29.01.2014Понятия теории вероятностей и математической статистики, применение их на практике. Определение случайной величины. Виды и примеры случайных величин. Закон распределения дискретной случайной величины. Законы распределения непрерывной случайной величины.
реферат [174,7 K], добавлен 25.10.2015Решение задач по определению вероятности событий, ряда и функции распределения с помощью формулы умножения вероятностей. Нахождение константы, математического описания и дисперсии непрерывной случайной величины из функции распределения случайной величины.
контрольная работа [57,3 K], добавлен 07.09.2010Определение, доказательство свойств и построение графика функции распределения. Вероятность попадания непрерывной случайной величины в заданный интервал. Понятие о теореме Ляпунова. Плотность распределения "хи квадрат", Стьюдента, F Фишера—Снедекора.
курсовая работа [994,4 K], добавлен 02.10.2011Вероятность попадания случайной величины Х в заданный интервал. Построение графика функции распределения случайной величины. Определение вероятности того, что наудачу взятое изделие отвечает стандарту. Закон распределения дискретной случайной величины.
контрольная работа [104,7 K], добавлен 24.01.2013Особенности функции распределения как самой универсальной характеристики случайной величины. Описание ее свойств, их представление с помощью геометрической интерпретации. Закономерности вычисления вероятности распределения дискретной случайной величины.
презентация [69,1 K], добавлен 01.11.2013Вычисление математического ожидания, дисперсии, функции распределения и среднеквадратического отклонения случайной величины. Закон распределения случайной величины. Классическое определение вероятности события. Нахождение плотности распределения.
контрольная работа [38,5 K], добавлен 25.03.2015Определение вероятности для двух несовместных и достоверного событий. Закон распределения случайной величины; построение графика функции распределения. Нахождение математического ожидания, дисперсии, среднего квадратичного отклонения случайной величины.
контрольная работа [97,1 K], добавлен 26.02.2012Понятие непрерывной случайной величины, её значения на числовых промежутках. Определение закона распределения, его функции. Плотность распределения числовых характеристик вероятности. Математическое ожидание, дисперсия и среднеквадратичное отклонение.
лекция [575,9 K], добавлен 17.08.2015Генеральная совокупность подлежащих изучению объектов или возможных результатов наблюдений, производимых в одинаковых условиях над одним объектом. Описание наблюдаемых значений случайной величины Х. Характеристика статистической функции распределения.
курсовая работа [216,5 K], добавлен 03.05.2011Задачи математической статистики. Распределение случайной величины на основе опытных данных. Эмпирическая функция распределения. Статистические оценки параметров распределения. Нормальный закон распределения случайной величины, проверка гипотезы.
курсовая работа [57,0 K], добавлен 13.10.2009Определение вероятности попадания в мишень по формуле Бернулли. Закон и многоугольник распределения случайной величины. Построение функции распределения, графика. Математическое ожидание, дисперсия, среднее квадратическое отклонение случайной величины.
контрольная работа [86,4 K], добавлен 26.02.2012Дискретные случайные величины и их распределения. Формула полной вероятности и формула Байеса. Общие свойства математического ожидания. Дисперсия случайной величины. Функция распределения случайной величины. Классическое определение вероятностей.
контрольная работа [33,8 K], добавлен 13.12.2010Определение математического ожидания и дисперсии параметров распределения Гаусса. Расчет функции распределения случайной величины Х, замена переменной. Значения функций Лапласа и Пуассона, их графики. Правило трех сигм, пример решения данной задачи.
презентация [131,8 K], добавлен 01.11.2013Теория вероятностей и закономерности массовых случайных явлений. Неравенство и теорема Чебышева. Числовые характеристики случайной величины. Плотность распределения и преобразование Фурье. Характеристическая функция гауссовской случайной величины.
реферат [56,1 K], добавлен 24.01.2011Критерий Пирсона, формулировка альтернативной гипотезы о распределении случайной величины. Нахождение теоретических частот и критического значения. Отбрасывание аномальных результатов измерений при помощи распределения. Односторонний критерий Фишера.
лекция [290,6 K], добавлен 30.07.2013Случайные величины. Функция и плотность распределения вероятностей дискретной случайной величины. Сингулярные случайные величины. Математическое ожидание случайной величины. Неравенство Чебышева. Моменты, кумулянты и характеристическая функция.
реферат [244,6 K], добавлен 03.12.2007