Неклассическая теория анализа статистических данных и ее приложения
Исследование причин возникновения "Неклассической теории погрешностей измерений". Обоснование адекватности принципов этой теории практике современных многократных наблюдений, что позволяет осуществлять анализ данных на более высоком математическом уровне.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 05.03.2018 |
Размер файла | 271,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
НЕКЛАССИЧЕСКАЯ ТЕОРИЯ АНАЛИЗА СТАТИСТИЧЕСКИХ ДАННЫХ И ЕЕ ПРИЛОЖЕНИЯ
Джунь Й.В.
В течение последних двухсот лет и до настоящего времени успешно применяются в математическом моделировании методы классической теории ошибок (КТО) и основанного на ней метода наименьших квадратов (МНК), созданного трудами великих математиков: А. М. Лежандра (1806 г.), К. Ф. Гаусса (1809 г.) и П. С. Лапласа (1812 г.). КТО опирается на следующие фундаментальные принципы, которые впервые сформулировал К. Ф. Гаусс в своей знаменитой работе [1]: 1) случайные погрешности наблюдений подчиняются нормальному закону распределения; 2) в результатах наблюдений полностью отсутствуют систематические ошибки.
Однако, анализ литературных источников показал, что уже в конце ХІХ века известный американский математик С. Ньюком впервые заявил о несоответствии распределения ошибок астрономических наблюдений закону Гаусса. Этот вывод, казалось бы, противоречил опыту почти векового успешного применения КТО и МНК, с помощью которых получено много блестящих результатов во многих отраслях науки. Это противоречие разрешил знаменитый кембриджский профессор сэр Г. Джеффрис, который утверждал, что нормальный закон обнаруживает свою полную теоретическую и практическую несостоятельность при условии, если число наблюдений n > 500. Ранее считали, что к закону Гаусса стремятся все распределения ошибок как к своей идеально предельной форме, если наблюдений много.
Упомянутое противоречие сэр Г. Джеффрис объясняет следующим образом: «при n < 500 трудно доказать отличие эмпирического распределение от закона Гаусса» [2], т. е. при таком числе наблюдений этот закон вполне адекватен, чем и объясняется победное шествие как КТО так и МНК на протяжении целых двухсот лет. Случаи успешного применения классических методов как раз и охватывают выборки объема n < 500, что и показал В. Ф. Бессель в работе [3]. Но в ХХ веке экспериментальная практика все чаще и чаще стала не подтверждать закон нормального распределения Гаусса. Исследователи столкнулись с не укладывающемся в голову результатом: с увеличением числа наблюдений, даже при неизменной метрологической ситуации, ошибки измерений вовсе не стремились к закону Гаусса как к своей идеальной предельной форме, как ожидали математики, убежденные в значении центральной предельной теоремы, а подчинялись симметричным, негауссовым распределениям с существенно различными положительными эксцессами. Возник так называемый парадокс Эльясберга-Хампеля как констатация этого явления: любая непрерывная гипотеза о типе закона распределения будет неизбежно отвергнута с ростом числа наблюдений.
Ситуация особенно обострилась во второй половине ХХ века, когда вследствие автоматизации экспериментов, и, прежде всего, в астрометрии и в космических исследованиях, резко возросло количество измерительной информации. Например, число локаций искусственного спутника Земли лазером, за время его движения от горизонта до горизонта составляет до 10і. Современные абсолютные измерения галилеевого ускорения составляют 104 и больше измерений в сутки, астрономические каталоги получают на основании измерения координат 106-107 звезд. В ядерной физике регистрируется 106-108 событий в одном эксперименте. При таком количестве наблюдений стают неадекватными действительной практике наблюдений не то что основополагающие принципы КТО, но и такие известные классические законы, как закон больших чисел, постулаты теории Гаусса-Маркова и др. Возникла так называемая проблема больших выборок, решение которой выходило далеко за рамки возможностей КТО да и вообще классической математической статистики. Появилась острая необходимость в создании новой теории математической обработки данных, которая была бы адекватной реалиям новой, космической эры, эры неклассических методов. Эти методы появились не сразу - они формировались, подвергались тщательному анализу и проверке на протяжении последних 33 лет. Как их симбиоз возникла неклассическая теория ошибок (НТО), основанная на новой теории хаоса и на положениях, которые адекватные реалиям, возникающим при математической обработке больших объемов информации.
Цель настоящей статьи - изложить основополагающие принципы НТО, которая, как и всякая другая математическая теория, основана на определенных постулатах.
Например, фундаментом геометрии Евклида являются четыре постулата, геометрии Лобачевского - пять. Но главным условием практического применения любой математической теории является адекватность ее основополагающих принципов действительной практике наблюдений. Ни в коем случае нельзя экстраполировать неизменность этих принципов на сотни, тысячи, миллионы, а то и миллиарды лет вперёд или на условии бесконечного космоса, как это сейчас повсеместно делается, или на случай, когда количество измерительной информации становится огромным.
Великие математики, в отличие от современных профанаторов от физики, астрономии, экономики и других наук, не решались даже публиковать свои теории, пока не получали подтверждения ее постулатов практике наблюдений. Например, К. Ф. Гаусс, который открыл неевклидову геометрию задолго до Лобачевского, так и не решился ее опубликовать, так как, несмотря на проведение своих сверхточных измерений углов в ганноверской триангуляции, он не получил доказательств ее правильности. Он не хотел, да и моральные принципы ему не позволяли вооружить человечество неправильной теорией и пустить ученное человечество по неправильному пути. Так какие же фундаментальные принципы легли в основу НТО?
В качестве первого фундаментального положения НТО взято следующее достижение выдающегося кембриджского профессора сэра Г. Джеффриса: случайные, независимые погрешности наблюдений при их числе n > 500 подчиняются следующему распределению [2]:
, (1)
где , ? - являются соответственно параметрами положения и рассеяния, а m - характеризует степень уклонения распределения (1) от нормального закона; при распределение (1) идентично закону Гаусса.
Распределение (1) сэр Гарольд Джеффрис, получил используя классическую кривую Пирсона VII, которая имеет недиагональную информационную матрицу. Эту кривую сэр Гарольд преобразовал к виду (1), который имеет, как и закон Гаусса независимые параметры, т. е., (1) - единственное негауссово регулярное распределение которое имеет недиагональную информационную матрицу Фишера. Это уникальное свойство распределения (1) обеспечивает методам НТО наибольшую степень простоты ее использования. Однако, новую форму (1) сэр Гарольд продолжал называть распределением Пирсона VІІ типа, что привело к смешению понятий об этих двух похожих, но различных распределениях. Учитывая сказанное, чтобы избежать в дальнейшем путаницы, мы будем называть джеффрисову форму (1) - распределением Пирсона-Джеффриса или законом ошибок Пирсона-Джеффриса, или просто неклассическим законом ошибок. Последний имеет еще и другие замечательные свойства, главным из которых есть то, что он является обобщенной формулой распределений Гаусса и Стьюдента, которые наиболее часто применяются в анализе данных. Таким образом, первый фундаментальный принцип НТО построен на обобщении первого фундаментального принципа КТО.
Адекватность формы (1) действительной практике наблюдений основательно проверялась по инициативе академика Е. П. Федорова в АН Украины и в НИИТМ на протяжении 1967-1992 гг. с использованием огромного статистического материала, включающего более чем 130000 наблюдений [4]. Эта проверка показала, что при незначимых значениях асимметрии эмпирических распределений ошибок, средневзвешенные значения их эксцессов получились следующими для рядов наблюдений: экономических 0.142; космических 0.052; астрономических 0.015; гравиметрических0.105; геодезических 0.034.
Заметим также, что получив форму (1) сэр Гарольд не предпринимал попыток построить на этом основании новую и более универсальную теорию погрешностей измерений.
Известно, что в случае негауссового распределения f(xi) ошибок наблюдений xi их вес описывает весовая функция:
(2)
впервые полученная королевскими астрономами Х. Р. Хюльме и Л. С. Т. Симсом в Гринвиче [5]. Однако они не предложили аналитического выражения для вычисления весов p(xi) и получали их на основании сглаженной кривой распределения ошибок, полученной по гистограмме.
Подставляя форму (1) в (2) и выполнив дифференцирование, получаем следующее аналитическое выражение весовой функции обобщенного неклассического закона ошибок (1), адекватного реалиям больших выборок
(3)
Легко видеть, что при (закон Гаусса) p(xi) превращается в константу:
(4)
Таким образом, как видно из (4), все наблюдения имеют одинаковые веса, т. е. являются однородными только в том единственном случае, когда их ошибки подчиняются закону Гаусса. При любом другом их распределении, как это следует из формулы (3) это замечательное свойство не имеет места. Из формулы (4) также видно, что весовая функция p(xi) имеет размерность обратной дисперсии, т. е. p(xi) - это вес результата наблюдения, ошибка которого x имеет свою индивидуальную дисперсию . Следовательно, можно сформулировать второй фундаментальный принцип НТО, вытекающий из обобщенного закона ошибок (1):
индивидуальные веса наблюдений, которые подчиняются закону ошибок Пирсона-Джеффриса, характеризует их весовая функция, адаптированная к данному распределению. Адаптация действительных распределений ошибок к форме (1) осуществляется методом максимального правдоподобия.
Перейдем теперь к обоснованию третьего фундаментального принципа НТО. Проанализировав известный эксперимент К. Пирсона [6], сэр Г. Джеффрис показал, что для независимых случайных ошибок наблюдений при неизменной метрологической ситуации, форма (1) характеризуется показателем степени m в пределах:
(5)
или, что тоже самое, эксцессом в таких границах:
, (6)
т. е. форма (1) при условии (5) является формулой наиболее желанного для исследователя распределения ошибок, в которых уже не содержится больше никакой информации, т. е. это математическая форма современного идеального вероятностного хаоса. Оценивая значение второго фундаментального принципа НТО необходимо обратить внимание на следующее парадоксальное обстоятельство: при числе многократных наблюдений n > 500, выполненных даже при неизменной метрологической ситуации, веса наблюдений p(xi) являются разными по той причине, что идеальная форма обобщенного закона ошибок (1) существенно отличается от гауссовой.
В отличие от КТО, которая разработана на основе двух постулатов, в НТО введен третий фундаментальный принцип. Необходимость его введения обусловлена несостоятельностью второго постулата КТО, утверждающего, что из результатов наблюдений полностью исключены систематические ошибки. Однако практика показывает, что из результатов наблюдений невозможно их исключить полностью. Систематические ошибки, пусть малые, пусть незаметные, но они всегда присутствуют в результатах наблюдений и будут влиять на генеральную форму распределения ошибок, искажая ее, что особенно становится заметным при больших объемах наблюдений. Например, даже самые точные приборы, с помощью которых мы аттестуем наши измерительные средства, всегда имеют некоторую систематическую погрешность. Если идеальная форма вероятностного хаоса, т. е. математическая форма (1) для распределения совершенно независимых, случайных ошибок нам известна, то любое значимое отклонение от этой формы будет результатом искажений, вносимых в этот случайный вероятностный хаос систематическими ошибками.
Идеальная форма (1) для распределения совершенно случайных независимых ошибок имеет две особенности:
а) она симметрична, т. е. имеет нулевую асимметрию;
в) ее эксцессы находятся в границах (6).
Для того, чтобы показать важность соблюдения требований а) и в), получим весовую функцию (2) для обширного класса негауссовых распределений с различными асимметрией и эксцессом. С этой целью воспользуемся общим дифференциальным представлением семейств распределений Пирсона, которые охватывают практически все формы кривых плотности вероятности, изобретенные нашей цивилизацией:
, (7)
где
;; ; (8)
;; (9)
; и - A - асимметрия распределения; l и l - нижняя и верхняя границы естественной области определения функции плотности вероятности .
Подставляя (7) в (2) получаем аналитическое выражение для вычисления весовой функции в виде ее зависимости от коэффициентов (8), которые, в свою очередь, определяются значениями асимметрии и эксцесса:
(10)
Формула (10) задает бесконечное множество весовых функций, однако не все они способны обеспечить состоятельное оценивание. Формула (10) показывает, что есть такие распределения выборочных результатов, оценивание по которым невозможно. Например, если в (10) x = 0, то p(x) = , т. е. для асимметричных распределений, у которых c1 = 0, весовая функция является сингулярной - singular weight Funktion (SWF). Назовем эту зону оценок областью С1. Вычисление выборочного среднего при такой весовой функции является метрологическим абсурдом. Заметим также, что еще в начале ХХ века выдающийся экспериментатор и великий химик Д. И. Менделеев впервые высказал мысль о том, что нулевая асимметрия погрешностей является объективным признаком качественно проведенного эксперимента. Как видим, это его интуитивное предположение получило строгое математическое подтверждение в НТО.
При соблюдении условия а), т. е. для симметричных распределений весовая функция (10) приобретает более простой вид [7]:
(11)
где эксцесс ; - вычисляют по формуле (9). Как видно из (11), для симметричных распределений весовая функция регулярна во всем диапазоне значений:
(12)
Рис. 1. Фрагмент поверхности весовой функции для симметричных распределений погрешностей наблюдений
На рис. 1 показан фрагмент поверхности весовой функции (11) для симметричных распределений ошибок. Из рис. 1 видно, что прямая классического оценивания , соответствующая закону нормального распределения, делит поверхность весовой функции на две принципиально различные области: А - область распределений с и В - область плосковершинных распределений, у которых . Теперь внимательно рассмотрим область В. При , веса p(x) в (11) возрастают с увеличением погрешности x. Если допускать возможность оценивания с весовой функцией, у которой вес наблюдения возрастает с увеличением его ошибки, то в этом случае мы должны знать, что в точке
весовая функция имеет точку перегиба и при ошибке > x, веса становятся отрицательными. Следовательно, если эмпирическое распределение имеет отрицательный эксцесс и ошибки x >, то это означает, что наш эксперимент отягощен солидными систематическими ошибками, т. е. он неудачен, поскольку весовая функция попадает в зону SWF, в которой какое-либо оценивание некорректно. В целом весовая функция имеет две зоны, в которых невозможно произвести эффективное оценивание - это ее сингулярные области С и В.
Учитывая сказанное, можно сделать следующий важный вывод: единственной областью оценивания, в которой весовая функция симметрична и имеет невырожденный характер, т. е. является не сингулярной, является область А (рис. 1), соответствующая джеффрисовым ошибкам, подчиняющимися закону (1). Весовая функция является не сингулярной только при условиях А = 0; . Любое нарушение этих условий является свидетельством недопустимого влияния систематических ошибок, воздействием которых можно пренебречь только в том случае, когда доверительный интервал для оценки асимметрии А накрывает ноль, а доверительный интервал для коэффициента эксцесса тоже накрывает ноль или целиком находится в положительной области. Следовательно, для того, чтобы преодолеть несостоятельность второго постулата КТО, не учитывающего действия не исключенных систематических ошибок в результатах наблюдений, в НТО введен третий фундаментальный принцип:
влиянием слабых не исключенных систематических ошибок в результатах статистических наблюдений можно пренебречь только в том случае, когда весовая функция, найденная для эмпирического закона ошибок, является не сингулярной.
Если весовая функция распределения ошибок сингулярна, то такие наблюдения, вообще говоря, обрабатывать нельзя.
Открытие весовой функции знаменует собой новую эру в теории ошибок. До этого предлагались лишь эвристические варианты весовой функции, по которым нельзя было каким-то образом диагностировать влияние систематических ошибок. В отличие от этого в НТО разработана аналитическая теория весовой функции, которая максимально правдоподобно адаптирована к действительному распределению выборки. Все это вместе взятое дает в руки исследователя совершенно новый инструмент, позволяющий ему контролировать эксперимент и улучшать наблюдения. В целом важность третьего принципа НТО состоит в том, что он позволяет эффективно осуществлять процедуры диагностики математического моделирования различных процессов на основании статистического анализа остаточных погрешностей «Observation - Calculation» (О-С). Возможные случаи такой диагностики подробно рассмотрены в [7, с. 81].
В заключение отметим, что НТО не является теорией, отвергающей КТО. Она построена на адекватном обобщении главного постулата КТО. Всегда при применении методов НТО на первом этапе осуществляется моделирование классическими методами. НТО при моделировании применяется лишь после того, когда критериальный анализ разностей О-С на значимость асимметрии и отрицательного эксцесса, подтверждает необходимость во втором приближении применить неклассические процедуры. Поэтому НТО можно рассматривать как обобщение методов КТО и ее необходимую эволюцию. Главный вывод состоит в том, что не существует какого-либо всеобщего закона ошибок, со значением m = (закон Гаусса), как это полагали ранее. Наоборот, каждый измерительный инструмент, метод и даже место наблюдений имеет свой закон распределения ошибок с присущим только ему значением m, которое очень далеко от m = и которое является ключевой метрологической характеристикой погрешностей наблюдений. Значение m дает возможность очень просто оценить качество эксперимента, а затем и веса наблюдений с целью получения эффективных оценок параметров исследуемых процессов. Кроме того, методы НТО позволяют осуществлять эффективную диагностику математического моделирования на основании анализа остаточных погрешностей, что не предусматривалось ранее в процедурах КТО. Отмеченные возможности НТО открывают широкие перспективы для ее использования во многих отраслях науки и техники, в которых приходится обрабатывать большие объемы информации.
неклассический погрешность измерение математический
Литература
1. Гаусс К. Ф. Избранные геодезические сочинения. Том 1. Способ наименьших квадратов / К. Ф. Гаусс. - Под ред. Г. В. Багратуни. - М.: Геодезиздат, 1975. - 252 с.
2. Jeffreys H. Theory of Probability / Sec. Edition. - Oxford, 1940. - 468 p.
3. Bessel F. W. Untersuchungen uber die Wahrscheinlichkeit der Beobachtungsfehler / F. W. Bessel // Astronomische Nachrichten. - B. 5. - 1838. - 369 р.
4. Джунь И. В. Математическая обработка астрономической и космической информации при негауссовых ошибках наблюдений: автореферат дис. на соиск. уч. степени докт. физ.-мат. наук: спец. 01.03.01 «Астрометрия и небесная механика» / И. В. Джунь. - Киев, ГАО НАН Украины, 1992. - 46 с.
5. Hulme H. R. The Law of Errors and the Combinations of Observations / H. R. Hulme, L. S. T. Syms // Mon Notic. of RAS. - 1939. - V. 99. - №> 8. - P. 642-658.
6. Pearson K. On the mathematical Theory of Errors of Judgment with special Reference to the personal Equation / K. Pearson // Philosophical Transactions of the RAS of London. - Ser. A. - 1902. - Vol. 198. - P. 253-296.
7. Джунь И. В. Неклассическая теория погрешностей измерений / И. В. Джунь. Изд. дом ЕСТЕРО, Ровно, 2015 - 168 с.
Размещено на Allbest.ru
...Подобные документы
Характеристика и особенности основных типов погрешностей, возникающих при численном решении математических и прикладных задач: задачи, метода, округлений. Понятие и причины возникновения погрешностей измерений. Описание случайных погрешностей, моменты.
контрольная работа [143,9 K], добавлен 13.01.2012Методы определения достоверного значения измеряемой физической величины и его доверительных границ, используя результаты многократных наблюдений. Проверка соответствия экспериментального закона распределения нормальному закону. Расчет грубых погрешностей.
контрольная работа [52,5 K], добавлен 14.12.2010Сущность и основные понятия теории графов, примеры и сферы ее использования. Формирование следствий из данных теорий и примеры их приложений. Методы разрешения задачи о кратчайшем пути, о нахождении максимального потока. Графическое изображение задачи.
курсовая работа [577,1 K], добавлен 14.11.2009Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.
практическая работа [132,1 K], добавлен 24.05.2013Вероятностная модель и аксиоматика А.Н. Колмогорова. Случайные величины и векторы, классическая предельная проблема теории вероятностей. Первичная обработка статистических данных. Точечные оценки числовых характеристик. Статистическая проверка гипотез.
методичка [433,3 K], добавлен 02.03.2010Статистика – наука о массовых явлениях в природе и обществе; получение, обработка, анализ данных. Демографическая статистика, прогноз численности населения России. Методы обработки статистических данных: элементы логики, комбинаторики, теории вероятности.
презентация [2,3 M], добавлен 19.12.2012Классическая теория измерений по поводу истинного значения физической величины, ее главные постулаты. Классификация погрешностей по способу выражения, ее типы: абсолютная, приведенная и относительная. Случайные погрешности, закон их распределения.
реферат [215,4 K], добавлен 06.07.2014Понятие и специфика Аддитивной теории чисел, ее содержание и значение. Описание основных проблем Аддитивной теории чисел: Варинга, Гольдбаха, Титчмарша. Методы решения данных проблем: редукция к производящим функциям, исследование структуры множеств.
курсовая работа [150,0 K], добавлен 18.12.2010Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.
реферат [332,8 K], добавлен 10.12.2010Изучение теории вероятностей в ходе школьной программы позволяет развивать у школьников логическое мышление, способность абстрагировать, выделять суть. История теории вероятностей и ее научные основы. Виды событий. Операции со случайными событиями.
дипломная работа [88,6 K], добавлен 22.01.2009Основные методы формализованного описания и анализа случайных явлений, обработки и анализа результатов физических и численных экспериментов теории вероятности. Основные понятия и аксиомы теории вероятности. Базовые понятия математической статистики.
курс лекций [1,1 M], добавлен 08.04.2011Программа курса, основные понятия и формулы теории вероятностей, их обоснование и значение. Место и роль математической статистики в дисциплине. Примеры и разъяснения по решению самых распространенных задач по различным темам данных учебных дисциплин.
методичка [574,5 K], добавлен 15.01.2010Исследование методов определения погрешностей и статистической оценки распределений. Построение эмпирической функции, определяющей частность события для каждого значения случайной величины. Расчеты по заданной выборке, ее анализ и определение параметров.
курсовая работа [323,0 K], добавлен 13.01.2011Понятие, критерии и порядок формирования ценовой политики в гостиничном бизнесе, факторы, влияющие на данный процесс. Построение многофакторной модели ценообразования в гостинице на основе статистических наблюдений данных процессов в заведениях Москвы.
контрольная работа [427,0 K], добавлен 21.08.2008Правила выполнения и оформления контрольных работ для заочного отделения. Задания и примеры решения задач по математической статистике и теории вероятности. Таблицы справочных данных распределений, плотность стандартного нормального распределения.
методичка [250,6 K], добавлен 29.11.2009Понятие теории игр как раздела математики, предмет которого - анализ принятия оптимальных решений в условиях конфликта. Общие понятия в теории игр. Коалиция интересов, кооперативная или коалиционная игра. Свойства стратегических эквивалентных игр.
реферат [46,6 K], добавлен 06.05.2010Основные понятия теории марковских цепей, их использование в теории массового обслуживания для расчета распределения вероятностей числа занятых приборов в системе. Методика решения задачи о наилучшем выборе. Понятие возвратных и невозвратных состояний.
курсовая работа [107,2 K], добавлен 06.11.2011Освоение основных приемов статистической обработки результатов многократных измерений. Протокол результатов измерений. Проверка гипотезы о виде распределения методом линеаризации. Особенности объединения результатов разных серий измерений в общий массив.
методичка [179,5 K], добавлен 17.05.2012Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.
контрольная работа [336,3 K], добавлен 01.04.2014Теория вероятности как наука убеждения, что в основе массовых случайных событий лежат детерминированные закономерности. Математические доказательства теории. Аксиоматика теории вероятности: определения, вероятность пространства, условная вероятность.
лекция [287,5 K], добавлен 02.04.2008