Современное состояние непараметрической статистики
Сущность понятия "непараметрическая статистика". Оценка характеристик распределения элементов выборки и проверка статистических гипотез. Анализ конкретных результатов наблюдений, погрешностей измерений. Некритическое использование гипотезы нормальности.
Рубрика | Экономика и экономическая теория |
Вид | статья |
Язык | русский |
Дата добавления | 20.05.2017 |
Размер файла | 96,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http: //www. allbest. ru/
Московский государственный технический университет им. Н.Э. Баумана, Россия
Современное состояние непараметрической статистики
Орлов Александр Иванович
prof-orlov@mail.ru
Аннотация
Непараметрическая статистика - одна из пяти точек роста прикладной математической статистики. Несмотря на большое число публикаций по конкретным вопросам непараметрической статистики, внутренняя структура этого научного направления оставалась непроявленной. Цель настоящей статьи - на основе сложившегося в практике научной деятельности определения непараметрической статистики рассмотреть ее деление на области и систематизировать исследования по непараметрическим статистическим методам. Непараметрическая статистика, позволяет делать статистические выводы, в частности, оценивать характеристики распределения и проверять статистические гипотезы, без, как правило, слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу - в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных. Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов), при статистическом контроле качества и в других случаях. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лишь их непрерывность. На основе обобщения многочисленных исследований можно констатировать, что к настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Являются несостоятельными встречающиеся в литературе заявления о том, что непараметрические методы имеют меньшую мощность или требуют большего объема выборки, чем параметрические. При этом в непараметрической статистикe, как и в математической статистике в целом, остается ряд нерешенных задач
Ключевые слова: математическая статистика, прикладная статистика, статистические методы, непараметрическая статистика, оценивание, проверка гипотез, ранговые критерии, статистика нечисловых данных
Annotation
Physics and mathematical sciences
Nonparametric statistics is one of the five points of growth of applied mathematical statistics. Despite the large number of publications on specific issues of nonparametric statistics, the internal structure of this research direction has remained undeveloped. The purpose of this article is to consider its division into regions based on the existing practice of scientific activity determination of nonparametric statistics and classify investigations on nonparametric statistical methods. Nonparametric statistics allows to make statistical inference, in particular, to estimate the characteristics of the distribution and testing statistical hypotheses without, as a rule, weakly proven assumptions about the distribution function of samples included in a particular parametric family. For example, the widespread belief that the statistical data are often have the normal distribution. Meanwhile, analysis of results of observations, in particular, measurement errors, always leads to the same conclusion - in most cases the actual distribution significantly different from normal. Uncritical use of the hypothesis of normality often leads to significant errors, in areas such as rejection of outlying observation results (emissions), the statistical quality control, and in other cases. Therefore, it is advisable to use nonparametric methods, in which the distribution functions of the results of observations are imposed only weak requirements. It is usually assumed only their continuity. On the basis of generalization of numerous studies it can be stated that to date, using nonparametric methods can solve almost the same number of tasks that previously used parametric methods. Certain statements in the literature are incorrect that nonparametric methods have less power, or require larger sample sizes than parametric methods. Note that in the nonparametric statistics, as in mathematical statistics in general, there remain a number of unresolved problems
Keywords: mathematical statistics, applied statistics, statistical methods, nonparametric statistics, estimation, hypothesis testing, rank tests, statistics of non-numeric data
Введение
Непараметрическая статистика - одна из пяти точек роста прикладной математической статистики, выделенных в статьях [1, 2, 3]. Она занимает важное место среди математических методов исследования. Однако, несмотря на большое число публикаций по конкретным вопросам непараметрической статистики, внутренняя структура этого научного направления оставалась до сих пор непроявленной. Цель настоящей статьи - на основе сложившегося в практике научной деятельности определения непараметрической статистики рассмотреть ее деление на области и систематизировать публикации по непараметрическим статистическим методам.
Непараметрика, или непараметрическая статистика, позволяет делать статистические выводы, в частности, оценивать характеристики распределения и проверять статистические гипотезы, без, как правило, слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Как говорят, математики думают, что это - экспериментальный факт, установленный в прикладных исследованиях, в то время как прикладники уверены, что математики доказали нормальность результатов наблюдений. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу - в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных [4]. Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов) [5], при статистическом контроле качества и в других случаях. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лишь их непрерывность. На основе обобщения многочисленных исследований можно констатировать, что к настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Являются несостоятельными встречающиеся в литературе заявления о том, что непараметрические методы имеют меньшую мощность или требуют большего объема выборки, чем параметрические. При этом в непараметрике, как и в математической статистике в целом, шире - во всей обширной области математических методов исследования, остается ряд нерешенных задач, некоторые из которых сформулированы в статье [6].
1. Параметрические и непараметрические гипотезы
Начнем обсуждение понятия «непараметрическая статистика» с постановок задач проверки статистических гипотез, следуя подходу, зафиксированному в справочнике [7]. Уточнение исходных понятий необходимо, поскольку в литературе распространены неполные или даже неверные формулировки.
Статистическая гипотеза - любое предположение, касающееся неизвестного распределения случайных величин (элементов). Приведем формулировки нескольких статистических гипотез:
1. Результаты наблюдений имеют нормальное распределение с нулевым математическим ожиданием.
2. Результаты наблюдений имеют функцию стандартного нормального распределения (обычно обозначается N(0,1)) c нулевым математическим ожиданием и единичной дисперсией.
3. Результаты наблюдений имеют нормальное распределение.
4. Результаты наблюдений в двух независимых выборках имеют одно и то же нормальное распределение.
5. Результаты наблюдений в двух независимых выборках имеют одно и то же распределение.
Различают нулевую и альтернативную гипотезы. Нулевая гипотеза - гипотеза, подлежащая проверке. Альтернативная гипотеза - каждая допустимая гипотеза, отличная от нулевой. Нулевую гипотезу обозначают Н0, альтернативную - Н1 (от Hypothesis - «гипотеза» (англ.)). Выбор тех или иных нулевых или альтернативных гипотез определяется стоящими перед менеджером, экономистом, инженером, исследователем прикладными задачами. Рассмотрим примеры.
Пример 1. Пусть нулевая гипотеза - гипотеза 2 из приведенного выше списка, а альтернативная - гипотеза 1. Сказанное означает, что реальная ситуация описывается вероятностной моделью, согласно которой результаты наблюдений рассматриваются как реализации независимых одинаково распределенных случайных величин с функцией распределения N(0,у), где параметр у (среднее квадратичное отклонение) неизвестен статистику. В рамках этой модели нулевую гипотезу записывают так:
Н0: у = 1,
а альтернативную так:
Н1: у ? 1.
Пример 2. Пусть нулевая гипотеза - по-прежнему гипотеза 2 из приведенного выше списка, а альтернативная - гипотеза 3 из того же списка. Тогда в вероятностной модели управленческой, экономической или производственной ситуации предполагается, что результаты наблюдений образуют выборку из нормального распределения N(m, у) при некоторых значениях m и у. Гипотезы записываются так:
Н0: m = 0, у = 1
(оба параметра принимают фиксированные значения);
Н1: m ? 0 и/или у ? 1
(т.е. либо m ? 0, либо у ? 1, либо и m ? 0, и у ? 1).
Пример 3. Пусть Н0 - гипотеза 1 из приведенного выше списка, а Н1 - гипотеза 3 из того же списка. Тогда вероятностная модель - та же, что в примере 2,
Н0: m = 0, у произвольно;
Н1: m ? 0, у произвольно.
Пример 4. Пусть Н0 - гипотеза 2 из приведенного выше списка, а согласно Н1 результаты наблюдений имеют функцию распределения F(x), не совпадающую с функцией стандартного нормального распределения Ф(х). Тогда
Н0: F(х) = Ф(х) при всех х (записывается как тождество F(х) ? Ф(х));
Н1: F(х0) ? Ф(х0) при некотором х0 (т.е. неверно, что F(х) ? Ф(х)).
Примечание. Здесь символ "?" - знак тождественного совпадения функций (т.е. совпадения при всех возможных значениях аргумента х).
Пример 5. Пусть Н0 - гипотеза 3 из приведенного выше списка, а согласно Н1 результаты наблюдений имеют функцию распределения F(x), не являющуюся нормальной. Тогда
при некоторых m, у;
Н1: для любых m, у найдется х0 = х0(m, у) такое, что
.
Пример 6.
Пусть Н0 - гипотеза 4 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения F(x) и G(x), являющихся нормальными с параметрами m1, у1 и m2, у2 соответственно, а Н1 - отрицание Н0. Тогда
Н0: m1 = m2, у1 = у2, причем m1 и у1 произвольны;
Н1: m1 ? m2 и/или у1 ? у2.
Пример 7. Пусть в условиях примера 6 дополнительно известно, что у1 = у2. Тогда
Н0: m1 = m2, у > 0, причем m1 и у произвольны;
Н1: m1 ? m2, у > 0.
Пример 8. Пусть Н0 - гипотеза 5 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения F(x) и G(x) соответственно, а Н1 - отрицание Н0. Тогда
Н0: F(x) ? G(x), где F(x) - произвольная функция распределения;
Н1: F(x) и G(x) - произвольные функции распределения, причем
F(x) ? G(x) при некоторых х.
Пример 9. Пусть в условиях примера 7 дополнительно предполагается, что функции распределения F(x) и G(x) отличаются только сдвигом, т.е. G(x) = F(x - а) при некотором а. Тогда
Н0: F(x) ? G(x), где F(x) - произвольная функция распределения;
Н1: G(x) = F(x - а), а ? 0, где F(x) - произвольная функция распределения.
Пример 10. Пусть в условиях примера 4 дополнительно известно, что согласно вероятностной модели ситуации F(x) - функция нормального распределения с единичной дисперсией, т.е. имеет вид N(m, 1). Тогда
Н0: m = 0 (т.е. F(х) = Ф(х) при всех х, F(х) ? Ф(х));
Н1: m ? 0 (т.е. неверно, что F(х) ? Ф(х)).
Пример 11. При статистическом регулировании технологических, экономических, управленческих или иных процессов [8, 9] рассматривают выборку, извлеченную из совокупности с нормальным распределением и известной дисперсией, и гипотезы
Н0: m = m0,
Н1: m = m1,
где значение параметра m = m0 соответствует налаженному ходу процесса, а переход к m = m1 свидетельствует о разладке.
Пример 12. При статистическом приемочном контроле [10 - 12] число дефектных единиц продукции в выборке подчиняется гипергеометрическому распределению, неизвестным параметром является p = D/N - уровень дефектности, где N - объем партии продукции, D - общее число дефектных единиц продукции в партии. Используемые в нормативно-технической и коммерческой документации (стандартах, договорах на поставку и др.) планы контроля часто нацелены на проверку гипотезы
Н0: p < AQL
Н1: p > LQ,
где AQL - приемочный уровень дефектности, LQ - браковочный уровень дефектности (очевидно, что AQL < LQ).
Пример 13. В качестве показателей стабильности технологического, экономического, управленческого или иного процесса используют ряд характеристик распределений контролируемых показателей, в частности, коэффициент вариации v = у/M(X). Требуется проверить нулевую гипотезу
Н0: v < v0
при альтернативной гипотезе
Н1: v > v0,
где v0 - некоторое заранее заданное граничное значение.
Пример 14. Пусть вероятностная модель двух выборок - та же, что в примере 8, математические ожидания результатов наблюдений в первой и второй выборках обозначим М(Х) и М(У) соответственно. В ряде ситуаций проверяют нулевую гипотезу
Н0: М(Х) = М(У)
против альтернативной гипотезы
Н1: М(Х) ? М(У).
Пример 15. В статье [13] отмечалось большое значение в математической статистике функций распределения, симметричных относительно 0. При проверке симметричности
Н0: F(-x) = 1 - F(x) при всех x, в остальном F произвольна;
Н1: F(-x0) ? 1 - F(x0) при некотором x0, в остальном F произвольна.
В вероятностно-статистических методах принятия решений используются и многие другие постановки задач проверки статистических гипотез.
Конкретная задача проверки статистической гипотезы полностью описана, если заданы нулевая и альтернативная гипотезы. Выбор метода проверки статистической гипотезы, свойства и характеристики методов определяются как нулевой, так и альтернативной гипотезами. Для проверки одной и той же нулевой гипотезы при различных альтернативных гипотезах следует использовать, вообще говоря, различные методы. Так, в примерах 4 и 10 нулевая гипотеза одна и та же, а альтернативные - различны. Поэтому в условиях примера 4 следует применять методы проверки согласия с фиксированным распределением (например, критерии Колмогорова или омега-квадрат), а в условиях примера 10 - критерий Стьюдента. Если в условиях примера 4 использовать критерий Стьюдента, то он не будет решать поставленных задач (не сможет обнаружить все варианты альтернативных гипотез). Если в условиях примера 10 использовать критерий согласия Колмогорова, то он, напротив, будет решать поставленные задачи, хотя, возможно, и хуже, чем специально приспособленный для этого случая критерий Стьюдента.
При обработке реальных данных большое значение имеет правильный выбор гипотез Н0 и Н1. Принимаемые предположения, например, нормальность распределения, должны быть тщательно обоснованы, в частности, статистическими методами. Отметим, что в подавляющем большинстве конкретных прикладных постановок распределение результатов наблюдений отлично от нормального [4].
Часто возникает ситуация, когда вид нулевой гипотезы вытекает из постановки прикладной задачи, а вид альтернативной гипотезы не ясен. В таких случаях следует рассматривать альтернативную гипотезу наиболее общего вида и использовать методы, решающие поставленную задачу при всех возможных Н1. В частности, при проверке гипотезы 2 (из приведенного выше списка) как нулевой следует в качестве альтернативной гипотезы использовать Н1 из примера 4, а не из примера 10, если нет специальных обоснований нормальности распределения результатов наблюдений при альтернативной гипотезе.
Статистические гипотезы разделяют на два класса - параметрические и непараметрические. Дадим определения этим терминам. Предположение, которое касается неизвестного значения параметра распределения, входящего в некоторое параметрическое семейство распределений, называется параметрической гипотезой (отметим, что параметр может быть и многомерным). Предположение, при котором вид распределения неизвестен (т.е. не предполагается, что оно входит в некоторое априори заданное параметрическое семейство распределений), называется непараметрической гипотезой. Таким образом, если распределение F(x) результатов наблюдений в выборке согласно принятой вероятностной модели входит в некоторое параметрическое семейство {F(x;и), иИ}, т.е. F(x) = F(x;и0) при некотором и0И, то рассматриваемая гипотеза - параметрическая, в противном случае - непараметрическая.
Если и Н0 и Н1 - параметрические гипотезы, то задача проверки статистической гипотезы - параметрическая. Если хотя бы одна из гипотез Н0 и Н1 - непараметрическая, то задача проверки статистической гипотезы - непараметрическая. Другими словами, если вероятностная модель ситуации - параметрическая, т.е. полностью описывается в терминах того или иного параметрического семейства распределений вероятностей, то и задача проверки статистической гипотезы - параметрическая. Если же вероятностная модель ситуации - непараметрическая, т.е. ее нельзя полностью описать в терминах какого-либо параметрического семейства распределений вероятностей, то и задача проверки статистической гипотезы - непараметрическая. В примерах 1 - 3, 6, 7, 10 - 12 даны постановки параметрических задач проверки гипотез, а в примерах 4, 5, 8, 9, 13 - 15 - непараметрических. Непараметрические задачи проверки гипотез делятся на два класса: в одном из них речь идет о проверке утверждений, касающихся функций распределения (примеры 4, 5, 8, 9, 15), во втором - о проверке утверждений, касающихся характеристик распределений (примеры 13, 14).
Статистическая гипотеза называется простой, если она однозначно задает распределение результатов наблюдений, вошедших в выборку. В противном случае статистическая гипотеза называется сложной. Гипотеза 2 из приведенного выше списка, нулевые гипотезы в примерах 1, 2, 4, 10, нулевая и альтернативная гипотезы в примере 11 - простые, все остальные упомянутые выше гипотезы - сложные.
Однозначно определенный способ проверки статистических гипотез называется статистическим критерием. Статистический критерий строится с помощью статистики U(x1, x2, …, xn) - функции от результатов наблюдений x1, x2, …, xn. В пространстве значений статистики U выделяют критическую область Ш, т.е. область со следующим свойством: если значения применяемой статистики принадлежат данной области, то отклоняют (иногда говорят - отвергают) нулевую гипотезу, в противном случае - не отвергают (т.е. принимают).
Статистику U, используемую при построении определенного статистического критерия, называют статистикой этого критерия. Например, в задаче проверки статистической гипотезы, приведенной в примере 4, применяют критерий Колмогорова, основанный на статистике
.
При этом Dn называют статистикой критерия Колмогорова.
Частным случаем статистики U является векторзначная функция результатов наблюдений U0(x1, x2, …, xn) = (x1, x2, …, xn), значения которой - набор результатов наблюдений. Если xi - числа, то U0 - набор n чисел, т.е. точка n-мерного пространства. Ясно, что статистика критерия U является функцией от U0, т.е. U = f(U0). Поэтому можно считать, что Ш - область в том же n-мерном пространстве, нулевая гипотеза отвергается, если (x1, x2, …, xn)Ш, и принимается в противном случае.
В вероятностно-статистических методах обработки данных и принятия решений статистические критерии, как правило, основаны на статистиках U, принимающих числовые значения, и критические области имеют вид
Ш = {U(x1, x2, …, xn) > C}, (1)
где С - некоторые числа.
Статистические критерии делятся на параметрические и непараметрические: параметрические критерии используются в параметрических задачах проверки статистических гипотез, а непараметрические - в непараметрических задачах.
При проверке статистической гипотезы возможны ошибки. Есть два рода ошибок. Ошибка первого рода заключается в том, что отвергают нулевую гипотезу, в то время как в действительности эта гипотеза верна. Ошибка второго рода состоит в том, что принимают нулевую гипотезу, в то время как в действительности эта гипотеза неверна.
Вероятность ошибки первого рода называется уровнем значимости и обозначается б. Таким образом, б = P{UШ | H0}, т.е. уровень значимости б - это вероятность события {UШ}, вычисленная в предположении, что верна нулевая гипотеза Н0.
Уровень значимости однозначно определен, если Н0 - простая гипотеза. Если же Н0 - сложная гипотеза, то уровень значимости, вообще говоря, зависит от функции распределения результатов наблюдений, удовлетворяющей Н0. Статистику критерия U обычно строят так, чтобы вероятность события {UШ} не зависела от того, какое именно распределение (из удовлетворяющих нулевой гипотезе Н0) имеют результаты наблюдений. Для статистик критерия U общего вида под уровнем значимости понимают максимально возможную ошибку первого рода. Максимум (точнее, супремум) берется по всем возможным распределениям, удовлетворяющим нулевой гипотезе Н0, т.е. б = sup P{UШ | H0}.
Если критическая область имеет вид, указанный в формуле (1), то
P{U > C | H0} = б. (2)
Если С задано, то из последнего соотношения определяют б. Часто поступают по иному - задавая б (обычно б = 0,05, иногда б = 0,01 или б = 0,1, другие значения б используются гораздо реже), определяют С из уравнения (2), обозначая его Сб, и используют критическую область Ш = {U > Cб} с заданным уровнем значимости б.
Вероятность ошибки второго рода есть P{UШ | H1}. Обычно используют не эту вероятность, а ее дополнение до 1, т.е. P{UШ | H1} = 1 - P{UШ | H1}. Эта величина носит название мощности критерия. Итак, мощность критерия - это вероятность того, что нулевая гипотеза будет отвергнута, когда альтернативная гипотеза верна.
Понятия уровня значимости и мощности критерия объединяются в понятии функции мощности критерия - функции, определяющей вероятность того, что нулевая гипотеза будет отвергнута. Функция мощности зависит от критической области Ш и действительного распределения результатов наблюдений. В параметрической задаче проверки гипотез распределение результатов наблюдений задается параметром и.
В этом случае функция мощности обозначается М(Ш, и) и зависит от критической области Ш и действительного значения исследуемого параметра и. Если
Н0: и = и0,
Н1: и = и1,
М(Ш, и0) = б,
М(Ш, и1) = 1 - в,
где б - вероятность ошибки первого рода, в - вероятность ошибки второго рода. В статистическом приемочном контроле б - риск изготовителя, в - риск потребителя. При статистическом регулировании технологического процесса б - риск излишней наладки, в - риск незамеченной разладки.
Функция мощности М(Ш, и) в случае одномерного параметра и обычно достигает минимума, равного б, при и = и0, монотонно возрастает при удалении от и0 и приближается к 1 при |и - и0| > ?.
В ряде вероятностно-статистических методов принятия решений используется оперативная характеристика L(Ш, и) - вероятность принятия нулевой гипотезы в зависимости от критической области Ш и действительного значения исследуемого параметра и. Ясно, что
L(Ш, и) = 1 - М(Ш, и).
Основной характеристикой статистического критерия является функция мощности. Для многих задач проверки статистических гипотез разработан не один статистический критерий, а целый ряд. Чтобы выбрать из них определенный критерий для использования в конкретной практической ситуации, проводят сравнение критериев по различным показателям качества [10, приложение 3], прежде всего с помощью их функций мощности. В качестве примера рассмотрим лишь два показателя качества критерия проверки статистической гипотезы - состоятельность и несмещенность.
Пусть объем выборки n растет, а Un и Шn - статистики критерия и критические области соответственно. Критерий называется состоятельным, если
т.е. вероятность отвергнуть нулевую гипотезу стремится к 1, если верна альтернативная гипотеза.
Статистический критерий называется несмещенным, если для любого и0, удовлетворяющего Н0, и любого и1 , удовлетворяющего Н1, справедливо неравенство
P{UШ | и0} < P{UШ | и1},
т.е. при справедливости Н0 вероятность отвергнуть Н0 меньше, чем при справедливости Н1.
При наличии нескольких статистических критериев в одной и той же задаче проверки статистических гипотез следует использовать состоятельные и несмещенные критерии. Предлагаемый из каких-либо соображений критерий, предназначенный для определенной задачи проверки статистических гипотез, подлежит проверке - является ли он состоятельным и несмещенным. Можно поставить вопрос иначе: для какой задачи проверки статистических гипотез предназначен определенный критерий, т.е. для какой задачи он является состоятельным?
2. Место непараметрической статистики в истории прикладной статистики
Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете (см., например, Книгу Чисел). Там, в частности, описана перепись военнообязанных - подсчет числа воинов в различных племенах. С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации [14].
В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делают органы государственной статистики. Надо признать, что по сравнению с Ветхим Заветом есть прогресс -- в Библии не было таблиц и диаграмм. Однако нет продвижения по сравнению с работами российских статистиков конца XIX -- начала XX вв.
Сразу после возникновения теории вероятностей (Паскаль, Ферма, XVII в.) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от вероятности рождения девочки (и от 0,5), анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов исследований; к лучшим из них относится очерк [15].
В 1794 г. К. Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов, и применил его при расчете орбиты малой планеты (астероида) Церера -- для борьбы с ошибками астрономических наблюдений [16]. В ХIХ веке заметный вклад в развитие практической статистики внес бельгиец А. Кетле, показавший на основе анализа большого числа реальных данных устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей [17]. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Петербургской Академии наук М.В. Остроградским (1801-1862) и применялись в российской армии ещё в середине Х1Х в. [15]. Статистические методы управления качеством и сертификации продукции сейчас весьма актуальны [10].
Отсчет современного этапа развития статистических методов можно начать с 1900 г., когда англичанин К. Пирсон основал журнал «Biometrika». Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Использовались экспоненциальные и логарифмически нормальные распределения, распределения Вейбулла - Гнеденко, гамма-распределения, биномиальное и гипергеометрическое распределения, распределение Пуассона и др. Для проверки гипотез применялись критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.
Разработанную в первой трети ХХ в. теорию статистического анализа данных называют параметрической статистикой, поскольку ее основной объект изучения -- это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств -- чисто формальная операция. Именно из таких соображений критиковал параметрическую статистику академик АН СССР С.Н. Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков [18].
В первой трети ХХ в., одновременно с параметрической статистикой, в работах Спирмена и Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции, носящих ныне имена этих статистиков. Но непараметрика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики лишь со второй трети ХХ века. В 30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, предложивших и изучивших статистические критерии, носящие в настоящее время их имена. Эти критерии основаны на использовании так называемого эмпирического процесса. (Как известно, эмпирический процесс - это разность между эмпирической и теоретической функциями распределения, умноженная на квадратный корень из объема выборки.) В работе А.Н. Колмогорова 1933 г. изучено предельное распределение супремума модуля эмпирического процесса, называемого сейчас критерием Колмогорова. Затем Н.В. Смирнов исследовал супремум и инфимум эмпирического процесса, а также интеграл (по теоретической функции распределения) квадрата эмпирического процесса. Следует отметить, что встречающееся иногда в литературе словосочетание «критерий Колмогорова-Смирнова» некорректно, поскольку эти два статистика никогда не печатались вместе и не изучали один и тот же критерий схожими методами. Корректно сочетание «критерий типа Колмогорова-Смирнова», применяемое для обозначения критериев, основанных на использовании супремума функций от эмпирических процессов [19 - 20].
После Второй мировой войны развитие непараметрической статистики пошло быстрыми темпами. Большую роль сыграли работы американского статистика Ф. Вилкоксона и его школы. Итог таков - к настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических. В нашей стране непараметрические методы получили достаточно большую известность после выхода в 1965 г. первого издания сборника статистических таблиц Л.Н. Большева и Н.В. Смирнова [21], содержащего подробные таблицы для основных непараметрических критериев. Современному подходу к изучению предельного распределения непараметрических статистик посвящена работа [22].
Наше представление об основных этапах развития прикладной математической статистики представлено в табл.1. Названия этапов даны по впервые разработанным подходам. Вновь появляющиеся этапы не вытесняют полностью статистические методы, разработанные на предыдущих. В настоящее время активно используются методы всех четырех этапов.
Таблица 1 Основные этапы развития прикладной математической статистики
№ |
Этапы |
Характерные черты |
Годы |
|
1 |
Описательная статистика |
Тексты, таблицы, графики. Отдельные расчетные приемы (МНК) |
До 1900 |
|
2 |
Параметрическая статистика |
Модели параметрических семейств распределений - нормальных, гамма и др. Теория оценивания параметров и проверки гипотез |
1900 - 1933 |
|
3 |
Непараметрическая статистика |
Произвольные непрерывные распределения. Непараметрические методы оценивания и проверки гипотез |
1933 - 1979 |
|
4 |
Нечисловая статистика |
Выборка - из элементов произвольных пространств. Использование показателей различия и расстояний |
С 1979 |
В табл. 1 исходим из деления прикладной математической статистики на четыре области (табл.2). Статистику нечисловых данных (статистику объектов нечисловой природы, нечисловую статистику), ставшую знаменем современного четвертого этапа развития статистических методов (после непараметрической статистики), не рассматриваем в настоящей статье. Этой области прикладной математической статистики посвящено достаточно много публикаций, в том числе монографий [23, 24] и обзоров [25, 26].
Таблица 2 Области прикладной математической статистики
№ |
Вид статистических данных |
Область прикладной статистики |
|
1 |
Числа |
Статистика (случайных) величин |
|
2 |
Конечномерные вектора |
Многомерный статистический анализ |
|
3 |
Функции |
Статистика случайных процессов и временных рядов |
|
4 |
Объекты нечисловой природы |
Статистика нечисловых данных |
3. Три основные области непараметрической статистики
Исходя из практики статистического анализа данных, опишем структуру непараметрической статистики, выделив основные ее области. Их, по нашему мнению, три:
- область на стыке параметрических и непараметрических методов;
- ранговые статистические методы;
- непараметрические оценки функций, прежде всего плотности распределения, регрессионной зависимости, а также статистик, используемых в теории классификации.
Сопоставление параметрических и непараметрических методов анализа данных. Рассмотрим эти области. Первая из них относится прежде всего к статистике величин (см. табл. 2), поскольку обсуждаются различные семейства распределений случайных величин, в то время как для случайных векторов широко известно лишь одно параметрическое семейство - многомерных нормальных распределений.
Многие алгоритмы анализа данных рассматривают как в параметрической, так и в непараметрической статистике. Например, выборочное среднее арифметическое и выборочная дисперсия являются оценками максимального правдоподобия (т.е. в определенном смысле наилучшими) для математического ожидания и дисперсии соответственно, если результаты наблюдения - выборка из нормального распределения. В непараметрической постановке они являются состоятельными оценками математического ожидания и дисперсии. Однако не всегда наилучшими - для оценивания центра распределения в ряде ситуаций предпочтительнее медиана [27]. Непараметрические и параметрические оценки характеристик распределения сопоставлены в статье [28].
Метод моментов проверки согласия с параметрическим семейством распределений [29], например, с нормальным семейством с помощью критериев асимметрии и эксцесса, основан на асимптотической нормальности выборочных моментов для выборок из произвольных распределений. Разработано много критериев согласия [30]. Однако достаточно достоверно отличить нормальное распределение от распределения другого типа можно лишь по выборкам, объем которых - сотни [31] или даже тысячи [23]. Часто критерии согласия применяются с ошибками [7, 20, 32]. Констатируем, что в наиболее распространенном случае, когда объем выборки - не более нескольких десятков результатов измерений (наблюдений, испытаний, анализов, опытов), невозможно обосновать выбор определенного распределения из того или иного параметрического семейства.
Что происходит, если не выполнены предпосылки, при которых разработаны параметрические методы? Например, для проверки однородности двух независимых выборок в случае нормальности распределений и равенства дисперсий рекомендуют двухвыборочный критерий Стьюдента. Если же предпосылки нарушены, то для проверки равенства математических ожиданий следует использовать критерий Крамера-Уэлча [33]. Крайняя неустойчивость параметрических методов отбраковки резко выделяющихся наблюдений делает невозможным их практическое применение [5]. В то же время доверительные границы для математического ожидания в непараметрическом случае отличаются от таковых в случае нормального распределения только использованием квантилей нормального распределения вместо квантилей распределения Стьюдента, т.е. при росте объемов выборки различие исчезает [28].
Довольно часто предполагают, что погрешности (отклонения, ошибки, невязки) в методе наименьших квадратов имеют нормальное распределение. Однако это предположение не является обязательным. Так, непараметрическому оцениванию точки пересечения регрессионных прямых посвящены работы [34, 35], непараметрический метод наименьших квадратов для восстановления линейной зависимости с периодической составляющей разработан в статьях [36, 37].
4.2. Ранговые статистические методы. В этих методах используют не сами результаты измерений, а их ранги, т.е. места в упорядоченных рядах. Примерами являются критерии Колмогорова, Смирнова, омега-квадрат, коэффициенты ранговой корреляции Спирмена и Кендалла [19 - 21]. Все ранговые статистики измерены в порядковой шкале [23 - 26], т.е. их значения не меняются при любом строго возрастающем преобразовании шкалы измерения.
Разработка и изучение ранговых статистик продолжается. Так. в [38] разобраны два мифа, связанные с критерием Вилкоксона (Манна - Уитни) - о том, что этот критерий является состоятельным для проверки тождественного совпадения двух функций распределения (т.н. абсолютной однородности) или хотя бы для проверки равенства их медиан. Несмотря на выявленные недостатки, этот непараметрический критерий полезен для построения карт контроля качества продукции [39]. Состоятельные критерии проверки абсолютной однородности независимых выборок описаны в [40]. Интересный (как теоретически, так и практически) факт существенного различия реальных и номинальных уровней значимости в задачах проверки статистических гипотез с помощью непараметрических критериев выявлен в статье [41].
Непараметрические оценки функций. Базовыми являются непараметрические оценки плотности распределения в пространствах произвольной природы [42, 43]. На их основе методы непараметрического оценивания регрессионных зависимостей, классификации (распознавания образов, дискриминантного и кластерного анализов) [44, 45]. Эти методы, входящие в статистику нечисловых данных [23 - 26], имеют большое прикладное значение.
Непараметрический дискриминантный анализ (непараметрические методы распознавания образов) используется в задачах управления качеством [46], диагностики электрорадиоизделий [47]. Цикл работ [48 - 51] посвящен непараметрическим методам классификации текстовых документов.
Заключительные замечания
Проведенный анализ показывает, что к настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Все большую роль играют непараметрические оценки плотности, непараметрические методы регрессии и распознавания образов (дискриминантного анализа).
Непараметрические методы не используются априорных (и в большинстве практических ситуаций недоступных проверке) предположений о том, что распределения результатов измерений (наблюдений, испытаний, анализов, опытов) входят в то или иное параметрическое семейство, а потому являются более обоснованными, чем параметрические.
В непараметрике, как и в математической статистике в целом, остается ряд нерешенных задач. Для обеспечения широкого внедрения непараметрических методов необходимо провести еще целый комплекс теоретических и пилотных (т.е. пробных) прикладных работ.
Методология современных статистических методов предполагает, что при решении конкретной прикладной задачи необходимо прежде всего построить (выбрать, описать) вероятностно-статистическую модель. А уже в рамках модели разрабатывается (подбирается, используется) соответствующий ей метод, согласно которому создаются алгоритмы и проводятся расчеты, делаются выводы и принимаются управленческие решения. Часто полезны иерархические системы моделей. Такая система на примере проверки однородности двух независимых выборок построена в статье [33], в которой, в частности, продемонстрирована польза несостоятельных критериев проверки статистических гипотез [29].
Непараметрическая статистика является лучше соответствует потребностям практики, представляет собой более передовой и более мощный (результативный, продуктивный) подход, чем параметрическая. Поэтому она должна применяться более широко, чем сейчас, вытеснять параметрическую из несвойственных последней областей использования. Преподавание математической статистики также должно быть приведено в соответствие с современными требованиями, место непараметрической статистики должно быть основным при рассмотрении задач статистики случайных величин, многомерного статистического анализа, статистики случайных процессов и временных рядов. Примером адекватного соотношения различных подходов, по нашему мнению, является учебник [23], соответствующий современному уровню развития прикладной математической статистики.
непараметрический статистика выборка погрешность
Литература
1. Орлов А.И. Современная прикладная статистика // Заводская лаборатория. Диагностика материалов. 1998. Т.64. №3. С. 52-60.
2. Горский В.Г., Орлов А.И. Математические методы исследования: итоги и перспективы // Заводская лаборатория. Диагностика материалов. 2002. Т.68. №1. С.108-112.
3. Орлов А.И. Точки роста статистических методов / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №09(103). С. 136 - 162. - IDA [article ID]: 1031409011. - Режим доступа: http://ej.kubagro.ru/2014/09/pdf/11.pdf
4. Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. Диагностика материалов. 1991. Т.57. №7. С.64-66.
5. Орлов А.И. Неустойчивость параметрических методов отбраковки резко выделяющихся наблюдений. // Заводская лаборатория. Диагностика материалов. 1992. Т.58. №7. С.40-42.
6. Орлов А.И. Некоторые нерешенные вопросы в области математических методов исследования // Заводская лаборатория. Диагностика материалов. 2002. Т.68. №3. С.52-56.
7. Орлов А.И. Вероятность и прикладная статистика: основные факты: справочник. - М.: КноРус, 2010. - 192 с.
8. Митрохин И.Н., Орлов А.И. Обнаружение разладки с помощью контрольных карт // Заводская лаборатория. Диагностика материалов. 2007. Т.73. №5. С.74-78.
9. Орлов А.И. Выявление отклонений в контроллинге (на примере мониторинга уровня безопасности полетов) / А.И. Орлов, В.Д. Шаров // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №01(095). С. 184 - 203. - IDA [article ID]: 0951401008. - Режим доступа: http://ej.kubagro.ru/2014/01/pdf/08.pdf
10. Орлов А.И. Эконометрика. Учебник. Изд. 3-е, переработанное и дополненное. - М.: Экзамен, 2004. - 576 с.
11. Орлов А.И. Всегда ли нужен контроль качества продукции у поставщика? / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №02(096). С. 969 - 982. - IDA [article ID]: 0961402070. - Режим доступа: http://ej.kubagro.ru/2014/02/pdf/70.pdf
12. Орлов А.И. Асимптотические методы статистического контроля / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №08(102). С. 1 - 31. - IDA [article ID]: 1021408001. - Режим доступа: http://ej.kubagro.ru/2014/08/pdf/01.pdf
13. Орлов А.И. Методы проверки однородности связанных выборок // Заводская лаборатория. Диагностика материалов. 2004. Т.70. №7. С.57-61.
14. Орлов А.И. Основные этапы становления статистических методов / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №03(097). С. 1209 - 1233. - IDA [article ID]: 0971403086. - Режим доступа: http://ej.kubagro.ru/2014/03/pdf/86.pdf
15. Гнеденко Б.В. Очерк по истории теории вероятностей. - М.:УРСС, 2001. - 88 с.
16. Клейн Ф. Лекции о развитии математики в ХIХ столетии. Часть I. - М.-Л.: Объединенное научно-техническое издательство НКТП СССР, 1937. - 432 с.
17. Плошко Б.Г., Елисеева И.И. История статистики: Учеб. пособие. М.: Финансы и статистика. 1990. 295 с.
18. Бернштейн С.Н. Современное состояние теории вероятностей и ее приложений. В сб.: Труды Всероссийского съезда математиков в Москве 27 апреля - 4 мая 1927 г. М.-Л.: ГИЗ, 1928. С.50-63.
19. Орлов А.И. О критериях Колмогорова и Смирнова // Заводская лаборатория. Диагностика материалов. 1995. Т.61. №7. С.59-61.
20. Орлов А.И. Непараметрические критерии согласия Колмогорова, Смирнова, Омега-квадрат и ошибки при их применении / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №03(097). С. 647 - 675. - IDA [article ID]: 0971403047. - Режим доступа: http://ej.kubagro.ru/2014/03/pdf/47.pdf
21. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.). 474 с.
22. Орлов А.И. Предельная теория непараметрических статистик / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №06(100). С. 226 - 244. - IDA [article ID]: 1001406011. - Режим доступа: http://ej.kubagro.ru/2014/06/pdf/11.pdf
23. Орлов А.И. Прикладная статистика. -- М.: Экзамен, 2006. -- 671 с.
24. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч. 1. Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. -- 541 с.
25. Орлов А.И. Тридцать лет статистики объектов нечисловой природы (обзор) // Заводская лаборатория. Диагностика материалов. 2009. Т.75. №5. С.55-64.
26. Орлов А.И. О развитии статистики объектов нечисловой природы / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №09(093). С. 273 - 309. - IDA [article ID]: 0931309019. - Режим доступа: http://ej.kubagro.ru/2013/09/pdf/19.pdf
27. Цейтлин Н.А. Среднемедианный показатель положения выборки экспертных оценок // Заводская лаборатория. Диагностика материалов. 2010. Т.76. №7. С. 69-72.
28. Орлов А.И. Непараметрическое точечное и интервальное оценивание характеристик распределения // Заводская лаборатория. Диагностика материалов. 2004. Т.70. №5. С.65-70.
29. Орлов А.И. Метод моментов проверки согласия с параметрическим семейством распределений // Заводская лаборатория. Диагностика материалов. 1989. №10. С.90-93.
30. Орлов А.И. О критериях согласия с параметрическим семейством. // Заводская лаборатория. Диагностика материалов. 1997. Т.63. №5. С. 49-50.
31. Селезнев В.Д., Денисов К.С. Исследование свойств критериев согласия функции распределения данных с гауссовой методом Монте-Карло для малых выборок // Заводская лаборатория. Диагностика материалов. 2005. Т.71. С. 68 - 73.
32. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат // Заводская лаборатория. Диагностика материалов. 1985. Т.51. №1. С.60-62.
33. Орлов А.И. О проверке однородности двух независимых выборок // Заводская лаборатория. Диагностика материалов. 2003. Т.69. №1. С.55-60.
34. Муравьева В.С., Орлов А.И. Непараметрическое оценивание точки пересечения регрессионных прямых // Заводская лаборатория. Диагностика материалов. 2008. Т.74. №1. С. 63-68.
35. Муравьева В.С. Точка встречи: асимптотическое распределение уровня качества и временного лага // Заводская лаборатория. Диагностика материалов. 2008. Т.74. №3. С. 70-73.
36. Орлов А.И. Непараметрический метод наименьших квадратов с периодической составляющей // Заводская лаборатория. Диагностика материалов. 2014. Т.80. №1. С.65-75.
37. Орлов А.И. Восстановление зависимости методом наименьших квадратов на основе непараметрической модели с периодической составляющей / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №07(091). С. 189 - 218. - IDA [article ID]: 0911307013. - Режим доступа: http://ej.kubagro.ru/2013/07/pdf/13.pdf
38. Орлов А.И. Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона? // Заводская лаборатория. Диагностика материалов. 1999. Т.65. №1. С.51-55.
39. Кузнецов Л.А., Журавлева М.Г. Построение карт контроля качества с помощью непараметрического критерия Вилкоксона - Манна - Уитни // Заводская лаборатория. Диагностика материалов. 2009. Т.75. №1.С. 70-75.
40. Орлов А.И. Состоятельные критерии проверки абсолютной однородности независимых выборок // Заводская лаборатория. Диагностика материалов. 2012. Т.78. №11. С.66-70.
41. Камень Ю.Э., Камень Я.Э., Орлов А.И. Реальные и номинальные уровни значимости в задачах проверки статистических гипотез // Заводская лаборатория. Диагностика материалов. 1986. Т.52. №12. С.55-57.
42. Орлов А.И. Математические методы исследования и диагностика материалов (Обобщающая статья) // Заводская лаборатория. Диагностика материалов. 2003. Т.69. №3. С.53-64.
43. Орлов А.И. Оценки плотности распределения вероятностей в пространствах произвольной природы / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №05(099). С. 33 - 49. - IDA [article ID]: 0991405003. - Режим доступа: http://ej.kubagro.ru/2014/05/pdf/03.pdf
...Подобные документы
Общее понятие про гипотезы, их классификация. Выбор и основные принципы расчета критериев для проверки статистических гипотез. Проверка гипотезы о законе распределения генеральной совокупности с использованием функции Лапласа, критерия Фишера-Снедекора.
курсовая работа [2,6 M], добавлен 01.04.2011Статистическая обработка результатов и вычисление числовых характеристик выборочных наблюдений. Параметрическая оценка функции плотности распределения. Расчет аналитических показателей ряда динамики. Статистический анализ оборачиваемости денежной массы.
курсовая работа [479,7 K], добавлен 16.01.2013Способы сбора и группировки статистических сведений, полученных в результате наблюдений или экспериментов. Методы анализа статистических данных в зависимости от целей исследования. Проверка статистических гипотез, оценка неизвестной вероятности события.
курсовая работа [172,8 K], добавлен 15.11.2009Распределение результатов наблюдений. Неустойчивость параметрических методов отбраковки резко выделяющихся результатов наблюдений. Однородность двух независимых выборок. Критерий Крамера-Уэлча равенства математических ожиданий. Критерий Вилкоксона.
реферат [192,2 K], добавлен 19.01.2009Порядок проведения проверки статистических гипотез. Проверка однородности результатов эксперимента в целях исключения грубых ошибок. Расчет теоретических частот для нормального распределения. Уравнение линейной регрессии и метод наименьших квадратов.
курсовая работа [349,5 K], добавлен 09.01.2011Дескриптивная статистика и статистический вывод. Способы отбора, обеспечивающие репрезентативность выборки. Влияние вида выборки на величину ошибки. Задачи при применении выборочного метода. Распространение данных наблюдения на генеральную совокупность.
контрольная работа [289,3 K], добавлен 27.02.2011Анализ этапов проверки статистических гипотез. Сравнение центров распределений. Концепция объектно-ориентированного программирования. Проверка неразличимости дисперсий с помощью критерия Кохрена. Определение границ существования математического ожидания.
курсовая работа [793,5 K], добавлен 16.05.2013История возникновения и развития статистики. Предмет, основные понятия и категории статистики. Методы сбора, обобщения и анализа статистических данных. Экономическая статистика и ее отрасли. Современная организация статистики в Российской Федерации.
лекция [16,5 K], добавлен 02.05.2012Статистическое наблюдение выступает как один из главных методов статистики и как одна из важнейших стадий статистического исследования. Под статистическими данными понимают совокупность количественных характеристик социально-экономических процессов.
контрольная работа [8,0 K], добавлен 23.03.2004Различные методики исследования погрешностей результатов измерений на нормальный закон распределения с предварительным анализом на систематические и грубые ошибки. Основные вероятностно-статистические характеристики многократно измеренной величины.
лабораторная работа [188,0 K], добавлен 04.05.2014Понятие статистики как науки, предмет и методы ее изучения, основные цели и задачи. Категории статистики и ее показатели, способы представления результатов. Сущность и классификация относительных и средних величин. Понятие ряда динамики и его анализ.
реферат [192,6 K], добавлен 15.05.2009Статистика занятости и безработицы. Определение численности и состава занятых лиц. Выборочное наблюдение, сводка и группировка, ряд распределения. Характеристика статистических показателей. Расчет средних величин и показателей вариации, ошибок выборки.
курсовая работа [180,5 K], добавлен 10.08.2009Основные категории и понятия теории статистики. Ряды динамики и их применение в анализе социально-экономических явлений. Сводка и группировка статистических данных. Общая характеристика системы национальных счетов. Статистика рынка товаров и услуг.
курс лекций [68,4 K], добавлен 08.08.2009Гипотезы о нормальном и о равномерном распределении. Оценка параметров регрессии. Расчет математического ожидания и дисперсии. Расчет коэффициентов регрессии. Использование статистического критерия хи-квадрат. Построение сгруппированной выборки.
курсовая работа [185,4 K], добавлен 20.04.2015Статистика и статистическая закономерность. Структура органов государственной статистики. Обработка статистических данных и анализ результатов для получения обоснованных выводов. Понятие метода основного массива. Относительные и абсолютные показатели.
контрольная работа [203,8 K], добавлен 06.06.2011Краткая история зарождения и развития статистики как науки. Предмет изучения и характеристика основных задач статистики. Статистические методы сбора и обработки данных для получения достоверных оценок и результатов. Источники статистических данных.
лекция [23,7 K], добавлен 13.02.2011История развития статистики в России. Деятельность видных ученых в развитии статистики как науки. Основные задачи статистики. Общая теория статистики, экономическая статистика, социальная статистика. Отраслевая статистика.
реферат [23,9 K], добавлен 12.12.2006Предмет и задачи статистики, ее категории. Статистические ряды распределения и их элементы. Виды статистических таблиц и графиков. Основные свойства арифметической, геометрической и хронологической средней. Показатели вариации и классификация индексов.
шпаргалка [65,8 K], добавлен 26.12.2010Статистика как одна из древнейших отраслей знаний, возникшая на базе хозяйственного учета. Развитие статистики как науки. Определение предмета статистики. Статистическое наблюдение как этап статистического исследования. Методы и показатели статистики.
контрольная работа [38,9 K], добавлен 20.01.2010Статистика как общественная наука, изучающая количественную сторону массовых общественных явлений с целью выявления их особенностей и закономерностей развития. Понятия, предмет, задачи, система статистических показателей. Организация статистики в России.
реферат [16,8 K], добавлен 04.06.2010