Точки роста статистических методов
Исследование пяти актуальных направлений, в которых развивается прикладная статистика: непараметрическая статистика, робастность, компьютерно-статистические методы, статистика интервальных данных, статистика нечисловых данных. Их сравнительное описание.
Рубрика | Экономика и экономическая теория |
Вид | статья |
Язык | русский |
Дата добавления | 15.05.2017 |
Размер файла | 38,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
????????? ?? http://www.allbest.ru/
????????? ?? http://www.allbest.ru/
Точки роста статистических методов
Отечественная литература по прикладной статистике и другим статистическим методам столь же необозрима, как и мировая. Только в разделе «Математические методы исследования» журнала «Заводская лаборатория» с 1960-х годов опубликовано более 1000 статей.
Не будем даже пытаться перечислять здесь коллективы исследователей или основные монографии в этой области. История развития прикладной статистики и других статистических методов в нашей стране рассмотрена в работах [1 - 4].
Отметим только одно издание. По нашему мнению, наилучшей отечественной книгой ХХ века по прикладной статистике является сборник статистических таблиц Л.Н. Большева и Н.В. Смирнова [5] с подробными комментариями, играющими роль сжатого учебника и справочника.
В настоящей статье на основе новой парадигмы прикладной математической статистики [6, 7], анализа данных [8] и математических методов экономики [9] выделим и обсудим «точки роста» прикладной статистики и других статистических методов, те их направления, которые представляются перспективными в будущем, в следующие десятилетия XXI века, но пока в большинстве учебных изданий отодвинуты на задний план традиционными постановками.
При описании современного этапа развития статистических методов целесообразно выделить пять актуальных направлений, в которых развивается современная прикладная статистика, т.е. пять «точек роста»: непараметрика (т.е. непараметрическая статистика), робастность, компьютерно-статистические технологии (метод Монте-Карло, имитационное моделирование, автоматизированный системно-когнитивный анализ, бутстреп и др.), статистика интервальных данных, статистика нечисловых данных (в несколько иной терминологии - статистика объектов нечисловой природы). Обсудим их.
Непараметрическая статистика
В первой трети ХХ в., одновременно с параметрической статистикой Пирсона, Стьюдента и Фишера [1], в работах Спирмена и Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции, носящих ныне имена этих статистиков. Но непараметрика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики лишь со второй трети ХХ века. В 30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, предложивших и изучивших статистические критерии, носящие в настоящее время их имена [2, 4]. Эти критерии основаны на использовании так называемого эмпирического процесса. (Как известно, эмпирический процесс - это разность между эмпирической и теоретической функциями распределения, умноженная на квадратный корень из объема выборки.) В работе А.Н. Колмогорова 1933 г. изучено предельное распределение супремума модуля эмпирического процесса, называемого сейчас критерием Колмогорова. Затем Н.В. Смирнов исследовал супремум и инфимум эмпирического процесса, а также интеграл (по теоретической функции распределения) квадрата эмпирического процесса.
Следует отметить, что встречающееся иногда в литературе словосочетание «критерий Колмогорова - Смирнова» некорректно, поскольку эти два статистика никогда не печатались вместе и не изучали один и тот же критерий схожими методами. Корректно сочетание «критерий типа Колмогорова - Смирнова», применяемое для обозначения критериев, основанных на использовании супремума функций от эмпирического процесса [10, 11].
После второй мировой войны развитие непараметрической статистики пошло быстрыми темпами. Большую роль сыграли работы американского статистика Ф. Вилкоксона и его научной школы. К настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических. Однако для обеспечения широкого внедрения непараметрических методов необходимо провести еще целый комплекс теоретических и пилотных (т.е. пробных) прикладных работ. Все большую роль играют непараметрические оценки плотности [12], непараметрические методы регрессии [13] и распознавания образов (дискриминантного анализа) [14]. В нашей стране непараметрические методы получили достаточно большую известность после выхода в 1965 г. первого издания упомянутого выше сборника статистических таблиц Л.Н. Большева и Н.В. Смирнова [5], содержащего подробные таблицы для основных непараметрических критериев.
Тем не менее параметрические методы всё еще популярнее непараметрических, особенно среди тех прикладников, кто слабо знаком со статистическими методами. Неоднократно публиковались экспериментальные данные, свидетельствующие о том, что распределения реально наблюдаемых случайных величин, в частности, ошибок измерения, в подавляющем большинстве случаев отличны от нормальных, т.е. гауссовских (см., например, [15, 16]. Тем не менее, математики-теоретики продолжают строить и изучать статистические модели, основанные на гауссовости, а практики - применять подобные методы и модели. Другими словами, «ищут под фонарем, а не там, где потеряли».
Устойчивость статистических процедур (робастность)
Если в параметрических постановках на вероятностные модели статистических данных накладываются слишком жесткие требования - их функции распределения должны принадлежать определенному параметрическому семейству, то в непараметрических, наоборот, излишне слабые - обычно, требуется лишь, чтобы функции распределения были непрерывны. При этом игнорируется априорная информация о том, каков «примерный вид» распределения. Априори можно ожидать, что учет этого «примерного вида» улучшит показатели качества статистических процедур. Развитием этой идеи является теория устойчивости (робастности) статистических процедур, в которой предполагается, что распределение исходных данных мало отличается от некоторого параметрического семейства. За рубежом эту теорию разрабатывали П. Хубер, Ф. Хампель и многие другие. Из монографий на русском языке, трактующих о робастности и устойчивости статистических процедур, самой ранней и наиболее общей была книга [17], следующей - монография [18]. Частными случаями реализации идеи робастности (устойчивости) статистических процедур являются статистика объектов нечисловой природы и статистика интервальных данных.
Имеется большое разнообразие моделей робастности в зависимости от того, какие именно отклонения от заданного параметрического семейства допускаются (подробнее см. [19 - 21]). Среди теоретиков наиболее популярной оказалась модель выбросов, в которой исходная выборка «засоряется» малым числом «выбросов», имеющих принципиально иное распределение. Однако эта модель представляется «тупиковой», поскольку в большинстве случаев большие выбросы либо невозможны из-за ограниченности шкалы прибора либо интервала изменения измеряемой величины, либо от них можно избавиться, применяя лишь статистики, построенные по центральной части вариационного ряда. Кроме того, в подобных моделях обычно считается известной частота засорения, что в сочетании со сказанным выше делает их малопригодными для практического использования.
Более перспективным представляется, например, модель малых отклонений распределений, в которой расстояние между распределением каждого элемента выборки и базовым распределением не превосходит заданной малой величины, и модель статистики интервальных данных.
Компьютерно-статистические технологии
Если еще в 70-е годы ХХ в. основным содержанием математической статистики считались предельные теоремы (см., например, [22, с. 7 - 8]), то в настоящее время большую роль играют различные компьютерно-статистические технологии, основанные на методе статистических испытаний (Монте-Карло), имитационном моделировании, автоматизированном системно-когнитивном анализе (АСК-анализе), бутстрепе и др. Компьютерно-статистические технологии будут рассмотрены в отдельной публикации. Здесь скажем несколько слов об АСК-анализе и бутстрепе.
В предисловии к переводу на русский язык книги С. Кульбака «Теория информации и статистика» [23] А.Н. Колмогоров писал: «…навыки мысли и аналитический аппарат теории информации должны, по-видимому, привести к заметной перестройке здания математической статистики» (с. 5 - 6). Однако этого не произошло, поскольку поток исследований, имеющих целью указанную перестройку, в СССР и мире не возник. Работы Е.В. Луценко по разработке и применению автоматизированного системно-когнитивного анализа (см., например [24 - 27]) можно рассматривать как развитие указанного А.Н. Колмогоровым направления прикладной математической статистики, не столько в чисто-математическом плане, сколько в прагматически-прикладном. Реализуется рекомендация А.Н. Колмогорова: «По-видимому, внедрение предлагаемых методов в практическую статистику будет облегчено, если тот же материал будет изложен более доступно и проиллюстрирован на подробно разобранных содержательных примерах». Отметим оригинальность подхода и результатов Е.В. Луценко (по сравнению с книгой C. Кульбака), так что речь выше идет об идейных связях, а не о конкретике. Математический метод автоматизированного системно-когнитивного анализа (АСК-анализ) реализован в его программном инструментарии - универсальной когнитивной аналитической системе Эйдос-Х++. АСК-анализ основан на системной теории информации, которая создана в рамках реализации программной идеи обобщения всех понятий математики, в частности теории информации, базирующихся на теории множеств, путем тотальной замены понятия множества на более общее понятие системы и тщательного отслеживания всех последствий этой замены (см., например, [28]). Благодаря математическим основам АСК-анализа этот метод является непараметрическим и позволяет сопоставимо обрабатывать десятки и сотни тысяч градаций факторов и будущих состояний объекта управления (классов) при неполных (фрагментированных), зашумленных данных числовой и нечисловой природы, измеряемых в различных единицах измерения.
Другая из упомянутых выше технологий - бутстреп (размножение выборок) - связана с интенсивным использованием возможностей компьютеров. Основная идея состоит в том, чтобы теоретическое исследование заменить вычислительным экспериментом. Например, вместо описания выборки распределением из параметрического семейства строим большое число «похожих» выборок, т.е. «размножаем» выборку. Затем вместо оценивания характеристик (и параметров) и проверки гипотез на основе свойств теоретического распределения решаем эти задачи вычислительным методом, рассчитывая интересующие нас статистики по каждой из «похожих» выборок и анализируя полученные при этом распределения. Например, вместо того, чтобы теоретическим путем находить распределение статистики, доверительные интервалы и другие характеристики, моделируют большое число выборок, похожих на исходную, затем рассчитывают соответствующие значения интересующей исследователя статистики и изучают их эмпирическое распределение. Квантили этого распределения задают доверительные интервалы, и т.д.
Термин «бутстреп» мгновенно получил широкую известность после первой же статьи Б. Эфрона 1979 г. по этой тематике. Он сразу же стал обсуждаться в массе публикаций, в том числе и научно-популярных. В «Заводской лаборатории» №10 за 1987 г. была помещена подборка статей по бутстрепу. На русском языке выпущен сборник статей Б. Эфрона [29]. Основная идея бутстрепа по Б. Эфрону состоит в том, что методом Монте-Карло (статистических испытаний) многократно извлекаются выборки из эмпирического распределения. Эти выборки, естественно, являются вариантами исходной, напоминают ее.
Сама по себе идея «размножения выборок» была известна гораздо раньше. Одна из статей Б. Эфрона в сборнике [29] называется так: «Бутстреп-методы: новый взгляд на метод складного ножа». Упомянутый «метод складного ножа» (jackknife) предложен М. Кенуем еще в 1949 г., за 30 лет до появления статьи Б. Эфрона. «Размножение выборок» при этом осуществляется путем исключения одного наблюдения. Таким путем для выборки объема n получаем n «похожих» на нее выборок объема (n - 1) каждая. Если же исключать по 2 наблюдения, то число «похожих» выборок возрастает до n (n - 1)/2 объема (n - 2) каждая.
Преимущества и недостатки бутстрепа как статистического метода в сравнении с рядом аналогичных методов обсуждаются в [30]. Необходимо подчеркнуть, что бутстреп по Эфрону - лишь один из вариантов методов «размножения выборки» (resampling), и, на наш взгляд, не самый удачный. Метод «складного ножа» представляется более полезным. На его основе можно сформулировать следующую простую практическую рекомендацию.
Предположим, что Вы по выборке делаете какие-либо статистические выводы. Вы хотите узнать также, насколько эти выводы устойчивы. Если у Вас есть другие (контрольные) выборки, описывающие то же явление, то Вы можете применить к ним ту же статистическую процедуру и сравнить результаты. А если таких выборок нет? Тогда Вы можете их построить искусственно. Берете исходную выборку и исключаете один элемент. Получаете похожую выборку (она взята из того же распределения, только объем на единицу меньше). Затем возвращаете этот элемент выборки и исключаете другой. Получаете вторую похожую выборку. Поступая таким образом со всеми элементами исходной выборки, получаете столько выборок, похожих на исходную, каков ее объем. Остается обработать их тем же способом, что и исходную, и изучить устойчивость получаемых выводов - разброс оценок параметров, частоты принятия или отклонения гипотез и т.д.
Можно изменять не выборку, а сами данные. Поскольку всегда имеются погрешности измерения, то реальные данные - это не числа, а интервалы (результат измерения плюс-минус погрешность). Нужна статистическая теория анализа таких данных.
Статистика интервальных данных
Перспективное и быстро развивающееся направление последних десятилетий - статистика интервальных данных [31]. Речь идет о развитии методов прикладной математической статистики в ситуации, когда статистические данные - не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин.
Статистика интервальных данных идейно связана с интервальной математикой, в которой в роли чисел выступают интервалы. Это направление математики является дальнейшим развитием известных правил приближенных вычислений, посвященных выражению погрешностей суммы, разности, произведения, частного через погрешности тех чисел, над которыми осуществляются перечисленные операции. К настоящему времени удалось решить, в частности, ряд задач теории интервальных дифференциальных уравнений, в которых коэффициенты, начальные условия и решения описываются с помощью интервалов.
Одна из ведущих научных школ в области статистики интервальных данных - это школа проф. А.П. Вощинина, активно работающая с конца 70-х годов. В частности, ее представителями изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности.
Рассмотрим другое направление в статистике интервальных данных, которое также представляется перспективным. В нем развиваются асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. В частности, с помощью такой асимптотики в начале 1980-х годов были сформулированы правила выбора метода оценивания параметров гамма-распределения в ГОСТ 11.011-83 [32].
В рамках рассматриваемого научного направления разработана общая схема исследования, включающая расчет нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания). Она применена к оцениванию математического ожидания, дисперсии, коэффициента вариации, параметров гамма-распределения и характеристик аддитивных статистик, при проверке гипотез о параметрах нормального распределения, в том числе с помощью критерия Стьюдента, а также гипотезы однородности с помощью критерия Смирнова. Разработаны подходы к рассмотрению интервальных данных в основных постановках регрессионного, дискриминантного и кластерного анализов. В частности, изучено влияние погрешностей измерений и наблюдений на свойства алгоритмов регрессионного анализа, разработаны способы расчета нотн и рациональных объемов выборок, введены и исследованы новые понятия многомерных и асимптотических нотн, доказаны соответствующие предельные теоремы. Начата разработка интервального дискриминантного анализа, в частности, рассмотрено влияние интервальности данных на введенный в [33] показатель качества классификации. Изучено асимптотическое поведение оценок метода моментов и оценок максимального правдоподобия (а также более общих оценок минимального контраста), проведено асимптотическое сравнение этих методов в случае интервальных данных. Найдены общие условия, при которых, в отличие от классической математической статистики, метод моментов дает более точные оценки, чем метод максимального правдоподобия. Подробное изложение дано в [16, 28].
В области асимптотической статистики интервальных данных российская наука имеет мировой приоритет. Во все виды статистического программного обеспечения необходимо включать алгоритмы интервальной статистики, «параллельные» обычно используемым алгоритмам прикладной математической статистики. Это позволяет в явном виде учесть наличие погрешностей у результатов наблюдений.
Статистика объектов нечисловой природы как центральная часть прикладной статистики
Напомним, что согласно общепринятой в настоящее время классификации статистических методов [16] прикладная статистика делится на следующие четыре области:
статистика (числовых) случайных величин;
многомерный статистический анализ;
статистика временных рядов и случайных процессов;
статистика объектов нечисловой природы.
Первые три из этих областей являются классическими. Они были хорошо известны еще в первой половине ХХ в. Остановимся на четвертой, сравнительно недавно вошедшей в массовое сознание специалистов. Ее именуют также статистикой нечисловых данных или попросту нечисловой статистикой. Анализ динамики развития прикладной статистики приводит к выводу, что в XXI в. она станет центральной областью прикладной статистики, поскольку содержит наиболее общие подходы и результаты.
Исходный объект в прикладной математической статистике - это выборка. В вероятностной теории статистики выборка - это совокупность независимых одинаково распределенных случайных элементов. Какова природа этих элементов? В классической математической статистике элементы выборки - это числа. В многомерном статистическом анализе - вектора. А в нечисловой статистике элементы выборки - это объекты нечисловой природы, которые нельзя складывать и умножать на числа. Другими словами, объекты нечисловой природы лежат в пространствах, не имеющих векторной структуры. Примерами объектов нечисловой природы являются:
значения качественных признаков, т.е. результаты кодировки объектов с помощью заданного перечня категорий (градаций);
упорядочения (ранжировки) образцов продукции (при оценке её технического уровня и конкурентоспособности)) или заявок на проведение научных работ (при проведении конкурсов на выделение грантов), описывающие мнения экспертов;
классификации, т.е. разбиения совокупности объектов на группы сходных между собой (кластеры);
толерантности, т.е. бинарные отношения, описывающие сходство объектов между собой, например, сходство тематики научных работ, которое оценивается экспертами с целью рационального формирования экспертных советов внутри определенной области науки;
результаты парных сравнений или контроля качества продукции по альтернативному признаку («годен» - «брак»), т.е. последовательности из 0 и 1;
множества (обычные или нечеткие), например, зоны, пораженные коррозией; топокарты, полученные при кинетокардиографии; перечни возможных причин аварии, составленные экспертами независимо друг от друга; нечеткие экспертные оценки качества газовых плит;
слова, предложения, тексты;
вектора, координаты которых - совокупность значений разнотипных признаков, например, результат составления статистического отчета о научно-технической деятельности (т.н. форма №1-наука) или заполненная компьютеризированная история болезни, в которой часть признаков носит качественный характер, а часть - количественный;
ответы на вопросы экспертной, маркетинговой или социологической анкеты, часть из которых носит количественный характер (возможно, интервальный), часть сводится к выбору одной из нескольких подсказок, а часть представляет собой тексты;
графы, и т.д.
Интервальные данные также можно рассматривать как пример объектов нечисловой природы, а именно, как частный случай нечетких множеств.
С начала 70-х годов под влиянием запросов прикладных исследований в социально-экономических, технических, медицинских науках в России активно развивается статистика объектов нечисловой природы, известная также как статистика нечисловых данных или нечисловая статистика. В создании этой сравнительно новой области эконометрики и прикладной математической статистики приоритет принадлежит российским ученым.
Большую роль сыграл основанный в 1973 г. научный семинар «Экспертные оценки и анализ данных». В 1960-е годы советское научное сообщество стало интересоваться методами экспертных оценок (об их истории и современном состоянии см. [34, 35]). Как следствие, началось знакомство с конкретными математизированными теориями, связанными с этими методами. Речь идет о репрезентативной теории измерений, ставшей известной в нашей стране по статье П. Суппеса и Дж. Зинеса в сборнике [36] и книге И. Пфанцагля [37], о теории нечеткости, современный этап которой начался с работ Л.А. Заде [38], теории парных сравнений, описанной в монографии Г. Дэвида [39]. К этому кругу идей примыкают теория случайных множеств (см., например, книгу Ж. Матерона [40]) и методы многомерного шкалирования (описаны, в частности, в монографиях А.Ю. Терехиной [41] и В.Т. Перекреста [42]). Но наибольшее влияние оказали идеи американского исследователя проф. Дж. Кемени, который аксиоматически ввел расстояние между ранжировками (теперь оно именуется в литературе расстоянием Кемени) и предложил использовать в качестве средней величины решение оптимизационной задачи (теперь - медиана Кемени). Его скромная книжка [43], написанная в соавторстве с Дж. Снеллом, породила большой поток исследований.
В течение 1970-х годов на основе запросов теории экспертных оценок (а также социологии, экономики, техники и медицины) развивались конкретные направления статистики объектов нечисловой природы. Были установлены связи между конкретными видами таких объектов, разработаны для них вероятностные модели. Научные итоги этого периода подведены в монографиях [17, 44, 45].
Следующий этап - выделение статистики объектов нечисловой природы в качестве самостоятельного направления в прикладной статистике, ядром которого являются методы статистического анализа данных произвольной природы. Программа развития этого нового научного направления впервые была сформулирована в статье [46]. Реализация этой программы была осуществлена в 1980-е годы. Для работ этого периода характерна сосредоточенность на внутренних проблемах нечисловой статистики. Ссылки на конкретные монографии, сборники, статьи и иные публикации нескольких десятков авторов приведены в [47, 48]. Отметим лишь сборник научных статей [49], полностью посвященный нечисловой статистике.
К началу 1990-х годов статистика объектов нечисловой природы с теоретической точки зрения была достаточно хорошо развита, основные идеи, подходы и методы были разработаны и изучены математически, в частности, доказано достаточно много теорем. Однако она оставалась недостаточно апробированной на практике. И в 1990-е годы наступило время от теоретических математико-статистических исследований перейти к применению полученных результатов при решении конкретных задач в различных областях науки и практики. В конце ХХ в. и начале XXI в. началось преподавание статистики объектов нечисловой природы, в частности, в учебных курсах «Прикладная статистика», «Эконометрика», «Организационно-экономическое моделирование», «Принятие решений» и др.
Важно отметить, что в статистике нечисловых данных, как и в других областях прикладной статистики и прикладной математики вообще, одна и та же математическая схема может с успехом применяться при решении различных задач анализа конкретных данных. В технических исследованиях, и в менеджменте, и в экономике, и в геологии, и в медицине, и в социологии, и для анализа экспертных оценок, и во многих иных областях. А потому ее лучше всего формулировать и изучать в наиболее общем виде, для объектов произвольной природы.
Основные идеи статистики объектов нечисловой природы
В чем принципиальная новизна нечисловой статистики? Для классической математической статистики характерна операция сложения. При расчете выборочных характеристик распределения (выборочное среднее арифметическое, выборочная дисперсия и др.), в регрессионном анализе и других областях этой научной дисциплины постоянно используются суммы. Математический аппарат - законы больших чисел, Центральная предельная теорема и другие теоремы - нацелены на изучение сумм. В нечисловой же статистике нельзя использовать операцию сложения, поскольку элементы выборки лежат в пространствах, где нет операции сложения. Методы обработки нечисловых данных основаны на принципиально ином математическом аппарате - на применении различных расстояний в пространствах объектов нечисловой природы.
Кратко рассмотрим несколько идей, развиваемых в статистике объектов нечисловой природы для данных, лежащих в пространствах произвольного вида. Решаются классические задачи описания данных, оценивания, проверки гипотез - но для неклассических данных, а потому неклассическими методами.
Первой обсудим проблему определения средних величин. В рамках репрезентативной теории измерений удается указать вид средних величин, соответствующих тем или иным шкалам измерения. В классической математической статистике эмпирические и теоретические средние величины вводят с помощью операций сложения (выборочное среднее арифметическое, математическое ожидание) или упорядочения (выборочная и теоретическая медианы). В пространствах произвольной природы средние значения нельзя определить с помощью операций сложения или упорядочения. Теоретические и эмпирические средние приходится вводить как решения экстремальных задач. Для теоретического среднего это - задача минимизации математического ожидания (в классическом смысле) расстояния от случайного элемента со значениями в рассматриваемом пространстве до фиксированной точки этого пространства (минимизируется указанная функция от этой точки). Для эмпирического среднего математическое ожидание берется по эмпирическому распределению, т.е. берется сумма расстояний от некоторой точки до элементов выборки и затем минимизируется по этой точке. При этом как эмпирическое, так и теоретическое средние как решения экстремальных задач могут быть не единственными элементами пространства, а описываться множествами таких элементов, которые могут оказаться и пустыми. Несмотря на возможность неоднозначности или пустоты решений экстремальных задач, удалось сформулировать и доказать законы больших чисел для средних величин, определенных указанным образом, т.е. установить сходимость эмпирических средних к теоретическим.
Хорошая теория дает больше того, что от нее вначале ожидалось. Удалось установить, что методы доказательства законов больших чисел допускают существенно более широкую область применения, чем та, для которой они были разработаны. А именно, с помощью этих методов удалось изучить асимптотику решений экстремальных статистических задач, к которым, как известно, сводится большинство постановок прикладной статистики. В частности, кроме законов больших чисел установлена и состоятельность оценок минимального контраста, в том числе оценок максимального правдоподобия и робастных оценок. К настоящему времени подобные оценки изучены также и в интервальной статистике.
В статистике в пространствах произвольной природы большую роль играют непараметрические оценки плотности, используемые, в частности, в различных алгоритмах регрессионного, дискриминантного, кластерного анализов. В нечисловой статистике предложен и изучен ряд типов непараметрических оценок плотности в пространствах произвольной природы, в частности, доказана их состоятельность, изучена скорость сходимости и установлен примечательный факт совпадения наилучшей скорости сходимости в произвольном случае с той, которая имеет быть в классической математико-статистической теории для числовых случайных величин.
Дискриминантный, кластерный, регрессионный анализы в пространствах произвольной природы основаны либо на параметрической теории - и тогда применяется подход, связанный с асимптотикой решения экстремальных статистических задач-либо на непараметрической теории - и тогда используются алгоритмы на основе непараметрических оценок плотности.
Для проверки гипотез могут быть использованы статистики интегрального типа, в частности, типа омега-квадрат. Любопытно, что предельная теория таких статистик, построенная первоначально в классической постановке [50] для конечномерного пространства, приобрела естественный (завершенный, изящный) вид именно для пространств произвольного вида [51, 52], поскольку при этом удалось провести рассуждения, опираясь на базовые математические соотношения, а не на те частные (с общей точки зрения), что были связаны с конечномерным пространством.
Представляют практический интерес результаты, связанные с конкретными областями статистики нечисловых данных. В частности, со статистикой нечетких и случайных множеств (напомним, что теория нечетких множеств в определенном смысле сводится к теории случайных множеств), с непараметрической теорией парных сравнений, с аксиоматическим введением метрик в конкретных пространствах объектов нечисловой природы, и с рядом других конкретных постановок.
Для анализа нечисловых, в частности, экспертных данных весьма важны методы классификации. С другой стороны, наиболее естественно ставить и решать задачи классификации, основанные на использовании расстояний или показателей различия, в рамках статистики нечисловых данных. Это касается как распознавания образов с учителем (другими словами, дискриминантного анализа), так и распознавания образов без учителя (т.е. кластерного анализа).
Статистические методы анализа нечисловых данных особенно хорошо приспособлены для применения в экономике, социологии и экспертных оценках, поскольку в этих областях от 50% до 90% данных являются нечисловыми [47].
Итак, статистика нечисловых данных является центром прикладной статистики. А ее теоретическая основа - статистика в пространствах произвольной природы - является стержнем математической статистики.
Другие точки роста
Выше рассмотрены пять «точек роста» прикладной статистики и других статистических методов. Разумеется, они не исчерпывают все многообразие фронта научных исследований в рассматриваемых областях. Кроме того, мы почти не затронули разнообразные применения статистических методов в конкретных прикладных исследованиях и разработках. Много интересных проблем есть в планировании экспериментов, особенно кинетических (см., например, [53]), при анализе проблем надежности, в новых статистических методах управления качеством продукции [54], при анализе рисков [55], в вопросах экологии и промышленной безопасности [56] и др.
Необходимо отметить, что в течение последних более чем 60 лет в России наблюдается огромный разрыв между государственной статистикой и научным сообществом специалистов по статистическим методам (подробнее об этом см. статью [57]). Так, в учебнике по истории статистики [58] даже не упоминаются имена членов-корреспондентов АН СССР Н.В. Смирнова и Л.Н. Большева! А ведь они - единственные представители именно математической статистики как таковой в Академии наук в ХХ в. (еще ряд членов отечественной Академии наук имели математическую статистику среди своих интересов, но Н.В. Смирнов и Л.Н. Большев занимались практически только ею).
Литература
статистика интервальный нечисловой непараметрический
1. Орлов А.И. Основные этапы становления статистических методов / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №03 (097). С. 1209-1233. - IDA [article ID]: 0971403086. - Режим доступа: http://ej.kubagro.ru/2014/03/pdf/86.pdf
2. Орлов А.И. Вероятностно-статистические методы в работах А.Н. Колмогорова / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №04 (098). С. 158 - 180. - IDA [article ID]: 0981404011. - Режим доступа: http://ej.kubagro.ru/2014/04/pdf/11.pdf
3. Орлов А.И. Вероятностно-статистические методы в работах Б.В. Гнеденко / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №06 (100). С. 31 - 52. - IDA [article ID]: 1001406002. - Режим доступа: http://ej.kubagro.ru/2014/06/pdf/02.pdf
4. Орлов А.И. Непараметрическая и прикладная статистика в нашей стране / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №07 (101). С. 197 - 226. - IDA [article ID]: 1011407012. - Режим доступа: http://ej.kubagro.ru/2014/07/pdf/12.pdf
5. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.). - 474 с.
6. Орлов А.И. Новая парадигма прикладной статистики // Заводская лаборатория. Диагностика материалов. 2012. Том 78. №1, часть I. С. 87-93.
7. Орлов А.И. Основные черты новой парадигмы математической статистики / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №06 (090). С. 187 - 213. - IDA [article ID]: 0901306013. - Режим доступа: http://ej.kubagro.ru/2013/06/pdf/13.pdf
8. Орлов А.И. Новая парадигма анализа статистических и экспертных данных в задачах экономики и управления / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №04 (098). С. 105 - 125. - IDA [article ID]: 0981404008. - Режим доступа: http://ej.kubagro.ru/2014/04/pdf/08.pdf
9. Орлов А.И. Новая парадигма математических методов экономики // Экономический анализ: теория и практика. - 2013. - №36 (339). - С. 25-30.
10. Орлов А.И. О критериях Колмогорова и Смирнова // Заводская лаборатория. Диагностика материалов. 1995. Т.61. №7. С. 59-61.
11. Орлов А.И. Непараметрические критерии согласия Колмогорова, Смирнова, Омега-квадрат и ошибки при их применении / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №03 (097). С. 647 - 675. - IDA [article ID]: 0971403047. - Режим доступа: http://ej.kubagro.ru/2014/03/pdf/47.pdf
12. Орлов А.И. Оценки плотности распределения вероятностей в пространствах произвольной природы / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №05 (099). С. 33 - 49. - IDA [article ID]: 0991405003. - Режим доступа: http://ej.kubagro.ru/2014/05/pdf/03.pdf
13. Орлов А.И. Восстановление зависимости методом наименьших квадратов на основе непараметрической модели с периодической составляющей / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №07 (091). С. 189 - 218. - IDA [article ID]: 0911307013. - Режим доступа: http://ej.kubagro.ru/2013/07/pdf/13.pdf
14. Орлов А.И. Математические методы теории классификации / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №01 (095). С. 423 - 459. - IDA [article ID]: 0951401023. - Режим доступа: http://ej.kubagro.ru/2014/01/pdf/23.pdf
15. Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. Диагностика материалов. 1991 Т.57. №7 С. 64-66.
16. Орлов А.И. Прикладная статистика. - М.: Экзамен, 2006. - 576 с.
17. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.
18. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания: Статистическая обработка неоднородных совокупностей. - М;: Статистика, 1980. - 208 с.
19. Орлов А.И. Устойчивые математические методы и модели // Заводская лаборатория. Диагностика материалов. 2010. Т.76. №3. С. 59-67.
20. Орлов А.И. Устойчивые экономико-математические методы и модели. Разработка и развитие устойчивых экономико-математических методов и моделей для модернизации управления предприятиями. - Saarbrьcken (Germany), LAP (Lambert Academic Publishing), 2011. - 436 с.
21. Орлов А.И. Новый подход к изучению устойчивости выводов в математических моделях / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №06 (100). С. 1 - 30. - IDA [article ID]: 1001406001. - Режим доступа: http://ej.kubagro.ru/2014/06/pdf/01.pdf
22. Ибрагимов И.А., Хасьминский Р.З. Асимптотическая теория оценивания. - М.: Наука, 1979. - 528 с.
23. Кульбак С. Теория информации и статистика. - M.: Наука, 1967. - 408 с.
24. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). - Краснодар: КубГАУ. 2002. - 605 с.
25. Луценко Е.В. Метризация измерительных шкал различных типов и совместная сопоставимая количественная обработка разнородных факторов в системно-когнитивном анализе и системе «Эйдос» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №08 (092). С. 859 - 883. - IDA [article ID]: 0921308058. - Режим доступа: http://ej.kubagro.ru/2013/08/pdf/58.pdf, 1,562 у.п.л.
26. Луценко Е.В. Теоретические основы, технология и инструментарий автоматизированного системно-когнитивного анализа и возможности его применения для сопоставимой оценки эффективности вузов / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №04 (088). С. 340 - 359. - IDA [article ID]: 0881304022. - Режим доступа: http://ej.kubagro.ru/2013/04/pdf/22.pdf, 1,25 у.п.л.
27. Луценко Е.В. Системно-когнитивный анализ и система «Эйдос» и их применение для построения интеллектуальных измерительных систем // Заводская лаборатория. Диагностика материалов. 2014. Т.80. №5. С. 64-74.
28. Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с.
29. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. - М.: Финансы и статистика, 1988. - 263 с.
30. Орлов А.И. О реальных возможностях бутстрепа как статистического метода // Заводская лаборатория. 1987. Т.53. №10. С. 82-85.
31. Орлов А.И. Основные идеи статистики интервальных данных / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №10 (094). С. 867 - 892. - IDA [article ID]: 0941310060. - Режим доступа: http://ej.kubagro.ru/2013/10/pdf/60.pdf
32. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов. 1984. - 53 с.
33. Орлов А.И. Прогностическая сила - наилучший показатель качества алгоритма диагностики / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №05 (099). С. 15 - 32. - IDA [article ID]: 0991405002. - Режим доступа: http://ej.kubagro.ru/2014/05/pdf/02.pdf
34. Орлов А.И. Организационно-экономическое моделирование: учебник: в 3 ч. Ч. 2. Экспертные оценки. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2011. - 486 с.
35. Орлов А.И. Теория экспертных оценок в нашей стране / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №09 (093). С. 1652-1683. - IDA [article ID]: 0931309114. - Режим доступа: http://ej.kubagro.ru/2013/09/pdf/114.pdf
36. Суппес П., Зинес Дж. Основы теории измерений. - В сб.: Психологические измерения. - М: Мир, 1967. С. 9 - 110.
37. Пфанцагль И. Теория измерений. - М.: Мир, 1976. - 166 с.
38. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. - М.: Мир, 1976. - 168 с.
39. Дэвид Г. Метод парных сравнений. - М.: Статистика, 1978. - 144 с.
40. Матерон Ж. Случайные множества и интегральная геометрия. - М.: Мир, 1978. - 318 с.
41. Терехина А.Ю. Анализ данных методами многомерного шкалирования. - М.: Наука, 1986. - 168 с.
42. Перекрест В.Т. Нелинейный типологический анализ социально-экономической информации: Математические и вычислительные методы. - Л.: Наука, 1983. - 176 с.
43. Кемени Дж., Снелл Дж. Кибернетическое моделирование: Некоторые приложения. - М.: Советское радио, 1972. - 192 с.
44. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации. - М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1981. - 80 с.
45. Литвак Б.Г. Экспертная информация: Методы получения и анализа. - М.: Радио и связь, 1982. - 184 с.
46. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки // Экспертные оценки. Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме «Кибернетика», 1979. С. 17-33.
47. Орлов А.И. Организационно-экономическое моделирование: учебник: в 3 ч. Часть 1: Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана. - 2009. - 541 с.
48. Орлов А.И. О развитии статистики объектов нечисловой природы / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №09 (093). С. 273 - 309. - IDA [article ID]: 0931309019. - Режим доступа: http://ej.kubagro.ru/2013/09/pdf/19.pdf
49. Анализ нечисловой информации в социологических исследованиях. / Под ред. В.Г. Андреенкова, А.И. Орлова, Ю.Н. Толстовой. - М.: Наука, 1985. - 220 с.
50. Орлов А.И. Асимптотическое поведение статистик интегрального типа. // Доклады АН СССР. 1974. Т.219. №4. С. 808 - 811.
51. Орлов А.И. Асимптотическое поведение статистик интегрального типа // Вероятностные процессы и их приложения. Межвузовский сборник. - М.: МИЭМ, 1989. - С. 118 - 123.
52. Орлов А.И. Предельная теория непараметрических статистик / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №06 (100). С. 226 - 244. - IDA [article ID]: 1001406011. - Режим доступа: http://ej.kubagro.ru/2014/06/pdf/11.pdf
53. Горский В.Г. Современные статистические методы обработки и планирования экспериментов в химической технологии. // Инженерно-химическая наука для передовых технологий. Международная школа повышения квалификации Труды третьей сессии. 26-30 мая 1997, Казань, Россия / Под ред. В.А. Махлина. - М.: Научно-исследовательский физико-химический институт им. Карпова, 1997. - С. 261 - 293.
54. Орлов А.И. Эконометрика. Учебник для вузов. Изд. 3-е, исправленное и дополненное. - М.: Изд-во «Экзамен», 2004. - 576 с.
55. Орлов А.И. Современное состояние контроллинга рисков / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №04 (098). С. 32 - 64. - IDA [article ID]: 0981404003. - Режим доступа: http://ej.kubagro.ru/2014/04/pdf/03.pdf
56. Орлов А.И. Проблемы управления экологической безопасностью. Итоги двадцати лет научных исследований и преподавания. - Saarbrьcken: Palmarium Academic Publishing. 2012. - 344 с.
57. Орлов А.И. О перестройке статистической науки и её применений // Вестник статистики. 1990. №1. С. 65 - 71.
58. Плошко Б.Г., Елисеева И.И. История статистики: Учебное пособие. - М.: Финансы и статистика. 1990. - 295 с.
Размещено на Allbest.ru
...Подобные документы
Предмет и метод статистики. Сводка и группировка статистических данных. Функции статистических показателей. Статистические ряды, вариация и дисперсия. Преимущества выборочного наблюдения. Методы анализа корреляционных связей, экономические индексы.
методичка [371,4 K], добавлен 15.01.2010Целостная система научных дисциплин: общая теория статистики, социально-экономическая статистика, математическая статистика и теория вероятности, международная и отраслевая статистика. Формы, виды, способы наблюдения. Процесс статистического исследования.
эссе [18,7 K], добавлен 17.10.2014Предмет, методы и задачи социально-экономической статистики. Показатели численности персонала предприятия. Использование рабочего времени. Статистика оплаты труда и затрат на рабочую силу. Статистика национального богатства и демографическая статистика.
курс лекций [231,3 K], добавлен 06.02.2012Общая характеристика курса социально-экономическая статистика. Статистика населения. Статистика рынка труда. Система национальных счетов. Валовой внутренний продукт. Межотраслевой баланс. Национального богатство. Статистика основных фондов.
курс лекций [144,3 K], добавлен 02.04.2007Проведение статистической обработки данных по заданной выборке. Вычисление основных выборочных характеристик. Результаты вычисления интервальных оценок для математического ожидания и дисперсии. Статистический анализ оборачиваемости денежной массы.
курсовая работа [2,4 M], добавлен 22.12.2010Применение различных способов представления и обработки статистических данных. Пространственные статистические выборки. Парная регрессия и корреляция. Временные ряды. Построение тренда. Практические примеры и методика их решения, формулы и их значение.
курс лекций [6,9 M], добавлен 26.02.2009Фонд оплаты труда и его состав, расчет среднего заработка и анализ использования фонда заработной платы. Статистика себестоимости промышленной продукции, ее задачи, поэлементная и калькуляционная классификация. Статистика основных фондов и их оценка.
реферат [130,4 K], добавлен 21.06.2010Формы, виды и способы статистического наблюдения. Применение индексов в экономике. Статистика численности и состава населения. Статистика естественного движения и статистика миграции населения. Применение методов измерения уровня концентрации в экономике.
курс лекций [640,3 K], добавлен 06.04.2011Статистика занятости и безработицы. Определение численности и состава занятых лиц. Выборочное наблюдение, сводка и группировка, ряд распределения. Характеристика статистических показателей. Расчет средних величин и показателей вариации, ошибок выборки.
курсовая работа [180,5 K], добавлен 10.08.2009История возникновения и развития статистики. Предмет, основные понятия и категории статистики. Методы сбора, обобщения и анализа статистических данных. Экономическая статистика и ее отрасли. Современная организация статистики в Российской Федерации.
лекция [16,5 K], добавлен 02.05.2012Статистика товаров и услуг, оптового, розничного, валового и чистого товарооборота. Статистика издержек производства и обращения, результатов финансовой деятельности предприятий, внешнеэкономических связей, уровня жизни населения и денежных сбережений.
реферат [24,2 K], добавлен 03.02.2010Статистика и статистическая закономерность. Структура органов государственной статистики. Обработка статистических данных и анализ результатов для получения обоснованных выводов. Понятие метода основного массива. Относительные и абсолютные показатели.
контрольная работа [203,8 K], добавлен 06.06.2011Понятие качества продукции и проблема его измерения. Категории численности работников. Факторы роста объема продукции. Статистика производства, оплаты труда, основных фондов, оборудования, себестоимости. Основные показатели произведенной продукции.
учебное пособие [278,9 K], добавлен 28.03.2012Цель и задачи статистики капитального строительства. Формы статистического наблюдения. Виды индексов, характеризующих физический объем капитальных вложений. Статистика инвестиций и продукции строительства. Статистика трудовых ресурсов и оплаты труда.
книга [1,2 M], добавлен 21.06.2010Статистика населения: определение числа предстоящих человеко-лет жизни для разных возрастов. Расчет естественного, общего прироста трудоспособного населения. Статистика основных фондов: определение их полной и средней стоимости на начало и конец года.
контрольная работа [56,8 K], добавлен 24.10.2011История развития статистики в России. Деятельность видных ученых в развитии статистики как науки. Основные задачи статистики. Общая теория статистики, экономическая статистика, социальная статистика. Отраслевая статистика.
реферат [23,9 K], добавлен 12.12.2006Предмет статистики. Метод статистики. Расчёт показателей вариации. Ряды динамики. Выборочное наблюдение. Для общеэкономических специальностей, статистика является основой для разработки и совершенствования методов экономического анализа.
курсовая работа [134,4 K], добавлен 21.10.2004Статистика підприємства. Теорія статистики. Економічна статистика. Соціальна статистика. Галузеві статистики (промислова, фінансова, соціальної інфраструктури). Заробітна плата. Тарифний, годинний, денний і місячний фонд заробітної плати робітників.
курсовая работа [216,3 K], добавлен 17.11.2008Дескриптивная статистика и статистический вывод. Способы отбора, обеспечивающие репрезентативность выборки. Влияние вида выборки на величину ошибки. Задачи при применении выборочного метода. Распространение данных наблюдения на генеральную совокупность.
контрольная работа [289,3 K], добавлен 27.02.2011Основные категории и понятия теории статистики. Ряды динамики и их применение в анализе социально-экономических явлений. Сводка и группировка статистических данных. Общая характеристика системы национальных счетов. Статистика рынка товаров и услуг.
курс лекций [68,4 K], добавлен 08.08.2009