Оценивание размерности вероятностно-статистической модели

Асимптотическое поведение ряда оценок степени полинома при восстановлении зависимости. Оценки размерности и структуры модели в регрессии; числа элементов смеси в задачах классификации. Размерность модели в факторном анализе и многомерном шкалировании.

Рубрика Экономико-математическое моделирование
Вид статья
Язык русский
Дата добавления 16.01.2021
Размер файла 159,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Оценивание размерности вероятностно-статистической модели

Орлов Александр Иванович, д.э.н., д.т.н., к.ф.-м.н., профессор Московский государственный технический университет им. Н.Э. Баумана

Вероятностно-статистические модели данных - основа методов прикладной статистики. При анализе статистически данных часто необходимо оценивать две составляющие вероятностно-статистических моделей - структуру моделей и их параметры. Методы расчета состоятельных оценок параметров хорошо известны (например, применяют методы одношаговых оценок, которые пришли на смену методам максимального правдоподобия). Структура модели обычно выбирается исследователем (можно сказать, что используются экспертные методы).

Некоторые параметры структуры можно оценивать с помощью математико-статистических методов. Например, степень многочлена в регрессионной зависимости или число слагаемых в модели смеси распределений, используемой для классификации. Для подобных параметров модели используется общий термин - размерность вероятностно-статистической модели. Более общая составляющая модели - информативное подмножество признаков. В настоящей статье рассмотрено асимптотическое поведение оценок размерностей ряда моделей. Изучено асимптотическое поведение ряда оценок степени полинома при восстановлении зависимости.

Получены состоятельные оценки размерности и структуры модели в регрессии. Рассмотрены подходы к оцениванию числа элементов смеси в задачах классификации. Обсуждаются оценки размерности модели в факторном анализе и многомерном шкалировании. С целью обоснования последовательного выполнения этапов статистического анализа данных анализируются проблемы "стыковки" алгоритмов классификации и регрессии. Полезными оказываются оптимизационные формулировки ряда задач прикладной статистики. Основные результаты касаются состоятельности оценок. Краткие формулировки ряда теорем содержатся в ранее вышедших публикациях.

Проблема оценивания размерности вероятностно-статистической модели как самостоятельное направление прикладной статистики впервые рассмотрена здесь. Впервые публикуются доказательства включенных в настоящую статью теорем. Эти теоремы и подробные доказательства и являются основными научными результатами работы.

Ключевые слова: прикладная статистика, анализ данных, оценивание, состоятельность, оптимизация, регрессионный анализ, методы классификации, многомерное шкалирование.

Estimation of the dimension of the probability-statistical model

Orlov Alexander Ivanovich, Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci., professor Bauman Moscow State Technical University

Probabilistic-statistical data models are the basis of applied statistics methods. When analyzing statistical data, it is often necessary to estimate two components of probabilistic-statistical models - the structure of the models and their parameters. Methods for calculating consistent parameter estimates are well known (for example, the one-step estimation methods are used, which replaced the maximum likelihood methods). The structure of the model is usually chosen by the researcher (we can say that expert methods are used). Some structural parameters can be estimated using mathematical-statistical methods. For example, the degree of a polynomial in the regression relationship or the number of terms in a mixture model used for classification. For such parameters of the model, a general term is used - the dimension of the probabilistic-statistical model. A more general component of the model is an informative sign subset. In this article, we consider the asymptotic behavior of the dimension estimates for a number of models. The asymptotic behavior of a number of estimates for the degree of a polynomial is studied when restoring the dependence. Consistent estimates of the dimension and structure of the model in regression are obtained.

Approaches to estimating the number of elements in a mixture in classification problems are considered. Estimates of the model dimension in factor analysis and multivariate scaling are discussed. In order to substantiate the sequential execution of the stages of statistical data analysis, the problems of "docking" of classification and regression algorithms are analyzed. Optimization formulations of a number of problems in applied statistics turn out to be useful. The main results relate to the consistency of the estimates. Brief formulations of a number of theorems are contained in earlier publications. The problem of estimating the dimension of a probabilistic-statistical model as an independent direction of applied statistics was first considered here. For the first time, the proofs of the theorems included in this article are published. These theorems and detailed proofs are the main scientific results of article.

Keywords: applied statistics, data analysis, estimation, consistency, optimization, regression analysis, classification methods, multi-dimensional scaling.

Введение

По статистическим данным необходимо оценивать две составляющие вероятностно-статистических моделей - структуру моделей и параметры. Методы расчета состоятельных оценок параметров хорошо известны (например, применяют метод одношаговых оценок, который пришел на смену методу максимального правдоподобия). Структура модели обычно выбирается исследователем (можно сказать, что используются экспертные методы). Некоторые параметры структуры можно оценивать с помощью математико-статистических методов. Например, степень многочлена в регрессионной зависимости или число слагаемых в модели смеси распределений, используемой для классификации. Для подобных параметров модели используется общий термин - размерность вероятностно-статистической модели. Более общая составляющая модели - информативное подмножество признаков. В настоящей статье рассмотрено асимптотическом поведении оценок размерностей ряда моделей. Изучено асимптотическое поведение ряда оценок степени полинома при восстановлении зависимости.

Получены состоятельные оценки размерности и структуры модели в регрессии. Рассмотрены подходы к оцениванию числа элементов смеси в задачах классификации. Обсуждаются оценки размерности модели в факторном анализе и многомерном шкалировании. С целью обоснования последовательного выполнения этапов статистического анализа данных анализируются проблемы "стыковки" алгоритмов классификации и регрессии. Полезными оказываются оптимизационные формулировки ряда задач прикладной статистики. Основные результаты касаются состоятельности оценок. Краткие формулировки ряда теорем содержатся в ранее вышедших публикациях.

Проблема оценивания размерности вероятностно-статистической модели как самостоятельное направление прикладной статистики впервые рассмотрена здесь. Впервые публикуются доказательства включенных в настоящую статью теорем. Эти доказательства и являются основными научными результатами работы.

асимптотический поведение регрессия размерность

1. Асимптотическое поведение ряда оценок степени полинома в регрессии

Во многих прикладных задачах требуется установить зависимость переменной y от переменных x1, x2, ..., xm. Простейшая вероятностно-статистическая модель имеет вид

, (1)

где aj - коэффициенты линейной регрессии, j = 1, 2, ..., m, а - остаточный член, рассматриваемый обычно как погрешность измерения или результат влияния неучтенных факторов.

Исходные данные для определения (т.е. оценивания) коэффициентов регрессии имеют вид

(yi, x1i, x2i, ..., xmi), i = 1, 2, ..., n, (2)

Рассмотрим модель с детерминированными xji, j = 1, 2, ..., m, i = 1, 2, ..., n. В классической вероятностно-статистической модели предполагается, что

, (3)

где , - независимые нормальные случайные величины с нулевым математическим ожиданием и дисперсией . Модель (3) обычно записывают в матричной форме:

, (4)

где Y = (y1, y2, ..., yn)T - вектор значений зависимой переменной, a = (a1, a2, ..., am) - вектор неизвестных коэффициентов, X = ||xji|| - матрица значений независимых переменных, называемая также матрицей плана (в терминах теории планирования экспериментов), - вектор погрешностей, T - символ транспонирования.

Литература по регрессионному анализу практически необозрима (миллионы названий статей и книг). В частности, многообразие моделей регрессионного анализа обсуждается в [1, 2]. Классическая теория изложена в [3, 4]. Неклассический подход развит в [5]. Вычислительные вопросы рассмотрены в [6]. Оптимальный выбор матрицы плана - предмет теории планирования эксперимента [7]. Ряд ссылок будет дан ниже.

Для модели (3) - (4) теория хорошо развита. Параметры оценивают методом наименьших квадратов, проверяют различные гипотезы. Однако в практических исследованиях часто возникает необходимость выделения "информативного подмножества признаков (независимых переменных)". При этом вместо (3) предполагается справедливой модель

(5)

где J - подмножество множества {1, 2, ..., m}. Например, если модель (3) используется для управления технологическим процессом или для иного массового применения, то сокращение числа независимых переменных приносит ощутимый экономический эффект от сокращения числа измерений. В научных исследованиях выделение "информативного подмножества признаков" позволяет установить основные факторы, влияющие на изучаемое явление или процесс, и т.д. В дискуссии по прикладной статистике, проведенной во время IV международной вильнюсской конференции по теории вероятностей и математической статистике (Вильнюс, 1985 г.) именно проблема выделения ""информативного подмножества признаков" J была признана наиболее актуальной.

Возникает задача построения состоятельной оценки Jn множества J, т.е. оценки, удовлетворяющей соотношению

, (6)

где Card (A) - число элементов конечного множества A.

Разработано большое число методов выделения информативного подмножества признаков (см., например, [8, гл.12], [9, гл.6]). Однако они обычно излагаются как эвристические, свойства их не изучены, неизвестно даже, справедливо ли свойство состоятельности (6). А если оно не выполнено, то, вообще говоря, нельзя гарантировать, что линия регрессии оценивается состоятельно. В рамках статистики нечисловых данных может быть получено (6) на основе общих результатов для решений экстремальных статистических задач [10, 11].

Хорошо известно, распределения реальных данных, как правило, не является нормальным [12, 13]. Однако математический аппарат в случае нормальности зачастую является более простым. Это связано с тем, что глубоко развита теория квадратичных форм в евклидовом пространстве (квадратичные формы стоят в степени экспоненты, описывающей плотность многомерного распределения). Поэтому для первоначального теоретического изучения считаем возможным использовать основанные на нормальности частные случаи регрессионных моделей.

В ряде случаев представляется естественным рассмотреть последовательность моделей вида (1) - (4).Например, изучается зависимость y от t. Естественно попытаться приблизить зависимость сначала константой, при недостаточной точности такого приближения попробовать использовать линейную функцию, при неудаче - квадратическую, затем, если необходимо, - параболу третьего порядка, и т.д. [14]. Приближение y с помощью полинома порядка m - 1 описывается с помощью модели (1) - (4), если положить

x1 = 1, x2 = t, x3 = t2, ..., xm = tm-1. (7)

В связи с (7) подчеркнем, что xj в модели (1) - (4) не обязательно являются результатами прямых измерений. Более важным является случай, когда xj = fj(x), j = 1, 2, ..., где x - исходные переменные, fj(x) - некоторые функции. (Модель (1) - (4) - частный случай такой формулировки, когда x = (x1, x2, ..., xm) и fj(x) = xj, j = 1, 2, ..., m. При этом x может иметь произвольную природу, в частности, быть объектом нечисловой природы.

В постановке (7) естественно считать, что модель (1) - (4) имеет место при некотором m = m0, и искать это m0, увеличивая m на 1, пока модель не будет адекватно описывать данные (подробнее см. ниже).Если априори задано достаточное (наверняка) число переменных M, то информативное подмножество признаков J естественно искать не среди всех подмножеств множества {1, 2, ..., M}, а среди подмножеств J(m) = {1, 2, ..., m}, образующих расширяющуюся систему подмножеств , m = 1, 2, .... Этим постановка (7) отличается от общей постановки (5). Другими словами, в случае (7) структуру модели задает не подмножество J, а натуральное число m0, которое в соответствии с [15] называем размерностью модели.

Рассмотрим два метода, используемых прикладниками [9, 14, 16, 17] для оценки размерности модели m0. Они основаны на применении "кажущейся ошибки", т.е. величины

, (8)

где yim - сглаженные по методу наименьших квадратов значения зависимой переменной, полученные при принятии модели (7) с данным m.

Первый метод состоит в том, что в качестве оценки размерности модели, т.е. необходимого числа базисных функций, берут первый локальный минимум "кажущейся ошибки", т.е.

. (9)

Второй метод основан на проверке адекватности модели (3). При этом начинают с m =1 и увеличивают на 1 число параметров только в случае неадекватности, т.е. отклонения гипотезы о том, что данные (2) описываются моделью (3) при используемом m ( в постановке (7) при этом увеличивается число используемых базисных функций fj, т.е. степень полинома, но не число исходных независимых переменных). При известной дисперсии для проверки указанной гипотезы можно воспользоваться тем, что имеет распределение . Если неизвестно, то применяют известный критерий Фишера: при m2 > m1 и справедливости (3) с m = m1 статистика

(10)

имеет распределение Фишера с числом степеней свободы числителя m2 - m1 и знаменателя n - m2 - 1, и гипотеза H0: m = m1 отвергается, если

, (11)

где есть -квантиль распределения Фишера с указанными степенями свободы, - уровень значимости. Метод оценки размерности модели основан на том, что, рассматривая последовательно m1 = 1, 2, ..., мы проверяем гипотезу H0: m = m1 с помощью (10) - (11) (выбор m2 может быть проведен различными способами, например, m2 = m1 + 1 или m2 = 2m1) и останавливаемся на таком наименьшем , что рассматриваемая гипотеза не отвергается. В постановке (7) наиболее естественно применять m2 = m1 + 1. При этом мы используем статистики

(12)

При статистика имеет распределение Фишера с числом степеней свободы числителя 1 и знаменателя n - k - 2. В качестве оценки размерности модели используют согласно (11)

(13)

Изучим поведение статистик m1n и m2n как оценок истинной размерности модели m0. Заметим, что если модель (3) адекватна при m = m0, то она адекватна и при любом m' > m0 - достаточно положить am+1 = am+2 = ... = am' = 0. Поэтому истинная размерность m0 - это минимальное m, при котором модель (3) адекватна.

Воспользуемся геометрической интерпретацией метода наименьших квадратов, рассмотренной А.Н. Колмогоровым [18] и изложенной, например, в [19, §§11,12]. Введем вектора

Tj = (xj1, xj2, ..., xjn)T, j = 1, 2, ..., m. (14)

В постановке (7) они имеют вид

. (15)

Тогда

, (16)

где Y и - те же, что и равенстве (4).

Введем в рассмотрение линейную оболочку

Lm = Lm (T1, T2, ..., Tm) (17)

векторов T1, T2, ..., Tm. Ясно, что задача оценки параметров методом наименьших квадратов является частным случаем так называемой "общей линейной модели" [19, с.129]. Следовательно, наилучшей оценкой (в модели (3)) для вектора

(18)

является проекция Y как элемента евклидова пространства Rn на подпространство Lm. В случае линейной независимости векторов T1, T2, ..., Tm проекция однозначно определяет оценки коэффициентов aj, j = 1, 2, ..., m, а именно, оценкой aj является коэффициент в разложении проекции Y1m по базису T1, T2, ..., Tm:

. (19)

Имеем

Y = Y1m + Y2m, (20)

где Y1m - проекция Y на Lm, а Y2m - проекция Y на ортогональное дополнение к Lm.. При этом

. (21)

Пусть Q1n, Q2n, ..., Qmn - ортонормированный базис в Lm (в предположении dim (Lm) = m). а Q(m + 1)n, Q(m + 2)n, ..., Qnn - ортонормированный базис в - ортогональном дополнении к Lm . Тогда

, (22)

и

, (23)

где

(24)

при j = 1, 2, ..., m0 и

(25)

при j = m0 + 1, ..., n, где - независимые нормальные случайные величины с нулевым математическим ожиданием и единичной дисперсией.

Что можно сказать о случайных величинах ? Если исходный базис являлся ортогональным, то в пространстве Lm естественно использовать ортонормированный базис

. (26)

Следовательно, в этом случае

(27)

при j = 1, 2, ..., m0, а при m > m0 величины задаются формулой (25). Поскольку

, (28)

в частности, в постановке (7) , то для типичных прикладных задач

(29)

при .

Изучим асимптотическое поведение при . При этом с изменением n вектора Tj размерности n, разумеется, меняются, и базис Q1n, Q2n, ..., Qmn в Lm тоже, вообще говоря, меняется вместе с коэффициентами bjn, j = 1, 2, ..., m, даже в случае, когда ортонормальный базис получаем ортогонализацией T1, T2, ..., Tm.

Для дальнейших рассуждений есть два пути. Один из них применили М.В. Гальченко и В.А. Гуревич [20]. Они ввели предположение, что матрица плана такова, что при каждом n вектора T1, T2, ..., Tm ортогональны. Примером является план [20, с.55] с

. (30)

Кроме того, они предполагают, что при j = 1, 2, ..., m0.

Специальный вид плана, на наш взгляд, излишнее ограничение. Дальнейшие рассуждения верны для плана "общего вида", нужны лишь некоторые условия регулярности, гарантирующие от "вырождения". Это и есть второй путь.

Имеем

. (31)

В силу (25) и справедливости (по теореме Чебышева) закона больших чисел для имеем

(32)

по вероятности при , если .

Пусть теперь m < m0. Представим в виде суммы двух слагаемых

. (33)

Из (32) следует, что второе из них сходится по вероятности к при . Если

(34)

то

(35)

и для любого

. (36)

Из (36) следует, что

. (37)

Пусть теперь . Имеем

. (38)

В силу (32)

, (39)

(40)

Из (37) и (39) вытекает, что

. (41)

В силу (38) и (32) величина

(42)

сходится при к

. (43)

Из независимости соотношений (25) и (39) вытекает, что

, (44)

где определено в (40). Итак, доказана следующая теорема, впервые полученная в [21].

Теорема 1. Пусть модель (1) - (4) верна при m = m0. Пусть справедливы условия регулярности (34). Тогда имеют место предельные соотношения (37) и (44), т.е. распределение оценки m1n в пределе является геометрическим.

Следствие. Оценка m1n не является состоятельной (в смысле, принятом в математической статистике).

Замечание. Просматривается аналогия с последовательным анализом. В частности, соотношения типа (43) - (44) справедливы для декартовых последовательных критериев [22, с.485]. Специфика рассматриваемой задачи состоит в том, чтобы избавиться от зависимости последовательных проверок, что удается сделать в асимптотике с помощью соотношений типа (32). Представляется перспективным использование оптимальных правил остановки, разработанных в статистическом последовательном анализе [23]. Однако необходимо отметить, что типичные задачи последовательного анализа, в частности, задачи разладки и задачи последовательного различения простых гипотез с помощью критерия отношения вероятностей, существенно отличаются от рассматриваемых нами задач регрессионного анализа.

Условие (34) - это условие типа того, что мы находимся в ситуации "общего положения" (ср. [24]), т.е. отсутствует "вырождение". Если при всех n базис T1, T2, ..., Tm является ортогональным, как для плана (30), то согласно (23) и (26) bjn = aj ||Tj||, а потому соотношение (34) эквивалентно тому, что при j = 1, 2, ..., m0 и

, (45)

Соотношение (45) справедливо, например, для плана (30). Грубо говоря, условия (34) и (45) означают, что "вклады" вновь добавляемых переменных "не вырождаются", т.е. по порядку такие же, как вклад T1 = (1, 1, ..., 1) в постановке (7).

Рассмотрим теперь оценку m2n. Согласно (10) и (21) имеем

. (46)

Пусть выполнено условие (34). Тогда в силу (24) для любого

. (47)

Если m1 < mo, то для числителя в (46) имеем:

(48)

для любого , где m3 = min (m2, m0).

Если , то из (32) и (48) следует, что существует C > 0 такое, что

. (49)

Пусть оценка m2n размерности модели m0 определяется с помощью последовательности троек

(m1(k), m2(k), F(k)), k = 1, 2, ..., m1(k) < m2(k), (50)

где последовательности натуральных чисел m1(k), m2(k) возрастают. Гипотеза H0: m = m1(k) против альтернативы H1: m = m2(k) проверяется с помощью статистики f(m1(k), m2(k)), критическое значение выбирается согласно (11) с уровнем значимости . Это описание получения оценки m2n - несколько более общее, чем данное ранее (формулы (10) - (13)), когда предполагалось, что и . Если гипотеза H0 отвергается при k = 1, 2, ..., k0 и впервые принимается при k = k0 + 1, то полагаем m2n = m1(k0 + 1).

Теорема 2 [15]. Пусть выполнены условия (34), (52). Тогда

. (51)

Доказательство вытекает из соотношения (49), согласно которому при достаточно больших n гипотеза H0 может быть принята только при . если известно, что . Остается рассмотреть случай, когда . Для того, чтобы гипотеза H0 отвергалась при любом F(k) с вероятностью, стремящейся к 1 при , необходимо и достаточно, чтобы для любого m < m0 было выполнено соотношение

. (52)

Замечание. Как видно из проведенных рассуждений, для справедливости (51) нет необходимости требовать выполнения (34), достаточно справедливости (52) и условия

(53)

Теорема 3 [15]. Пусть оценка размерности модели m2n определяется с помощью последовательности проверок (50). Пусть выполнено (51). Тогда для любого целого существует

. (54)

Доказательство. С помощью (25) и (32) получаем из (46) и (11), что

(55)

где - последовательность независимых нормальных случайных величин с нулевым математическим ожиданием и единичной дисперсией, k1 = min{k: m1(k) > m0}, число k2 таково, что m(k2) = m0 + q. Если же m0 + q не принадлежит множеству {m1(k), k = 1, 2, ...}, то очевидно, что p(q) = 0.

Теорема 4 [15, 25]. Пусть m1(k) = k, m2(k) = k + 1, F(k) = F, k = 1, 2, ... Пусть выполнены условия (52), (53). Тогда

(56)

. (57)

Доказательство. При данном в теореме 4 виде последовательности (50) статистика f(m1, m2) переходит в из (12). Согласно теореме 2 справедливо (51). Согласно теореме 3

, (58)

откуда и следует требуемое. Сравним предельное распределение оценки m1n (формулы (44), (40)) и предельное распределение оценки m2n (формулы (56), (57)). Видим, что при F = 1, т.е. при = 0,68268... , предельные распределения этих оценок совпадают. Поэтому можно сказать, что оценка m2n обобщает оценку m1n.

Обсудим значение основных предпосылок, при которых получены теоремы 1 - 4, а именно, нормальности погрешностей в (3), "условия невырожденности" (34) и аналогичных ему условий (52) - (53).

Нормальность распределений случайных величин используется для получения следующих двух утверждений: после ортогонализации базиса, т.е. перехода от {Tj} к {Qjn} (см. (22) - (23)) ошибки по-прежнему независимы и одинаково распределены; параметр в (44) и (56) выражается через нормальное распределение по формулам (40) и (57) соответственно.

Сохранение независимости ошибок при переходе к другому базису - характеризационное свойство нормального распределения. Это - следствие известного цикла характеризационных теорем [26], начатого работой С.Н. Бернштейна 1941 г. [27] и продолженного в исследованиях Б.В. Гнеденко [28], В.П. Скитовичем, Г. Дармуа, Ю.В. Линником, А.А. Зингером и др.

Отказаться от нормальности можно в предположении, указанном в [25] и принятом за основу в [20], что план эксперимента имеет специальный вид, обеспечивающий ортогональность базиса {Tj} (тогда переход к {Qjn} не нужен). Примером является план (30). Пусть в этом случае ошибки - независимые одинаково распределенные случайные величины с конечным начальным вторым моментом . Пусть выполнено (34). Тогда, как нетрудно убедиться, проследив проведенные выше выкладки, выполнены соотношения (37) и (44) с . Если выполнены условия (52) и (53), то справедливы соотношения (51) и (57) с . Очевидно, можно отказаться и от предположения одинаковой распределенности помех , как это сделано в [20], но это делать здесь не будем, поскольку принципиально новых результатов при этом не получено, а демонстрировать владение техникой предельных теорем нет необходимости.

Невыполнение одного из условий (34), (53) в силу (29) практически эквивалентно (в предположении, что {Tj} - ортогональный базис при всех n) тому, что модель (3) верна при m = m0, но при некотором j < m0 имеем aj = 0. Каковы свойства оценок m1n и m2n в этом случае?

Для упрощения описания поведения оценок предположим, что существуют

. (59)

Тогда согласно [25]

(60)

,(61)

т.е. с достаточно высокой вероятностью произойдет преждевременный останов. От предположений (59) можно избавиться, заменив предельные переходы на сближение левых и правых частей (60) и (61) и на .

2. Состоятельные оценки размерности и структуры модели в регрессии

Рассмотренные в предыдущем разделе методы оценки истинной размерности модели (3) не являются состоятельными:

. (62)

В настоящем разделе рассмотрим построение состоятельных оценок параметра m0, т.е. оценок, для которых

. (63)

В [20] предложена состоятельная модификация оценки m1n. В отличие от (9) в качестве оценки взят не первый локальный минимум "кажущейся ошибки" , а первый локальный минимум линейной функции от неё , где Anm и Bnm - некоторые константы. Предположение [20] о специальном виде плана излишне, от него можно избавиться методами предыдущего раздела. Другие подходы рассмотрены в [8, 9, 29, 30, 31].

Состоятельную модификацию оценки m2n можно получить, заменив правую часть в (11) на величину, растущую с увеличением n так, что правая часть в (55) стремится к 0 при , но при этом выполнено (51). В частности, рассмотрим оценку

, (64)

где определено в (12), - некоторая последовательность. Для справедливости (55) необходимо и достаточно, чтобы

. (65)

Для справедливости (51) согласно доказательству теоремы 2 достаточно выполнения соотношений (34), (52) и

. (66)

Из проведенных рассуждений вытекает следующая теорема [25].

Теорема 5. Пусть выполнены соотношения (34), (52), (65) и (66). Тогда оценка , заданная формулой (64), является состоятельной оценкой размерности модели, т.е. удовлетворяет соотношению (63).

Рассмотрим некоторые другие методы оценки размерности модели, а также выбора информативного подмножества признаков. При этом весьма полезной оказывается независимость в совокупности получаемых по (23) - (25) оценок параметров регрессии в ортонормальном базисе {Qjn}.

Упорядочим оценки в порядке убывания их абсолютной величины:

. (67)

Предположим сначала, что известно. Выберем из условия

. (68)

Тогда, как известно [32, с.410],

(69)

и, кроме того,

. (70)

Оценку m* размерности модели m0 найдем из условия

. (71)

Если (см. (28))

(72)

то условие (71) дает состоятельную оценку размерности модели m0 = Card J, а множество

Jn = {j(1), j(2), ... , j(m*)} (73)

является состоятельной оценкой информативного подмножества признаков J (см.(5)) в смысле (6).

Пусть теперь неизвестно. Укажем семейство оценок . Пусть . Рассмотрим . При выборочная дисперсия этих случайных величин сходится к дисперсии , где - урезанная на отрезок стандартная нормальная случайная величина, т.е. сходится к . Следовательно, оценкой параметра является . Эту оценку можно использовать в (71). Состоятельность описанных выше оценок при этом сохраняется.

Оценки (71) и (73) рассмотрены согласно [25]. В ситуации, когда исходный базис не является ортонормальным, требуются некоторые пояснения типа тех, что были даны выше в связи с работой М.В. Гальченко и В.А. Гуревича [20] (см. (30)). От (5) следует перейти к аналогичной записи в ортонормальном базисе{Qjn}, вообще говоря, зависящем от n. Примем, что базис {Qjn} получен ортогонализацией и нормированием исходного базиса. Тогда вместо (5) имеем

, (74)

. (75)

Если

(76)

то справедлив аналог состоятельности оценок

. (77)

Другой поход к нахождению информативного подмножества признаков - метод "всех регрессий" [8] - основан на статистике

, (78)

, (79)

а Arg min берется по всем J таким, что , т.е.

. (80)

Рассмотрим функцию

. (81)

Из результатов об асимптотике решений экстремальных статистических задач [10] следует, что по вероятности

, (82)

где (в общей ситуации) функция hk сначала убывает при росте k от k = 1 до k = Card(Jист) , затем остается постоянной (равной h), а

. (83)

Отсюда следует, что метод "всех регрессий", вообще говоря, не дает состоятельных оценок истинного множества информативных признаков Jист, а даёт оценки "с завышением", что выражается формулой (83). Это означает, что разнообразные программно-алгоритмические методы нахождения "наилучшей" регрессии [8, гл.12; 9, гл.6], в которых не обращается внимание на отличие (83) от желаемой состоятельности (6), нуждаются в более тщательном изучении.

3. Оценивание числа элементов смеси в задачах классификации

Среди задач классификации [33, 34] важное место занимают задачи расщепления смесей. В них принимают, что наблюдается выборка из распределения с плотностью

, (84)

где плотности fi(x) описывают отдельные классы, а - веса этих классов, . Часто считают, что , т.е. плотности элементов смеси взяты из некоторого параметрического семейства, . Запись (84) можно рассматривать также как приближение плотности f(x) с помощью линейной комбинации плотностей f1(x), f1(x), ... в этом случае веса не обязаны быть положительными, а вместо равенства (84) имеет быть предельный переход.

Смеси встречаются в различных прикладных задачах. Так, Э.С. Эренбург моделировал продолжительность безотказной работы изделий бытовой техники как смесь двух классов - изделий со скрытыми дефектами и изделий без скрытых дефектов [35].

Если число слагаемых в сумме (84) известно и все , то с теоретической точки зрения оценивание параметров и не представляет трудностей - можно применять оценки максимального правдоподобия или одношаговые оценки [36]. Рассмотрим оценивание числа слагаемых. Вначале приведем один известный результат.

Пусть - выборка из совокупности с плотностью , где параметр имеет размерность r. Пусть подпространство имеет размерность r' < r. Для проверки гипотезы при альтернативе применяют критерий отношения правдоподобия

. (85)

В [22, §13.8] при некоторых условиях регулярности показано, что при распределение случайной величины сходится при к распределению хи-квадрат с r - r' степенями свободы. Это доказывается путем построения r - r' независимых стандартных нормальных случайных величин таких, что

(86)

по вероятности при .

Рассмотрим последовательность описанных выше задач. Пусть - последовательность пространств параметров,

(87)

при некоторых r' и q. Пусть проводится проверка гипотез при альтернативах Hi+1 последовательно при i = 0, 1, 2, ... Проверки проводятся с помощью статистики (см. (85)), гипотеза Hi отвергается, если , где есть -процентная точка распределения с q степенями свободы. Пусть впервые при i = m* гипотеза Hi не отвергнута. Какова предельное распределение m* при ?

Пусть и Так же, как в разделе 2 настоящей статьи, можно показать, что при некоторых условиях регулярности [22]

(88)

При доказательстве используется независимость главных членов в разложениях типа (85) для . Как и в разделе 3 настоящей статьи, состоятельную оценку m(0) получаем, сделав зависящим от n.

С формальной точки зрения частным случаем рассматриваемой последовательности проверок является определение числа элементов смеси (параметра m в модели (84)). При этом . Тогда в (87) .

Однако в силу специфики модели (84) соотношения (88) верны не всегда, в частности, они неверны, если рассматривается смесь нормальных распределений [37]. Поскольку необходимо , а точка в (85) должна быть внутренней, то ограничения или противоречат условиям регулярности Уилкса. Поэтому не будем принимать эти ограничения. Далее, информационная матрица вырождается, если и могут совпадать, как это имеет место для смеси нормальных распределений. Действительно, если , то

, (89)

т.е. разложение в (84) неоднозначно. Поэтому предложение использовать критерий Уилкса для нормальных смесей нельзя признать обоснованным.

Предельное распределение (88), полученное для смеси (84) в [38], имеет место при справедливости условий регулярности Уилкса, например, когда задана последовательность линейно независимых плотностей f1(x), f2(x), ... и . Интересные результаты получены А.М. Никифоровым [39].

4. Оценка размерности модели в факторном анализе и многомерном шкалировании

Идея многомерного шкалирования состоит в представлении каждого объекта точкой геометрического пространства небольшой размерности (обычно размерности 1, 2 или 3), координатами которой служат "скрытые значения факторов", в совокупности достаточно адекватно описывающих объект. Размерности 1 - 3 позволяют провести визуальный анализ (о нем на примере клинической медицины см. [40]). В прикладном многомерном статистическом анализе имеется большое число методов снижения размерности - факторный анализ, метод главных компонент, многомерное шкалирование [41, 42]), целенаправленное проецирование [43, 44]) (этой группе методов посвятил свой доклад П. Хубер на Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли [45]). Цель всех этих методов - от большого числа признаков перейти к существенно меньшему, вообще говоря, вновь сконструированных признаков, которые тем не менее достаточно адекватно описывают рассматриваемые объекты. Многомерное шкалирование использует не сами объекты (как вектора в многомерном пространстве), а расстояния между ними , вычисленные по координатам векторов или заданные иными способами, например, с использованием экспертов. Требуется подобрать точки-представители в евклидовом пространстве небольшой размерности так, чтобы расстояния между ними rij мало отличались от расстояний между объектами . Согласно одной из формализаций (в т.н. метрическом шкалировании) должна достигать минимума величина

. (90)

В настоящем разделе мы не будем пытаться подробно рассматривать многообразие методов рассматриваемого типа (см. указанную выше литературу и наши публикации [46, 47]), а разберем модельную постановку оценки размерности итогового пространства.

Пусть объекты описываются точками d1, d2, ..., dn, в k-мерном евклидовом пространстве. Пусть Lm - пространство размерности m. Пусть - расстояние между точкой di и линейным пространством Lm, и

(91)

- сумма расстояний точек d1, d2, ..., dn до их наилучшего приближения гиперплоскостью размерности m. Пусть в рассматриваемой вероятностной модели

, (92)

где - независимые нормальные случайные вектора с математическим ожиданием 0 и ковариационной матрицей , где I - единичная матрица, точки лежат в гиперплоскости размерности m0 и не лежат (одновременно все вместе) ни в какой гиперплоскости меньшей размерности. Тогда методами раздела 2 настоящей статьи установлено [46, с.68-70], что при и соответствующих условиях регулярности (типа данных выше в разделе 2)

(93)

по вероятности, где f1(m) - функция, зависящая от расположения точек . Примем для первичного анализа ситуации, что эти точки имеют круговое нормальное распределение в том подпространстве размерности m0, в котором они лежат, т.е.

, (94)

где e(1), e(2), ..., e(m0) - ортонормальный базис в этом пространстве, а - независимые нормальные случайные величины с математическими ожиданиями 0 и одинаковыми дисперсиями . Тогда в силу (93) имеем

(95)

Таким образом, функция f(m) из (93) линейна на отрезках [1, m0] и [m0, k], причем на первом отрезке она убывает быстрее, чем на втором. Отсюда следует, что статистика

(96)

является состоятельной оценкой истинной размерности m0 модели многомерного шкалирования.

Примечание. Если справедлива модель (94), упомянутые выше условия регулярности (типа рассматриваемых в разделе 2 настоящей статьи) выполнены.

Итак, из вероятностно-статистической теории вытекает рекомендация - определять размерность факторного пространства по правилу (96). Отметим: подобная рекомендация была сформулирована как эвристическая одним из основателей многомерного шкалирования Краскалом на основе опыта практического использования этого метода и вычислительных экспериментов (см., например, [42]). Вероятностная теория позволила обосновать эту эвристическую рекомендацию. Точнее, выше показано, что в достаточно естественной модели она приводит к состоятельной оценке.

К тематике настоящего раздела относятся также работы [48, 49].

5. Регрессия после классификации

Известно, что регрессионный анализ дает доступные интерпретации результаты лишь применительно к достаточно однородным совокупностям (см. обсуждение понятия "однородность" в [50]. Поэтому исходные данные рекомендуют разбить на однородные группы и лишь затем применять регрессионный анализ к каждой из них по отдельности.

Программный продукт по прикладной статистике обычно включает в себя ряд методов классификации и регрессии. Поскольку статистическое исследование включает в себя, как правило, последовательное применение не одного, а многих алгоритмов, работа предыдущего алгоритма может, вообще говоря, нарушать условия применимости последующих. Поэтому раздел 6 Рекомендаций ВНИИС [51] посвящен вопросам "стыковки" последовательно выполняемых алгоритмов: "При последовательном применении нескольких методов обработки данных необходимо обеспечить проверку условий применения каждого последующего метода" [51, с.9].

Рассмотрим "стыковку" алгоритмов классификации и регрессии [52]. Пусть в результате работы некоторого алгоритма классификации выделена группа "однородных" наблюдений. Можно ли применять тот или иной метод регрессионного анализа [1] к элементам этой группы? Во-первых, эти элементы, вообще говоря, не являются независимыми, т.к. границы группы определяются по исходной выборке, а не задаются априорно. Во-вторых, наблюдения не могут иметь нормальное распределение, поскольку элементы группы ограничены по крайней мере с некоторых сторон (например, несколькими гиперплоскостями). Следовательно, обычные предпосылки регрессионного анализа не выполнены, а потому влияние отклонений от этих предпосылок на свойства алгоритмов требуют специального изучения (прежде всего, в рамках общей схемы устойчивости [53]).

В качестве примера рассмотрим "стыковку" алгоритмов классификации и регрессии, когда классификация сводится к расщеплению смеси (см. раздел 4 выше). Пусть для простоты m = 2 в смеси (84). Находят состоятельные оценки параметров смеси и строят с их помощью дискриминантную поверхность

(97)

где x - элемент того пространства, в котором лежат наблюдения, функция g задает вид дискриминантной поверхности (в простейшем случае g - линейная функция), и - оценки параметров дискриминантной (разделяющей) поверхности. Если , то наблюдение относят к первому классу (совокупности)ЯЯ, в противном случае - ко второму. Зависимость наблюдений, попавших в один класс, имеет своей причиной то, что параметры и определяются по всей исходной выборке, в том числе и по тем наблюдениям, что попали в рассматриваемый класс. Однако обычно существуют предельные значения и такие, что и по вероятности при . Тогда, как легко видеть, совместное распределение фиксированного конечного числа элементов одного класса стремится к совместному распределению независимых случайных элементов, распределение которых получено из рассмотрения соответствующего слагаемого в исходной смеси (84) усечением на область (для первого класса) или на область (для второго класса).

Хотя в каждом из двух классов (кластеров) наблюдения и являются асимптотически независимыми, их распределения отличаются от f1(x) и f2(x) соответственно, т.е. от распределений, описывающих исходные классы. В частности, математические ожидания и ковариационные матрицы отличаются от исходных, поэтому с помощью выборочны характеристик, рассчитанных по кластерам, нельзя непосредственно оценивать характеристики исходных классов. Аналогичные выводы справедливы и для иных способов кластеризации [38].

Укажем два практически важных способа корректной "стыковки" алгоритмов классификации и регрессии. Один из них основан на объединении двух задач в одну. Так, принимая модель смеси (84), параметры регрессии определяют при помощи оценок параметров и в (84). Действительно, при расщеплении смеси нормальных распределений оценивают математические ожидания и ковариационные матрицы каждого из исходных классов (описываемых плотностями ), а этого достаточно для нахождения регрессии. Недостатками этого способа "стыковки" являются: "привязка" к определенной параметрической модели (84), ограничение свободы выбора алгоритма классификации, большой объем вычислений.

Второй способ основан на использовании методов устойчивой регрессии, не опирающихся на предположение нормальности. При этом метод предварительной классификации может быть любым, но результаты расчетов относятся не к исходным классам в модели типа (84), а именно к тем таксонам (кластерам), что выделены алгоритмом классификации.

Мы видим, что двухэтапность обработки данных, при которой на первом этапе выделяются объекты нечисловой природы - кластеры, влечет необходимость выполнения определенных требований на втором этапе, а также предъявляется определенные требования к интерпретации результатов расчетов. Здесь методология статистики нечисловой природы вторгается в классическую область многомерного статистического анализа.

6. Использование оптимизационной формулировки ряда задач прикладной статистики

Основные задачи прикладной статистики допускают оптимизационную формулировку [11, 12], а потому предельная теория решений экстремальных статистических задач [10] позволяет получать полезные следствия для них. Так, результаты, относящиеся к экстремумам аддитивных статистик, непосредственно приложимы к статистикам минимального контраста. Частными случаями оценок минимального контраста являются оценки максимального правдоподобия, устойчивые оценки Тьюки-Хубера, оценки параметров в задаче аппроксимации (параметрической регрессии). Состоятельность оценок минимального контраста означает состоятельность всех перечисленных оценок, а также справедливость законов больших чисел в пространствах произвольной природы. (Отметим, что результаты [10 - 12] обобщают результаты [54].) Поэтому каждая общая теорема типа полученных в [10 - 12] влечет за собой соответствующие следствия, касающиеся перечисленных и других конкретных областей. Так, например, в задаче конструирования факторов [55] результаты [10 - 12] описывают поведение отношения, аппроксимирующего систему матриц.

В качестве примера рассмотрим подробнее метод главных компонент. Пусть - независимые одинаково распределенные случайные вектора размерности p. Кратко опишем экстремальную задачу, решаемую в методе главных компонент. Введем в рассмотрение координаты векторов: . Рассмотрим p' линейных комбинаций

. (98)

В методе главных компонент используется функционал

, (99)

где C=||cik||. Формула (99) относится к вероятностной модели. При анализе статистических данных аналогом I(C) является функционал In(C), в котором теоретические дисперсии заменены выборочными. Легко видеть, что при для любой матрицы C

(100)

(сходимость по вероятности). Рассмотрим решения экстремальных задач

(101)

Легко видеть, что условия асимптотической равномерной разбиваемости [10 - 12] выполнено, а потому

(102)

по вероятности, с учетом единственности решений задач (101).

В литературе по методу главных компонент (см., например, обзор [56]), теорему о справедливости соотношения (102) обнаружить не удалось. Основное внимание уделяется нереалистическому случаю многомерной нормальности.

В ряде других задач прикладной статистики решения находятся путем минимизации функционала, также не являющегося аддитивным. Таковы различные варианты задач классификации, решаемые путем минимизации функционала качества, факторный анализ, метод экстремальной группировки признаков, отбор наиболее информативных признаков в моделях дискриминантного анализа, построение множества наиболее информативных переменных в моделях восстановления зависимостей (некоторые постановки разобраны выше в разделе 3), скалярная редукция многокритериальной оптимизационной схемы, т.е. экспертно-статистический метод построения обобщенного показателя "качества" в случае, когда экспертная информация - ранжировки, разбиения или результаты парных сравнений [57]. Во всех перечисленных задачах результаты [10-12] позволяют изучить асимптотическое поведение получаемых решений. Мы не будем подробно расписывать соответствующие результаты, поскольку это означало бы дать обзор основных задач прикладной статистики (см., в частности, [12, 58, 59]), обширный по объему, но не содержащий принципиально новых идей по сравнению со сказанным выше в настоящей статье и предыдущих публикациях.

Литература

1. Орлов А.И. Вероятностно-статистические модели корреляции и регрессии / Научный журнал КубГАУ. 2020. №160. С. 130-162.

2. Орлов А.И. Многообразие моделей регрессионного анализа (обобщающая статья) / Заводская лаборатория. Диагностика материалов. 2018. Т.84. №5. С. 63-73.

3. Кендалл М.Дж., Стьюарт А. Статистические выводы и связи. - М: Наука, 1973. - 900 с.

4. Демиденко Е.З. Линейная и нелинейная регрессия. - М.: Финансы и статистика, 1982. - 126 с.

5. Алгоритмы и программы восстановления зависимостей / Под ред. В.Н. Вапника. - М.: Наука, 1984. - 816 с.

6. Петрович М.Л. Регрессионный анализ и его математическое обеспечение на ЕС ЭВМ: Практическое руководство. - М.: Финансы и статистика, 1982. - 193 с.

7. Математическая теория планирования эксперимента / Справочная математическая библиотека. - М.: Наука, 1983. - 392 с.

8. Себер Дж. Линейный регрессионный анализ. - М.: Мир, 1980. - 456 с.

9. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: Книга 2. - М.: Финансы и статистика, 1987. - 351 с.

10. Орлов А.И. Предельная теория решений экстремальных статистических задач / Научный журнал КубГАУ. 2017. №133. С. 579-600.

11. Орлов А.И. Организационно-экономическое моделирование: : учебник : в 3 ч. Ч.1: Нечисловая статистика. -- М.: Изд-во МГТУ им. Н. Э. Баумана, 2009. -- 542 с.

12. Орлов А.И. Прикладная статистика. - М.: Экзамен, 2006 - 671 с.

13. Орлов А.И. Распределения реальных статистических данных не являются нормальными / Научный журнал КубГАУ. 2016. №117. С. 71-90.

14. Налимов В.В. Теория эксперимента. - М.: Наука, 1971. - 208 с.

15. Орлов А.И. Оценка размерности модели в регрессии / Алгоритмическое и программное обеспечение прикладного статистического анализа. - М.: Наука, 1980. - С. 92-99.

16. Митропольский А.К. Техника статистических вычислений. - М.: Наука, 1971. - 570 с.

17. Пустыльник Е.И. Статистические методы анализа и обработки наблюдений. - М.: Наука, 1968. - 288 с.

18. Колмогоров А.Н. К обоснованию метода наименьших квадратов / Успехи математических наук. 1946. Т.1. Вып. 1. С.57-70.

19. Тутубалин В.Н. Теория вероятностей. - М.: МГУ, 1972. - 232 с.

20. Гальченко М.В., Гуревич А.В. Почти параметрическая оценка регрессии / Статистические методы оценивания и проверки гипотез: Межвузовский сборник научных трудов. - Пермь: Пермский ун-т, 1984. - С. 52-59.

21. Орлов А.И. Предельное распределение одной оценки числа базисных функций в регрессии / Прикладной многомерный статистический анализ. - М.: Наука, 1978. -= С. 380-381.

22. Уилкс С. Математическая статистика. - М.: Наука, 1967. - 632 с.

23. Ширяев А.Н. Статистический последовательный анализ: Оптимальные правила остановки. 2-е изд., перераб. - М.: Физматлит, 1976. - 272 с.

24. Арнольд В.И. О локальных задачах анализа / Вестник МГУ. Сер. матем. и мех. 1970. №2. С. 52-56.

25. Орлов А.И. Асимптотика некоторых оценок размерности модели в регрессии / Прикладная статистика. - М.: Наука, 1983. - С. 260-265.

26. Каган А.М., Линник Ю.В., Рао С.Р. Характеризационные задачи математической статистики. - М.: Наука, 1972. - 656 с.

...

Подобные документы

  • Ознакомление с основами модели простой регрессии. Рассмотрение основных элементов эконометрической модели. Характеристика оценок коэффициентов уравнения регрессии. Построение доверительных интервалов. Автокорреляция и гетероскедастичность остатков.

    лекция [347,3 K], добавлен 23.12.2014

  • Практика применения эконометрических методов выходит за границы классической математико-статистической теории. Схема последовательного анализа А. Вальда или схема оценивания степени полинома в регрессии путем последовательной проверки адекватности модели.

    реферат [64,9 K], добавлен 08.01.2009

  • Алгоритм построения полиномиальной функции регрессии с оценкой степени полинома по заданному набору точек. Разработка программы, моделирующей выборку случайных пар чисел и выявление стохастической зависимости между ними при помощи уравнения регрессии.

    контрольная работа [114,3 K], добавлен 19.02.2014

  • Построение модели множественной линейной регрессии по заданным параметрам. Оценка качества модели по коэффициентам детерминации и множественной корреляции. Определение значимости уравнения регрессии на основе F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа [914,4 K], добавлен 01.12.2013

  • Описание классической линейной модели множественной регрессии. Анализ матрицы парных коэффициентов корреляции на наличие мультиколлинеарности. Оценка модели парной регрессии с наиболее значимым фактором. Графическое построение интервала прогноза.

    курсовая работа [243,1 K], добавлен 17.01.2016

  • Выбор факторных признаков для двухфакторной модели с помощью корреляционного анализа. Расчет коэффициентов регрессии, корреляции и эластичности. Построение модели линейной регрессии производительности труда от факторов фондо- и энерговооруженности.

    задача [142,0 K], добавлен 20.03.2010

  • Исследование зависимости себестоимости 1 тонны литья от брака литья по 11 литейным цехам заводов. Линейная модель регрессии. Результаты вспомогательных расчетов для построения гиперболической и параболической модели регрессии. Спецификация модели.

    курсовая работа [140,8 K], добавлен 15.01.2013

  • Построение линейной модели и уравнения регрессии зависимости цены на квартиры на вторичном рынке жилья в Москве в 2006 г. от влияющих факторов. Методика составления матрицы парных коэффициентов корреляции. Экономическая интерпретация модели регрессии.

    лабораторная работа [1,8 M], добавлен 25.05.2009

  • Построение уравнения регрессии, учитывающего взаимодействия факторов, проверка полученной модели на адекватность. Построение математической модели и нахождение численных значений параметров этой модели. Вычисление коэффициентов линейной модели.

    курсовая работа [1005,0 K], добавлен 07.08.2013

  • Сущность экономико-математической модели, ее идентификация и определение достаточной структуры для моделирования. Построение уравнения регрессии. Синтез и построение модели с учетом ее особенностей и математической спецификации. Верификация модели.

    контрольная работа [73,9 K], добавлен 23.01.2009

  • Расчет матрицы парных коэффициентов корреляции и статистической значимости коэффициентов регрессии. Оценка статистической значимости параметров регрессионной модели с помощью t-критерия. Уравнение множественной регрессии со статистически факторами.

    лабораторная работа [30,9 K], добавлен 05.12.2010

  • Использование метода оценки параметров в стандартных масштабах для определения неизвестных параметров линейной модели множественной регрессии. Специфика изучения взаимосвязей по временным рядам. Моделирование взаимосвязей и тенденций в финансовой сфере.

    контрольная работа [326,7 K], добавлен 22.04.2016

  • Понятие регрессии. Оценка параметров модели. Показатели качества регрессии. Проверка статистической значимости в парной линейной регрессии. Реализация регрессионного анализа в программе MS Excel. Условия Гаусса-Маркова. Свойства коэффициента детерминации.

    курсовая работа [233,1 K], добавлен 21.03.2015

  • Основные методы анализа линейной модели парной регрессии. Оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Проверка значимости всех параметров модели (уравнения регрессии) по критерию Стьюдента.

    лабораторная работа [67,8 K], добавлен 26.12.2010

  • Оценивание линейной прогностической функции на примере эконометрической модели в виде многочлена. Однопараметрическое семейство алгоритмов с мерой близости и и непараметрический подход. Эконометрика классификации: классы и кластеры, параметры регрессии.

    реферат [222,3 K], добавлен 21.01.2009

  • Построение уравнения регрессии. Эластичность степенной модели. Уравнение равносторонней гиперболы. Оценка тесноты связи, качества и точности модели. Индекс корреляции и коэффициент детерминации. Оценка статистической значимости регрессионных уравнений.

    курсовая работа [1,3 M], добавлен 25.03.2015

  • Факторные и результативные признаки адекватности модели. Исследование взаимосвязи энерговооруженности и выпуска готовой продукции. Построение уравнения регрессии и вычисление коэффициента регрессии. Графики практической и теоретической линии регрессии.

    контрольная работа [45,2 K], добавлен 20.01.2015

  • Основы построения и тестирования адекватности экономических моделей множественной регрессии, проблема их спецификации и последствия ошибок. Методическое и информационное обеспечение множественной регрессии. Числовой пример модели множественной регрессии.

    курсовая работа [3,4 M], добавлен 10.02.2014

  • Построение линейной модели зависимости цены товара в торговых точках. Расчет матрицы парных коэффициентов корреляции, оценка статистической значимости коэффициентов корреляции, параметров регрессионной модели, доверительного интервала для наблюдений.

    лабораторная работа [214,2 K], добавлен 17.10.2009

  • Построение вариационного (статистического) ряда, гистограммы и эмпирической функции распределения. Определение выборочных оценок числовых характеристик случайной величины. Расчет матрицы парных коэффициентов корреляции и создание модели парной регрессии.

    контрольная работа [2,0 M], добавлен 05.04.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.