Методы снижения размерности пространства статистических данных
Характеристика метода главных компонент как одного из наиболее часто используемых способов снижения размерности. Выделение компактных кластеров объектов и отдельно выделяющихся векторов. Проведение исследования методики многомерного шкалирования.
Рубрика | Экономико-математическое моделирование |
Вид | статья |
Язык | русский |
Дата добавления | 26.05.2017 |
Размер файла | 31,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
1
Научный журнал КубГАУ, №119(06), 2016 года
МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ ПРОСТРАНСТВА СТАТИСТИЧЕСКИХ ДАННЫХ
Как уже отмечалось, одной из «точек роста» [1] прикладной статистики являются методы снижения размерности пространства статистических данных. Они все чаще используются при анализе данных в конкретных прикладных исследованиях, например, социологических. Рассмотрим наиболее перспективные методы снижения размерности. В качестве примера применения вероятностно-статистического моделирования и результатов статистики нечисловых данных обоснуем состоятельность оценки размерности пространства, ранее предложенной Краскалом из эвристических соображений [2, 3].
В многомерном статистическом анализе каждый объект описывается вектором, размерность которого произвольна (но одна и та же для всех объектов). Однако человек может непосредственно воспринимать лишь числовые данные или точки на плоскости. Анализировать скопления точек в трехмерном пространстве уже гораздо труднее. Непосредственное восприятие данных более высокой размерности невозможно. Поэтому вполне естественным является желание перейти от многомерной выборки к данным небольшой размерности, чтобы «на них можно было посмотреть». Например, маркетолог может наглядно увидеть, сколько имеется различных типов поведения потребителей (т.е. сколько целесообразно выделять сегментов рынка) и какие именно (с какими свойствами) потребители в них входят.
Кроме стремления к наглядности, есть и другие мотивы для снижения размерности. Те факторы, от которых интересующая исследователя переменная не зависит, лишь мешают статистическому анализу. Во-первых, на сбор информации о них расходуются финансовые, временные, кадровые ресурсы. Во-вторых, как можно доказать, их включение в анализ ухудшает свойства статистических процедур (в частности, увеличивает дисперсию оценок параметров и характеристик распределений). Поэтому желательно избавиться от таких факторов.
При анализе многомерных данных обычно рассматривают не одну, а множество задач, в частности, по-разному выбирая независимые и зависимые переменные. Поэтому рассмотрим задачу снижения размерности в следующей формулировке. Дана многомерная выборка. Требуется перейти от нее к совокупности векторов меньшей размерности, максимально сохранив структуру исходных данных, по возможности не теряя информации, содержащихся в данных. Задача конкретизируется в рамках каждого конкретного метода снижения размерности.
Метод главных компонент
Он является одним из наиболее часто используемых методов снижения размерности. Основная его идея состоит в последовательном выявлении направлений, в которых данные имеют наибольший разброс. Пусть выборка состоит из векторов, одинаково распределенных с вектором X = (x(1), x(2), … , x(n)). Рассмотрим линейные комбинации
Y(л(1), л(2), …, л(n)) = л(1)x(1) + л(2)x(2) + … + л(n)x(n),
л2(1) + л2(2) + …+ л2(n) = 1.
Здесь вектор л = (л(1), л(2), …, л(n)) лежит на единичной сфере в n-мерном пространстве.
В методе главных компонент прежде всего находят направление максимального разброса, т.е. такое л, при котором достигает максимума дисперсия случайной величины Y(л) = Y(л(1), л(2), …, л(n)). Тогда вектор л задает первую главную компоненту, а величина Y(л) является проекцией случайного вектора Х на ось первой главной компоненты.
Затем, выражаясь терминами линейной алгебры, рассматривают гиперплоскость в n-мерном пространстве, перпендикулярную первой главной компоненте, и проектируют на эту гиперплоскость все элементы выборки. Размерность гиперплоскость на 1 меньше, чем размерность исходного пространства.
В рассматриваемой гиперплоскости процедура повторяется. В ней находят направление наибольшего разброса, т.е. вторую главную компоненту. Затем выделяют гиперплоскость, перпендикулярную первым двум главным компонентам. Ее размерность на 2 меньше, чем размерность исходного пространства. Далее - следующая итерация.
С точки зрения линейной алгебры речь идет о построении нового базиса в n-мерном пространстве, ортами которого служат главные компоненты.
Дисперсия, соответствующая каждой новой главной компоненте, меньше, чем для предыдущей. Обычно останавливаются, когда она меньше заданного порога. Если отобрано k главных компонент, то это означает, что от n-мерного пространства удалось перейти к k-мерному, т.е. сократить размерность с n-до k, практически не исказив структуру исходных данных.
Для визуального анализа данных часто используют проекции исходных векторов на плоскость первых двух главных компонент. Обычно хорошо видна структура данных, выделяются компактные кластеры объектов и отдельно выделяющиеся вектора.
Факторный анализ
Метод главных компонент является одним из методов факторного анализа [4]. Различные алгоритмы факторного анализа объединены тем, что во всех них происходит переход к новому базису в исходном n-мерном пространстве. Важным является понятие «нагрузка фактора», применяемое для описания роли исходного фактора (переменной) в формировании определенного вектора из нового базиса.
Новая идея по сравнению с методом главных компонент состоит в том, что на основе нагрузок происходит разбиение факторов на группы. В одну группу объединяются факторы, имеющие сходное влияние на элементы нового базиса. Затем из каждой группы рекомендуется оставить одного представителя. Иногда вместо выбора представителя расчетным путем формируется новый фактор, являющийся центральным для рассматриваемой группы. Снижение размерности происходит при переходе к системе факторов, являющихся представителями групп. Остальные факторы отбрасываются.
Описанная процедура может быть осуществлена не только с помощью факторного анализа. Речь идет о кластер-анализе признаков (факторов, переменных). Для разбиения признаков на группы можно применять различные алгоритмы кластер-анализа [5 - 7]. Достаточно ввести расстояние (меру близости, показатель различия) между признаками. Пусть Х и У - два признака. Различие d(X,Y) между ними можно измерять с помощью выборочных коэффициентов корреляции:
d1(X,Y) = 1 - |rn(X,Y)|, d2(X,Y) = 1 - |сn(X,Y)|,
где rn(X,Y) - выборочный линейный коэффициент корреляции Пирсона, сn(X,Y) - выборочный коэффициент ранговой корреляции Спирмена.
Многомерное шкалирование.
На использовании расстояний (мер близости, показателей различия) d(X,Y) между признаками Х и У основан обширный класс методов многомерного шкалирования [8, 9]. Основная идея этого класса методов состоит в представлении каждого объекта точкой геометрического пространства (обычно размерности 1, 2 или 3), координатами которой служат значения скрытых (латентных) факторов, в совокупности достаточно адекватно описывающих объект. При этом отношения между объектами заменяются отношениями между точками - их представителями. Так, данные о сходстве объектов - расстояниями между точками, данные о превосходстве - взаимным расположением точек [10].
Проблема оценки истинной размерности факторного пространства
В практике анализа социологических данных используется ряд различных моделей многомерного шкалирования. Во всех них встает проблема оценки истинной размерности факторного пространства. Рассмотрим эту проблему на примере обработки данных о сходстве объектов с помощью метрического шкалирования.
Пусть имеется n объектов О(1), О(2), …, O(n), для каждой пары объектов О(i), O(j) задана мера их сходства s(i,j). Считаем, что всегда s(i,j) = s(j,i). Происхождение чисел s(i,j) не имеет значения для описания работы алгоритма. Они могли быть получены либо непосредственным измерением, либо с использованием экспертов, либо путем вычисления по совокупности описательных характеристик, либо как-то иначе.
В евклидовом пространстве рассматриваемые n объектов должны быть представлены конфигурацией n точек, причем в качестве меры близости точек-представителей выступает евклидово расстояние d(i,j) между соответствующими точками. Степень соответствия между совокупностью объектов и совокупностью представляющих их точек определяется путем сопоставления матриц сходства ||s(i,j)|| и расстояний ||d(i,j)||. Метрический функционал сходства имеет вид
.
Геометрическую конфигурацию надо выбирать так, чтобы функционал S достигал своего наименьшего значения [8, 9].
Замечание. В неметрическом шкалировании вместо близости самих мер близости и расстояний рассматривается близость упорядочений на множестве мер близости и множестве соответствующих расстояний. Вместо функционала S используются аналоги ранговых коэффициентов корреляции Спирмена и Кендалла. Другими словами, неметрическое шкалирование исходит из предположения, что меры близости измерены в порядковой шкале.
Пусть евклидово пространство имеет размерность m. Рассмотрим минимум среднего квадрата ошибки
,
где минимум берется по всем возможным конфигурациям n точек в m-мерном евклидовом пространстве. Можно показать, что рассматриваемый минимум достигается на некоторой конфигурации. Ясно, что при росте m величина бm монотонно убывает (точнее, не возрастает). Можно показать, что при m > n - 1 она равна 0 (если s(i,j) - метрика). Для увеличения возможностей содержательной интерпретации желательно действовать в пространстве возможно меньшей размерности. При этом, однако, размерность необходимо выбрать так, чтобы точки представляли объекты без больших искажений. Возникает вопрос: как рационально выбирать размерность пространства, т.е. натуральное число m?
Модели и методы оценивания размерности пространства данных
В рамках детерминированного анализа данных обоснованного ответа на этот вопрос, видимо, нет. Следовательно, необходимо изучить поведение бm в тех или иных вероятностных моделях. Если меры близости s(i,j) являются случайными величинами, распределение которых зависит от «истинной размерности» m0 (и, возможно, от каких-либо еще параметров), то можно в классическом математико-статистическом стиле ставить задачу оценки m0, искать состоятельные оценки и т.д.
Начнем строить вероятностные модели. Примем, что объекты представляют собой точки в евклидовом пространстве размерности k, где k достаточно велико. То, что «истинная размерность» равна m0, означает, что все эти точки лежат на гиперплоскости размерности m0. Примем для определенности, что совокупность рассматриваемых точек представляет собой выборку из кругового нормального распределения с дисперсией у2(0). Это означает, что объекты О(1), О(2), …, O(n) являются независимыми в совокупности случайными векторами, каждый из которых строится как
ж(1)e(1) + ж(2)e(2) + … + ж(m0)e(m0),
где e(1), e(2), … , e(m0) - ортонормальный базис в подпространстве размерности m0, в котором лежат рассматриваемые точки, а ж(1), ж(2), … , ж(m0) - независимые в совокупности одномерные нормальные случайные величины с математическим ожиданием 0 и дисперсией у2(0).
Рассмотрим две модели получения мер близости s(i,j). В первой из них s(i,j) отличаются от евклидова расстояния между соответствующими точками из-за того, что точки известны с искажениями. Пусть с(1), с(2), … , с(n) - рассматриваемые точки. Тогда
s(i,j) = d(c(i) + е(i), c(j) + е(j)), i,j = 1, 2, … , n,
где d - евклидово расстояние между точками в k-мерном пространстве, вектора е(1), е(2), … , е(n) представляют собой выборку из кругового нормального распределения в k-мерном пространстве с нулевым математическим ожиданием и ковариационной матрицей у2(1)I, где I - единичная матрица. Другими словами,
е(i) = з(1)e(1) + з(2)e(2) + … + з(k)e(k),
где e(1), e(2), …, e(k) - ортонормальный базис в k-мерном пространстве, а {з(i,t), i = 1, 2, … , n, t = 1, 2, … , k} - совокупность независимых в совокупности одномерных случайных величин с нулевым математическим ожиданием и дисперсией у2(1).
Во второй модели искажения наложены непосредственно на сами расстояния:
s(i,j) = d(c(i), c(j)) + е(i,j), i,j = 1, 2, … , n, i ? j,
где {е(i,j), i,j = 1, 2, … , n} - независимые в совокупности нормальные случайные величины с математическим ожиданием ) и дисперсией у2(1).
В работе [11] показано, что для обеих сформулированных моделей минимум среднего квадрата ошибки бm при n > ? сходится по вероятности к
f(m) = f1(m) + у2(1)(k - m), m = 1, 2, …, k,
Таким образом, функция f(m) линейна на интервалах [1, m0] и [m0, k], причем на первом интервале она убывает быстрее, чем на втором. Отсюда следует, что статистика
является состоятельной оценкой истинной размерности m0.
Итак, из вероятностной теории вытекает рекомендация - в качестве оценки размерности факторного пространства использовать m*. Отметим, что подобная рекомендация была сформулировано как эвристическая одним из основателей многомерного шкалирования Дж. Краскалом [2, 3, 8]. Он исходил из опыта практического использования многомерного шкалирования и вычислительных экспериментов. Вероятностная теория позволила обосновать эту эвристическую рекомендацию.
Оценивание размерности модели
Если возможные подмножества признаков образуют расширяющееся семейство, например, оценивается степень полинома, то естественно ввести термин «размерность модели» (это понятие во многом аналогично используемому в многомерном шкалировании понятию размерности пространства данных). Автору настоящей статьи принадлежит ряд работ по оцениванию размерности модели, которые целесообразно сопоставить с работами по оцениванию размерности пространства данных, рассмотренными выше.
Первая такая работа выполнена автором настоящей статьи во время командировки во Францию в 1976 г. В ней была изучена одна оценка размерности модели в регрессии, а именно, оценка степени полинома в предположении, что зависимость описывается полиномом. Эта оценка была известна в литературе, но позже ее стали ошибочно приписывать автору настоящей статьи, который лишь изучил ее свойства, в частности, установил, что она не является состоятельной, и нашел ее предельное геометрическое распределение [12]. Другие, уже состоятельные оценки размерности регрессионной модели были предложены и изучены в статье [13]. Этот цикл завершила содержащая ряд уточнений работа [14].
Крайняя публикация на эту тему включает в себя обсуждение результатов изучения скорости сходимости в полученных мною предельных теоремах методом Монте-Карло [15].
Аналогичные по методологии оценки размерности модели в задаче расщепления смесей (часть теории классификации [5 - 7]) рассмотрены в статье [16].
Рассмотренные выше оценки размерности модели в многомерном шкалировании изучаются в работах [11, 17, 18]. В этих же работах установлено предельное поведение характеристик метода главных компонент (с помощью асимптотической теории поведения решений экстремальных статистических задач [19, 20]).
Алгоритмы снижения размерности в автоматизированном системно-когнитивный анализе
В автоматизированном системно-когнитивный анализе (АСК-анализе) предложен и в системе "Эйдос" реализован еще один метод снижения размерности. Он описан в работе [21] в разделах 4.2 "Описание алгоритмов базовых когнитивных операций системного анализа (БКОСА)" и 4.3 "Детальные алгоритмы БКОСА (АСК-анализа)". Приведем краткое описание двух алгоритмов - БКОСА-4.1 и БКОСА-4.2.
БКОСА-4.1. "Абстрагирование факторов (снижение размерности семантического пространства факторов)"
С помощью метода последовательных приближений (итерационный алгоритм) при заданных граничных условиях снижается размерность пространства атрибутов без существенного уменьшения его объема. Критерий остановки итерационного процесса - достижение одного из граничных условий. размерность кластер вектор шкалирование
БКОСА-4.2. "Абстрагирование классов (снижение размерности семантического пространства классов)"
С помощью метода последовательных приближений (итерационный алгоритм) при заданных граничных условиях снижается размерность пространства классов без существенного уменьшения его объема. Критерий остановки итерационного процесса - достижение одного из граничных условий.
Здесь приведены все реальные алгоритмы, реализованные в системе "Эйдос" той версии, которая была реализована на момент подготовки работы [21] (2002 год) : http://lc.kubagro.ru/aidos/aidos02/4.3.htm
Суть алгоритмов такова.
1. Рассчитывается количество информации в значениях факторов о переходе объекта в состояния, соответствующие классам.
2. Рассчитывается ценность значения фактора для дифференциации объекта по классам. Эта ценность - это просто вариабельность информативностей значений факторов (количественных мер вариабельности много: среднее отклонение от среднего, среднее квадратическое отклонение, и др.). Иначе говоря, если в значении фактора в среднем содержится мало информации о принадлежности и не принадлежности объекта к классу, то это значение не очень ценное, а если много - то ценное.
3. Рассчитывается ценность описательных шкал для дифференциации объектов по классам. В работах Е.В. Луценко сейчас это делается как среднее от ценностей градаций данной шкалы.
4. Потом проводится Парето-оптимизация значений факторов и описательных шкал:
- значения факторов (градации описательных шкал) ранжируются в порядке убывания ценности и удаляются из модели те наименее ценные, которые идут правее касательной к Парето-кривой 45°;
- факторы (описательные шкалы) ранжируются в порядке убывания ценности и удаляются из модели те наименее ценные, которые идут правее касательной к Парето-кривой 45°.
В результате размерность пространства, построенного на описательных шкалах, существенно снижается за счет удаления коррелирующих между собой шкал, т.е. по сути это ортонормирование пространства в информационной метрике.
Этот процесс может повторяться, т.е. быть итерационным, при этом в новой версии системе "Эйдос" итерации запускаются вручную.
Аналогично ортонормируется информационное пространство классов.
Шкалы и их градации могут быть числовыми (тогда обрабатываются интервальные значения), а также могут быть текстовыми (порядковыми или даже номинальными).
Таким образом, с помощью алгоритмов БКОСА (АСК-анализа) размерность пространства максимально снижается с минимальной потерей информации.
Для анализа статистических данных в прикладной статистике разработан ряд других алгоритмов снижения размерности. В задачи настоящей статьи не входит описание всего многообразия таких алгоритмов.
Литература
1. Орлов А.И. Точки роста статистических методов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 103. С. 136-162.
2. Краскал Дж. Взаимосвязь между многомерным шкалированием и кластер-анализом // Классификация и кластер. М.: Мир, 1980. С.20-41.
3. Kruskal J.B., Wish M. Multidimensional scaling // Sage University paper series: Qualitative applications in the social sciences. 1978. №11.
4. Харман Г. Современный факторный анализ. М.: Статистика, 1972. 489 с.
5. Орлов А.И. Заметки по теории классификации. / Социология: методология, методы, математические модели. 1991. № 2. С.28-50.
6. Орлов А.И. Базовые результаты математической теории классификации // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2015. № 110. С. 219-239.
7. Орлов А.И. Математические методы теории классификации // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2014. № 95. С. 23 - 45.
8. Терехина А.Ю. Анализ данных методами многомерного шкалирования. - М.: Наука, 1986. 168 с.
9. Перекрест В.Т. Нелинейный типологический анализ социально-экономической информации: Математические и вычислительные методы. - Л.: Наука, 1983. 176 с.
10. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ нечисловой информации. М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1981. - 80 с.
11. Орлов А.И. Общий взгляд на статистику объектов нечисловой природы // Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. С.58-92.
12. Орлов А.И. Предельное распределение одной оценки числа базисных функций в регрессии // Прикладной многомерный статистический анализ. Ученые записки по статистике, т.33. - М.: Наука, 1978. С.380-381.
13. Орлов А.И. Оценка размерности модели в регрессии // Алгоритмическое и программное обеспечение прикладного статистического анализа. Ученые записки по статистике, т.36. - М.: Наука, 1980. С.92-99.
14. Орлов А.И. Асимптотика некоторых оценок размерности модели в регрессии // Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. С.260-265.
15. Орлов А.И. Об оценивании регрессионного полинома // Заводская лаборатория. Диагностика материалов. 1994. Т.60. № 5. С.43-47.
16. Орлов А.И. Некоторые вероятностные вопросы теории классификации // Прикладная статистика. Ученые записки по статистике, т.45. - М.: Наука, 1983. С.166-179.
17. Orlov A.I. On the Development of the Statistics of Nonnumerical Objects // Design of Experiments and Data Analysis: New Trends and Results. - M.: ANTAL, 1993. Р.52-90.
18. Орлов А.И. Методы снижения размерности // Приложение 1 к книге: Толстова Ю.Н. Основы многомерного шкалирования: Учебное пособие для вузов. - М.: Издательство КДУ, 2006. - 160 с.
19. Орлов А.И. Асимптотика решений экстремальных статистических задач // Анализ нечисловых данных в системных исследованиях. Сборник трудов. Вып.10. - М.: Всесоюзный научно-исследовательский институт системных исследований, 1982. С. 4-12.
20. Орлов А.И. Организационно-экономическое моделирование: учебник : в 3 ч. Часть 1: Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана. - 2009. - 541 с.
Аннотация
МЕТОДЫ СНИЖЕНИЯ РАЗМЕРНОСТИ ПРОСТРАНСТВА СТАТИСТИЧЕСКИХ ДАННЫХ
Орлов Александр Иванович д.э.н., д.т.н., к.ф.-м.н., профессор РИНЦ SPIN-код: 4342-4994
Московский государственный технический университет им. Н.Э. Баумана, Россия, 105005, Москва, 2-я Бауманская ул., 5,
Луценко Евгений Вениаминович д.э.н., к.т.н., профессор РИНЦ SPIN-код: 9523-7101
Кубанский государственный аграрный университет, Краснодар, Россия
Одной из «точек роста» прикладной статистики являются методы снижения размерности пространства статистических данных. Они все чаще используются при анализе данных в конкретных прикладных исследованиях, например, социологических. Рассмотрим наиболее перспективные методы снижения размерности. Метод главных компонент является одним из наиболее часто используемых методов снижения размерности. Для визуального анализа данных часто используют проекции исходных векторов на плоскость первых двух главных компонент. Обычно хорошо видна структура данных, выделяются компактные кластеры объектов и отдельно выделяющиеся вектора. Метод главных компонент является одним из методов факторного анализа. Новая идея по сравнению с методом главных компонент состоит в том, что на основе нагрузок происходит разбиение факторов на группы. В одну группу объединяются факторы, имеющие сходное влияние на элементы нового базиса. Затем из каждой группы рекомендуется оставить одного представителя. Иногда вместо выбора представителя расчетным путем формируется новый фактор, являющийся центральным для рассматриваемой группы. Снижение размерности происходит при переходе к системе факторов, являющихся представителями групп. Остальные факторы отбрасываются. На использовании расстояний (мер близости, показателей различия) между признаками и основан обширный класс методов многомерного шкалирования.
Основная идея этого класса методов состоит в представлении каждого объекта точкой геометрического пространства (обычно размерности 1, 2 или 3), координатами которой служат значения скрытых (латентных) факторов, в совокупности достаточно адекватно описывающих объект. В качестве примера применения вероятностно-статистического моделирования и результатов статистики нечисловых данных обоснуем состоятельность оценки размерности пространства данных в многомерном шкалировании, ранее предложенной Краскалом из эвристических соображений. Рассмотрен ряд работ по оцениванию размерностей моделей (в регрессионном анализе и в теории классификации). Дана информация об алгоритмах снижения размерности в автоматизированном системно-когнитивный анализе
Ключевые слова: МАТЕМАТИКА, ПРИКЛАДНАЯ СТАТИСТИКА, МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, ТОЧКИ РОСТА, МЕТОД ГЛАВНЫХ КОМПОНЕНТ, ФАКТОРНЫЙ АНАЛИЗ, МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ, ОЦЕНИВАНИЕ РАЗМЕРНОСТИ ДАННЫХ, ОЦЕНИВАНИЕ РАЗМЕРНОСТИ МОДЕЛИ
METHODS OF REDUCING SPACE DIMENSION OF STATISTICAL DATA
Orlov Alexander Ivanovich Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci., professor
Bauman Moscow State Technical University, Moscow, Russia Lutsenko Eugeny Veniaminovich
Dr.Sci.Econ., Cand.Tech.Sci., professor RSCI SPIN-code: 9523-7101
Kuban State Agrarian University, Krasnodar, Russia
One of the "points of growth" of applied statistics is methods of reducing the dimension of statistical data. They are increasingly used in the analysis of data in specific applied research, such as sociology. We investigate the most promising methods to reduce the dimensionality. The principal components are one of the most commonly used methods to reduce the dimensionality. For visual analysis of data are often used the projections of original vectors on the plane of the first two principal components. Usually the data structure is clearly visible, highlighted compact clusters of objects and separately allocated vectors. The principal components are one method of factor analysis. The new idea of factor analysis in comparison with the method of principal components is that, based on loads, the factors breaks up into groups. In one group of factors, new factor is combined with a similar impact on the elements of the new basis. Then each group is recommended to leave one representative.
Sometimes, instead of the choice of representative by calculation, a new factor that is central to the group in question. Reduced dimension occurs during the transition to the system factors, which are representatives of groups. Other factors are discarded. On the use of distance (proximity measures, indicators of differences) between features and extensive class are based methods of multidimensional scaling. The basic idea of this class of methods is to present each object as point of the geometric space (usually of dimension 1, 2, or 3) whose coordinates are the values of the hidden (latent) factors which combine to adequately describe the object. As an example of the application of probabilistic and statistical modeling and the results of statistics of non-numeric data, we justify the consistency of estimators of the dimension of the data in multidimensional scaling, which are proposed previously by Kruskal from heuristic considerations. We have considered a number of consistent estimations of dimension of models (in regression analysis and in theory of classification). We also give some information about the algorithms for reduce the dimensionality in the automated system-cognitive analysis
Keywords: MATHEMATICS, APPLIED STATISTICS, MATHEMATICAL STATISTICS, , GROWTH POINTS, THE PRINCIPAL COMPONENT ANALYSIS, FACTOR ANALYSIS, MULTIDIMENSIONAL SCALING, ESTIMATION OF DATA DIMENSION, ESTIMATION OF MODEL DIMENSION
Размещено на Allbest.ru
...Подобные документы
Представление матрицы в виде произведения унитарной и верхнетреугольной матрицы. Листинг программы. Зависимость погрешности от размерности матрицы на примере метода Холецкого. Приближенные методы решения алгебраических систем. Суть метода Зейделя.
контрольная работа [630,5 K], добавлен 19.05.2014Понятие и цели метода фокальных объектов - поиска новых идей путем присоединения к исходному объекту свойств или признаков случайных объектов. Активизация ассоциативного мышления как один из способов эвристического исследования в теории принятия решений.
контрольная работа [19,5 K], добавлен 24.12.2012Освоение методики организации и проведения выборочного наблюдения; статистических методов и методов компьютерной обработки информации; методов оценки параметров генеральной совокупности на основе выборочных данных. Проверка статистических гипотез.
лабораторная работа [258,1 K], добавлен 13.05.2010Обоснование целесообразности применения статистических данных в анализе устойчивого развития региона. Сбор, обработка статистических данных по основным секторам Кемеровской области. Оценка их полноты и качества. Принципы построения математической модели.
дипломная работа [2,6 M], добавлен 30.05.2013Построение рядов распределения с произвольными интервалами и с помощью формулы Стерджесса. Построение статистических графиков. Расчет и построение структурных характеристик вариационного ряда. Общая характеристика исследуемых статистических совокупностей.
курсовая работа [654,9 K], добавлен 12.04.2009Создание модели анализа и прогнозирования социально-экономического развития Российских регионов методом главных компонент. Оценка основных экономических показателей региона. Формирование индикаторов устойчивого развития с использованием программы МИДАС.
курсовая работа [969,1 K], добавлен 29.08.2015Раскрытие содержания математического моделирования как метода исследования и прогнозирования развития объектов народного хозяйства. Алгоритмы, модели и функции процедуры Эйткена. Оценивание ковариационной матрицы вектора при оценке объектов недвижимости.
статья [56,4 K], добавлен 14.10.2012Теоретическая оценка инфляционных процессов, обзор исследований по российской инфляции и статистических данных. Обзор используемых методов эмпирического анализа, особенности эконометрического моделирования инфляционных процессов в современной России.
курсовая работа [44,3 K], добавлен 04.02.2011Понятие системы управления, ее назначение и целевые функции. Суть параметрического метода исследования на основе научного аппарата системного анализа. Проведение исследования системы управления на предприятии "Атлант", выявление динамики объема продаж.
курсовая работа [367,1 K], добавлен 09.06.2010Характеристика зависимости цены автомобиля от его возраста и мощности двигателя на основе полученных статистических данных (линейной зависимости). Расчет мультиколлинеарности между объясняющими переменными, анализ надежности оценок параметров модели.
контрольная работа [60,0 K], добавлен 21.03.2010Повышение надежности метода оценки клиентов для снижения рисков при выдаче кредита путем определения ключевых параметров, влияющих на принятие решения. Использование банком скоринговых моделей на различных этапах оценки клиентов, алгоритм apriori.
дипломная работа [2,4 M], добавлен 25.07.2015Выборочные исследования предпочтений потребителей специалистами маркетологами. Построение выборочной функции спроса. Маркетинговые опросы потребителей. Выбор и организация метода опроса. Обработка данных. Проверка однородности двух биномиальных выборок.
реферат [179,8 K], добавлен 08.01.2009Резервы снижения электроемкости за счет усовершенствования и обновления производственных фондов. Уровень связи между производственными факторами. Оценка режимов функционирования предприятия. Паспорт и расчет полиномиальных моделей, ресурсоемкости.
контрольная работа [405,5 K], добавлен 01.04.2009Основные задачи статистики предприятия, населения, инвестиций. Способы, формы и виды статистического наблюдения. Сводка и группировка статистических данных. Структурная и аналитическая группировка данных. Абсолютные, относительные и средние величины.
контрольная работа [262,6 K], добавлен 07.03.2011Определение понятий "функциональные и структурные математические модели", рассмотрение их значение, главных функций и целей. Составление модели "черного ящика", простейшее отображение реальной системы. Метод исследования объектов с помощью их моделей.
реферат [13,2 K], добавлен 17.11.2015Потенциальная возможность математического моделирования любых экономических объектов и процессов. Методы минимизации, связанные с вычислением градиента. Суть метода градиентного спуска. Анализ симплекс-таблицы. Построение экономико-математической модели.
курсовая работа [998,7 K], добавлен 01.10.2011Строение и свойства полиметилметакрилата. Проведение полимеризации в присутствии ферроцена. Определение молекулярно-массовых характеристик полимера. Методика осуществления математического моделирования. Метрологическая обработка экспериментальных данных.
дипломная работа [1,7 M], добавлен 19.03.2014Статистический анализ экспериментальных данных. Использование критериев согласия для средних и для дисперсий, согласия относительно долей. Критерии для сравнения распределений численностей, проверки случайности и оценки резко выделяющихся наблюдений.
контрольная работа [256,0 K], добавлен 20.08.2015Сглаживание с помощью метода скользящей средней. Анализ исходного ряда на наличие стационарности. Тест Дики-Фуллера. Выделение сезонной компоненты в аддитивной и мультипликативной модели. Составление уравнения тренда в виде полинома пятой степени.
лабораторная работа [2,6 M], добавлен 17.02.2014Алгоритм минимизации функции нескольких переменных методами сопряженных градиентов и покоординатного спуска. Проведение сравнения их скорости работы, выделение основных достоинств и недостатков. Программа для проведения исследований градиентным методом.
курсовая работа [427,4 K], добавлен 09.02.2013