Устойчивый метод главных компонент
Описание модификации метода главных компонент, использующей веса наблюдений, получаемых с использованием неравенства Чебышева. Анализ и оценка устойчивости этого способа по отношению к стандартному методу главных компонент при различной доле шума.
Рубрика | Математика |
Вид | статья |
Язык | русский |
Дата добавления | 26.04.2019 |
Размер файла | 93,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Устойчивый метод главных компонент
Метод главных компонент (МГК) - статистический метод, используемый для снижения размерности изучаемых данных, а также для линейной аппроксимации данных, обладающий свойством наименьшей ошибки [1]. В наблюдениях нередко содержатся шумы и ошибки измерений. Для фильтрации такого рода шумов целесообразно использовать устойчивую модификацию МГК, основанную на неравенстве Чебышева.
Такой подход не требует информации о типе распределения выборки, и был описан ранее для оценивания положения, масштаба выборки и линейной регрессии [6], [7], [8], [10], [11], и имеет прикладное значение [9].
Метод главных компонент
Главные компоненты [1] - это набор признаков , которые являются линейными комбинациями исходных признаков , измеренных на объектах исследования, и упорядоченные по мере убывания дисперсии.
-ой главной компонентой называется такая нормированно-центрированная линейная комбинация исходного множества признаков
(1)
, а ,
неравенство чебышев шум
n - количество объектов в системе, которая не коррелирует ни с одной из предшествующих главных компонент и обладает наибольшей дисперсией из всех последующих и выполняется условие:
(2)
По формуле (1) необходимо вычислить p главных компонент для каждого объекта.
Коэффициенты в формуле (1) являются собственными векторами ковариационной матрицы размерности признаков .
Собственные векторы находятся из решения уравнения
(3)
где - i-ое по величине собственное значение матрицы .
Собственные значения получаются из решения уравнения
(4)
В реальных задачах ковариационная матрица часто неизвестна и её надо оценивать по следующим формулам: - для нецентрированных признаков, - для центрированных признаков.
Число компонент, которое целесообразно использовать в дальнейшем, можно определить, проанализировав меру информативности метода главных компонент (относительную долю дисперсии) :
(5)
где m - количество компонент.
Мера информативности определяет остаточный процент информации, который получится при сжатии признаков до m компонент.
Устойчивый метод главных компонент
Устойчивый метод главных компонент получается с помощью использования устойчивой матрицы ковариации [7], которая вычисляется по формуле:
Далее применяется стандартный метод главных компонент.
Собственные значения и собственные векторы ищутся с помощью итерационного метода вращений Якоби [3]. Реализация алгоритма получения устойчивых главных компонент представлена в приложении.
Рис. 1. Блок-схема устойчивого метода главных компонент
Сравнение устойчивого и стандартного методов
Для сравнения устойчивого и стандартного методов главных компонент сгенерированы коррелирующие между собой данные с убывающим коэффициентом размаха выборки. Для вычислительного эксперимента была выбрана модель с 1000 наблюдениями размерности 8. Первая координата имеет равномерно распределение R (-9; 11). Все последующие координаты определяются по формуле:
(6)
где r - случайная величина, имеющая равномерное распределение R (-10; 10).
Далее для исследования устойчивости методов к выделяющимся наблюдениям были добавлены шумы. Шумы получаются следующим образом: первая координата точки-шума имеет распределение R (-100; 0), а все остальные координаты имеют распределение R (0; 100), т.е. шум в 10 раз превышает размах исходных данных.
Рис. 2. Сравнение устойчивого и стандартного МГК
Рис. 3. Сравнение 1-го собственного вектора для устойчивого и стандартного МГК
С помощью многомерного взвешивания, основанного на неравенстве Чебышева (см. [8], [11]), получены весовые коэффициенты для каждого наблюдения. В качестве контрольных данных берется собственный вектор первой главной компоненты. Последовательно по 1% внося в выборку шум, сравниваются по критерию ч-квадрат собственные векторы, при данном уровне шума с собственным вектором при 0% шума.
Минимальным допустимым значением критерия является 0,9. При значениях ниже минимального говорить об однородности векторов нельзя.
Как видно из рис. 2, 4, устойчивый метод в отличие от стандартного нечувствителен к шуму в несколько процентов, до 9% и более (стандартный метод начинает отклоняться от бесшумового варианта уже при 2% шума). При этом при отсутствии шума, как видно из рис. 2, 1-е собственные векторы, вычисленные двумя методами (стандартным и устойчивым), идентичны. Это указывает на применимость устойчивого (робастного) метода главных компонент.
Описана устойчивая модификация метода главных компонент, использующая взвешивание наблюдений по алгоритму, основанному на неравенстве Чебышева, при этом вычисляется устойчивая ковариационная матрица, остальные же процедуры МГК остаются прежними. Взвешивание на основе неравенства Чебышева позволяет легко модернизировать методы статистического анализа до устойчивых введением весов наблюдений.
Список литературы
неравенство чебышев шум
1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.
2. Леман Э. Теория точечного оценивания: пер. с англ. М.: Наука, 1991. С. 9 -15.
3. Самарский А.А., Гулин А.В. Численные методы. М.: Наука, 1989. 432 с.
4. Хампель Ф., Рончетти Э., Рауссеу П., Штаэль В. Робастность в статистике. Подход на основе функций влияния. М.: Мир, 1989. 512 с.
5. Хьюбер Дж.П. Робастность в статистике. М.: Мир, 1984. 304 с.
6. Чечулин В.Л. К обоснованию метода устойчивого оценивания посредством неравенства Чебышева // Вестник Пермского университета. Сер.: Математика. Механика. Информатика. 2010. Вып. 2 (2). С. 29-32.
7. Чечулин В.Л. Об оценке масштаба (дисперсии) выборки, не использующей оценку положения (среднего) // Университетские исследования, 2011 (раздел: математика). URL: http://www.uresearch.psu.ru/files/articles/553_26764.doc (дата обращения: 25.06.2013).
8. Чечулин В.Л., Грацилёв В.И. Качественное сравнение способов устойчивого оценивания // Университетские исследования, 2012 (раздел: математика). URL: www.uresearch.psu.ru/files/articles/634_52153. doc (дата обращения: 25.06.2013).
9. Чечулин В.Л., Грацилёв В.И. Оценка относительной величины заработной платы с использованием устойчивого оценивания // Университетские исследования, 2013 (раздел: экономика). URL:
http://www.uresearch.psu.ru/files/articles/639_58093.doc (дата обращения: 25.06.2013).
10. Чечулин В.Л., Грацилёв В.И. О сравнении устойчивых оценок, основанных на неравенстве Чебышева // Университетские исследования, 2013 (раздел: математика). URL: http://www.uresearch.psu.ru/files/articles/642_69164.doc (дата обращения: 25.06.2013).
11. Чечулин В.Л., Грацилёв В.И. Устойчивое регрессионное оценивание, основанное на неравенстве Чебышева // Университетские исследования, 2013 (раздел: математика). URL: http://www.uresearch.psu.ru/files/articles/649_93562.doc (дата обращения: 25.06.2013).
Размещено на Allbest.ru
...Подобные документы
Понятие, происхождение и предмет статистики с точки зрения современной науки и практики; стадии и методы статистического исследования, математическая составляющая. Метод главных компонент, его применение. Закон больших чисел, парадокс сэра Гиффена.
курсовая работа [955,2 K], добавлен 17.05.2012Точечное оценивание основных числовых характеристик, функции и плотности распределения компонент многомерного случайного вектора. Статистическая проверка характера распределения. Особенности корреляционного анализа признаков этой математической категории.
курсовая работа [1,1 M], добавлен 01.10.2013Исследование точности прогнозирования случайного процесса с использованием метода наименьших квадратов. Анализ расхождения между трендом и прогнозом, последующая оценка близости распределения расхождений наблюдений и распределения сгенерированного шума.
курсовая работа [1,0 M], добавлен 29.01.2010Метод главных элементов, расширенная матрица, состоящая из коэффициентов системы и свободных членов. Метод квадратных корней для решения систем с симметричной матрицей коэффициентов. Практическая реализация метода Халецкого: программа на языке Pascal.
контрольная работа [761,7 K], добавлен 22.08.2010Характеристика важнейших типов сходимости итерационных последовательностей. Специфические особенности применения метода Ньютона для определения кратных корней. Алгоритм нахождения корней трансцендентного уравнения с использованием метода секущих.
дипломная работа [964,9 K], добавлен 09.06.2019Сущность итерационного метода решения задачи, оценка его главных преимуществ и недостатков. Разновидности итерационных методов решения систем линейных алгебраических уравнений: Якоби, Хорецкого и верхней релаксации, их отличия и возможности применения.
курсовая работа [39,2 K], добавлен 01.12.2009Преобразование коэффициентов полиномов Чебышева. Функции, применяемые в численном анализе. Интерполяция многочленами, метод аппроксимации - сплайн-аппроксимация, ее отличия от полиномиальной аппроксимации Лагранжем и Ньютоном. Метод наименьших квадратов.
реферат [21,5 K], добавлен 27.01.2011Очерк жизни и творчества великого древнегреческого ученого Эвклида, оценка его достижений в области математики. Анализ главных произведений Эвклида, его основополагающие идеи и источники их формирования. Геометрия на поверхности отрицательной кривизны.
реферат [393,9 K], добавлен 13.12.2010Смысл метода Ньютона для решения нелинейных уравнений. Доказательства его модификаций: секущих, хорд, ложного положения, Стеффенсена, уточненного для случая кратного корня, для системы двух уравнений. Оценка качества метода по числу необходимых итераций.
реферат [99,0 K], добавлен 07.04.2015Минимальное остовное дерево связного взвешенного графа и его нахождение с помощью алгоритмов. Описание алгоритма Краскала, возможность строить дерево одновременно для нескольких компонент связности. Пример работы алгоритма Краскала, код программы.
курсовая работа [192,5 K], добавлен 27.03.2011Опис одного з поширених ітераційних методів, методу хорда — ітераційного методу знаходження кореня рівняння, який ще має назви метод лінійного інтерполювання, метод пропорційних частин, або метод хибного положення. Задачі для самостійного розв’язування.
реферат [336,8 K], добавлен 04.12.2010Векторная запись нелинейных систем. Метод Ньютона, его сущность, реализации и модификации. Метод Ньютона с последовательной аппроксимацией матриц. Обобщение полюсного метода Ньютона на многомерный случай. Пример реализации метода Ньютона в среде MATLAB.
реферат [140,2 K], добавлен 27.03.2012Уравнения с разделяющими переменными. Частное решение линейного дифференциального уравнения. Оценка вероятностей с помощью неравенства Чебышева. Нахождение плотности нормального распределения. Построение гистограммы и выборочной функции распределения.
контрольная работа [387,4 K], добавлен 09.12.2011Роль многочленов Чебышева в теории приближений и их использование в качестве узлов при интерполяции алгебраическими многочленами. Преимущества разложения функции по полиномам Чебышева. Разработка программы численного расчета решения подобной задачи.
контрольная работа [184,2 K], добавлен 13.05.2014Математические модели явлений или процессов. Сходимость метода простой итерации. Апостериорная оценка погрешности. Метод вращений линейных систем. Контроль точности и приближенного решения в рамках прямого метода. Метод релаксации и метод Гаусса.
курсовая работа [96,7 K], добавлен 13.04.2011Классификация методов кластеризации и их характеристика. Метод горной кластеризации в Matlab. Возможная область применения кластеризации в различных предметных областях. Математическое описание метода. Пример использования метода на реальных данных.
реферат [187,0 K], добавлен 28.10.2010Знакомство с примерами возникновения свободных колебаний. Поиск геометрической интерпретации главных координат. Анализ основных формул для нахождения нормальных координат. Поиск коэффициентов распределения, колебание координат на собственной частоте.
курсовая работа [366,2 K], добавлен 11.07.2012Понятие матрицы достижимости и связности. Операция удаления вершины из графа. Алгоритм выделения компонент сильной связности. Разработка и листинг программы на языке Turbo Pascal, осуществляющей вычисление матрицы достижимости по заданному алгоритму.
курсовая работа [584,3 K], добавлен 26.04.2011Основные свойства многочленов Чебышева - двух последовательностей ортогональных многочленов, их роль в теории приближений. Способы определения, явные формулы. Многочлен Чебышева на отрезке. Случай произвольного отрезка. Разработка программной реализации.
курсовая работа [391,8 K], добавлен 19.12.2012Сущность математической теории скалярных и векторных полей, ее основные понятия и определения. Характерные черты и отличительные признаки скалярных и векторных полей, доказательства их главных теорем.
лекция [121,6 K], добавлен 11.02.2010