Применение метода главных компонент для обработки многомерных статистических данных

Пример решения задачи статистической обработки многомерных результатов рейтинговой оценки студентов с учетом коэффициентов значимости по отдельным показателям и разделам. Определение и вычисление главных компонент. Их корреляция с исходными признаками.

Рубрика Педагогика
Вид статья
Язык русский
Дата добавления 27.05.2018
Размер файла 460,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Применение метода главных компонент для обработки многомерных статистических данных

В.В. Мирошников, В.Н. Строителев, Н.М. Борбаць

Аннотация

Рассмотрены вопросы обработки многомерных статистических данных рейтинговой оценки студентов на основе применения метода главных компонент.

Ключевые слова: многомерный анализ данных, снижение размерности, метод главных компонент, рейтинг.

На практике часто приходится сталкиваться с ситуацией, когда объект исследования характеризуется множеством разнообразных параметров, каждый из которых измеряется или оценивается. Анализ полученного в результате исследования нескольких однотипных объектов массива исходных данных представляет собой практически нерешаемую задачу. Поэтому исследователю необходимо проанализировать связи и взаимозависимости между исходными параметрами, с тем чтобы отбросить часть из них или заменить их меньшим числом каких-либо функций от них, сохранив при этом по возможности всю заключенную в них информацию.

В связи с этим встают задачиснижения размерности, т.е. перехода от исходного массива данных к существенно меньшему количеству показателей, отобранных из числа исходных или полученных путем некоторого их преобразования (с наименьшей потерей информации, содержащейся в исходном массиве), и классификации - разделения рассматриваемой совокупности объектов на однородные (в некотором смысле) группы.Если по большому числу разнотипных и стохастически взаимосвязанных показателей были получены результаты статистического обследования целой совокупности объектов, то для решения задач классификации и снижения размерности следует использовать инструментарий многомерного статистического анализа, в частности метод главных компонент [1].

В статье предлагается методика применения метода главных компонент для обработки многомерных статистических данных. В качестве примера приводится решение задачи статистической обработки многомерных результатов рейтинговой оценки студентов.

1. Определение и вычисление главных компонент. Предположим, что на каждом объекте исследования из выборочной совокупности объемом регистрируются значения признаков.В результате получаем многомерные наблюдения, каждое из которых можно представить в виде векторного наблюдения [2]

(1)

где - значение -го признака у -го объекта исследования; - символ операции транспонирования.

Полученные многомерные наблюдения необходимо подвергнуть статистической обработке. При этом возникает желание представить каждое из наблюдений (1) в виде вектора с числом компонент , намного меньшим, чем [1; 3].

Задача выделения главных компонент состоит в том, чтобы среди всех возможных линейных комбинаций исследуемых признаков выделить гораздо меньшее число таких, изменчивость которых в значительной степени описывает изменчивость всего первоначального набора признаков в целом [4; 5]. Полагая анализируемый признак Х p-мерной случайной величиной с вектором математических ожиданий и ковариационной матрицей ,определим в качестве класса допустимых преобразований исследуемых признаков их всевозможные линейные ортогональные нормированные комбинации [1; 3]:

- условие нормировки; (2)

- условие ортогональности

Полученные подобным преобразованием величин и представляют собой главные компоненты. Из нихпри дальнейшем анализеисключают переменные с минимальной дисперсией, т.е. оставляют первых главных компонент. Обоснованием этого является тот факт, что во многих задачах обработки многомерных наблюдений исследователя, как правило, интересуют в первую очередь лишь те признаки, которые обнаруживают наибольшую изменчивость при переходе от одного объекта исследования к другому объекту.

Метод главных компонент состоит в определении коэффициентов в преобразовании (2). Можно показать, что эти коэффициенты представляют собой компоненты собственных векторов матрицы , а собственные числа этой матрицы равны дисперсиям главных компонент [1; 3; 6].

Таким образом, первой главной компонентой исследуемой системы показателей называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих подобных комбинаций обладает наибольшей дисперсией. Первая главная компонента получается как линейная комбинация , где - собственный вектор матрицы , соответствующий наибольшему собственному числу этой матрицы; - центрированный вектор исходных показателей.

Также можно показать, что k-й главной компонентойисследуемой системы показателей называется такая нормированно-центрированная линейная комбинация этих показателей, которая не коррелирована с предыдущими главными компонентами и среди всех прочих подобных комбинаций обладает наибольшей дисперсией [2; 6].

Использование метода главных компонент оказывается наиболее полезным и плодотворным в том случае, когда все компоненты исследуемого вектора признаков имеют общую физическую природу и измерены в одних и тех же единицах. Если же признаки измеряются в различных единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения, а полученные линейные комбинации исходных переменных будет трудно интерпретировать. В связи с этим при различных единицах измерения исходных признаков осуществляют не только их центрирование, но и нормировку, т.е. переходят к стандартизированным величинам:

где - диагональныйэлемент матрицы , соответствующий дисперсии i-го исходного признака, т.е. . После подобного преобразования проводят анализ главных компонент относительно величин и их ковариационной матрицы , которая является одновременно корреляционной матрицей исходных признаков [6].

Однако собственные числа и векторы не инвариантны относительно изменения масштаба, поэтому в общем случае главные компоненты, получаемые по корреляционной матрице, отличны от главных компонент, найденных по ковариационной матрице, и, следовательно, доля дисперсии исходных признаков, объясняемая q первыми главными компонентами, в обоих случаях будет различной. В связи с этим перед проведением компонентного анализа должен быть сделан выбор, получать ли главные компоненты на основе ковариационной матрицы или на основе корреляционной, т.е. должен быть решён вопрос о нормировке исходных признаков. При этом окончательное решение о желательности нормировки следует принимать, исходя из нестатистических соображений, так как со статистической точки зрения нормировка выборочных данных привносит ряд неудобств, в частности усложняет процедуру проверки статистических гипотез относительно собственных чисел [7; 9].

После определения главных компонент их необходимо определенным образом интерпретировать, для чего используется матрица факторных нагрузок Можно показать, что элемент матрицы нагрузок определяет удельный вес влияния v-й нормированной главной компоненты на i-й исходный признак [3; 8]. Кроме того, элемент в случае нормированных главных компонент и исходных признаков определяет величину парного коэффициента корреляции между и . Сумма квадратов элементов любого i-го столбца матрицы равна дисперсии v-й главной компоненты, а сумма квадратов элементов любой i-й строки матрицы нагрузок равна единице.

Приведенные свойства матрицы нагрузок используются при содержательной интерпретации главных компонент. Например, они позволяют придавать главной компоненте содержательный смысл, соответствующий i-му исходному признаку, для которого коэффициент достигает максимального значения (как правило, для )[3].

2. Вычисление главных компонент для результатов рейтинговой оценки. Оценка качества образования предполагает регулярное осуществление сбора, обработки, хранения и предоставления соответствующей информации в виде, удобном для анализа состояния и динамики образовательного процесса и его результатов. При этом количество показателей, оцениваемых у каждого объекта исследования (отдельного студента, группы, кафедры, факультета или образовательного учреждения), может быть достаточно велико, что и объясняет необходимость использования различных методов понижения размерности[10].

В качестве примера выбрано решение задачи статистической обработки многомерных результатов рейтинговой оценки студентов Брянского государственного технического университета (БГТУ). Рейтинговая оценка студентов и студенческих групп в БГТУ проводится в соответствии с положением, утверждаемым на совете университета один раз в год (после окончания учебного года) на основе исходных данных, заполняемых старостами студенческих групп, заведующими выпускающими кафедрами и деканами [11].

Для расчета рейтинговых оценок студентов старостами студенческих групп заполняются специальные формы, содержащие показатели, сгруппированные по четырем разделам:

-оценка знаний и исполнительская дисциплина;

-участие в научно-исследовательской и спортивно-массовой работе;

-организационная и общественная активность;

-дисциплинарные нарушения.

По собранным исходным данным группой качества в соответствии с установленной методикой рассчитываются рейтинговые оценки с учетом коэффициентов значимости по отдельным показателям и разделам. Величины этих коэффициентов определяются экспертным путем и утверждаются ученым советом вуза. Коэффициенты значимости отдельных показателей и разделов устанавливаются экспертами таким образом, чтобы максимальная рейтинговая оценка составляла 100 баллов.

В качестве примера используем данные для студентов трех групп: 07ММО, 07СТС и 07УК (общая численность - 33 студента). Расчет будем проводить по значениям 15 незначительно доработанных показателей. Таким образом, для каждого объекта исследования (отдельного студента) имеется векторное наблюдение

Для проведения расчетов векторные наблюдения агрегируем в выборочную матрицу, в которой строки соответствуют контролируемым признакам, а столбцы - объектам исследования (размерность матрицы - ):

После центрирования исходных данных находим выборочную корреляционную матрицу по формуле [2]

Получаем:

Диагональные элементы матрицы представляют собой выборочные оценки дисперсий признаков, а недиагональные - ковариации между соответствующей парой признаков. Используя выборочную ковариационную матрицу, можем найти оценки стандартных отклонений каждого из признаков.

Так как масштабы шкал, используемых для оценки различных признаков,сильно отличаются, то главные компоненты целесообразно выделять не для ковариационной, а для выборочной корреляционной матрицы

Недиагональные элементы этой матрицы представляют собой выборочные оценки коэффициентов корреляции между соответствующей парой признаков.

Составляем характеристическое уравнение для матрицы :

Находим все его корни:

Теперь для нахождения компонент главных векторов подставляем последовательно численные значения ,, … в системувида

Например, при получаем систему линейных уравнений вида

Очевидно, что полученная система уравнений совместна ввиду однородности и неопределенна, т.е. имеет бесконечное множество решений. Для нахождения единственного интересующего нас решения воспользуемся следующими положениями:

1. Для корней системы может быть записано соотношение

где - алгебраическое дополнение j-го элемента любой i-й строки матрицы системы.

2. Наличие условия нормировки (2) обеспечивает единственность решения рассматриваемой системы уравнений. При этом компоненты вектора соответствующего собственному числу , определяются однозначно, за исключением того, что все они могут одновременно изменить знак. Однако знаки компонентов собственных векторов не играют существенной роли, так как их смена не влияет на результат анализа. Они могут служить только для индикации противоположных тенденций на соответствующей главной компоненте [3; 9].

Таким образом,получаем собственный вектор соответствующий собственному числу :

Правильность нахождения компонентов проверяем по равенству

Аналогичным образом находим компоненты оставшихся собственных векторов:

… … … … … … … … …

Таким образом, все главные компоненты будут иметь вид линейных комбинаций:

… … … … … … … … …

где , , … - стандартизированные значения соответствующих исходных признаков.

Составляем ортогональную матрицу линейного преобразования , в качестве строк которой используем найденные собственные векторы корреляционной матрицы. Проверяем правильность её составления по формуле

Так как в соответствии со свойствами главных компонент сумма дисперсий исходных признаков равна сумме дисперсий всех главных компонент, то с учетом того, что мы рассматривали нормированные исходные признаки, можно оценить, какую часть общей изменчивости исходных признаков объясняет каждая из главных компонент. Например, для первых двух главных компонент имеем:

Таким образом, в соответствии с критерием информативности, используемым для главных компонент, найденных по корреляционной матрице, семьпервых главных компонент объясняют 88,97% общей изменчивости пятнадцати исходных признаков.

Используя матрицу линейного преобразования , найдем матрицу факторных нагрузок (для семи первых главных компонент):

Из анализа коэффициентов матрицы нагрузок видно:

1. Первая главная компонента имеет сильную отрицательную корреляцию с такими исходными признаками, как: - число дипломов, полученных в конкурсе научных и дипломных работ; - число публикаций; - число докладов на вневузовских конференциях; - число докладов на вузовских конференциях; - число заявок, подготовленных на смотры-конкурсы; - участие в региональных, областных и городских спортивных соревнованиях.

2. Вторая главная компонента имеет сильную положительную корреляцию со следующими исходными признаками: - участие в международных и всероссийских спортивных соревнованиях; - награды и призовые места, занятые на международных и всероссийских спортивных соревнованиях; - награды и призовые места, занятые на региональных, областных и городских спортивных соревнованиях.

3. Третья главная компонента имеет сильную отрицательную корреляцию с исходными показателями (сумма оценок по экзаменам летней сессии) и (число грамот по результатам участия в конкурсах научных и дипломных работ).

4. Четвертая главная компонента тесно связана с показателем (число зачетов, сданных вовремя, т.е. до начала летней сессии).

5. Пятая главная компонента отрицательно коррелирована с показателем (награды и призовые места, занятые на вузовских соревнованиях).

6. Шестая главная компонента положительно коррелирована с показателем (число зачетов, сданных вовремя, т.е. до начала зимней сессии).

7. Седьмая главная компонента слабо коррелирована со всеми исходными признаками.

Таким образом, можно сделать следующие выводы:

1. Седьмую главную компоненту, слабо коррелированную со всеми исходными признаками, также можно исключить из дальнейшего рассмотрения, при этом оставшиеся шесть главных компонент будут объяснять 84,39% общей изменчивости данных.

2. Первая главная компонента может рассматриваться как степень внеучебной пассивности студентов.

3. Вторая главная компонента может рассматриваться как степень участия студентов в спортивных мероприятиях.

4. Третья главная компонента - активность студентов в учебном процессе.

5. Четвертая и шестая компоненты - прилежность студентов в течение весеннего и осеннего семестров соответственно.

6. Пятая главная компонента - степень участия в спортивных соревнованиях университета.

В дальнейшем для проведения всех необходимых расчетов при выделении главных компонент предлагается использовать специализированные статистические программные комплексы, например STATISTICA, что существенно облегчит процесс анализа.

Описанный в данной статье процесс выделения главных компонент на примере рейтинговой оценки студентов предлагается использовать для аттестации бакалавров и магистров.

статистический рейтинговый оценка студент

Список литературы

1. Прикладная статистика: Классификация и снижение размерности: справ. изд. / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин; под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1989. - 607с.

2. Справочник по прикладной статистике:в 2т.: [пер. с англ.] / под ред. Э. Ллойда, У. Ледермана, С.А. Айвазяна, Ю.Н. Тюрина. - М.: Финансы и статистика, 1990. - Т.2. - 526c.

3. Прикладная статистика. Основы эконометрики. В 2 т. Т.1. Теория вероятностей и прикладная статистика: учеб. для вузов / С.А. Айвазян, B.C. Мхитарян. - 2-е изд., испр.- М: ЮНИТИ-ДАНА, 2001. - 656с.

4. Афифи А. Статистический анализ: подход с использованием ЭВМ: [пер. с англ.] / А. Афифи, С. Эйзен.- М.: Мир, 1982. - 488 с.

5. Дронов С.В. Многомерный статистический анализ: учеб. пособие / С.В. Дронов. - Барнаул: Изд-во Алт. гос. ун-та, 2003. - 213 с.

6. Андерсон Т. Введение в многомерный статистический анализ / Т. Андерсон; пер. с англ. Ю.Ф. Кичатова [и др.]; под ред. Б.В. Гнеденко. - М.: Гос. изд-во физ.-мат.лит., 1963. - 500с.

7. Лоули Д. Факторный анализ как статистический метод / Д. Лоули, А. Максвелл; пер. с англ. Ю.Н. Благовещенского. - М.: Мир, 1967. - 144с.

8. Дубров А.М. Многомерные статистические методы: учебник / А.М. Дубров, В.С. Мхитарян, Л.И. Трошин. - М.: Финансы и статистика, 2003. - 352с.

9. Кендалл М. Многомерный статистический анализ и временные ряды / М. Кендалл, А. Стьюарт;пер. с англ. Э.Л. Пресмана, В.И. Ротаря; под ред. А.Н. Колмогорова, Ю.В. Прохорова. - М.: Наука,1976. - 736с.

10. Белоглазов И.Н. Многомерный анализ в задачах квалиметрии образования / И.Н. Белоглазов // Изв. РАН. Теория и системы управления. - 2006. - №6. - С.39-52.

11. Лагерев А.В. Система рейтинговых оценок факультетов, кафедр, преподавателей, студентов и студенческих групп / А.В. Лагерев, О.А. Горленко. - Брянск, 2005. - 74с.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.