Главная Коллекция "Revolution" Математика Способы выделения и анализа корреляционных плеяд признаков

Способы выделения и анализа корреляционных плеяд признаков

Предложены способы выделения корреляционных плеяд при анализе матрицы коэффициентов корреляции. Разработаны алгоритм выделения плеяд, проверки корректности выделения плеяд признаков, методика анализа состава плеяд и оценки информативности признаков.

Рубрика	Математика
Вид	статья
Язык	русский
Дата добавления	11.06.2021
Размер файла	1,2 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Способы выделения и анализа корреляционных плеяд признаков

Исачкин А.В.1, 2, Крючкова В.А.2

1РГАУ-МСХА им. К.А. Тимирязева

2ГБС им. Н.В.Цицина РАН

Аннотация

В данной работе предложены способы выделения корреляционных плеяд при анализе матрицы коэффициентов корреляции: метод выделения достоверных сильных связей и построение коррелограммы и метод максимального корреляционного пути, построение дендрита признаков и «разрезание» его на плеяды. Разработаны алгоритм выделения плеяд, проверки корректности выделения плеяд признаков, методика анализа состава плеяд и оценки информативности признаков в пределах плеяды.

Работа выполнена в рамках ГЗ ГБС РАН (№118021490111-5).

Ключевые слова: КОРРЕЛЯЦИОННЫЙ АНАЛИЗ, КОРРЕЛОГРАММА, ПЛЕЯДА ПРИЗНАКОВ, СОПРЯЖЕННОСТЬ ПРИЗНАКОВ, МАКСИМАЛЬНЫЙ КОРРЕЛЯЦИОННЫЙ ПУТЬ, МНОГОМЕРНЫЙ АНАЛИЗ, МОРФОЛОГИЧЕСКИЕ ПРИЗНАКИ

Введение

Корреляционные плеяды представляют собой группы переменных (признаков), между которыми установлены достоверные и сильные связи. Анализ состава плеяд имеет важное теоретическое и практическое значение. В частности, в пределах плеяды можно ранжировать переменные по величине среднего внутриплеядного коэффициента корреляции, в результате чего установить переменную, имеющую максимальную среднюю корреляцию со всеми другими переменными плеяды. Такую переменную можно считать наиболее информативной.

Если эту процедуру проделать со всеми плеядами, можно установить группу ортогональных (некоррелирующих между собой) информативных переменных для оценки той или иной выборки.

Кроме того, анализ состава плеяд позволяет более детально изучить взаимосвязи между переменными.

Для того, чтобы выделить корреляционные плеяды между переменными, необходимо вычислить корреляции между всеми переменными во всех возможных сочетаниях и сформировать из них матрицу. Размерность такой матрицы определяется числом переменных. Матрица будет квадратной (то есть число строк равно числу столбцов) и симметричной относительно диагонали. Ячейки матрицы, расположенные по диагонали, будут пустыми, поскольку корреляция переменного с самим собой не имеет смысла [1, 2].

Например, если переменных 10, матрица будет размером 10 х 10, то есть иметь 100 ячеек. Если исключить диагональные ячейки (10 шт.), остаются 90 ячеек. Поскольку матрица симметрична относительно диагонали, для её заполнения необходимо вычислить 45 коэффициентов корреляции. анализ корреляционный плеяда

Для формирования матрицы можно использовать любые коэффициенты корреляции: коэффициент Чупрова, ранговый коэффициент корреляции Спирмена, тетрахорический коэффициент корреляции, выборочный коэффициент корреляции, корреляционное отношение [3-7].

Цель и задачи исследования

Цель исследования - провести сравнительный анализ способов выделения корреляционных плеяд и проверку корректности выделения плеяд. В задачи исследования входило: 1) подготовка матрицы коэффициентов корреляции; 2) выделение плеяд признаков построением коррелограмм; 3) выделение плеяд признаков методом максимального корреляционного пути; 4) анализ корректности выделения корреляционных плеяд; 5) анализ плеяд и выделение наиболее информативных признаков.

Материалы и методика

В качестве модельного объекта для построения и анализа корреляционных плеяд выбраны сеянцы абрикоса обыкновенного. Проведено описание 100 сеянцев по следующим признакам: окраска побега, толщина побега, площадь листа, длина черешка, окраска плода, окраска мякоти, масса плода, масса косточки, поражение морозами, поражение болезнями. Переменные признаков унифицированы к порядковой шкале [8], затем рассчитаны коэффициенты ранговой корреляции Спирмена (табл. 1).

Таблица 1. Матрица коэффициентов ранговой корреляции Спирмена между 10 переменными 100 сеянцев абрикоса

Признаки	Окраска побега	Толщина побег.	Площадь листа	Длина черешка	Окраска плода	Окраска мякоти	Масса плода	Масса косточки	Поражение морозами	Поражение болезнями.
	1	2	3	4	5	6	7	8	9	10
Окраска побега	1		-0,32	0,41	-0,19	0,74	0,02	0,13	0,18	-0,34	0,26
Толщина побега	2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
Площадь листа	3	0,41	0,91		0,83	0,21	0,12	0,67	0,54	0,21	-0,13
Длина черешка	4	-0,19	0,18	0,83		-0,01	-0,03	0,40	0,35	-0,36	-0,27
Окр. кожицы плода	5	0,74	0,11	0,21	-0,01		0,78	0,50	0,03	0,14	-0,12
Окр. мякоти плода	6	0,02	0,28	0,12	-0,03	0,78		0,80	0,14	0,06	0,09
Масса плода	7	0,13	0,42	0,67	0,40	0,50	0,80		0,87	0,32	0,29
Масса косточки	8	0,18	0,37	0,54	0,35	0,03	0,14	0,87		0,38	-0,13
Поражение морозами	9	-0,34	0,23	0,21	-0,36	0,14	0,06	0,32	0,38		0,56
Поражение болезнями	10	0,26	0,17	-0,13	-0,27	-0,12	0,09	0,29	-0,13	0,56

Обсуждение

Предлагается два способа выделения корреляционных плеяд при анализе матрицы коэффициентов корреляции: 1) путем выделения достоверных сильных связей и построения коррелограммы; 2) с использованием метода максимального корреляционного пути построение дендрита признаков и «разрезание» его на плеяды.

Алгоритм построения коррелограмм. Коррелограмма представляет собой графическую систему из переменных, соединенных достоверными связями. Переменные обычно изображают в виде окружностей с номером переменной. Прямые связи, как правило, изображают обычными линиями, обратные - пунктирными.

Шаги алгоритма построения коррелограмм:

1) оценка достоверности каждого коэффициента корреляции тем или иным способом;

2) преобразование исходной матрицы путем удаления из неё недостоверных коэффициентов корреляции;

3) построение коррелограммы, состоящей только из достоверных связей;

4) построение коррелограммы, состоящей только из достоверных сильных (превышающих по абсолютной величине 0,7) связей, на этом последнем этапе и выделяются корреляционные плеяды.

Оценим достоверность каждого коэффициента корреляции на 1%-ном уровне значимости по формуле:

Стандартное значение t01=2,58 (df=N-2=98).

Для удобства дальнейших расчетов построим матрицу из критериев Стьюдента, при этом значения критериев, превышающие t01, выделим более темной заливкой и полужирным шрифтом (табл. 2):

Таблица 2. Матрица эмпирических значений критерия Стьюдента, рассчитанных при оценке достоверности коэффициентов ранговой корреляции Спирмена между 10 признаками абрикоса

Признаки	Окраска побега	Толщина побег.	Площадь листа	Длина черешка	Окраска плода	Окраска мякоти	Масса плода	Масса косточки	Поражение морозами	Поражение болезнями.
	1	2	3	4	5	6	7	8	9	10
Окраска побега	1		3,16	4,05	1,88	7,30	0,20	1,29	1,78	3,36	2,57
Толщина побега	2			8,97	1,78	1,09	2,77	4,15	3,66	2,27	1,68
Площадь листа	3				8,18	2,08	1,19	6,61	5,33	2,08	1,29
Длина черешка	4					0,10	0,30	3,95	3,46	3,57	2,68
Окр. кож. плода	5						7,69	4,94	0,30	1,38	1,19
Окр. мяк. плода	6							7,89	1,38	0,59	0,89
Масса плода	7								8,57	3,16	2,87
Масса косточки	8									3,75	1,29
Поражение морозами	9										5,53
Поражение болезнями	10

Таким образом, установлено, что из 45 коэффициентов корреляции 23 - достоверны на 1%-ном уровне значимости.

Преобразуем исходную матрицу коэффициентов корреляции, исключив из неё коэффициенты, недостоверные на 1%-ном уровне значимости (табл. 3), и построим на ее основе коррелограмму (рис. 1):

Данная коррелограмма не позволяет выделить корреляционные пледы переменных, поскольку почти все переменные тесно связаны между собой достоверными корреляциями. Учитывая это, удалим из матрицы и, соответственно, из коррелограммы связи меньше 0,7 (табл. 4, рис. 2):

Таблица 3. Коэффициенты корреляции, достоверные на 1%-ном уровне значимости

Признаки	Окраска побега	Толщина побег.	Площадь листа	Длина черешка	Окраска плода	Окраска мякоти	Масса плода	Масса косточки	Поражение морозами	Поражение болезнями.
	1	2	3	4	5	6	7	8	9	10
Окраска побега	1		-0,32	0,41		0,74				-0,34
Толщина побега	2			0,91			0,28	0,42	0,37
Площадьлиста	3				0,83			0,67	0,54
Длина черешка	4							0,40	0,35	-0,36	-0,27
Окр. кожицы плода	5						0,78	0,50
Окр. мякоти плода	6							0,80
Масса плода	7								0,87	0,32	0,29
Масса косточки	8									0,38
Поражение морозами	9										0,56
Поражение болезнями	10

Рис. 1. Коррелограмма корреляционных связей между 10 признаками абрикоса, достоверных на 1%-ном уровне значимости (все связи: и прямые, и обратные, - обозначены простыми линиями)

Таблица 4. Коэффициенты корреляции, превышающие 0,7 (сильные связи)

Признаки	Окраска побега	Толщина побега	Площадь листа	Длина черешка	Окр. кож. плода	Окр. мяк. плода	Масса плода	Масса косточк.	Поражен. морозами	Поражен. болезнями
	1	2	3	4	5	6	7	8	9	10
Окраска побега	1					0,74
Толщина побега	2			0,91
Площадьлиста	3				0,83
Длина черешка	4
Окр. кожицы плода	5						0,78
Окр. мякоти плода	6							0,80
Масса плода	7								0,87
Масса косточки	8
Поражение морозами	9
Поражение болезнями	10

Рис. 2. Коррелограмма достоверных сильных корреляционных связей

На рис. 2 изображена коррелограмма, иллюстрирующая сильные корреляционные связи. На основании структуры связей установлены 2 плеяды переменных:

1) плеяда №1 включает пять переменных - №№ 1, 5, 6, 7, 8;

2) плеяда №2 включает три переменные - №№ 2, 3, 4.

Переменные №9 и №10 не вошли в плеяды №1 и №2, поэтому их можно считать ортогональными, то есть не коррелирующими с другими переменными.

Метод максимального корреляционного пути, построения и разрезания дендрита. Алгоритм максимального корреляционного пути начинается так же, как и в предыдущем случае, с анализа исходной матрицы коэффициентов корреляции. Его наиболее удобно проводить в программе Excel. Рассмотрим последовательность шагов алгоритма:

1. Копируем матрицу коэффициентов корреляции в программу Excel.

2. В матрице находим максимальный по абсолютной величине коэффициент корреляции, поиск осуществляется по строчкам сверху вниз, по столбцам - слева направо. Если обнаружено несколько максимальных коэффициентов, выбираем первый, который был обнаружен при поиске сверху вниз и слева направо.

3. Создаем новую таблицу, для этого копируем строчку, в которой был обнаружен максимальный коэффициент, указываем номер этой строчки (слева), а над строчкой указываем номера всех столбцов. Отмечаем в этой строчке ячейку, в которой обнаружен максимальный коэффициент, более темной заливкой. Столбец, в котором обнаружен максимальный коэффициент, из дальнейшего анализа исключается и остаётся пустым.

4. Копируем следующую строчку из исходной матрицы, номер которой должен совпадать с номером столбца, в котором обнаружен максимальный коэффициент. В этой и последующих копируемых строчках соблюдается важное правило: коэффициенты корреляции, находящиеся в каждой ячейке столбца копируемой строчки, нужно сравнивать по абсолютной величине с коэффициентами корреляции, находящимися в предыдущей строчке по столбцам. Если коэффициент корреляции больше стоящего выше коэффициента, он оставляется в ячейке, если меньше - он заменяется на коэффициент в вышестоящей строке.

5. После этих преобразований находим максимальный коэффициент во второй по счету выписываемой строке. Отмечаем в этой строке ячейку, в которой обнаружен максимальный коэффициент, более темной заливкой.

6. Копируем следующую по счету строчку из исходной матрицы, номер которой должен совпадать с номером столбца, в котором обнаружен максимальный коэффициент. Данные операции проделываем то тех пор, пока не будут выписаны все строки исходной матрицы.

7. Финальная стадия максимального корреляционного пути заключается в корректировке значений максимальных коэффициентов по строкам. Следуя слева направо по каждому столбцу, нужно найти строчку, где максимальный коэффициент встретился первый раз, и именно в этой строчке выделить ячейку с максимальным коэффициентом более темной заливкой. Максимальные коэффициенты, расположенные по столбцам ниже этой ячейки, удаляются.

8. Далее строится дендрит максимальных связей. Дендрит представляет собой неиерархическую структуру из переменных (окружности с номерами переменных), которые соединяются линиями (максимальными связями), и над линиями указывается величина связи.

9. После построения дендрита эмпирически подбирается критическое значение коэффициента корреляции (обычно это 0,7). Все связи меньше 0,7 удаляются из дендрита (в некоторых случаях значение критического коэффициента корреляции может быть меньше 0,7). При этом выделяются корреляционные плеяды.

Перечисленные шаги становятся более понятными на конкретном примере (см. ниже).

Пример. Провести максимальный корреляционный путь, построить дендрит и выделить корреляционные плеяды на основе матрицы коэффициентов ранговой корреляции Спирмена между 10 переменными 100 сеянцев абрикоса (табл. 5).

Таблица 5. Матрица коэффициентов ранговой корреляции Спирмена между 10 переменными 100 сеянцев абрикоса

	Окраска побега	Толщина побег.	Площадь листа	Длина черешка	Окраска плода	Окраска мякоти	Масса плода	Масса косточки	Поражение морозами	Поражение болезнями.
	1	2	3	4	5	6	7	8	9	10
Окраска побега	1		-0,32	0,41	-0,19	0,74	0,02	0,13	0,18	-0,34	0,26
Толщина побега	2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
Площадь листа	3	0,41	0,91		0,83	0,21	0,12	0,67	0,54	0,21	-0,13
Длина черешка	4	-0,19	0,18	0,83		-0,01	-0,03	0,40	0,35	-0,36	-0,27
Окр. кожицы плода	5	0,74	0,11	0,21	-0,01		0,78	0,50	0,03	0,14	-0,12
Окр. мякоти плода	6	0,02	0,28	0,12	-0,03	0,78		0,80	0,14	0,06	0,09
Масса плода	7	0,13	0,42	0,67	0,40	0,50	0,80		0,87	0,32	0,29
Масса косточки	8	0,18	0,37	0,54	0,35	0,03	0,14	0,87		0,38	-0,13
Поражение морозами	9	-0,34	0,23	0,21	-0,36	0,14	0,06	0,32	0,38		0,56
Поражение болезнями	10	0,26	0,17	-0,13	-0,27	-0,12	0,09	0,29	-0,13	0,56

1. Копируем матрицу в Excel.

2. В матрице находим максимальный по абсолютной величине коэффициент корреляции: rmax=0,91 (корреляция между вторым и третьим переменными). Число последующих этапов максимального корреляционного пути равно числу переменных минус единица, то есть - 9 этапов.

3. Создаем новую таблицу, для этого копируем строчку №2, в которой был обнаружен максимальный коэффициент, над строчкой указываем номера всех столбцов. Отмечаем в этой строчке ячейку, в которой обнаружен максимальный коэффициент, более темной заливкой (табл. 6):

Таблица 6. Этап 1 максимального корреляционного пути (строчка №2)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17

4. Поскольку rmax=0,91 обнаружен в столбце №3, копируем строчку №3 (табл. 7). Второй и третий столбцы не заполняются. В строке №3 делаем следующие преобразования: поскольку r31=0,41 больше r21=0,-0,32, r31=0,41 остается в ячейке 3-1. Аналогичным образом изменяем ячейки 3-4, 3-5, 3-7, 3-8. Так как r36=0,12 меньше r26=0,28, r36 заменяем на r26. Аналогичным образом заменяем ячейки 3-9 на 2-9, 3-1- на 2-10. В строке №3 находим rmax=0,83 (ячейка 3-4).

Таблица 7. Этап 2 максимального корреляционного пути (строчка №3)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17

5. Поскольку rmax=0,83 обнаружен в столбце №4, копируем строчку №4 (табл. 8). Второй, третий и четвертый столбцы не заполняются. В строке №4 делаем следующие преобразования: r41=-0,19 меньше r31=0,41, поэтому r41 заменяем на r31. Аналогичным образом изменяем ячейки 4-5, 4-6, 4-7, 4-8. Так как r49=-0,36 больше r39= 0,23 и r410=-0,27 больше r310=0,17, r49=-0,36 остается в ячейке 4-9, а r410=-0,27 остается в ячейке 4-10. В строке №4 находим rmax=0,67 (ячейка 4-7).

Таблица 8. Этап 3 максимального корреляционного пути (строчка №4)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17
4	0,41				0,21	0,28	0,67	0,54	-0,36	-0,27

6. Поскольку rmax=0,67 обнаружен в столбце №7, копируем строчку №7 (табл. 9). Второй, третий, четвертый и седьмой столбцы не заполняются. В строке №7 делаем следующие преобразования: r71=0,13 меньше r41=0,41, поэтому r71 заменяем на r41. Аналогичным образом изменяем ячейку 7-9. Так как r75=0,50 больше r45= 0,21, r76=0,80 больше r46=0,28, r78=0,87 и r710=0,29 больше r410=-0,27, перечисленные большие значения остаются в ячейках 7-5, 7-6, 7-8, 7-10. В строке №7 находим rmax=0,87 (ячейка 7-8).

Таблица 9. Этап 4 максимального корреляционного пути (строчка №7)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17
4	0,41				0,21	0,28	0,67	0,54	-0,36	-0,27
7	0,41				0,50	0,80		0,87	-0,36	0,29

7. Поскольку rmax=0,87 обнаружен в столбце №8, следующей копируем строчку №8 (табл. 10). Столбцы №№ 2, 3, 4, 7, 8 не заполняются. В строке №8 делаем следующие преобразования: r81=0,18 меньше r71=0,41, поэтому r81 заменяем на r71. Аналогичным образом изменяем ячейки 8-5, 8-6, 8-10. Так как r89=0,38 больше r79= -0,36, r89=0,38 остается в ячейке 8-9. В строке №8 находим rmax=0,80 (ячейка 8-6).

Таблица 10. Этап 5 максимального корреляционного пути (строчка №8)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17
4	0,41				0,21	0,28	0,67	0,54	-0,36	-0,27
7	0,41				0,50	0,80		0,87	-0,36	0,29
8	0,41				0,50	0,80			0,38	0,29

8. Поскольку rmax=0,80 обнаружен в столбце №6, следующей копируем строчку №6 (табл. 11). Столбцы №№ 2, 3, 4, 6, 7, 8 не заполняются. В строке №6 делаем следующие преобразования: r61=0,02 меньше r81=0,41, поэтому r61 заменяем на r81. Аналогичным образом изменяем ячейки 6-9, 6-10. Так как r65=0,78 больше r85=0,50, r65=0,78 остается в ячейке 6-5. В строке №6 находим rmax=0,78 (ячейка 6-5).

Таблица 11. Этап 6 максимального корреляционного пути (строчка №6)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17
4	0,41				0,21	0,28	0,67	0,54	-0,36	-0,27
7	0,41				0,50	0,80		0,87	-0,36	0,29
8	0,41				0,50	0,80			0,38	0,29
6	0,41				0,78				0,38	0,29

9. Поскольку rmax=0,78 обнаружен в столбце №5, следующей копируем строчку №5 (табл. 12). Столбцы №№ 2, 3, 4, 5, 6, 7, 8 не заполняются. В строке №5 делаем следующие преобразования: так как r51=0,74 больше r61=0,41, r51=0,74 остается в ячейке 5-1. Поскольку r59=0,14 меньше r69=0,38, поэтому r59 заменяем на r69. Аналогичным образом изменяем ячейку 5-10. В строке №5 находим rmax=0,74 (ячейка 5-1).

Таблица 12. Этап 7 максимального корреляционного пути (строчка №5)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17
4	0,41				0,21	0,28	0,67	0,54	-0,36	-0,27
7	0,41				0,50	0,80		0,87	-0,36	0,29
8	0,41				0,50	0,80			0,38	0,29
6	0,41				0,78				0,38	0,29
5	0,74								0,38	0,29

10. Поскольку rmax=0,74 обнаружен в столбце №1, следующей копируем строчку №1 (табл. 13). Столбцы №№ 1, 2, 3, 4, 5, 6, 7, 8 не заполняются. В строке №1 делаем следующие преобразования: поскольку r19=-0,34 меньше r59=0,38, поэтому r19 заменяем на r59. Аналогичным образом изменяем ячейку 1-10. В строке №1 находим rmax=0,38 (ячейка 1-9).

Таблица 13. Этап 8 максимального корреляционного пути (строчка №1)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17
4	0,41				0,21	0,28	0,67	0,54	-0,36	-0,27
7	0,41				0,50	0,80		0,87	-0,36	0,29
8	0,41				0,50	0,80			0,38	0,29
6	0,41				0,78				0,38	0,29
5	0,74								0,38	0,29
1									0,38	0,29

11. Поскольку rmax=0,38 обнаружен в столбце №9, следующей копируем строчку №9 (табл. 14). Столбцы №№ 1, 2, 3, 4, 5, 6, 7, 8, 9 не заполняются. В строке №9 делаем следующие преобразования: так как r910=0,56 больше r110=0,29, r910=0,56 остается в ячейке 9-10. Таким образом, в строке №9 имеется только одна заполненная ячейка 9-10, следовательно, максимальный корреляционный путь завершен.

Таблица 14. Этап 9 (заключительный) максимального корреляционного пути (строчка №9)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17
4	0,41				0,21	0,28	0,67	0,54	-0,36	-0,27
7	0,41				0,50	0,80		0,87	-0,36	0,29
8	0,41				0,50	0,80			0,38	0,29
6	0,41				0,78				0,38	0,29
5	0,74								0,38	0,29
1									0,38	0,29
9										0,56

12. Корректируем максимальный корреляционный путь. Корректировка проводится по столбцам сверху вниз и заключается в следующем:

12.1. В столбцах №№ 1, 3, 4, 5, 8, 10 корректировка не проводится, поскольку в этих столбцах максимальными являются самые нижние коэффициенты корреляции;

12.2. В столбце №6 rmax=0,80 впервые появилось в ячейке 7-6, а затем было скопировано в ячейку 8-6, поэтому rmax, 86=0,80 удаляем и считаем максимумом rmax, 76=0,80;

12.3. В столбце №7 rmax=0,67 впервые появилось в ячейке 3-7, а затем было скопировано в ячейку 4-7, поэтому rmax, 47=0,67 удаляем и считаем максимумом rmax, 37=0,67;

12.4. В столбце №9 rmax=0,38 впервые появилось в ячейке 8-9, а затем было скопировано в ячейки 6-9, 5-9 и 1-9, поэтому rmax, 69=0,38, rmax, 59=0,38 и rmax, 19=0,38 удаляем и считаем максимумом rmax, 89=0,38.

В итоге скорректированный максимальный корреляционный путь выглядит следующим образом (табл. 15):

Таблица 15. Скорректированный максимальный корреляционный путь (финальная стадия)

	1	2	3	4	5	6	7	8	9	10
2	-0,32		0,91	0,18	0,11	0,28	0,42	0,37	0,23	0,17
3	0,41			0,83	0,21	0,28	0,67	0,54	0,23	0,17
4	0,41				0,21	0,28		0,54	-0,36	-0,27
7	0,41				0,50	0,80		0,87	-0,36	0,29
8	0,41				0,50				0,38	0,29
6	0,41				0,78					0,29
5	0,74									0,29
1										0,29
9										0,56

13. Далее строится дендрит максимальных связей. Дендрит строится на основе скорректированного максимального корреляционного пути (финальная стадия). Анализируем максимальные коэффициенты корреляции сверху вниз:

- переменное №2 связано с переменным №3 (r23=0,91),

- переменное №3 связано с переменными №4 (r34=0,83) и №7 (r37=0,67),

- строчку№4 пропускаем, так как в ней отсутствуют максимальные коэффициенты,

- переменное №7 связано с переменными №6 (r74=0,80) и №8 (r78=0,87),

- переменное №8 связано с переменным №9 (r89=0,38),

- переменное №6 связано с переменным №5 (r65=0,78),

- переменное №5 связано с переменным №1 (r51=0,74),

- строчку№1 пропускаем, так как в ней отсутствуют максимальные коэффициенты,

- переменное №9 связано с переменным №10 (r910=0,56).

Перечисленные связи изображаются в виде структуры из переменных и максимальных корреляций (рис. 3):

Рис. 3. Дендрит максимальных коэффициентов корреляции между 10 признаками абрикоса

14.Для того, чтобы выделить корреляционные плеяды, дендрит следует разрезать на кластеры. Установим следующее правило: если корреляция меньше 0,7, мы её разрываем, то есть в плеядах остаются связи больше 0,7 (рис. 4):

Рис. 4. Корреляционные плеяды между 10 переменными абрикоса

Вывод: выделено 2 корреляционные плеяды: плеяда №1 включает переменные №№ 1, 5, 6, 7, 8; плеяда №2 включает переменные №№ 2, 3, 4; признаки №№ 9, 10 являются ортогональными. Данный вывод полностью соответствует выводу, сделанному методом коррелограмм.

Проверка корректности выделения корреляционных плеяд. Для того, чтобы проверить корректность выделения корреляционных плеяд, необходимо вычислить средние коэффициенты корреляции между всеми переменными в пределах каждой плеяды (внутриплеядные коэффициенты).

Затем вычислить средние коэффициенты корреляции между переменными из разных плеяд (межплеядные коэффициенты).

Если средние внутриплеядные коэффициенты превышают межплеядные, выделение корреляционных плеяд проведено корректно. Если средние внутриплеядные коэффициенты меньше средних межплеядных коэффициентов, выделение корреляционных плеяд проведено некорректно, и следует увеличить величину критического значения коэффициента корреляции, по которому разрывали корреляционные связи в коррелограмме или в дендрите.

Пример. Оценить корректность выделения плеяд методом коррелограмм и методом максимального корреляционного пути (см. предыдущие примеры). В результате применения этих методов выделено 2 плеяды: в плеяду №1 вошли переменные №№ 1, 5, 6, 7, 8; в плеяду №2 - переменные №№ 2, 3, 4. Кроме того, установлено, что переменные №8 и №9 ортогональные, то есть не коррелируют с другими переменными.

Решение. Для оценки корректности этих утверждений: 1) вычислим средние внутриплеядные коэффициенты корреляции; 2) средний межплеядный коэффициент корреляции; 3) средние коэффициенты корреляции между ортогональными переменными и переменными, вошедшими в плеяды.

Вначале вычислим средний коэффициент корреляции внутри плеяды №1 (r11). Для этого необходимо вычислить сумму коэффициентов корреляции по абсолютной величине без учета знака, поскольку нас интересует средняя степень связи между переменными внутри плеяды, а затем эту сумму разделить на число слагаемых, то есть на число внутриплеядных коэффициентов корреляции.

Строим таблицу значений коэффициентов корреляции (табл. 16) между переменными №№1, 5, 6, 7, 8 (значения коэффициентов берутся из исходной матрицы коэффициентов корреляции между 10 переменными абрикоса - табл. 5):

Таблица 16. Значения коэффициентов корреляции по абсолютной величине между переменными №№1, 5, 6, 7, 8, входящими в плеяду №1

	1	5	6	7	8
1		0,74	0,02	0,13	0,18
5			0,78	0,50	0,03
6				0,80	0,14
7					0,87
8

Аналогичным способом вычислим средний коэффициент корреляции внутри плеяды №2 (табл. 17):

Таблица 17. Значения коэффициентов корреляции по абсолютной величине между переменными №№2, 3, 4, входящими в плеяду №2

	2	3	4
2		0,91	0,18
3			0,83
4

Средний коэффициент корреляции внутри плеяды 2:

Далее вычислим средний коэффициент корреляции между переменными, входящими в плеяды №1 и №2. Для этого построим таблицу абсолютных величин коэффициентов корреляции между соответствующими переменными (табл. 18):

Таблица 18. Абсолютные величины коэффициентов корреляции между переменными плеяд №1 и №2

	плеяда № 1
	1	5	6	7	8
плеяда №2	2	0,32	0,11	0,28	0,42	0,37
	3	0,41	0,21	0,12	0,67	0,54
	4	0,19	0,01	0,03	0,40	0,35

Средний коэффициент корреляции между плеядами 1-2:

Заполняем таблицу средних внутриплеядных и средних межплеядных коэффициентов корреляции (табл. 19).

Таблица 19. Средние коэффициенты корреляции внутри плеяд и между плеядами

	плеяда №1	плеяда №2
плеяда №1	0,419	0,295
плеяда №2	0,295	0,640

Из табл. 19 следует, что средние внутриплеядные коэффициенты больше средних межплеядных коэффициентов, следовательно, плеяды выделены корректно.

Для того, чтобы убедиться в том, что выделенные переменные №9 и №10 ортогональны по отношению ко всем остальным переменным, вычислим соответствующие средние коэффициенты корреляции:

1) средний коэффициент корреляции между ортогональной переменной №9 и всеми остальными переменными:

2) средний коэффициент корреляции между ортогональной переменной №10 и всеми остальными переменными:

Результаты вычислений подтвердили вывод о том, что переменные №9 и №10 ортогональны по отношению ко всем остальным переменным, поскольку их средние значения связей с остальными переменными крайне малы: 0,289 и 0,224.

Анализ состава корреляционных плеяд. При анализе состава корреляционных плеяд следует тщательно проанализировать признаки, вошедшие в плеяды, их особенности, характеризующие эти признаки. Кроме того, следует выделить пары признаков, между которыми установлены сильные корреляции.

Пример. Корреляционная плеяда №1 включает следующие переменные: окраска побега (1), окраска плода (5), окраска мякоти (6), масса плода (7), масса косточки (8), то есть в неё вошли признаки окраски различных органов абрикоса, а также массы плода и косточки. Максимальная прямая корреляция выявлена между признаками «масса плода» и «масса косточки» (r78=0,87). Относительно высокие прямые корреляции установлены для следующих пар признаков: «окраска побега» и «окраска плода» (r15=0,74); «окраска плода» и «окраска мякоти» (r56=0,78); «окраска мякоти» и «масса плода» (r67=0,80).

Корреляционная плеяда №2 включает следующие признаки: толщина побега (2), площадь листа (3), длина черешка (4), то есть в неё вошли количественные признаки побега и листа. Очень высокая прямая корреляция выявлена между признаками «толщина побега» и «площадь листа» (r23=0,91). Относительно высокая прямая корреляция установлена для признаков: «площадь листа» и «длина черешка» (r34=0,83).

Ортогональными переменными являются признаки: поражение морозами (9) и поражение болезнями (10). Причем только между ними установлена прямая слабая корреляция r9-10=0,56. С остальными признаками недостоверные связи.

Оценка степени информативности переменных в пределах плеяды. Основой оценки степени информативности переменного в пределах плеяды является сравнительный анализ значений средних корреляций переменного с остальными переменными, входящими в плеяду. Переменное, которое наиболее тесно коррелирует со всеми остальными переменными плеяды, является наиболее информативным.

Пример. В таблице 20 представлены значения коэффициентов корреляции между переменными плеяды №1 и средние значения по каждому переменному:

Таблица 20. Коэффициенты корреляции между признаками плеяды №1

	Окраска побега	Окраска плода	Окраска мякоти	Масса плода	Масса косточки
	1	5	6	7	8
Окраска побега	1		0,74	0,02	0,13	0,18	0,268
Окраска плода	5	0,74		0,78	0,50	0,03<...

статья "Способы выделения и анализа корреляционных плеяд признаков" скачать

Подобные документы

Методы и модели, используемые для выделения тренда временного ряда
Понятие об основной тенденции ряда динамики, ее сущность и визуальное представление, методы анализа. Аналитическая оценка уравнения тренда. Характеристика, использование различных методов для выделения тренда временных рядов, прогнозирование показателей.

курсовая работа [207,2 K], добавлен 04.03.2013
Построение матрицы достижимости
Понятие матрицы достижимости и связности. Операция удаления вершины из графа. Алгоритм выделения компонент сильной связности. Разработка и листинг программы на языке Turbo Pascal, осуществляющей вычисление матрицы достижимости по заданному алгоритму.

курсовая работа [584,3 K], добавлен 26.04.2011
Алгоритм Форда-Беллмана
Основные понятия теории графов. Матричные способы задания графов. Выбор алгоритма Форда–Бэллмана для решения задачи поиска минимальных путей (маршрутов) в любую достижимую вершину нагруженного орграфа. Способы выделения пути с наименьшим числом дуг.

курсовая работа [109,1 K], добавлен 22.01.2016
Примеры решения задач по математической статистике и теории вероятности
Определение вероятности определенного события. Вычисление математического ожидания, дисперсии, среднеквадратического отклонения дискретной случайной величины Х по известному закону ее распределения, заданному таблично. Расчет корреляционных признаков.

контрольная работа [725,5 K], добавлен 12.02.2010
Исследование корреляционной зависимости по выборке
Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

курсовая работа [304,0 K], добавлен 02.03.2017
Критерий сходимости Коши
Рассмотрение особенностей сравнения рядов. Характеристика признаков сходимости Даламбера. Критерий Коши как ряд утверждений в математическом анализе. Анализ геометрической интерпретации интегрального признака. Способы определения сумы числового ряда.

контрольная работа [214,6 K], добавлен 01.03.2013
Методика регрессионного анализа
Описание способов нахождения коэффициентов регрессии модели полнофакторного эксперимента. Проверка многофакторных статистических гипотез на однородность ряда дисперсий, значимость и устойчивость математических коэффициентов множественной корреляции.

контрольная работа [1,2 M], добавлен 05.08.2010
Определители
Определители второго и третьего порядка. Перестановки и подстановки. Миноры и алгебраические дополнения. Применение методов приведения определителя к треугольному виду, представления определителя в виде суммы определителей, выделения линейных множителей.

курсовая работа [456,6 K], добавлен 19.07.2013
Сходимость положительных рядов
Определение условий сходимости положительного ряда и описание свойств гармонических рядов Дирихле. Изучение теорем сравнения рядов и описание схемы Куммера для вывода из нее признаков сравнения ряда. Вывод признаков сравнения Даламбера, Раабе и Бертрана.

курсовая работа [263,6 K], добавлен 14.06.2015
Иррациональные уравнения
Методы решений иррациональных уравнений. Метод замены переменных. Линейные комбинации двух и более радикалов. Уравнение с одним радикалом. Умножение на сопряженное выражение. Метод решения уравнений путем выделения полных квадратов под знаком радикала.

контрольная работа [116,6 K], добавлен 15.02.2016
Анализ компонент многомерного случайного вектора
Точечное оценивание основных числовых характеристик, функции и плотности распределения компонент многомерного случайного вектора. Статистическая проверка характера распределения. Особенности корреляционного анализа признаков этой математической категории.

курсовая работа [1,1 M], добавлен 01.10.2013
Алгоритм нахождения обратной матрицы
Понятие обратной матрицы. Пошаговое определение обратной матрицы: проверка существования квадратной и обратной матрицы, расчет определителя и алгебраического дополнения, получение единичной матрицы. Пример расчета обратной матрицы согласно алгоритма.

презентация [54,8 K], добавлен 21.09.2013
Проведение статистического анализа
Формирование массивов данных результатов контроля, представленных в форме матрицы. Основные статистические характеристики. Построение диаграмм. Определение коэффициентов точности технологического процесса и параметров контрольных карт, их построение.

курсовая работа [539,6 K], добавлен 14.10.2011
Регрессионный анализ корелляции субъективного ВАШ и лабораторных признаков активности реактивного артрита
Дисперсионный анализ по одному признаку для проверки равенства нескольких средних. Множественная линейная регрессия. Зависимость ВАШБП и ВАШСП от показателей активности в динамике. Дисперсионный анализ и линейная регрессия, артрит реактивный.

курсовая работа [2,2 M], добавлен 08.08.2010
Методология изучения темы "Признаки параллельности прямых"
Методика преподавания темы "Параллельные прямые. Задачи, связанные с параллельными прямыми". Проведение практических уроков по теме "Параллельность прямых и использование признаков параллельности при решении геометрических задач".

курсовая работа [195,8 K], добавлен 15.12.2003
Анализ показателя реадмиссии
Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.

дипломная работа [256,0 K], добавлен 29.06.2017
Тест числа на простоту
Алгоритм Миллера-Рабина и малая теорема Ферма. Псевдопростые числа, тест на простоту. Криптографический алгоритм шифрования с открытым ключом и цифровой подписью. Создание открытого и секретного ключей. Режим подписи сообщения и способы ее проверки.

реферат [65,1 K], добавлен 12.12.2009
Ранг матрицы. Нахождение обратной матрицы
Понятие матрицы и ее основные элементы. Пример нахождения ее ранга путем приведения к ступенчатому виду. Описание действий над матрицами. Разбор умножения их на примере. Особенности алгебраического дополнения. Алгоритм определения обратной матрицы.

презентация [617,0 K], добавлен 15.09.2014
Понятие условной вероятности
Понятие вероятности события. Петербургский парадокс. Выявление наличия взаимосвязи между признаками в регрессионном анализе. Сравнение коэффициентов корреляции и регрессии. Нахождение тренда с прогнозами в Excel. Методы математического программирования.

контрольная работа [455,5 K], добавлен 12.02.2014
Линейные алгебраические уравнения
Способы решения системы линейных алгебраических уравнений: по правилу Крамера, методом матричным и Жордана-Гаусса. Анализ решения задачи методом искусственного базиса. Характеристика основной матрицы, составленной из коэффициентов системы при переменных.

контрольная работа [951,8 K], добавлен 16.02.2012

Другие документы, подобные "Способы выделения и анализа корреляционных плеяд признаков"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.