Многомерный анализ организации жизненного пространства региона

Кластерный и дискриминантный анализ организации жизненного пространства в районах Мордовии. Распределение районов по кластерам. Выборки на основании расстояния Махалонобиса. Проверка значимости дискриминантных функций. Классификационная матрица.

Рубрика Экономико-математическое моделирование
Вид контрольная работа
Язык русский
Дата добавления 17.06.2013
Размер файла 56,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Многомерный анализ организации жизненного пространства региона

1. Кластерный анализ организации жизненного пространства в районах Республики Мордовия

В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации, а поэтому основой всей дальнейшей работы с собранной информацией. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и производится группировка в соответствии со значениями данного признака. Однако при наличии большого количества признаков построение группировок усложняется настолько, что не представляется целесообразным, поэтому задача классификации может быть решена методами кластерного анализа.

Кластерный анализ - это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных [6]. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами. Слово кластер английского происхождения (cluster) и переводится как сгусток, пучок, группа

В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. Например, если каждый наблюдаемый объект характеризуется двумя признаками x1 и x2, то при выполнении комбинационной группировки вся совокупность объектов будет разбита на группы по x1, а затем внутри каждой выделенной группы будут образованы подгруппы по x2. Такой подход получил название монотетического. Определить принадлежность каждого объекта к той или иной группе можно, последовательно сравнивая его значения x1 и x2 с границами выделенных групп. Образование группы в этом случае всегда связано с указанием ее границ по каждому группировочному признаку отдельно.

В кластерном анализе используется иной принцип образования групп, так называемый политетический подход [5]. Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности.

Особо важное место кластерный анализ занимает в тех отраслях науки, которые связаны с изучением массовых явлений и процессов, и в частности слабоизученных, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Существуют различные методы кластеризации. Методы кластерного анализа можно разделить на две большие группы: агломеративные (последовательно объединяют отдельные объекты в группы - кластеры) и дивизимные (разделяют группы на отдельные группы). Использование различных алгоритмов в иерархических агломеративных методах приводит к различным кластерным структурам и сильно влияет на качество проведение кластеризации [82]. Поэтому алгоритм должен выбираться с учетом имеющихся сведений о существующие структуре совокупности наблюдаемых объектов с учетом требований оптимизации математических критериев.

Наряду с иерархическими методами классификации, существует многочисленная группа так называемых итеративных методов кластерного анализа. Сущность их заключается в том, что процесс классификации начинается с задания некоторых начальных условий (количество образуемых кластеров, порог завершения процесса классификации и т.д.). Итеративные методы в большей степени, чем иерархические, требуют от пользователя интуиции при выборе типа классификационных процедур и задания начальных условий разбиения, так как большинство этих методов очень чувствительны к изменению задаваемых параметров.

Метод k-средних принадлежит к группе итеративных методов эталонного типа, считающихся удобными и быстродействующими. Метод k-средних удобен для обработки больших статистических совокупностей [6]. Алгоритм этого метода предполагает использование исходных значений переменных, а не вычисления и хранения матрицы расстояний между объектами.

Для анализа социальной сферы применялся метод k-средних, который считается достаточно удобным и быстродейственным. При его реализации кластеры формируются исходя из предварительно задаваемых условий разбиения, изменяемых исследователем в процессе кластеризации для достижения требуемого качества классификации.

Суть этого метода состоит в следующем: исследователь заранее определяет количество классов (k), на которые необходимо разбить имеющиеся наблюдения, и первые k наблюдений становятся центрами этих классов. Для каждого следующего наблюдения рассчитываются расстояния до центров кластеров, и данное наблюдение относится к тому кластеру, расстояние до которого было минимальным. После чего для кластера, в котором увеличилось количество наблюдений, рассчитывается новый центр тяжести (как среднее по каждому показателю) по всем включенным в кластер наблюдениям. ППП «Statistica» позволяет реализовать данный метод, предварительно задавая различное количество кластеров, на которые будет разбита исследуемая совокупность данных.

Проведение кластерного анализа имеет своей целью распределение 22 районов и муниципальных образований Республики Мордовия на группы по уровню организации жизненного пространства. Расчеты производились на основании информации основных показателях социальной сферы Республики Мордовия за 2000, 2004 и 2007 год в районном разрезе. По итогам качественного анализа за базу сравнения выбран 2004 г. Анализ представлен в приложении Б.

Многомерное исследование производилось по следующим показателям:

Х1 - уровень зарегистрированной безработицы по районам РМ, %;

Х2 - среднемесячная номинальная заработная плата работников организаций, р;

Х3 - площадь жилищ приходящихся на одного жителя, кв. м;

Х4 - обеспеченность местами детей в дошкольных учреждениях (на 100 мест), чел.;

Х5 - число дневных общеобразовательных учреждений;

Х6 - число больничных коек на 10000 человек населения;

Х7 - число общедоступных библиотек;

Х8 - число зарегистрированных преступлений на 100000 жителей;

Х9 - заболеваемость на 1000 человек населения.

Характеризуя исходную информацию, следует отметить, что показатели XI и Х2 отражают в первую очередь материальное благосостояние населения. Включение подобных показателей обусловлено тем, что неблагополучие в сфере экономики является одной из первопричин снижения уровня социального развития. В анализ включены показатели, характеризующие степень внимания общества к качеству самого населения - это обеспеченность местами детей в дошкольных учреждениях (Х4), число дневных общеобразовательных учреждений по районам РМ (Х5) и число общедоступных библиотек по районам РМ (Х7). Число зарегистрированных преступлений в расчете на 10000 жителей (Х8) отражает уровень физической и имущественной безопасности членов общества, криминогенность и социального здоровья общества. Показатель «площадь жилищ приходящихся на одного жителя» (Х3) показывает обеспеченность жильем населения и характеризует условия жизни населения. Показатели число больничных коек на 10000 человек населения по районам РМ и заболеваемость на 1000 человек населения по районам РМ, соответственно Х6 и Х9, характеризуют состояние сферы здравоохранения и здоровья населения.

Здесь следует обратить внимание на то, что увеличение показателей X2, Х3, Х5, Х6 и Х7 свидетельствует о повышении уровня организации жизненного пространства, тогда как рост показателей Х1, Х4, Х8 и Х9 сигнализирует о его снижении. Массив исходных данных для кластерного анализа представлен в таблице Б.1.

Как видно, исходные показатели измеряются в различных единицах. Однако оценка сходства между объектами сильно зависит от абсолютного значения признака, единицы его измерения и от степени его вариации в совокупности. Чтобы устранить подобное влияние на процедуру классификации, можно значения исходных переменных нормировать (стандартизировать) различными способами. В ППП «Statistica» стандартизация исходных данных производилась по следующему методу:

, (3.1)

где xij - индивидуальное значение i-го объекта по j-тому признаку (i = 1, n);

zij - нормированное значение i-го объекта по j-тому признаку;

- среднее значение объектов по j-тому признаку;

уj - среднеквадратическое отклонение значений объектов по j-ому признаку.

Все дальнейшие вычисления проводились по нормированным значениям. Поскольку исследуемую совокупность можно разбить на различное количество кластеров, то представляет интерес задача сравнительного анализа качества этих вариантов разбиения для выбора наилучшего. Под наилучшим разбиением понимается такое, при котором достигается экстремум (максимум или минимум) выбранного функционала качества (критерия качества разбиения).

Наиболее распространенными функционалами качества являются:

· Сумма квадратов расстояний до центров, выделенных кластеров;

· Сумма квадратов внутриклассовых расстояний между объектами.

Если оценивать качество разбиения по степени удалённости кластеров друг от друга, то можно использовать функционал, при расчете которого используются средние межкластерные расстояния [83]. В большинстве случаев алгоритмы классификации и критерии качества связаны между собой, т.е. определенный алгоритм обеспечивает получение экстремального значения соответствующего функционала качества.

В кластерном анализе для количественной оценки сходства (однородности) объектов вводится понятие метрики - расстояния между объектами, поскольку в каждый кластер должны попасть объекты, имеющие сходные характеристики. Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними. Это связано с тем, что если каждый объект описывается k признаками, то он может быть представлен как точка в k - мерном пространстве, и сходство с другими объектами будет определяться как соответствующее расстояние. В кластерном анализе принято использовать различные меры расстояния между объектами: евклидово расстояние, взвешенное евклидово расстояние, хеммингово расстояние. При реализации метода k - средних в ППП «Statistica» применяется евклидово расстояние:

, (3.2)

где dij - расстояние между i-м и j-м объектами;

xik, xjk - значения k-й переменной соответственно у i-гo и j-гo объектов.

Перед проведением кластерного анализа необходимо проверить всю совокупность исходных данных на однородность, т.е. отсутствие в массиве исходных данных слишком больших и слишком маленьких значений. При наличии неоднородности в совокупности необходимо исключить наблюдение, для которого характерны эти значения.

Визуальная проверка исходных данных на однородность показала наличие «выбросов» в 2004 г. и 2007 г. В 2004 г. необходимо исключить Дубенский район, а в 2007 г. - г. Саранск. Данные районы будут присоединены к кластерам с наиболее высоким уровнем организации жизненного пространства (г. Саранск) и к кластеру с наиболее неблагополучными районами (Дубенский район), так как им соответствуют наибольшие значения показателей и наименьшие показатели, соответственно.

В результате проведенного кластерного анализа были выделены 3 группы (кластера). Распределение районов в 2000 г., 2004 г. и 2007 г. по кластерам представлено в таблице 3.1.

Таблица 3.1 - Распределение районов по кластерам

Кластер

2000

2004

2007

Кластер №1

Атюрьевский

Атяшевский

Темниковский

Дубенский

Теньгушевский

Б-Березниковский

Б-Игнатовский

Ардатовский

Инсарский

Ромодановский

Теньгушевский

Торбеевский

Ардатовский

Атюрьевский

Атяшевский

Кочкуровский

Дубенский

Ичалковский

Кадошкинский

Ковылкинский

Б-Березниковский

Б-Игнатовский

Кластер №2

г. Саранск

Чамзинский

Торбеевский

Ковылкинский

Ардатовский

Рузаевский

З-Полянский

Лямбирьский

Атюрьевский

Атяшевский

Б-Березниковский

Б-Игнатовский

З-Полянский

Кадошкинский

Кочкуровский

Лямбирьский

Старошайговский

Чамзинский

г. Саранск

З-Полянский

Лямбирьский

Ромодановский

Рузаевский

Старошайговский

г. Саранск

Чамзинский

Торбеевский

Теньгушевский

Кластер №3

Елиниковский

Инсарский

Кадошкинский

Ичалковский

Кочкуровский

Краснослободский

Ромодановский

Старошайговский

Ельниковский

Дубенский

Ичалковский

Ковылкинский

Темниковский

Рузаевский

Краснослободский

Ельниковский

Темниковский

Краснослободский

Инсарский

В 2000 г. в кластер №1 вошли 7 районов, кластер №2 включает 8 районов, кластер №3 - 8 районов. В 2004 г. первый кластер включает 5 районов, №2 - 11 районов, кластер №3 состоит из 7 районов. В 2007 г. в кластер №1 вошло 10 районов, кластер №2 - 9 районов, а третий кластер состоит из 4 районов.

Характеристики выделенных кластеров представлены в таблице 3.2.

Таблица 3.2 - Рейтинг значений признаков для каждого кластера

Признак

2000

2004

2007

Кластер 1

Кластер 2

Кластер 3

Кластер 1

Кластер 2

Кластер 3

Кластер 1

Кластер 2

Кластер 3

х1

2

3

1

2

3

1

2

1

3

х2

1

3

2

1

2

3

2

1

3

х3

3

1

2

3

2

1

2

3

1

х4

3

1

2

3

1

2

1

2

3

х5

1

2

3

1

2

3

3

1

2

х6

3

1

2

3

1

2

1

3

2

х7

1

2

3

2

1

3

2

1

3

х8

2

1

3

1

2

3

1

3

2

х9

2

1

3

2

3

1

3

1

2

сумма мест

18

15

21

18

17

19

17

16

21

Наилучшим на протяжении всего исследуемого периода с точки зрения средних значений показателей уровня организации жизненного пространства, является второй кластер. Его состав можно считать относительно стабильным. Саранск в 2007 г. является отдельно стоящим объектом, это связано с наличием в городе учреждений республиканского значения. Кластеру №2 соответствуют наибольшие значения показателей благосостояния и качества населения, а так же показатели здравоохранения, что объясняется тем, что в г. Саранске сосредоточены почти все общеобразовательные учреждения и учреждения здравоохранения. В 2004 г. по среднему показателю уровня заболеваемости г. Саранск занимает последнее место. Высокий уровень заболеваемости объясняется неблагоприятной экологической ситуацией в столице, а та же тем, что население города имеет больше возможности получения квалифицированной помощи, в связи, с чем чаще обращается в лечебно-профилактические учреждения и, соответственно, происходит большее количество регистрации различных видов заболеваний.

Промежуточное положение на протяжении всего периода занимает кластер №1, в нем находятся районы со средними показателями, характеризующими организацию жизненного пространства.

Районы, находящиеся в кластере №3 в 2000 г., 2004 г. и 2007 г., относятся к группе с наименее развитым уровнем организации жизненного пространства. Однако этим кластерам характерен достаточно высокий уровень материального благосостояния населения.

Процесс объединения районов Республики Мордовия в соответствующие кластеры представлен на дендрограмме. Дендрограмма показывает расстояние, на котором происходит присоединение каждого объекта (района) к определенному кластеру.

Состав кластеров в 2000 г., 2004 г. и 2007 г. изменяется. Постоянством состава отличается лишь кластер №2, в который входят районы с высоким уровнем организации жизненного пространства. Это такие районы как Зубово-Полянский район, Лямбирьский район, Ромодановский р-н, Рузаевский р-н, Старошайговский р-н, г. Саранск, Чамзинский и Торбеевский районы. Эти районы относились к группе с высоким уровнем организации жизненного пространства на протяжении семи лет. Ковылкинский р-н, Ардатовский, Атюрьевский, Атяшевский, Б-Березниковский, Б-Игнатовский, Теньгушевский, Ромодановский, Кадошкинский и Кочкуровский районы нельзя охарактеризовать стабильным состоянием, т. к. они на протяжении всего периода относились как к группе с низким уровнем организации жизненного пространства (Ковылкинский р-н), так и к районам со средним уровнем организации жизненного пространства.

По сравнению с 2004 г. изменилось в лучшую сторону состояние Теньгушевского и Ромодановского районов, которые из кластеров с средним уровнем перешли в кластер с высокими показателями организации жизненного пространства. Улучшили свое положение Кадошкинский, Кочкуровский и Старошайговский районы, так если в 2000 г. они относились к районам с низким уровнем организации жизненного пространства, то 2004 г. эти районы стали входить в состав районов с высоким уровнем организации жизненного пространства, что говорит о положительном влиянии социальных программ, разработанных Правительством РМ.

Однако в 2004 г. ухудшилось состояние Инсарского района, из группы со средним уровнем организации жизненного пространства он передвинулся в группу районов-аутсайдеров, и на протяжении трех последующих лет, его состояние так и не изменилось. В 2007 г. по сравнению с 2004 г. в худшую сторону изменилось состояние Атюрьевского и Атяшевского районов, из кластера с наилучшими средними показателями по социальной сфере они опустились в группу районов со средним уровнем развития социальной сферы и организацией жизненного пространства, не сумев удержаться на лидирующих позициях.

Детальное исследование организации жизненного пространства в районах РМ за 2000, 2004, 2007 гг. методами кластерного анализа выявило положительную динамику, которая проявилась в улучшении организации жизненного пространства у основной части районов Республики Мордовия. Это свидетельствует об эффективности разрабатываемых программ социального развития и поддержки районов.

2. Дискриминантный анализ уровня организации жизненного пространства в районах Республики Мордовия

Дискриминантный анализ - это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам на однородные группы [81].

Для решения задачи дискриминантного анализа (разбиения совокупности объектов на однородные группы) необходимо на первом этапе сформировать выборку, на основе которой будут классифицироваться объекты. Для получения такой выборки были использованы результаты уже проведенного выше кластерного анализа.

При проведении анализа было выделено три группы с различным уровнем организации жизненного пространства в районах РМ в 2007 г., результаты представлены в таблице 3.3

Таблица 3.3 - Распределение районов РМ по кластерам в 2007 г.

Группа

Район

Группа №1

Низкий уровень

Ардатовский

Атюрьевский

Атяшевский

Кочкуровский

Дубенский

Ичалковский

Кадошкинский

Ковылкинский

Б-Березниковский

Б-Игнатовский

Группа №2

Высокий уровень

З-Полянский

Лямбирьский

Ромодановский

Рузаевский

Старошайговский

г. Саранск

Чамзинский

Торбеевский

Теньгушевский

Группа №3

Средний уровень

Ельниковский

Темниковский

Краснослободский

Инсарский

Характеристика организации жизненного пространства по следующим показателям: У1 - уровень зарегистрированной безработицы по районам РМ, %; У2 - среднемесячная номинальная заработная плата работников организаций, р; У3 - площадь жилищ приходящихся на одного жителя, кв. м; У4 - обеспеченность местами детей в дошкольных учреждениях (на 100 мест), чел.; У5 - число дневных общеобразовательных учреждений; У6 - число больничных коек на 10000 человек населения; У7 - число общедоступных библиотек; У8 - число зарегистрированных преступлений на 100000 жителей; У9 - заболеваемость на 1000 человек населения.

Данные показатели будут являться дискриминантными. Анализ осуществляется с помощью метода пошагового включения. Сущность этого метода заключается в том, что на каждом шаге просматриваются все переменные, и находится та из них, которая вносит больший вклад в различия между совокупностями. Эта переменная и должна быть включена в модель на данном этапе. Затем происходит переход к следующему шагу и процедура повторяется. В результате реализации данного метода сохраняются только те переменные, чей вклад в дискриминацию больше остальных.

В модель будет включено 4 переменные: У1 - уровень зарегистрированной безработицы по районам РМ, %; У2 - среднемесячная номинальная заработная плата работников организаций, р; У8 - число зарегистрированных преступлений на 100000 жителей; У9 - заболеваемость на 1000 человек населения.

Результаты представлены в таблице 3.4.

Таблица 3.4 - Переменные, включенные в модель и их характеристики (до корректировки выборок)

Итоги анализа дискриминантных функций

Шаг 4, N перем. в модели: 4; группир.: КЛАСС (3 гр.)

Лямбда Уилкса:, 173 прибл. F (8,34)=5,965 p<, 0001

Уилкса лямбда

Частная лямбда

F-исключ (2,17)

p-уров.

Толер.

1-толер. (R-кв.)

Y2

0,519

0,333

17,009

8,77E-05

0,396

0,604

Y8

0,277

0,625

5,090

0,019

0,438

0,562

Y9

0,291

0,594

5,809

0,012

0,496

0,504

Y1

0,276

0,626

5,068

0,019

0,527

0,473

На основании значения статистики Уилкса, равного 0,173 и F-критерия, равного 5,965 можно сделать вывод о том, что эта модель дискриминации является достаточно корректной, т. к. значение л-Уилкса близко к нулю, а значение приближенного F-критерия статистически значимо при б=0,05 (Fрасч. =5,965>1.73 = F0.05;8;34.)

Анализ правильности формирования выборок осуществлялся на основе статистических критериев: расстояния Махалонобиса и апостериорной вероятности. Отнесение i-го объекта в j-ю группу считается ошибочным, если расстояние Махалонобиса от объекта до центра его группы значительно выше, чем до центра других групп, а апостериорная вероятность ниже критического значения [81]. В этом случае объект является некорректно отнесенным и должен быть исключен из выборки.

С учетом данных критериев для проверки корректности выборок была построена классификационная матрица. Результаты приведены в таблице 3.5.

Таблица 3.5 - Классификационная матрица до корректировки выборки

Матрица классификации (да.sta)

Строки: наблюдаемые наблюдения

Столбцы: предсказанные наблюдения

Процент правил.

G_1:1 p=, 435

G_2:2 p=, 391

G_3:3 p=, 174

G_1:1

100

10

0

0

G_2:2

77, 8

1

7

1

G_3:3

50

2

0

2

Всего

82,608

13

7

3

дискриминантный кластерный махалонобис пространство

Ее анализ показывает, что ко второй группе правильно было отнесено 7 объектов и неправильно 2 объекта, которые надо было отнести к 1 и 3 группе соответственно. По третьей группе - из 4 объектов два следует включить в состав первой группе. Таким образом, на основании классификационной матрицы можно сделать вывод о том, что в выборке 4 объекта из 23 были классифицированы неправильно, поскольку по значениям статистических критериев они должны находиться в других группах. Об этом так же свидетельствуют коэффициенты корректности по каждой группе, не достигшие 100%, а так же общий коэффициент корректности, равный 82,61%.

Для получения корректной выборки из них на основании метрики Махалонобиса или апостериорной вероятности необходимо исключить регионы, которые по своим показателям не соответствуют большинству объектов, образующих однородную группу. На первом шаге удаляется тот объект, который наиболее не подходит к определенной группе, то есть у него наибольшее расстояние Махалонобиса и наименьшая апостериорная вероятность. После удаления очередного района рассчитывается новая классификационная матрица, поскольку происходит смещение центра тяжести группы. Процедура исключения наблюдений происходит до тех пор, пока общий коэффициент корректности в классификационной матрице не достигнет 100%, то есть все элементы выборки будут корректно отнесены к той или иной группе.

Проанализировав выборки на основании расстояния Махалонобиса, следует выделить некорректно отнесенные районы: Ельниковский, Старошайговский, Темниковский и Теньгушевский. После их удаления была получена выборка, состоящая из 19 районов РМ: 10 районов находятся в первой группе, 7 - во второй, 2 - в третьей. Классификационная матрица, полученная после корректировки, представлена в таблице 3.6 и показывает, что общий коэффициент корректности равен 100%.

Таблица 3.6 - Классификационная матрица (после корректировки выборки)

Матрица классификации

Строки: наблюдаемые наблюдения

Столбцы: предсказанные наблюдения

Процент правил.

G_1:1

p=, 43478

G_2:2

p=, 39130

G_3:3

p=, 17391

G_1:1

100

10

0

0

G_2:2

100

0

7

0

G_3:3

100

0

0

2

Всего

100

10

7

2

Исключение ошибок из выборки не привело к изменению характеристик дискриминации. Результаты представлены в таблице 3.7.

Таблица 3.7 - Переменные, включенные в модель и их характеристика (после корректировки выборки)

Итоги анализа дискриминантных функций (да.sta)

Шаг 4, N перем. в модели: 4; группир.: КЛАСС (3 гр.)

Лямбда Уилкса:, 17311 прибл. F (8,34)=5,9646 p<, 0001

Уилкса лямбда

Частная лямбда

F-исключ (2,17)

p-уров.

Толер.

1-толер. (R-кв.)

Y2

0,519

0,333

17,009

8,77E-05

0,395

0,604

Y8

0,276

0,625

5,090

0,018

0,438

0,561

Y9

0,291

0,594

5,808

0,011

0,495

0,504

Y1

0,276

0,626

5,067

0,018

0,526

0,473

Проверив переменные и отобрав из них наиболее значимые необходимо определить канонические дискриминантные функции и выяснить, насколько хорошими дискриминаторами являются полученные функции, то есть на данном этапе решается вопрос об их статистической значимости. Проверка значимости приведена в таблице 3.8.

Таблица 3.8 - Проверка значимости дискриминантных функций

Функция

Собств. знач.

Канонич.R

Лямбда Уилкса

Хи-квад.

ст. св.

p-уров.

1

2,618

0,850

0,173

32,445

8

7,79E-05

2

0,596

0,611

0,626

8,655

3

0,034

Проанализировав собственные значения функций, их величина связана с дискриминирующими возможностями каждой функции: чем больше собственное значение, тем лучше различение групп, которое может быть получено при использовании той или иной функции. Поскольку собственные значения располагаются в порядке убывания их величин, первая функция обладает наибольшими дискриминантными возможностями, вторая обеспечивает максимальное различение после первой и т.д. Фактически числа, представляющие собой собственные значения ни о чем не говорят. Их нельзя интерпретировать непосредственно. Они лишь определяют порядок значимости дискриминантных функций.

Для оценки реальной полезности функций часто используются коэффициенты канонической корреляции. Они являются мерой связи и показывают степень зависимости между выделенными группами и дискриминантными переменными. Чем больше величина коэффициента, тем лучше дискриминантные возможности она имеет. Анализ коэффициентов канонической корреляции исследуемых дискриминантных функций указывает на наличие сильной взаимосвязи между классами и этими функциями. Более мощными дискриминатором является функция 1, т. к. значение коэффициента у нее наибольшее - 0,851, функция 2 так же характеризуются хорошими дискриминантными возможностями, поскольку ее коэффициент канонической корреляции тоже довольно высок - 0,611.

Проверка статистической значимости полученных дискриминантных функций осуществляется на основании остаточной дискриминантной способности системы до и после определения каждой функции. С этой целью рассчитываются значения л-статистики Уилкса и статистики хи-квадрата (таблица 3.9), на основании которых определяется уровень значимости. Так как расчетное значение критерия чрасч 2 для двух функций больше соответствующих табличных значений, можно сделать вывод о том, что эти функции являются статистически значимыми.

Таблица 3.9 - Коэффициенты дискриминантных функций

Переменные

Стандартизированные коэффициенты

Структурные коэффициенты

Ф 1

Ф 2

Ф 1

Ф 2

Y2

1,456

0,632

0,605

0,270

Y8

-1,086

-0,036

0,044

-0,013

Y9

-0,894

0,801

-0,082

0,251

Y1

-0,375

1,274

-0,247

0,491

В таблице 3.12 представлены коэффициенты в стандартной форме, они показывают относительный вклад переменной. Видно, что для функции 1 максимален относительный вклад переменной У2 - среднемесячная номинальная заработная плата работников организаций, р, а для функции 2 максимальны вклады У1 - уровень зарегистрированной безработицы по районам РМ, % и У9 - заболеваемость на 1000 человек населения.

Использование данного подхода к определению значимости переменных является оправданным лишь в том случае, когда исходные признаки не коррелированны. Если же между двумя переменными существует тесная взаимосвязь, то их относительный вклад в дискриминантное значение должен разделяться, даже при значительном совместном вкладе. Соответственно, их стандартизированные коэффициенты могут быть меньше по сравнению с теми случаями, когда используется одна из этих. То есть, вклад одного коэффициента частично погашается отрицательным вкладом другого. В связи с этим при наличии взаимозависимых признаков более правомерным является использование структурных коэффициентов, которые представляют собой простые двумерные корреляции, а потому на них не влияют взаимосвязи прочих переменных.

В ходе исследования было установлено отсутствие мультиколлинеарности между показателями, характеризующими состояние организации жизненного пространства в республике, для проверки проведенной интерпретации канонических дискриминантных функций были рассчитаны полные структурные коэффициенты, так же представленные в таблице 3.12. Их анализ дает схожие результаты. При изучении структурных коэффициентов, было выявлено, что первая дискриминантная функция наиболее тесно связана с показателем У2 - среднемесячная номинальная заработная плата работников организаций, р., а вторая с У1 - уровень зарегистрированной безработицы по районам РМ, % и У9 - заболеваемость на 1000 человек населения.

Поскольку выявлено две дискриминантных функции, положение отдельных регионов в дискриминантном пространстве можно изобразить графически. На рисунке 3.1 показано как располагаются в пространстве районы Республики Мордовия, входящие в состав выборок. На графике видно, что группы вполне различимы, нет явных перекрытий объектов, что свидетельствует о хорошей дискриминации.

Размещено на http://www.allbest.ru/

Рисунок 3.1 - Распределение регионов обучающей выборки в дискриминантном пространстве

Таким образом, на основании проведенного анализа можно сделать вывод о том, что полученные функции имеют смысл и могут быть использованы для выявления различий между группами. Следовательно, на основании этих функций можно классифицировать районы Республики Мордовия по уровню организации жизненного пространства в 2007 г.

В результате анализа, так же было получено разбиение всей совокупности изучаемых объектов на 3 группы: в 1 группу с низким уровнем организации жизненного пространства вошло 11 районов, в группу с высоким уровнем организации жизненного пространства вошло 7 районов республики, а в третью группу со средним уровнем организации жизненного пространства- 5 районов.

Размещено на Allbest.ru

...

Подобные документы

  • Многомерный статистический анализ. Математические методы построения оптимальных планов сбора, систематизации и обработки данных. Геометрическая структура многомерных наблюдений. Проверка значимости уравнения регрессии. Кластерный и факторный анализ.

    курсовая работа [2,6 M], добавлен 10.03.2011

  • Расчет матриц парных коэффициентов корреляции, оценка их значимости. Построение уравнения регрессии. Точечный и интервальный прогноз значения У. Кластерный анализ методом К-средних. Упорядочивание субъектов РФ в порядке убывания по значениям факторов.

    курсовая работа [2,2 M], добавлен 10.11.2013

  • Выполнение кластерного анализа предприятий с помощью программы Statgraphics Plus. Построение линейного уравнения регрессии. Расчет коэффициентов эластичности по регрессионным моделям. Оценка статистической значимости уравнения и коэффициента детерминации.

    задача [1,7 M], добавлен 16.03.2014

  • Движение системы в переменных пространства состояний. Переходные процессы в системе. Ступенчатые воздействия по каналам управления. Устойчивость и неустойчивость линейной многомерной системы. Характер движения динамической системы. Матрица управляемости.

    реферат [76,0 K], добавлен 26.01.2009

  • Параллельное выполнение итераций. Совмещение итераций в проекте. Иллюстративные и инструментальные модели жизненного цикла. Календарный план как модель жизненного цикла программного обеспечения. Исследование инструментальных свойств календарного плана.

    презентация [278,0 K], добавлен 07.12.2013

  • Конструирование трехмерной системной модели экономического пространства с использованием методологии тернарного моделирования. Особенности выбора формы структурной архитектуры. Основные варианты системных факторов модели экономического пространства.

    контрольная работа [673,2 K], добавлен 29.03.2013

  • Регрессионный анализ. Экспериментальные, средние и расчетные значения выходной переменной. Проверка однородности дисперсий. Оценка значимости коэффициентов модели. Табличные значения критерия Стьюдента для заданных уровней значимости и степеней свободы.

    лабораторная работа [2,9 M], добавлен 28.12.2012

  • Построение матриц значимости и совмещенных функционально-стоимостных диаграмм. Определение количественной оценки функций муфты зубчатой с цельной обоймой. Характеристика функционально-структурной модели, решение задач о назначениях и о распределении.

    курсовая работа [2,0 M], добавлен 26.12.2011

  • Построение типологических регрессий по отдельным группам наблюдений. Пространственные данные и временная информация. Сферы применения кластерного анализа. Понятие однородности объектов, свойства матрицы расстояний. Проведение типологической регрессии.

    презентация [322,6 K], добавлен 26.10.2013

  • Построение регрессий по факторам: затраты на рекламу, индекс потребительских расходов и цена товара. Проверка значимости уравнения. Анализ модели зависимости объема продукции от расходов на рекламу и ее проверка на гетероскедастичность и автокорреляцию.

    курсовая работа [1,9 M], добавлен 22.01.2016

  • Построение уравнения множественной регрессии в линейной форме с полным набором факторов, отбор информативных факторов. Проверка значимости уравнения регрессии по критерию Фишера и статистической значимости параметров регрессии по критерию Стьюдента.

    лабораторная работа [217,9 K], добавлен 17.10.2009

  • Построение модели множественной линейной регрессии по заданным параметрам. Оценка качества модели по коэффициентам детерминации и множественной корреляции. Определение значимости уравнения регрессии на основе F-критерия Фишера и t-критерия Стьюдента.

    контрольная работа [914,4 K], добавлен 01.12.2013

  • Теоретические основы имитационного моделирования. Пакет моделирования AnyLogic TM, агентный подход моделирования. Разработка имитационной модели жизненного цикла товара ООО "Стимул", модели поведения потребителей на рынке и специфика покупателей.

    курсовая работа [2,0 M], добавлен 26.11.2010

  • Расчет матрицы парных коэффициентов корреляции и статистической значимости коэффициентов регрессии. Оценка статистической значимости параметров регрессионной модели с помощью t-критерия. Уравнение множественной регрессии со статистически факторами.

    лабораторная работа [30,9 K], добавлен 05.12.2010

  • Параметры автомобиля, которые влияют на стоимость. Обозначение границ выборки. Использование множественной регрессии. Построение с помощью эконометрического программного пакета Eviews симметричной матрицы парных коэффициентов корреляции между факторами.

    контрольная работа [348,7 K], добавлен 13.05.2015

  • Построение регрессионных моделей. Смысл регрессионного анализа. Выборочная дисперсия. Характеристики генеральной совокупности. Проверка статистической значимости уравнения регрессии. Оценка коэффициентов уравнения регрессии. Дисперсии случайных остатков.

    реферат [57,4 K], добавлен 25.01.2009

  • Сбор данных и их первичная обработка. Построение корреляционной матрицы. Связь между факторными и результативными признаками. Оценка статистической значимости параметров регрессии. Определение доверительного интервала параметров доверительной регрессии.

    курсовая работа [739,0 K], добавлен 06.04.2016

  • Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа [994,1 K], добавлен 29.06.2013

  • Контроль информации на наличие выбросов в массиве. Описательная статистика, вывод итогов. Матрица коэффициентов парной корреляции. Количественный критерий оценки тесноты связи. Регрессионный анализ статистических данных. Анализ качества модели регрессии.

    контрольная работа [5,7 M], добавлен 14.12.2011

  • Понятие корреляционных связей, их классификация. Корреляционные поля и цель их построения. Коэффициенты корреляции, их виды, свойства и проверка значимости. Расчет факторным экспериментом влияние давления, жирности и кислотности на качество продукции.

    курсовая работа [377,1 K], добавлен 25.11.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.