Статистичний аналіз продуктивності праці
Методи робастного статистичного оцінювання, кластерний аналіз економічної інформації. Рекомендації по підвищенню продуктивності праці, яка залежить від трудомісткості продукції, кількості робітників, премій працівників, на основі статистичного аналізу.
Рубрика | Экономико-математическое моделирование |
Вид | курсовая работа |
Язык | украинский |
Дата добавления | 02.05.2014 |
Размер файла | 760,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Зміст
- Вступ
- 1. Аналіз предметної області
- 1.1 Економічний зміст показників
- 2. Теоретичні відомості
- 2.1 Робастне статистичне оцінювання
- 2.1.1 Грубі помилки та методи їх виявлення
- 2.1.2 Методи одержання стійких статистичних оцінок
- 2.2 Ієрархічний кластерний аналіз
- 2.2.1 Агломеративні методи кластерного аналізу
- 2.2.2 Дивизимний метод кластерного аналізу
- 2.2.3 Ітераційні методи кластерного аналізу
- 2.3 Кореляційний аналіз
- 2.4 Регресійний аналіз
- 2.4.1 Парна регресія
- 2.4.1.1 Парна лінійна регресія
- 2.4.1.2 Парна нелінійна регресія
- 2.4.2 Множинна лінійна регресія
- 2.4.3 Множинна нелінійна регресія
- 2.5 Факторний аналіз
- 2.5.1 Метод головних компонент
- 2.5.2 Метод головних факторів
- 3. Практична частина
- 3.1 Робастне статистичне оцінювання
- 3.2 Ієрархічний кластерний аналіз
- 3.3 Кореляційний аналіз
- 3.4 Регресійний аналіз
- 3.4.1 Парна регресія
- 3.4.1.1 Парна лінійна регресія
- 3.4.1.2 Парна нелінійна регресія
- 3.4.2 Множинна лінійна регресія
- 3.4.3 Множинна нелінійна регресія
- 3.4.3.1 Адитивна множинна нелінійна регресія
- 3.4.3.2 Мультиплікативна множинна нелінійна регресія
- 3.5 Факторний аналіз
- 3.5.1 Метод головних компонент
- 3.5.2 Метод головних факторів
- Висновки
- Додатоки
- Вступ
- Перед керівництвом підприємств за умов жорсткої конкуренції на теренах сучасного, ще не повністю розвиненого ринку за необхідності приймати максимально ефективні рішення виникає проблема: в якому напрямку скеровувати діяльність підприємства, щоб забезпечити оптимальний план виробництва; якими методами користуватись, щоб максимально повно реалізувати виробничий потенціал підприємства.
- Сучасні математичні знання надають можливість для вирішення подібних проблем. Існуючі статистичні методи дозволяють провести досить повний аналіз діяльності підприємства та знайти шлях переходу від існуючого стану до бажаного, тобто оптимізувати виробництво, забезпечити максимальну ефективність функціонування. Проте ще років десять-п'ятнадцять тому такий аналіз вимагав великих затрат часу. Проте на даний час, з широким використанням комп'ютерної техніки, завдання спрощується.
- Метою даної роботи є розробка практичних рекомендацій по підвищенню продуктивності праці, яка залежить від таких факторів як трудомісткість одиниці продукції, питома вага робітників у складі ПП, питома вага покупних виробів, премії і винагороди на одного працівника, питома вага утрат від браку.
- Для отримання практичних рекомендацій будуть застосовані методи статистичного аналізу: робастне оцінювання, кластерний, кореляційний, регресійний та факторний аналіз; будуть побудовані моделі, на основі яких буде можливе прогнозування зміни рівня продуктивності праці в результаті зміни величин даних факторів.
- Для реалізації поставленої задачі та проведенню розрахунків було використано наступні програмні продукти: Microsoft Office Excel, Microsoft Office Word, Statgraphics.
- Структура курсової роботи викладена в трьох розділах.
- Перший розділ - теоретичне дослідження продуктивності праці та факторів, що на неї впливають.
- Другий розділ - описуються основні методи для багатомірного статистичного аналізу, які використовуються у даній курсовій роботі.
- Третій розділ включає аналіз, його наслідки, використані для виявлення тенденції, недоліків у фінансовій діяльності фірми, узагальнення результатів аналізу.
- 1. Аналіз предметної області
- Розглядається такий показник виробничо-господарскої діяльності підприємств як продуктивність праці.
- З економічної точки зору продуктивності праці - це ефективність (плодотворність) трудових витрат, здатність конкретної праці створювати певну кількість споживчих вартостей за одиницю робочого часу.
- Питання підвищення продуктивності праці потребує системного підходу, тобто кардинальних змін, суттєвого вдосконалення факторів, що обумовлюють продуктивність. Потрібно розробляти пошук резервів підвищення ефективності праці шляхом мобілізації її факторів: інтенсифікації виробництва, освоєння ресурсо- та енергозберігаючих технологій, удосконалення організації праці та механізму розрахунку. Для вирішення цього питання можна користуватися такими важелями, як мотиваційні, техніко-організаційні та моральні фактори підвищення продуктивності праці, що суттєво впливає на результати виробничої діяльності. Продуктивність праці значно залежить від трудомісткості одиниці продукції (обернена залежність) та премій і винагород на одного працівника (пряма залежність).
1.1 Економічний зміст показників
Y1 - продуктивність праці - показник, що характеризує результативність прикладеної праці; вимірюється обсягом випуску продукції в одиницю часу (прямий метод) або витратами праці на виробництво одиниці продукції.
Х8 - премії і винагороди на одного працівника - це основний вид додаткової, понад основну заробітну плату, винагороди, яка виплачується працівнику за результатами його трудової діяльності та виробництва в цілому за показниками та умовами оцінки цих результатів, визначеними підприємством.
Х11 - середньорічна чисельність ПП - середня кількість найманих працівників, які уклали письмово трудовий договір (контракт) і виконували постійну, тимчасову або сезонну роботу один день і більше, а також власники підприємства, якщо, крім доходу, вони отримували заробітну плату на цьому підприємстві впродовж року.
Х12 - середньорічна вартість основних виробничих фондів - середньорічна вартість засобів праці, які беруть участь у процесі виробництва протягом тривалого періоду, при цьому не змінюють своєї натурально-речової форми і поступово частинами переносять свою вартість на вартість виготовленої продукції.
Х13 - середньорічний фонд заробітної плати ПП - сукупні витрати роботодавця на оплату праці робітника.
Х14 - фондоозброєність праці - це показник, який характеризує відношення середньорічної вартості основних фондів підприємства до середньорічної кількості працівників.
Х17 - невиробничі витрати - витрати, пов'язані з основними фондами, товарними запасами, предметами споживчого призначення, які безпосередньо не залежать від процесів виробництва(витрати на експлуатацію будівель, заклади охорони здоров'я, освіти, культури, витрати пов'язані із збереженням товарів, транспортні витрати та ін.).
На підставі значень показників виробничо-господарської діяльності підприємств (додаток А):
1. Перевірити усі вхідні дані на наявність грубих помилок, обравши для цього відповідний критерій.
2. За допомогою кластерного аналізу визначити групи (кластери) подібних підприємств та визначити множину господарських об'єктів, що є типовими для даної вибірки.
3. Зробити кореляційний аналіз, визначити зв'язки між показниками.
4. Побудувати регресійні моделі (парну, множинну) та визначити регресійне рівняння, що якнайкраще аналітично описує залежність результуючої ознаки від факторів.
5. Методами факторного аналізу визначити приховані (латентні) ознаки, що мають вплив на результуючу ознаку.
6. Розробити рекомендації щодо підвищення продуктивності праці.
2. Теоретичні відомості
2.1 Робастне статистичне оцінювання
2.1.1 Грубі помилки та методи їх виявлення
При дослідженні статистичних сукупностей даних часто доводиться мати справу з даними, значення яких відрізняються від значень основного масиву. Такі дані називаються помилками, або викидами.
Методи робастного статистичного оцінювання дозволяють одержати досить надійні оцінки статистичної сукупності за умови відомості закону її розподілу та наявності істотних відхилень в значеннях даних.
При розв'язуванні завдань робастного оцінювання виділяють два типи даних, що засмічують вихідну статистичну сукупність.
До першого типу відносять дані, які неістотно відрізняються від значень, що є типовими для сукупності. Такі дані не викликають значних спотворень в аналітичних результатах і можуть опрацьовуватись традиційними статистичними методами разом з основним масивом даних.
До другого типу відносять ті дані, які значно відхиляються від типових даних сукупності. Їх називають грубими помилками. Вони підлягають спеціальній обробці.
Причинами грубих помилок є:
– специфічні особливості окремих елементів досліджуваної сукупності; вони, як правило, призводять до випадкових відхилень;
– невірне групування або розбиття елементів на однорідні підмножини, і, як наслідок, неправильне зарахування окремих елементів до досліджуваної сукупності;
– грубі помилки при реєстрації та опрацюванні даних.
Поява і причини грубих помилок не передбачувані, їх розподіл може значно відрізнятись від розподілу даних основної сукупності.
Виявлення грубих помилок відбувається в два етапи. На першому шляхом візуального аналізу вихідної сукупності відбираються ті значення, які значно відхиляються від основного масиву. Поняття "значного відхилення" чітко не визначене і в багатьох випадках рішення про помилку приймається суб'єктивно. На другому етапі кожне зі значень, яке є підозрілим на помилковість, перевіряється за допомогою спеціальних статистичних критеріїв. Розглянемо їх детальніше.
Т-критерій Граббса. Даний критерій дозволяє здійснити перевірку одного помилкового значення сукупності. Перевірка здійснюється за наступним алгоритмом:
1. Обчислення вибіркової середньої по безпомилкових даних, тобто, тих даних, з яких вилучене підозріле на помилку значення.
2. Обчислення вибіркового середньоквадратичного відхилення по безпомилкових даних.
3. Спостережене значення критерію обчислюється за формулою
. (2.1)
4. Знаходження за таблицею критичного значення критерію при рівні значущості та кількості безпомилкових даних . Якщо , то гіпотеза про помилковість досліджуваного значення приймається.
Перевірка наступних підозрілих значень здійснюється після вилучення помилки з сукупності (якщо вона мала місце).
Перевагою даного критерію є його простота у застосуванні. До недоліків можна віднести наступні:
1. Він дає досить грубі оцінки. У випадку декількох підозрілих на помилку значень, розташованих в різних кінцях сукупності, результат може залежати від того, з якого саме значення (найбільшого чи найменшого) почалась перевірка на помилковість.
2. Даний критерій нечутливий до маскуючого ефекту - коли помилкові значення групуються щільно одне від одного і далеко від основного масиву значень.
L-критерій Тіт'єна та Мура. Даний критерій застосовується для перевірки групи значень на помилковість. В такому випадку можливі наступні ситуації:
1) помилки знаходяться у верхній частині ранжованого ряду даних;
2) помилки знаходяться у нижній частині ранжованого ряду даних.
Розглянемо спочатку перший випадок. Обчислення здійснюються за наступним алгоритмом:
1. Обчислення вибіркової загальної середньої по всіх даних сукупності .
2. Обчислення вибіркової середньої по безпомилкових даних, тобто, тих даних, з яких вилучені підозрілі на помилку значення.
3. Розрахунок спостереженого значення критерія
(2.2)
де - кількість помилок.
Чисельник розраховується по безпомилкових даних, знаменник - по всіх даних сукупності.
4. Знаходження за таблицею критичного значення критерія при рівні значущості , кількості вихідних даних та кількості безпомилкових даних . Якщо, то гіпотеза про помилковість досліджуваного значення приймається.
Фактично, вираз для обчислення емпіричного значення критерія порівнює суму квадратів відхилень безпомилкових даних від безпомилкової середньої з загальною сумою квадратів відхилень. Чим менше значення виразу, тим більше розсіювання у вихідній сукупності даних у порівнянні з розсіюванням безпомилкових даних. Отже, тим вища імовірність того, що досліджувані значення є помилковими.
Аналогічно критерій використовується у випадку розташування групи помилок. Змінюється лише діапазон сумування чисельника у виразі для емпіричного значення критерію.
E-критерій Тіт'єна та Мура. Даний критерій використовується у випадку розташування помилкових даних з обох кінців ранжованої сукупності. Емпіричне значення критерію обчислюється за формулою
(2.3)
де та - кількість підозрілих на помилковість значень у нижній та верхній частинах ранжованого ряду даних,
- безпомилкова середня, обчислена по відкинутих підозрілих значеннях з обох кінців ряду;
- загальна середня.
Далі емпіричне значення критерію порівнюється з критичним, знайденим за відповідною таблицею при рівні значущості, кількості вихідних даних та кількості безпомилкових даних . Гіпотеза про помилковість значень приймається, якщо емпіричне значення менше за критичне.
2.1.2 Методи одержання стійких статистичних оцінок
Після знаходження помилок вирішується завдання оцінювання параметрів вибіркової сукупності. При цьому помилкові дані або відкидаються, або модифікуються. Далі будуть розглянуті два підходи робастного оцінювання вибіркової середньої.
Формула середньої за Пуанкаре. Нехай у вихідній сукупності є помилкових даних, розташованих у верхній частині ранжованого ряду. Тоді вони вилучаються з сукупності. Однак щоб вилучення не вплинуло істотно на зміну розрахованого значення стосовно істинного, з нижньої частини вихідної сукупності також вилучається перших значень. Вибіркова середня тоді знаходиться за формулою
(2.4)
Аналогічно здійснюється розрахунок стійкої середньої у випадку розташування помилки у нижній частині ряду.
Якщо помилкові дані розташовані з обох кінців сукупності, вона модифікується таким чином, щоб мінімізувати кількість безпомилкових даних, які будуть вилучені з сукупності. Тобто, з одного кінця ранжованої сукупності вилучаються всі помилкові дані, а з іншого - того, де їх було менше, крім помилкових вилучаються і безпомилкові.
Наведений спосіб робастного оцінювання є досить простим, але має недолік - значно скорочується вихідна сукупність даних.
Формула середньої за Вінзором. Обчислення середньої за Вінзором передбачає попередню модифікацію вихідної сукупності даних. Нехай помилки у кількостіодиниць розташовані у верхній частині впорядкованого за зростанням ряду даних. Тоді всі помилкові значення замінюються на перше безпомилкове значення у верхній частині сукупності . Відповідним чином перетворюються дані у нижній частині сукупності - перших значень замінюються на значення . Наведений процес перетворення сукупності називається вінзорізацією даних. Тоді стійка середня обчислюється за загальною формулою середньої для перетворених даних. Якщо вінзорізовані дані позначити через , то вираз для розрахунку має вигляд
(2.5)
Аналогічно перетворюються дані у випадку розташування помилок в нижній частині ранжованого ряду даних. Якщо помилки знаходяться в обох частинах ряду, то вінзорізація відбувається таким чином, щоб максимально їх виключити.
Формули стійких середніх за Пуанкаре та за Вінзором дають гарні результати для сукупностей зі симетричним розподілом засмічень, коли грубі помилки розташовані в обох кінцях ранжованої сукупності даних.
2.2 Ієрархічний кластерний аналіз
Кластерний аналіз - це сукупність методу, що дозволяють класифікувати багатомірність спостереження за відсутності апріорної інформації про розподіл генеральної сукупності з якої зроблено вибірку досліджуваних об'єктів.
Мета кластерного аналізу - утворення груп, схожих між собою об'єктів, які називаються кластерами.
Кластерний аналіз призводить до розбиття на групи з урахуванням всіх ознак одночасно. В кластерному аналізі використовується принцип утворення груп - політетичний підхід, немає чітко визначених меж груп.
Кластерний аналіз важливе місце займає в тих галузях науки, які пов'язані з вивченням масових явищ і процесах. Його методи допомагають виявити внутрішні зв'язки між одиницями спостережуваної сукупності, можуть використовуватися з метою стиснення інформації.
Методи кластерного аналізу вирішують наступні задачі:
1. Розбиття вхідних сукупних ознак на порівняно невелику кількість кластерів, так щоб елементи першого кластера були максимально подібними між собою.
2. Визначення природного чіткого розшарування всіх об'єктів на чітко вираженні кластери, які розташовані на значній відстані один від одного.
Методи кластерного аналізу:
– агломеративні;
– дивизимні;
– ітераційні.
Використаємо як спосіб вимірювання евклідову відстань:
(2.6)
Оцінка розбиття на кластери проводиться за допомогою функціоналу якості розбиття . Використовуються наступні види функціоналів:
1) загальна сума внутрішньо - групових дисперсій:
(2.7)
2) загальна сума попарних внутрішньо - кластерних відстаней між елементами:
(2.8)
3) узагальнена внутрішньо - класова дисперсія:
(2.9)
У формулах: - кількість кластерів;
- вектор середніх значень ознак об'єктів -го кластера;
- дисперсія об'єктів -го кластера;
- коваріаційна матриця об'єктів -го кластера;
- кількість об'єктів, що належать -му кластеру.
Найчастіше використовують перший та другий функціонал. Найкращим вважається таке розбиття при якому функціонал досягає свого екстремального (min) значення.
2.2.1 Агломеративні методи кластерного аналізу
Сутність методів: послідовне об'єднання двох найбільш подібних кластерів в один, що містить в собі всі об'єкти.
Загальний алгоритм:
1) кожен об'єкт розглядається як окремий кластер;
2) обчислюється матриця відмінностей між об'єктами;
3) на основі матриці відмінностей знаходяться два найбільш близькі кластери, що об'єднуються у новий, якому присвоюється номер елемента цього кластера з найменшим індексом;
4) перераховується матриця відстаней між кластерами;
5) процес повторюється з кроку 3 до утворення одного кластера;
6) визначається кількість кластерів, на які розіб'ється вхідна сукупність шляхом аналізу відстаней між кластерами.
Для визначення міри подібності є багато методів. Опишемо ті, які використаємо в роботі:
Існує загальна формула, яка дозволяє обчислити відстань між кластерами незалежно від методу її оцінки. Нехай на деякому кроці в кластер були об'єднані кластери: , то відстань від нього до деякого кластера визначають за формулою:
(2.10)
Параметри визначаються методом яким проводилося об'єднання. Значення параметрів подано у таблиці 2.1.
Таблиця 2.1 - Значення параметрів формули перерахунку відстані між кластерами в залежності від методу оцінки їх близькості.
Метод |
|||||
Ближнього сусіда |
0,5 |
0,5 |
0 |
-0,5 |
|
Дальнього сусіда |
0,5 |
0,5 |
0 |
0,5 |
Використання різних методів оцінки близькості призводить в результаті до різних результуючих кластерних структур. Останнє істотно впливає на якість проведеної кластеризації. Тому метод оцінки відстані між кластерами повинен обиратись з урахуванням відомостей про існуючу структуру в сукупності об'єктів спостережень або з урахуванням вимог до оптимізації обраного критерію якості кластеризації.
2.2.2 Дивизимний метод кластерного аналізу
Дивизимний метод за процесом розрахунків є протилежним агломеративному. Початково припускається, що всі об'єкти належать одному кластеру.
Алгоритм методу:
1) обчислюється матриця відстаней;
2) знаходять два об'єкти, відстань між якими найбільша, ці об'єкти утворять центри нових кластерів;
3) решта об'єктів розподіляють на два кластери за ступенем близькості їх до центрів;
4) обраний кластер ділимо на 2 кластери згідно пунктів 2 - 4;
5) процедуру повторюємо поки не буде утворено m кластерів по одному об'єкту в кожному з них;
6) найбільш доцільна кількість кластерів визначається на тому кроці після якого зменшення відстані між кластерами приріст був найбільший.
Перевагою дивизимного методу є те, що він не вимагає перерахунку матриці відстаней на кожному кроці.
Недоліком методу є те, що після кожного кроку об'єкти, що належали одному кластеру, можуть тепер належати різним кластерам, а отже, відстані між цими об'єктами виключаються з подальшого аналізу. Це ускладнює роботу з матрицею відстаней.
2.2.3 Ітераційні методи кластерного аналізу
Існує численна група ітераційних методів кластерного аналізу. Суть їх полягає в тому, що процес класифікації починається із визначення початкових умов, тобто кількості утворюваних кластерів та еталонів.
Метод k-середніх належить до групи ітераційних методів еталонного типу. Алгоритм цього методу: нехай є m спостережень, кожне з яких характеризується ознаками. Ці спостереження необхідно розбити на k кластерів.
1. З m точок відбирають випадковим чином або задають виходячи з деяких апріорних міркувань точок об'єктів, які обирають за "еталони" (тобто центра кластерів).
2. З об'єктів, що залишилися, витягується точка і перевіряється до якого з еталонів вона знаходиться найближче. Для перевірки використовується одна з наведених метрик в таблиці 1.2.
Таблиця 2.2 - Метрики
Назва |
Формула |
|
Евклідова відстань |
||
Лінійна відстань (відстань міських кварталів) |
||
Відстань Мінковського |
||
Супремум - норма |
||
Відстань Махаланобіса |
де коваріаційна матриця |
3. Початкова вага кожного кластера буде рівна 1. . Після приєднання елемента до якогось -го кластера, еталон цього кластера та його вага перераховується за формулами:
, .
4. Із тих що залишилося знову вибираємо елемент, тобто процедуру повторюємо з другого кроку. Процес закінчується тоді, коли не залишається вільних елементів. Якщо при проведенні ітерацій виникає ситуація коли є дві або більше мінімальні відстані, то об'єкт приєднується до еталона з меншим номером. Вхідні дані для методу -середніх стандартизуються.
Для оцінки стійкості одержаного розбиття доцільно повторити процес кластеризації декілька разів для різних значень радіусу сфери, змінюючи радіус сфери на незначну величину. Як правило радіус обирається
.
Недоліком є велика кількість обчислень - адже на кожному кроці потрібно проаналізувати можливі значення дисперсії для всіх можливих варіантів об'єднання кластерів.
2.3 Кореляційний аналіз
В природі, суспільстві, економіці багато явищ, процесів. Об'єктів знаходяться між собою в причинній залежності.
Дві випадкові величини є кореляційно залежними, якщо математичне сподівання однієї із них залежить від значень іншої випадкової величини. Метод, що вивчає кореляційні зв'язки між явищами, називається кореляційним аналізом. Кореляційний аналіз представляє собою інструмент, який дозволяє кількісно оцінити зв'язки між великим числом взаємодіючих економічних явищ - при цьому, деякі з них невідомі. Застосування кореляційного аналізу дає можливість перевірити різні економічні гіпотези про наявність і силу зв'язку між двома явищами або одним явищем та групою явищ, а також гіпотезу про форму зв'язку.
Схема складання прогнозу полягає в зборі даних про значення залежних змінних, їх аналізі на предмет наявності зв'язку і, якщо такий зв'язок існує, необхідно оцінити тісноту цього зв'язку, це і є кореляція. Методики розрахунку кореляції широко застосовуються на практиці і підходять для дослідження можливого взаємозв'язку між змінними в багатьох різних ситуаціях. Перша стадія кореляційного аналізу - збір даних про значення змінних, які, за нашим припущенням, можуть мати зв'язок. Далі кореляційний аналіз проводиться за наступною схемою:
З метою встановлення залежностей між параметрами будують попарні кореляційні поля. Обчислюють точкові оцінки числових характеристик за формулою:
,
для того, щоб знайти коефіцієнти кореляції. Останні мають підтвердити висновки зроблені при аналізі кореляційних полів. Якщо коефіцієнти кореляції дуже високі, то це може свідчити про випадок мультиколінеарності.
Коефіцієнт кореляції обчислюється за формулою:
(2.11)
Обчислюють коефіцієнт детермінації за формулою:
(2.12)
За допомогою якого встановлюють найсильніші та найслабші зв'язки між параметрами.
Обчислюють точкові оцінки умовних середніх квадратичних відхилень за формулою:
(2.13)
Обчислюють точкові оцінки часткових коефіцієнтів кореляції. Для цього записують кореляційну матрицю:
Обчислюють точкові оцінки коефіцієнтів кореляції за формулою:
, (2.14)
де - алгебраїчні доповнення до кореляційної матриці.
Якщо значення часткових коефіцієнтів кореляції менші від значень квадратичних коефіцієнтів кореляції, то можна зробити висновок про те, що при виключенні одного з параметрів зв'язок між іншими параметрами слабшає. Це говорить про те, що той параметр що виключається посилює кореляцію між іншими змінними.
Обчислюють часткові коефіцієнти детермінації. Якщо часткові коефіцієнти детермінації менші за квадратичні (парні), то це свідчить проте, що тісна залежність яку показали обчислення парних коефіцієнтів обумовлено частково або повністю дією на цю пару інших фіксованих випадкових величин. Якщо частковий коефіцієнт детермінації більший за парний, то фіксовані компоненти послаблюють зв'язок.
Обчислюють точкові оцінки залишкових дисперсій при фіксованихзначеннях за формулою:
. (2.15)
Обчислюють точкові оцінки множинних коефіцієнтів детермінації та кореляції за формулами:
(2.16)
Коефіцієнти показують залежність однієї величини від усіх інших.
Перевіряють за рівнем значущостізначимість множинних коефіцієнтів детермінації в генеральній сукупності. Спочатку обчислюють емпіричне значення критерію за формулою:
(2.17)
За таблицею розподілу Фішера знаходять критичні значення критерію. Якщо критичне значення менше ніж емпіричне, то відхиляється, якщо навпаки, то приймається. Якщо коефіцієнт не значимий, то в генеральній сукупності залежність відсутня.
При моделюванні багатьох соціально-економічних явищ та процесів виникає задача виявлення та оцінки зв'язку між ними. У багатьох дослідженнях виявляється, що деяка результативна ознака змінюється під впливом не одного, а кількох факторів.
Одна з передумов застосування методу найменших квадратів до оцінки параметрів лінійних багатофакторних моделей - це відсутність лінійних зв'язків між незалежними змінними моделі. Якщо такі зв'язки існують, то це явище називають мультиколінеарність.
Суть мультиколінеарності полягає в тому, що в багатофакторній регресійній моделі дві або більше незалежних змінних пов'язані між собою лінійною залежністю або, іншими словами, мають високий ступінь кореляції:
Наявність мультиколінеарності створює певні проблеми при розробці моделей. Насамперед, визначник матриці спостереженьнаближається до нуля, і оператор оцінювання за звичайним МНК стає надзвичайно чутливий до похибок вимірювань і похибок обчислень. При цьому МНК оцінки можуть мати значне зміщення відносно дійсних оцінок у узагальненої моделі, а в деяких випадках можуть стати взагалі беззмістовними.
Найповніше дослідити мультиколінеарність дає змогу алгоритм Фаррара-Глобера. Для цього потрібно:
1. Нормалізувати змінні економетричної моделі, обчислимо
(2.18)
де n - кількість спостережень,
m - кількість незалежних змінних,
- дисперсіянезалежної змінної,
- середнє значення фактора Хі.
2. Обчислити кореляційну матрицю. Кореляційну матрицю знайдемо за формулою:
,
де R - кореляційна матриця.
Однак на основі цієї залежності не можна стверджувати, що отриманий зв'язок є явищем мультиколінеарності. Якщо діагональні елементи матриці не дорівнюють одиниці, то на діагоналі цієї матриці потрібно проставити одиниці, а до решти елементів додати різницю між одиницею й значенням діагонального елемента.
3. Визначити визначник кореляційної матриці .
Обчислити критерій :
(2.19)
Порівняти це значення з табличним при ступенях свободи і рівні значущості (якщо, то в масив і незалежних змінних існує мультиколінеарність).
4. Визначити матрицю похибок: .
5. Розрахувати F-критерій:
(2.20)
Значення критеріїв порівняти з табличним при іступенях свободи й рівня значущості (якщо, то відповідна незалежна змінна мультиколінеарна з іншими).
6. Розрахувати коефіцієнти детермінації для кожної змінної та знайти часткові коефіцієнти кореляції, які характеризують щільність зв'язку між двома змінними за умови, що інші змінні не впливають на цей зв'язок.
7. Розрахувати t критерій:
(2.21)
Значення критеріїв порівняти з табличним при (m-n) ступенях свободи та рівні значущості (якщо, то між незалежними змінними існує мультиколінеарність).
Якщо, то певна змінна залежить від усіх інших незалежних змінних і треба вирішити питання про її виключення з переліку змінних.
Якщотоіщільно пов'язані між собою.
Аналізуючи F і t критерій, робимо висновок, яку зі змінних треба виключити з моделі.
2.4 Регресійний аналіз
Кількісний вплив факторів на результативний показник вивчається за допомогою регресійного аналізу, який дозволяє встановити вид аналітичної залежності між ознакамита оцінити параметри моделі. Прикладом можливого застосування регресійного аналізу в соціальних процесах може бути дослідження продуктивності праці, собівартості та інших якісних економічних показників від таких факторів як розмір основних фондів, питома вага заробітної плати у витратах на виробництво, рівня спеціалізації, кооперування, плинності та рівня кваліфікації кадрів; регресійні моделі також використовуються в прогнозуванні.
2.4.1 Парна регресія
2.4.1.1 Парна лінійна регресія
Модель будується на основі кореляційного аналізу. У загальному вигляді регресійна модель між факторною ознакою та результативною ознакою з врахуванням фактора випадкових величин (помилок) записується у вигляді:
(2.22)
де і - невідомі параметри регресійної моделі.
Задача регресійного аналізу полягає у відшуканні невідомих параметрів і рівняння регресії
.При цьому необхідно досягти "найкращої" апроксимації. Найчастіше при цьому користуються методом найменших квадратів, що передбачає мінімізацію виразу:
де - фактичні (емпіричні) значення результативної ознаки;
- розрахункові (теоретичні) значення результативної ознаки.
Невідомі параметри і можна знайти із системи нормальних рівнянь:
(2.23)
Необхідно розрахувати базисні середні та залишкову дисперсію.
Для визначення значущості моделі за - критерієм Фішера необхідно обчислити розрахункове значення:
. (2.24)
Табличне значення критерію Фішера для рівня значущості та числа ступенів свободи
становить .
Якщо , то побудована модель адекватна статистичним даним, якщо , то модель неадекватна.
Для перевірки перевіряють значущість параметрів за t-критерієм Стьюдента необхідно розрахувати розрахункове значення критерію.
(2.25)
Якщо більші ,то параметри моделі значущі.
Потім визначають довірчі межі параметрів вибіркового рівняння регресії
. (2.26)
де - табличне значення t-критерію Стьюдента при рівні значущості і ступеня свободи.
Обчислимо також прогноз за формулою
. (2.27)
2.4.1.2 Парна нелінійна регресія
Розглянемо модель вигляду
Лінеаризація - це перехід від нелінійної моделі до лінійної.
1. Проводимо лінеаризацію функції:
.
2. Лінеаризуємо вхідні дані.
3. Виконуємо усі дії по побудові парної лінійної регресії відповідно до пункту (2.4.1.1).
4. Знаходимо . Тобто шукається з моделі одержаної в пункті 3.
5. Перевіряємо адекватність.
2.4.2 Множинна лінійна регресія
У реальному житті при аналізі соціально-економічних явищ та процесів має місце багатомірний їх опис, тобто є необхідність використовувати в аналізі велике число показників (параметрів або ознак). Для опису таких процесів застосовується множинна регресія.
Загальний вигляд рівняння множинної регресії:
. (2.28)
Параметри моделі оцінюються методом найменших квадратів.
Алгоритм виконання множинної лінійної регресії:
1. Знаходять добуток:
,
де m - об'єм вибірки.
2. Обчислюють
.
3. Знаходиться .
4. Обчислюється оцінка для коефіцієнта регресії:
.
5. Записується оцінка для рівняння регресії, яка має вигляд:
.
6. Перевіряється значущість одержаного рівняння регресії (перевірка на адекватність одержаної моделі). Висувають дві гіпотези:
а) - рівняння регресії не значуще;
б) - рівняння регресії значуще.
Знаходиться ,, де- сума квадратів відхилень значень результуючої ознаки у регресії
,
де сума квадратів відхилень значень регресії від нуля:
.
Застосовують F-критерій:
(2.29)
кількість незалежних змінних, n - об'єм вибірки.
Порівнюється , яке визначається при рівні значущості і ступенях свободи
, з .
Якщо , то нульова гіпотеза відхиляється, дана модель значима в генеральні сукупності, тобто хоча б одне значення з .
Якщо , тоді приймається нульова гіпотеза, що свідчить про неадекватність моделі в реальному процесі. У випадку, якщо приймається нульова гіпотеза, то наступний пункт можна не робити.
7. Якщо нульова гіпотеза відхилилась, то перевіряємо значущість кожного коефіцієнта регресії окремо. Для цього знаходять оцінку для залишкової дисперсії:
.
Знайти оцінку коваріаційної матриці вектора :
Перевіряємо значущість коефіцієнта регресії
За t-критерієм Стьюдента
(2.30)
,
, приймається (), відхиляється ().
Якщо хоча б один з коефіцієнтів не значимий, переходимо до покрокового регресійного аналізу.
8. В моделі регресії не враховуються доданки, які містять не значимий коефіцієнт регресії, проводиться перерахунок моделі наступним чином. З вхідних даних виключаються значення фактора, який має не значимий коефіцієнт регресії, будується множинна лінійна регресійна модель згідно пунктів 1-7.
9. У випадку, коли всі коефіцієнти значимі, перевіряється ступінь впливу лишків на регресійну модель, тобто обчислюється кореляційне відношення:
(2.31)
Якщо кореляційне відношення менше 20%, то модель можна використовувати на практиці. Якщо більше 20% - є значний вплив випадкових факторів.
2.4.3 Множинна нелінійна регресія
Є дві групи моделей найбільш розповсюджених моделей нелінійної регресії:
1. Адитивні - моделі, величина результуючої ознаки яких дорівнює сумі відповідних значень факторів. До адитивних моделей відносяться:
а) ;
б) ;
в) ;
2. Мультиплікативні - моделі, в яких величина результуючої ознаки дорівнює добутку відповідних значень факторних ознак. До мультиплікативних моделей відносяться:
1) ;
2)
Лінеаризація - це перехід від нелінійної моделі до лінійної.
Якщо модель адитивна, то:
а) , ;
б) , ;
в) , .
Якщо модель мультиплікативна, то спочатку застосовується логарифмування, тобто зведення до адитивної моделі:
а) , ;
б) , .
Алгоритм побудови моделі представлений далі.
Нехай модель мультиплікативна виду
.
1. Проводимо лінеаризацію функції:
.
2. Лінеаризуємо вхідні дані.
3. Виконуємо усі дії по побудові множинної лінійної регресії моделі відповідно до пункту (2.4.2).
4. Знаходимо , тобто експоненціюємо.
5. Знаходимо . Тобто шукається з моделі одержаної в пункті 3.
6. Перевіряємо адекватність. Знаходимо допустиму область.
2.5 Факторний аналіз
Сутність методів факторного аналізу полягає в переході від опису деякої множини досліджуваних об'єктів, заданої великим набором непрямих безпосередньо вимірюваних ознак, до їх опису меншим числом максимально інформативних глибинних змінних, що відображають найбільш істотні властивості явища. Такого роду змінні, що називаються факторами, є деякими функціями початкових ознак. В більшості випадків фактори являють собою латентні (скриті) ознаки, які не підлягають прямому вимірюванню, але здійснюють безпосередній вплив на досліджуване явище чи процес.
Фактор є розрахунковою змінною, тобто якоюсь новою характеристикою об'єктів, що вивчаються. Опис фактора в термінах його зв'язку з набором початкових ознак відшуковується у вигляді так званої факторної матриці, або матриці факторних навантажень розмірністю , де - кількість вихідних ознак, а - число факторів. Основою для побудови факторної матриці служить кореляційна матриця. Вона відображає ступінь взаємозв'язку між кожною парою ознак, тоді як факторна матриця характеризує ступінь зв'язку між кожною з даних ознак і факторів, виявлених в процесі аналізу. При цьому значення обирається виходячи з двох умов: повинне бути багато менше за , а рівень втрат в інформації достатньо малим.
Факторна матриця дозволяє виділити для кожного фактора групу параметрів, найтісніше з ним зв'язаних. Тим самим відкривається можливість зіставити фактори один з одним, дати їм змістовне тлумачення і найменування, тобто навести інтерпретацію факторів.
Нехай є набір стандартизованих вихідних ознак ,
.
Необхідно замінити ці ознаки іншими. Нові ознаки називають факторами. При цьому виходять з припущення, що початкові ознаки є результатом дії деяких спільних чинників, в ролі яких і будуть виступати нові фактори. Загальна модель факторного аналізу має такий вигляд:
, (2.32)
Ознаки відображають характерні риси вихідних ознак і називаються характерностями. - факторні ознаки, відображають спільні риси вхідних ознак. - факторні навантаження (показують частку загального фактора у вихідній ознаці ).Значення факторних навантажень коливаються в межах від -1 до 1. Чим ближчі вони за модулем до 1, тим зв'язок між фактором та ознакою щільніший. Якщо величина факторного навантаження додатна, то вплив фактора на ознаку позитивний, інакше - негативний.
Лінійність взаємозв'язку у факторній моделі є припущенням, оскільки в дійсності основні параметри, що визначають соціально-економічні явища, взаємодіють більш складно. Тому модель факторного аналізу є першим наближенням до відображення реальних процесів.
Кожне рівняння системи (2.32) можна подати у вигляді
.
Залежність між компонентами ознак та факторів її можна записати таким чином:
,
де - j-те значення i-ї ознаки;
- факторне навантаження s-го фактора;
- j-те значення s-го фактора;
- факторне навантаження характерності i-ї ознаки;
-j-те значення характерності i-ї ознаки.
Одержані фактори будуються таким чином, щоб вони були взаємно некорельовані між собою.
У факторному аналізі при розрахунку факторних навантажень відіграє роль кореляційна матриця стандартизованих вхідних ознак , вона побудована за значеннями вихідних ознак. Її елементи обчислюються за формулою
(2.33)
Дисперсія вихідної ознаки:
,
де - частка дисперсії ознаки , яка пояснюється відібраними факторами;
- частка характерного фактора в дисперсії.
Основним завданням факторного аналізу є пояснення відібраними факторами якомога більшої частки дисперсії вхідних ознак. Факторне навантаження виражає кореляцію між факторами і ознакою, і між характерністю і ознакою.
2.5.1 Метод головних компонент
Метод головних компонент відноситься до компонентного аналізу і є самостійним методом багатомірного статистичного аналізу.
Даний метод дозволяє за вихідними ознаками побудувати узагальнених ознак, які називаються головними компонентами і являють собою штучні змінні, що є лінійними комбінаціями вихідних ознак.
Властивості головних компонент:
1) їх кількість дорівнює кількості вихідних ознак;
2) вони є ортогональними;
3) вони є стандартизованими;
4) вони впорядковані таким чином, що перша головна компонента пояснює найбільшу частку дисперсії вхідних ознак. Наступна найбільшу частку дисперсії, що залишилась непоясненою першою компонентою.
На практиці для аналізу беруть, як правило, тільки ті компоненти, сумарна частка дисперсії яких не менше 80%, а інші відкидаються як такі, що не значимі.
Алгоритм методу головних компонент:
1. Обчислюється матриця стандартизованих ознак .
2. Обчислюється кореляційна матриця стандартизованих ознак .
3. Обчислюється матриця власних значень
та матриця нормованих власних векторів .
4. Обчислюємо матрицю факторних навантажень
(2.34)
5. За матрицею власних значень обчислюється частка дисперсії (власне значення це і є дисперсія).
(2.35)
6. Обчислюється матриця значень факторів
(2.36)
7. За початковими та одержаною будуємо регресійну лінійну модель.
Склад компоненти визначається за коефіцієнтом інформованості:
(2.37)
Набір пояснюючих ознак вважається задовільним, якщо величина коефіцієнта інформованості становить не менше 0,70.
2.5.2 Метод головних факторів
Метод головних факторів полягає в знаходженні такої матриці факторних навантажень W, яка задовольняє співвідношенню
WWT = R - H12 = R, (2.38)
де H - діагональна матриця, що виражає характерність,
R - редукована матриця кореляцій.
Відмітимо, що завдання знаходження матриці W не є однозначним, оскільки матриця факторних навантажень виділяє в просторі Z підпростір F загальних факторів, але не фіксує в ньому систему координат. Тобто, матриця факторних навантажень знаходиться з точністю до ортогонального перетворення. Це дозволяє при її обчисленні накладати додаткові вимоги на неї. Одним з них є те, що загальні фактори обчислюються за впорядкованістю їх внесків у пояснення дисперсії вихідних ознак. Якщо при цьому виявляється, що серед знайдених лише декілька мають великі внески, то для практичного використання можна обмежитись лише ними.
На практиці редукцію вихідної кореляційної матриці можна провести декількома способами:
– Методом найбільшої кореляції - діагональний елемент замінюється на найбільше по відповідному рядку (стовпчику) недіагональне значення коефіцієнта кореляції;
– Методом Барта - для кожного рядка спочатку знаходиться середнє значення коефіцієнта кореляції; якщо воно порівняно велике, то діагональний елемент замінюється трохи більшим за найбільше по рядку значення коефіцієнта кореляції, а якщо воно порівняно мале, то діагональний елемент замінюється трохи меншим за найбільше по рядку значення коефіцієнта кореляції.
Метод головних факторів будується як метод розв'язання впорядкованого ланцюга пов'язаних одна з одною екстремальних задач. На першому кроці розглядається завдання максимізації критерію
, (2.39)
як функціонала, що залежить від факторних навантажень першого фактора. Нехай в результаті обчислень одержаний шуканий вектор факторних навантажень . Далі обчислюється матриця залишкових кореляцій:
R1 = R - W1W1T. (2.40)
В цій матриці виключений вплив першого фактора на вихідні ознаки. Для матриці залишкових кореляцій процедура обчислень повторюється. Обчислювальний процес завершується тоді, коли відібрана достатня кількість факторів для пояснення дисперсії вихідних ознак. Ступінь достатності можна визначити за значущістю матриці залишкових кореляцій: якщо вона значуща, то виділення факторів продовжується.
З обчислювальної точки зору метод головних факторів можна розглядати як модифікацію методу головних компонент. Відмінності полягають в тому, що:
1) обчислення базуються не на кореляційній матриці вихідних ознак, а на редукованій;
2) фактори виявляються один за одним, за зменшенням частки пояснюваної ними дисперсії вихідних ознак.
Якщо j - власне значення кореляційної матриці, а Vj - відповідний йому нормований власний вектор, то факторні навантаження фактора Fj обчислюються за формулою
. (2.41)
Оцінка значущості кореляційної матриці може проводитись за критерієм Уілкіса 2.
Спостережене значення критерію обчислюється за формулою
. (2.42)
Це значення порівнюється з критичним для 2 - розподілу, знайденим при заданому рівні значущості та кількості ступенів вільності =n(n-1)/2. Значущість кореляційної матриці підтверджується, якщо спостережене значення перевищує критичне: .
Достатність виділених факторів може бути перевірена за критерієм Лоулі 2 .
Спостережене значення критерію обчислюється за формулою
, (2.43)
де R+ - матриця залишкових кореляцій, значущість якої перевіряється;
R - вихідна редукована матриця.
Критичне значення знаходиться при заданому рівні значущості та кількості ступенів вільності
=((n-k)2 -n- k) /2,
де k - кількість виділених головних факторів. Ця кількість є достатньою, якщо спостережене значення критерію менше за критичне:
.
Алгоритм обчислень за методом головних факторів має наступний вигляд:
1) обчислення матриці стандартизованих ознак: XZ;
2) обчислення кореляційної матриці стандартизованих ознак: ZR;
3) обчислення редукованої кореляційної матриці: RR ;
4) обчислення першого власного значення 1 та відповідно йому нормованого власного вектора V1 редукованої кореляційної матриці: R(1, V1);
5) обчислення вектора факторних навантажень першого фактора F1 : (1,V1) W1;
6) обчислення матриці залишкових кореляцій: (R, W1) R1;
7) перевірка значущості матриці залишкових кореляцій. Якщо вона значуща, то ітераційний процес продовжується.
Інтерпретація одержаних факторів здійснюється наведеному розглянутому підходу при розгляді методу головних компонент.
3. Практична частина
3.1 Робастне статистичне оцінювання
При дослідженні статистичних сукупностей даних часто доводиться мати справу з даними, значення яких відрізняються від значень основного масиву.
У вхідній сукупності даних є значення, які значно відхиляються від інших. Відхилення особливо чітко стають помітними, якщо дані проранжувати, вони знаходяться на початку і в кінці ранжованих значень.
Значення, які є підозрілими на помилковість у вхідній сукупності, перевіряються за критеріями, описаними в пункті 2.1.1. Результат перевірки вхідних даних на грубі помилки було занесено до таблиці 3.1.1.
Таблиця 3.1.1 - Зведена таблиця критеріїв перевірки на наявність грубих помилок
Ознака |
Значення критерію |
Знак нерівності |
Гіпотеза про наявність грубих помилок |
|
Y1 |
Eемп = 0,451 Eтеор = 0,490 |
Eемп < Eтеор |
приймається |
|
X8 |
Eемп = 0,476 Eтеор = 0,691 |
Eемп < Eтеор |
приймається |
|
X11 |
Lемп = 0,412 Lтеор = 0,593 |
Lемп < Lтеор |
приймається |
|
X12 |
Lемп = 0,366 Lтеор = 0,534 |
Lемп < Lтеор |
приймається |
|
X13 |
Lемп = 0,490 Lтеор = 0,730 |
Lемп < Lтеор |
приймається |
|
X14 |
Eемп = 0,641 Eтеор = 0,558 |
Eемп > Eтеор |
відхиляється |
|
X17 |
Eемп = 0,665 Eтеор = 0,558 |
Eемп > Eтеор |
відхиляється |
Було виявлено, що у вхідній сукупності у факторів Y1, X8, X11, X12 та X13 підтвердилась гіпотеза про наявність грубих помилок. Після проведеного аналізу з подальшого розгляду було виключене підприємство №25, оскільки значення більш ніж половини ознак виявились помилковими. Як результат була отримана нова вхідна сукупність з 52 підприємств (таблиця Б.1).
Для ознак, у яких наявність помилок підтвердилась, обчислимо стійкі значення середніх за формулами Пуанкаре та Вінзора (таблиця 3.1.2).
Таблиця 3.1.2 - Стійкі значення середніх для ознак
за Пуанкаре |
за Вінзором |
Середнє |
||
Y1 |
7,54 |
7,83 |
7,97 |
|
X8 |
1,03 |
1,07 |
1,07 |
|
X11 |
12643,67 |
13211,82 |
14707,79 |
|
X12 |
77,76 |
82,89 |
91,88 |
|
X13 |
24801,88 |
26022,32 |
27528,17 |
Отримані значення виявились відмінними від середніх значень ознак. Значення середніх для ознак, отримані за Вінзором, виявились точнішими за значення, обчислені за формулою Пуанкаре, оскільки вони ближчі до середніх значень.
3.2 Ієрархічний кластерний аналіз
Основною метою кластерного аналізу є виділення типової групи. Було проведено групування об'єктів трьома методами: агломеративним, дивизимним та ітераційним.
За алгоритмом агломеративного методу, описаним у пункті 2.2.1, використовуючи метод ближнього сусіда, об'єкти були поділені на 4 кластери:
K1 = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 39, 40, 41, 42, 43, 44, 45, 46, 47, 49, 50, 51, 52};
K2 = {38};
K3 = {48};
K4 = {51}.
Було виділено типову групу з цих кластерів. Типовою групою елементів є кластер з найбільшою кількістю елементів, тобто K1.
За алгоритмом дивизимного методу, описаним у пункті 2.2.2, об'єкти були поділені на 3 кластери:
K1 = {1, 2, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20, 21, 22, 23, 24, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 39, 40, 41, 42, 43, 44, 45, 46, 47, 49, 51};
K2 = {3, 37, 38};
K3 = {19, 36, 48, 50, 52}.
Було виділено типову групу з цих кластерів. Типовою групою елементів є кластер з найбільшою кількістю елементів, тобто K1.
За алгоритмом ітераційного методу, описаним у пункті 2.2. використовуючи метод k-середніх, об'єкти були поділені на 2 кластери:
K1 = {1, 2, 3, 4, 7, 13, 24, 26, 27, 29, 32, 37, 38};
K2 = {5, 6, 8, 9, 10, 11, 12, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 28, 30, 31, 33, 34, 35, 36, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52}.
Було виділено типову групу з цих кластерів. Типовою групою елементів є кластер з найбільшою кількістю елементів, тобто K2.
Для оцінки якості розбиття на кластери для кожного методу були обчислені значення функціоналів якості розбиття (табл. 3.2.1).
Таблиця 3.2.1 - Значення функціоналів якості розбиття
Метод |
Кількість кластерів |
Функціонал якості розбиття |
|
Агломеративний |
4 |
469170083,6 |
|
Дивизимний |
3 |
1423344800 |
|
Ітераційний |
2 |
465141963 |
Отже, найменший функціонал було отримано в ітераційному методі. Це свідчить про оптимальність цього методу кластеризації. У типову групу увійшли 38 елементів (таблиця В.1):
K = {5, 6, 8, 9, 10, 11, 12, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 28, 30, 31, 33, 34, 35, 36, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52}.
3.3 Кореляційний аналіз
Для дослідження тісноти зв'язку між результативною та факторними ознаками було проведено кореляційний аналіз згідно алгоритму, описаного в пункті 2.3.
Для графічного зображення зв'язку між ознаками були використані попарні кореляційні поля (рисунки Г.1 - Г.21), за якими було висунуто гіпотези, що кореляційний зв'язок існує між парами:
1. X11 і X12 - середньорічна чисельність ПП та середньорічна вартість ОВФ (рис. А.12);
...Подобные документы
Методи одержання стійких статистичних оцінок. Агломеративні методи кластерного аналізу. Грубі помилки та методи їх виявлення. Множинна нелінійна регресія. Метод головних компонент. Сутність завдання факторного аналізу. Робастне статистичне оцінювання.
курсовая работа [1,2 M], добавлен 28.04.2014Завдання та етапи кластерного аналізу, вимоги до інформації. Приклад класифікації економічних об'єктів за допомогою алгоритму кластерного аналізу, методи перевірки стійкості кластеризації, інтерпретація результатів аналізу та побудування дендрограми.
реферат [311,2 K], добавлен 15.07.2011Загальна характеристика, структура та аналіз енергетичного комплексу України. Особливості застосування методів багатовимірного статистичного аналізу в моделюванні енергоспоживання регіонами України. Оцінка величини енергетичних потреб населення регіону.
магистерская работа [5,7 M], добавлен 21.06.2010Поняття фінансової безпеки підприємства, існуючі загрози. Особливості дослідження фінансової безпеки підприємства на основі методів багатомірного статистичного аналізу. Розробка комплексу моделей оцінки рівня фінансової безпеки сучасного підприємства.
дипломная работа [987,5 K], добавлен 18.11.2013Сутність та предмет економічного аналізу. Визначення понять "технологія", "фактор", "резерв", "аналіз". Класифікація господарських резервів. Управлінський та оперативний аналіз. Основні джерела інформації у процесі здійснення аналітичного дослідження.
тест [13,0 K], добавлен 09.09.2010Кореляційно-регресійний статистичний аналіз впливу технологічних параметрів та економічності автомобілів на ціну їх продажу. Прогнозування ціни на новий автомобіль в автосалонах Луганської області на основі рівняння багатофакторної множинної регресії.
курсовая работа [417,0 K], добавлен 17.12.2014Процедури та моделювання систем зв’язку, формальний опис та оцінювання ефективності. Специфіка цифрового зображення сигналів. Особливості та методи побудови математичних моделей систем та мереж зв'язку. Математичні моделі на рівні функціональних ланок.
реферат [120,1 K], добавлен 19.02.2011Статистичні методи аналізу та обробки спостережень. Характерні ознаки типової і спеціалізованої звітності підприємств. Оцінка параметрів простої лінійної моделі методом найменших квадратів. Аналіз показників багатофакторної лінійної і нелінійної регресії.
контрольная работа [327,1 K], добавлен 23.02.2014Аналіз розв’язків спряжених економіко-математичних задач. Оцінка рентабельності продукції, яка виробляється і нової продукції. Аналіз обмежень дефіцитних і недефіцитних ресурсів. Аналіз діапазону зміни коефіцієнтів матриці обмежень та цільової функції.
лекция [402,7 K], добавлен 10.10.2013Послуги праці, капіталу і природних ресурсів як фактори створення продукції. Карта ізоквант як метод опису виробничої функції. Капіталоінтенсивний та капіталозберігаючий типи технічного прогресу, їх аналіз за допомогою виробничої функції Кобба-Дугласа.
реферат [120,6 K], добавлен 08.08.2014Система управління технологічним процесом. Методи експертних оцінок. Принципи виявлення колективної думки експертів про перспективи розвитку об'єкта аналізу. Статистична обробка результатів. Методи евристичного програмування, "мозкової атаки" й аналогії.
реферат [34,1 K], добавлен 11.05.2009Особливості формування акціонерного сектору в Україні. Аналіз економічної діяльності ВАТ "Племінний завод "Біловодський". Розрахунок резервів підвищення суми прибутку і рентабельності як основних показників фінансової результативності роботи підприємства.
дипломная работа [98,4 K], добавлен 10.08.2010Зміст і мета кластеризації. Переваги її застосування перед іншими методами класифікації даних. Ієрархічні і неієрархічні методи кластерного аналізу. Приклад вертикальної дендрограми. Алгоритми найближчого і дальнього сусіда. Схема ітеративного методу.
контрольная работа [2,4 M], добавлен 12.06.2019Витрати: сутність та способи обліку, класифікація, методи і моделі дослідження. Аналіз фінансового стану ВАТ "Сніжнянський машинобудівний завод" в 2009-2010 рр. Моделі прогнозування витрат. Управління охороною праці на підприємстві, електробезпека.
дипломная работа [855,1 K], добавлен 18.11.2013Поняття про кореляцію і регресію. Сутність дисперсійного аналізу. Однофакторний дисперсійний аналіз. Функціональна і статистична залежності. Визначення параметрів вибіркового рівняння прямої лінії середньоквадратичної регресії за незгрупованих даних.
реферат [123,3 K], добавлен 12.02.2011Методи і методики визначення ефективності роботи підприємства, аналіз фінансового стану. Економіко-математичне моделювання взаємозв‘язку елементів собівартості та прибутку. Інформаційна система підтримки прийняття рішень. Інтерфейс інформаційної системи.
дипломная работа [1,7 M], добавлен 14.11.2009Основні принципи технічного аналізу Доу, типи трендів та закони руху цін. Види та методи обчислення простих, експонентних і лінійно зважених ковзних середніх, їх оцінка як інструменту технічного аналізу. Правила побудови графіків "смуг Болінджера".
эссе [1,4 M], добавлен 07.07.2011Аналіз коефіцієнтів лінійних моделей: розрахунок коефіцієнтів цільової функції. Аналіз діапазону зміни компонент вектора обмежень. Приклад практичного використання двоїстих оцінок у аналізі економічної задачі. Складання по ній симплексної таблиці.
лекция [543,5 K], добавлен 10.10.2013Призначення, описання й характеристики властивості программного забезпечення та метрик, які будуть досліджуватися. Статистичний аналіз метрик та експертних оцінок. Результати даних кореляційного та регресійного аналізу, зарозумілість інтерфейсу.
курсовая работа [1,6 M], добавлен 12.12.2010Методи розв’язування, аналізу та використання задач зі знаходженням екстремуму функції на множині допустимих варіантів у широкому спектрі теоретико-економічних та практичних проблем. Модель задачі лінійного програмування. Складання симплексної таблиці.
контрольная работа [960,6 K], добавлен 08.10.2013