Структуризация данных для целей анализа экономических систем

Проведение исследования графических и вычислительных средств для классификации и объединения элементов в группы на основе сходства и близости данных, представленных в виде множества переменных. Особенность замены старых координат объекта на новые.

Рубрика Экономика и экономическая теория
Вид статья
Язык русский
Дата добавления 22.08.2020
Размер файла 296,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Структуризация данных для целей анализа экономических систем

Макаров Е.И., Макаров А.Е.

Важной задачей анализа структуры любой экономической системы является группировка основных ее элементов (поставщиков, потребителей, товаров и т.д.), которая может быть выполнена аппаратом многомерного статистического анализа.

Многомерные методы представляют графические и вычислительные средства для классификации и объединения элементов в группы на основе сходства и близости данных, представленных в виде множества переменных, относящихся к этим элементам. Одним из наиболее мощных методов многомерного анализа является кластерный анализ.

Кластерный анализ позволяет построить дерево классификации n объектов посредством иерархического объединения их в группы или кластеры. Классификация строится на основании анализа расстояний в пространстве т переменных, описывающих объекты. В результате исходное множество объектов разбивается на подмножества компактных кластеров. Кластерный анализ не даёт оценки адекватности получаемых классификаций.

Исходные данные представляются в виде матрицы размером nхm. Пусть индекс i нумерует объекты, а индекс к нумерует количественные признаки. Далее необходимо выбрать метод вычисления расстояния dij между объектами в многомерном пространстве. Вычисление расстояний между объектами в зависимости от вида метрики производится различными способами - по Евклидову расстоянию, сумме квадратов, Брею - Картису и др [1].

Однако описанные выше методы кластеризации обладают некоторыми недостатками, которые могут проявиться при классификации объектов большой размерности в самых разнообразных задачах.

Нами разработана новая реализация кластеризации объектов. Идея метода основана на аналогии с образованием агрегатов притягивающихся частиц, находящихся в жидкости. Под действием сил притяжения частицы двигаются навстречу друг другу, образуя последовательно кластеры все большего размера, пока не произойдет слияние в один суперкластер.

Уравнение движения частиц в вязкой жидкости имеет вид

где - вектор положения i-ой частицы системы; -потенциальная энергия притяжения выделенной частицы к остальным частицам .

Для задачи анализа структуры произвольных данных m указывает размерность данных. Параметр определяет скорость обучения системы. Выбором масштаба времени t всегда можно положить .

Для построения эффективной процедуры обучения можно использовать разные виды потенциальной энергии. Можно сформулировать некоторые общие требования, которым целесообразно подчинить выражение для потенциальной энергии:

Энергию взаимодействия «частиц» следует выбирать парной, что обеспечит аддитивность энергий и сил.

Вид энергии должен обеспечивать притяжение «частиц» (точек).

Притяжение должно исчезать при соединении точек.

Притяжение должно убывать по мере удаления точек друг от друга с тем, чтобы сильно удаленные частицы не притягивались

С целью автоматизации вышеизложенной методики кластеризации была разработана программа AutoClasterisation 1.0 (зарегистрирована в ОФАП №50200401195 от 11.10.2004). В программе реализован механизм кластеризации объектов методом древовидной (иерархической) классификации.

Сущность метода в следующем. Первоначальный объем данных считается кластеризованным с кластерами, определяемыми отдельными наблюдениями. Для дальнейшего итерационного конечно шагового процесса определяется понятие расстояния между кластерами. В программе расстояние между кластерами понимается как евклидово расстояние между их центрами, где координаты центров являются средним арифметическим координат содержимого кластеров.

С помощью программы AutoClasterisation 1.0 пользователь может проследить образование кластеров и произвести построение дерева классификации n объектов посредством иерархического объединения их в кластеры.

Алгоритм, реализованный в программе AutoClasterisation 1.0, включает следующие шаги.

Ввод данных

Данные представляются в виде таблицы с полями, характеризующими объекты кластеризации.

В таблице 1 приведен пример формирования исходных данных для кластеризации потребителей по расстоянию до поставщиков.

Таблица 1 - Исходные данные для кластеризации

Потребители

Расстояния до поставщиков

Поставщик №1

Поставщик №2

Поставщик №3

Поставщик №4

Потребитель №1

409

500

214

245

Потребитель №2

157

445

240

195

Потребитель №3

72

285

400

325

Выбор параметров для кластеризации

Выбор параметров кластеризации реализован в виде выбора осей плоскости, которая будет визуально изучаться пользователем в процессе кластеризации объектов. Поскольку кластеризация происходит в n мерном пространстве (в данном конкретном примере 4-х мерное пространство, т.к. 4 параметра объектов), которое невозможно отобразить современными средствами визуализации, то пользователю приходится выбирать плоскость для отображения данных, тем самым производится выбор параметров для классификации объектов.

Нормализация данных

Данные по всем параметрам объектов нормализуются, т.е. принимают сопоставимый вид в диапазоне от 0 до 1:

хji' = (хji - хjmin) / (xjmax - xjmin) ,

где хji' - нормализованное значение j -го параметра i-го объекта; хji - исходное значение j -го параметра i-го объекта; хjmin (xjmax) - минимальное (максимальное) значение j -го параметра в системе данных.

Это необходимо для того, чтобы координаты (параметры) объектов имели сопоставимый вид при проецировании на плоскость.

Таблица 2 - Данные после нормализации

Потребители

Расстояния до поставщиков

Поставщик №1

Поставщик №2

Поставщик №3

Поставщик №4

Потребитель №1

0,983

0,561

0,336

0,556

Потребитель №2

0,359

0,427

0,429

0,397

Потребитель №3

0,149

0,037

1,000

0,810

Проецирование объектов на плоскость в виде точки с координатами

В нашем примере осями Ох и Оу являются расстояния до поставщиков №2 и №3, тогда точки для объектов (потребителей) будут иметь следующие координаты: Потребитель №1 (0.561; 0.336); Потребитель №2 (0.427; 0.429); Потребитель №3 (0.037; 1) и т.д.

Замена старых координат объекта на новые

После каждого шага происходит замена старых координат объекта на новые, которые определяются по правилу:

,

где xml'- новое значение l -координаты m -объекта (рассчитывается по каждому объекту для каждой из 6-ти координат); хml - старое значение l -координаты m -объекта; t - скорость обучения (размер шага, в нашем случае t = 0,01); Em - потенциальная энергия (сила) притяжения m -объекта к остальным объектам, рассчитывается для каждого объекта в отдельности по формуле

xki - значение k -координаты i -объекта; Vj - рассчитывается по следующей формуле:

,

После проведенного расчета для всех 26 объектов по 4-м координатам будет сделан 1-ый шаг. Шаги следует повторять до тех пор, пока не произойдет образование нескольких визуально различимых кластеров.

Векторы перемещения точек могут изменяться в зависимости от положения других точек. После каждого шага близко расположенные точки сближаются, постепенно образуя кластеры; образовавшиеся кластеры, в свою очередь, начинают движение навстречу другим кластерам. Движение точек будет прекращено только тогда, когда все объекты сольются в одну точку.

Выделение кластеров

Выделение кластеров производится на рабочей поверхности окна «Кластеризация». Процесс выделения сформировавшихся кластеров заключается в объединении нескольких близко расположенных точек курсором «мыши». После выделения каждого из кластеров в правой части окна программы формируется список, содержащий номер кластера и наименования вошедших в него объектов. В ходе кластеризации объектов перед нами в первую очередь стояла задача определения, к какому из поставщиков тяготеют потребители.

При дальнейшем увеличении шагов точки будут сливаться в еще более четко очерченные сгустки до тех пор, пока не сольются в одну точку, находящуюся примерно в середине рабочей поверхности окна с координатами (0.5; 0.5) (такое положение конечного кластера связано с нормализацией данных).

С помощью программы AutoClasterisation 1.0 была проведена группировка потребителей строительного щебня (филиалов ОАО «Воронежавтодор») по близости к поставщикам, с учетом их географического положения, представляющая для них практический интерес

Воронежская область имеет площадь 52,4 тыс. кв. км и простирается на сотни километров. Поэтому потребители территориально тяготеют не только к основному поставщику щебня - ОАО «Павловскгранит» (гранитный щебень), расположенному на Юго-Западе области, но и к ОАО «Новолипецкий металлургический комбинат» (шлаковый щебень), расположенному к северу от области, к карьерам Ростовской области (гранитный, известняковый щебень), расположенных к югу, к ОАО «Лебединский ГОК» Белгородской области (шлаковый щебень), расположенному к западу от области.

Результаты кластеризации, проведенные с помощью программы AutoClasterisation 1.0, дали следующие результаты (см. рисунок).

Северные филиалы ОАО «Воронежавтодор» образуют кластер потребителей, тяготеющих к ОАО «Новолипецкий металлургический комбинат», это: «Воронежский №1», «Воронежский №2», «Воронежский №3», «Новоусманский», «Верхнехавский», «Эртильский», «Панинский», «Аннинский», «Грибановский».

Южные филиалы образуют кластер потребителей, тяготеющих к карьерам Ростовской области (официальный дилер ООО «Руда»): «Кантемировский», «Богучарский».

Западные филиалы образуют кластер потребителей, тяготеющих к ОАО «Лебединский ГОК» Белгородской области: «Хохольский», «Репьевский», «Ольховатский», «Нижнедевицкий», «Острогожский», «Лискинский». графический вычислительный данный координата

Остальные филиалы образуют кластер потребителей, тяготеющих к ОАО «Павловскгранит».

Рисунок 1 - Кластеризация филиалов ОАО «Воронежавтодор» по близости к поставщикам

Литература

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. - М.: Финансы и статистика, 1985. - 471с.

2. Бендат Дж., Пирсол А. Применение корреляционного и спектрального анализа.- М.: Мир, 1979.- 311с.

Размещено на Allbest.ru

...

Подобные документы

  • Исследование схемы реализации проекта по замене старых балансировочных станков на новые. Анализ состава и структуры имущества предприятия, ликвидности, деловой активности и финансовой устойчивости. Оценка затрат и эффективности замены старых станков.

    дипломная работа [1,4 M], добавлен 03.11.2016

  • Понятие экономического анализа как науки, его сущность, предмет, общая характеристика методов и социально-экономическая эффективность. Основные группы эконометрических методов анализа и обработки данных. Факторный анализ экономических данных предприятия.

    реферат [44,7 K], добавлен 04.03.2010

  • Машинное обучение и статистические методы анализа данных. Оценка точности прогнозирования. Предварительная обработка данных. Методы классификации, регрессии и анализа временных рядов. Методы ближайших соседей, опорных векторов, спрямляющего пространства.

    контрольная работа [833,1 K], добавлен 04.09.2016

  • Статистика в медицине как один из инструментов анализа экспериментальных данных и клинических наблюдений. Понятие количественных (числовых) данных. Выборки численных переменных. Виды критериев для независимых выборок, особенности их использования.

    презентация [750,1 K], добавлен 16.10.2016

  • Особенности теории предпочтения, стандартные типы закономерностей процессов обнаружения данных. Разнообразие задач классификации, процедура ее описания. Методы исследования и виды структур данных. Основные положения и методики статистического анализа.

    курсовая работа [218,0 K], добавлен 24.06.2009

  • Роль корреляцонно-регрессионного анализа в обработке экономических данных. Корреляционно-регрессионный анализ и его возможности. Предпосылки корреляционного и регрессионного анализа. Пакет анализа Microsoft Excel.

    курсовая работа [68,4 K], добавлен 11.06.2002

  • Проведение экспресс–оценки на основе данных финансовой отчетности. Анализ деятельности Калининской АЭС на основе агрегированных форм отчетности. Обоснование инвестиционного проекта. Разработка проекта финансирования модернизации и замены оборудования.

    дипломная работа [212,3 K], добавлен 30.04.2017

  • Виды, типы и методы исследования экономических и политических процессов. Анализ состояния и тенденций развития социальных процессов. Сущность метода структуризации. Изучение социальной системы, освоение взаимосвязей и взаимозависимостей ее элементов.

    курсовая работа [158,0 K], добавлен 24.10.2014

  • Информационное обеспечение анализа хозяйственной деятельности. Проведение анализа оборотных средств. Развитие производительных сил и производственных отношений. Причинно-следственные связи экономических явлений и процессов. Проведение анализа дебиторов.

    контрольная работа [45,0 K], добавлен 01.02.2013

  • Предварительная обработка статистических данных финансово-экономических показателей с помощью двухмерной модели корреляционного анализа. Прогнозирование финансово-экономических показателей на основе качественной оценки регрессионной линейной модели.

    лабораторная работа [244,9 K], добавлен 24.11.2010

  • Применение дисперсионного анализа для исследования влияния качественных переменных на зависимую количественную переменную. Регрессионный анализ со статистической значимостью. Процесс проведения дисперсионного, кластерного, регрессионного анализов.

    курсовая работа [498,5 K], добавлен 11.05.2022

  • Качественный и количественный анализ ресурсов социально–экономических процессов предприятия на основе статистических данных. Использование компьютерных программ для анализа эффективности экономических процессов. Пути оптимизации производственного цикла.

    курсовая работа [895,9 K], добавлен 01.11.2014

  • Понятие экономических систем и подходы к их классификации. Основные модели развитых стран в рамках экономических систем. Основные черты и особенности шведской, американской, германской, японской, китайской и российской моделей переходной экономики.

    курсовая работа [48,6 K], добавлен 11.03.2010

  • Подходы к классификации экономических систем. Рыночная экономика свободной конкуренции, административно-командная, переходная (транзитивная) и традиционная экономики, их отличительные черты. Американская, шведская и японская модели экономических систем.

    презентация [591,2 K], добавлен 13.11.2017

  • Способы сбора и группировки статистических сведений, полученных в результате наблюдений или экспериментов. Методы анализа статистических данных в зависимости от целей исследования. Проверка статистических гипотез, оценка неизвестной вероятности события.

    курсовая работа [172,8 K], добавлен 15.11.2009

  • Описание объекта недвижимости - двухэтажного загородного дома. Проведение оценки для установления рыночной стоимости здания. Способы анализа стоимости объекта: затратный, капитализации дохода и сравнительного анализа продаж; согласование результатов.

    курсовая работа [143,2 K], добавлен 18.11.2014

  • Проведение анализа страховой деятельности агентов в филиале ООО "Росгосстрах – Поволжье". Группировка статистических данных. Расчёт характеристик вариационного ряда. Показатели распределения и коэффициент вариации. Построение аналитической группировки.

    курсовая работа [253,3 K], добавлен 26.06.2009

  • Виды и способы статистического наблюдения. Построение и анализ вариационных рядов распределения. Оценка параметров генеральной совокупности банков на основе выборочных данных. Расчет парного коэффициента корреляции и уравнения однофакторной регрессии.

    контрольная работа [712,1 K], добавлен 30.03.2014

  • Определение рыночной стоимости объекта недвижимости с использованием затратного и доходного подходов к оценке недвижимости и сравнительного анализа продаж. Оценка физического износа отдельных конструктивных элементов и инженерных систем жилого дома.

    курсовая работа [73,2 K], добавлен 12.03.2013

  • Основные этапы и методы статистического исследования. Важнейшие экономические индексы и их взаимосвязи. Сбор, сводка и анализ данных (фактов) о социально-экономических, демографических и других явлениях и процессах общественной жизни в государстве.

    контрольная работа [191,2 K], добавлен 08.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.