Разработка методики прогнозирования социально-экономических параметров муниципальных образований

Результаты исследования, посвященного прогнозированию социально-экономических параметров муниципальных образований. Комплексный подход к решению задачи прогнозирования, основанный на процессе извлечения знаний из данных в виде производственного цикла.

Рубрика Государство и право
Вид статья
Язык русский
Дата добавления 27.05.2018
Размер файла 294,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Разработка методики прогнозирования социально-экономических параметров муниципальных образований

В.А. Камаев, А.С. Аль-Катабери, М.В. Щербаков

Представлены результаты исследования, посвященного прогнозированию социально-экономических параметров муниципальных образований. Предложен комплексный подход к решению задачи прогнозирования, основанный на процессе извлечения знаний из данных в виде производственного цикла (CRISP-DM). Приведены результаты испытания и показана состоятельность методики при решении задачи прогнозирования демографической ситуации на базе данных паспортов муниципальных образований (2007-2009 гг.).

Ключевые слова: социально-экономические параметры, демография, прогнозирование, эволюционные системы, коннективистские модели, муниципальные образования.

Проблема точного прогнозирования социально-экономических показателей сети муниципальных образований является актуальной для развития регионов страны. Точный прогноз развития социально-экономической сферы в регионе позволяет принимать оптимальные стратегические управленческие решения. При этом решения должны носить комплексный характер, так как развитие региона зависит от мероприятий по различным направлениям работы. Социально-экономическое прогнозирование включает в себя три ключевые задачи, связанные с системным анализом и обработкой информации. Первая - сбор информации о социально-экономических показателях сети муниципальных образований и анализ ее качества и достоверности. В настоящее время выбрана концепция базы данных паспортов муниципальных образований, в которых отражены все ключевые показатели, разбитые на группы. Процесс заполнения паспортов является задачей муниципалитетов и реализуется один раз в год. Следует выделить проблему неполноты данных, которая связана с тем, что значения некоторых показателей не отражаются в паспорте. Таким образом, возникает проблема идентификации и заполнения пропусков в данных, модель прогнозирования формируется в условиях неопределенности. Вторая задача - синтез прогнозной модели и ее настройка. Данная задача лежит в области информационной идентификации [1] и интеллектуальной обработки информации и прогнозирования [2]. Спецификой рассматриваемой предметной области является то, что объект прогнозирования представляет собой сеть муниципальных образований, изменяющихся во времени, т.е. систему эволюционных объектов [3]. Следовательно, требуется существенная модификация существующих подходов с учетом такой специфики. И последняя задача - задача интерпретируемости результатов, генерирующая знания о закономерностях развития на основе анализа построенных моделей оценки качества данных и прогнозирования.

В качестве объектов исследования и прогнозирования в статье рассмотрены муниципальные образования. Муниципальное образование (МО) - сложная слабоструктурированная система с большим количеством причинно-следственных связей между факторами [4]. Эти связи не всегда очевидны при принятии решений, что диктует необходимость исследования таких систем в условиях неопределенности, неоднозначности. Кроме того, МО можно рассматривать как динамическую систему. Необходимо изучать динамику развития системы, анализировать процессы роста с учетом общего жизненного цикла города и его частей (население, предприятия, жилой фонд и др.). Помимо этого, систему муниципальных образований можно рассматривать как систему эволюционных объектов, поведение которых изменяется в процессе жизненного цикла.

Описание методики. Методика, предлагаемая в статье, базируется на технологии извлечения знаний из данных в виде производственного цикла CRISP DM [5]. Ниже приведены основные шаги методики:

1. Формализация предметной области и формирование цели.

1.1. Если рассмотреть текущее описание МО, то систему муниципальных образований можно представить в виде гиперграфа верхнего уровня, вершинами которого являются МО:

. (1)

Таким образом, гиперграф представляет собой верхний уровень описания сети муниципальных образований как эволюционных систем. Под эволюционной системой понимается система, изменяющая режимы функционирования в течение времени. Множество ребер отражает принадлежность МО к районным центрам. Далее, вершины можно представить в виде гиперграфа 1-го уровня Г1i, где каждая вершина представляет собой характеристику социально-экономического состояния МО определенного типа. Таким образом, система представляет собой кортеж вида

,

прогнозирование социальный экономический муниципальный

где i - индекс объекта в сети МО; j - индекс вершины в ; k - индекс ребра в .

1.2. Выбор переменных прогнозирования. Из множества вершин 1-го уровня, представляющих собой переменные, необходимо выбрать подмножество , включающее переменные прогнозирования.

1.3. Формирование цели прогнозирования. Целью методики является разработка такого механизма прогнозирования, при котором средние ошибки прогнозирования стремились бы к минимуму. Пусть определена цель A0 и критерий достижимости этой цели J - средние ошибки прогнозирования различных переменных; J=f(Ei,wi), где Ei - средняя ошибка прогнозирования i-й переменной.

2. Выбор и создание источников данных.

2.1. Так как множество переменных, характеризующих объект, определяется на этапе формализации, то на данном шаге выбираются источники данных. Фактически систему источников данных можно описать в виде кортежа

,S,W

где - множество источников данных; = - множество параметров, описывающих объект (при этом можно выделить прогнозные переменные , ). В простейшем частном случае =1.

2.2. Формирование хранилища данных. Исходной информацией для формирования хранилища данных выступают: 1) гиперграф сети муниципальных образований Г0; 2) система DB; 3) множество . Считаем, что существует процедура формирования системы OLAP - кубов , такая, что . В работе [4] показан способ формирования хранилища данных в формате OLAP для построения моделей прогнозирования. Отметим, что систему OLAP - кубов можно формировать как в ручном режиме, так и с использованием процедур автоматизации.

3. Оценка качества данных, предварительная обработка и очистка. На данном этапе необходимо оценить качество данных и принять решение о возможности дальнейшего проведения анализа и прогнозирования. Если принимается решение о продолжении, то целесообразно применить процедуру предварительной обработки и очистки информации.

3.1. Оценка качества данных. Для оценки качества данных выделим следующие критерии: 1) ng, ?g - число и частота пропусков в данных; 2) T - интервал наблюдения (число дискретных временных отсчетов, в которых наблюдаются параметры); 3) nA - число аномальных значений. Процедуру оценки качества данных можно представить как совокупность

, (4)

где PGA - процедура оценки ng; PFA - процедура определения T; PAA - процедура оценки nA; - процедура комплексной оценки качества данных и формирования заключения об остановке продолжения или процесса.

Рис. 1. Результаты анализа пропусков в данных в паспортах муниципальных образований, полученных для 22 различных групп параметров.

3.2. Процедура предварительной обработки и очистки данных включает две процедуры:

, (5)

где PGE - процедура заполнения пропусков в данных; PAE - процедура замены аномальных значений.

4. Синтез и настройка моделей прогнозирования. Считаем, что для каждой переменной из существует функция прогнозирования

, (6)

где - параметры, охватываемые ребрами ; , - вектор параметров, настройка которых позволяет добиться требуемого критерия качества.

Положим, что все рассматриваемые в выражении (1) объекты являются однотипными. Как показывает практика, построение одной модели для всех типов режимов функционирования не всегда приводит к оптимальным решениям из-за выделенных критериев качества [6]. Однако для этих объектов можно выделить конечное число классов объектов (функциональных состояний, режимов работы). В связи с этим предлагается подход, основанный на классификации исходных объектов и синтезе ансамбля моделей для каждого класса. Формально классификацию можно представить в виде формирования ребер в гиперграфе Г0.

4.1. Построение оператора классификации исходных объектов в Г0 в виде

, (7)

где - элемент множества классов объектов. В качестве входных переменных используются переменные, определенные на 1-м уровне. Пример классификации представлен на рис. 2.

4.2. Построение ансамбля прогнозных моделей для каждого кластера. Число моделей в этом случае составит , где - число кластеров.

4.3. Разделение выборки данных на основе системы гиперкубов в каждом из HCS на выборок.

4.4. Структурная и параметрическая оптимизация моделей на основе критерия качества J.

5. Оценка качества прогноза и извлечение знаний.

5.1. Оценка качества прогнозирования. Для оценки качества прогнозирования целесообразно разделить имеющиеся выборки данных на обучающие, тестовые и валидационные. В этом случае получаются 3 различных оценки качества для каждой модели, на основании которых можно рассчитать одну интегральную.

5.2. Для извлечения знаний предлагается использовать два подхода:

- «что-если», при котором фиксируются все переменные, кроме одной (анализируемой), и изучается зависимость прогнозной переменой от анализируемой (рис. 3);

- деревья решений: в результате формируется граф, вершинами которого являются определенные условия (правила) вида «если-то».

Рисунок 2. Классификация объектов и соотношения параметров в 3 классах (получено в системе Viscovery [7])

Модели. В качестве моделей классификации могут быть использованы: 1) сети Кохонена или модели на базе алгоритма k-means, если определено число функциональных состояний; 2) g-means, если определено максимально допустимое число функциональных состояний. Для формирования прогнозных значений переменных использовались эволюционные коннективистские системы [9; 10].

Испытания. Для испытания предложенной методики была выбрана задача анализа и прогнозирования демографической ситуации в муниципальных образованиях Волгоградской области. Целью анализа является выявление наиболее благоприятных с позиции естественной прибыли (рождаемости) поселений и благоприятных и неблагоприятных факторов.

Для анализа ситуации использовались следующие показатели за 2007-2009 гг.:

- демографические: численность населения, численность населения трудоспособного возраста, число пенсионеров, родивших, умерших, прибывших, убывших;

- экономические: среднемесячные денежные доходы на душу населения, число магазинов, количество домовладений, число предприятий и ИП, расходы бюджета и др.;

- социальные: число зарегистрированных преступлений, процент раскрываемости, число больниц, число случаев заболевания алкоголизмом и пр.;

- географические: плотность автомобильных дорог общего пользования с твердым покрытием, удаленность поселения от ближайшей ж.-д. станции.

Рис. 3. Пример модели «что - если» - кривая зависимости изменения рождаемости от затрат бюджета на здравоохранение для обучающей выборки данных (для кластера малых сельских поселений) (результаты получены с помощью пакета Deductor [8]).

На этапе классификации были сформированы 3 кластера для которых строились модели прогнозирования:

1. Кластер S1, самый многочисленный, объединяющий в себе небольшие городские и сельские поселения.

2. Кластер S2, объединяющий в себе малые городские поселения с невысоким доходом и крупные сельские поселения. Практически все поселения имеют схожую демографическую картину.

3. Кластер S3, объединяющий в себе крупные городские поселения. Для кластера характерны высокая численность населения, в том числе и трудоспособного, высокие среднемесячные доходы, высокий процент родившихся и умерших людей, высокий процент прибывших и уехавших из поселения. Отмечается большое количество преступлений. В данных поселениях располагаются больницы, школы, объекты культуры, высока бизнес-активность (малые предприятия и индивидуальные предприниматели), что подтверждается высокими поступлениями в городской бюджет. Как правило, данные поселения находятся недалеко от железнодорожных станций (или ж/д станции располагаются внутри поселений).

Средняя абсолютная процентная ошибка прогнозирования составила 12, 11, 12% для каждого кластера соответственно. В результате анализа модели «что-если» были выявлены следующие закономерности:

- расходы бюджета на социальную политику не влияют в краткосрочной перспективе (2 года) на рождаемость;

- для увеличения рождаемости необходимы значительные затраты бюджета в сфере ЖКХ, здравоохранения и образования;

- согласно паспортам МО, затраты на образование в большей степени влияют на рождаемость.

Кроме того, для увеличения точности моделей необходимо создание и использование системы мониторинга показателей социально - экономического развития муниципальных образований.

Итак, предложена методика прогнозирования социально-экономических показателей сети муниципальных образований на основе эволюционных моделей, включающая в себя: 1) оригинальный подход к формализации сети муниципальных образований в виде гиперграфа, на основе которого формируются решения о структуре прогнозной модели; 2) адаптацию операций обработки данных на всех этапах интеллектуального анализа данных в виде производственного цикла (CRISP-DM), применяемых к эволюционным системам; 3) применение эволюционных коннективистских систем для построения и настройки моделей прогнозирования.

Практическая значимость исследования состоит в применении разработанной методики для решения задачи прогнозирования социально-экономических показателей (в частности, демографического состояния). Кроме того, была разработана концепция аналитической системы для поддержки принятия решений по управлению социально-экономическим развитием [11]. Применение предложенной методики позволит прогнозировать социально-экономическое состояние муниципальных образований и принимать решения на основе полученных прогнозов.

Список литературы

1. Цыпкин, Я. З. Информационная теория идентификации / Я.З. Ципкин.-М, -1995. 336 с.

2. Armstrong, J.S. Principles of Forecasting - A Handbook for Researchers and Practitioners (International Series in Operations Research & Management Science)/ J.S. Armstrong, 2001.

3. Камаев, В. А. Анализ социально-экономического развития муниципальных образований на примере Волгоградской области с использованием моделей data mining / В.А. Камаев, М.В. Щербаков, А.С. Аль-Катабери // Изв. ВолгГТУ. Серия «Актуальные проблемы управления, вычислительной техники и информатики в технических системах»: межвуз. сб. науч. ст. / ВолгГТУ. - Волгоград, 2010. -Т. 6. -№ 8. -С. 103-106.

4. Щербаков, М. В. Формализация информации о социально-экономическом развитии муниципальных образований для решения задач управления / М. В. Щербаков, А. С. Аль-Катабери // XII Международная конференция «Проблемы управления и моделирования в сложных системах», 22 - 24 июня 2009г: тез. докл. / РАН. - Самара, 2009. - С. 532-535.

5. Larose, D.T. Discovering knowledge in data: an introduction to data mining / Daniel T. Larose.- John Wiley & Sons, Inc. 2005.

6. Камаев, В. А. Применение коннективистских систем для прогнозирования потребления электроэнергии в торговых центрах / М. В. Щербаков, Д. П. Панченко, Н. Л. Щербакова, А. Бребельс //Управление большими системами. - М.: ИПУ РАН, 2010. Вып. 31. -С.92-109.

7. The Ward cluster algorithm of Viscovery SOMine. - http://www.viscovery.net/download/public/The SOM-Ward cluster algorithm.pdf

8. Аналитическая платформа Deductor. - http://www.basegroup.ru/

9. Kasabov, N. Evolving connectionists systems. The Knowledge Engineering Approach / N. Kasabov // Originally published in the Series: Perspectives in Neural Computing 2nd ed., XXII, 451 p.

10. Камаев, В. А. Интеллектуальные системы автоматизации управления энергосбережением / В. А. Камаев, М. В. Щербаков, А. Бребельс // Открытое образование. - 2011. - № 2. - С. 227-231.

11. Щербаков, М.В. Концепция информационной системы муниципальных образований и инвестиционных площадок / М.В. Щербаков, В.А. Камаев, А.С. Аль-Катабери // Электронная культура. Преодоление информационного неравенства: материалы Междунар. конф., 2-5 июня 2008 г. / Астраханский гос. ун-т [и др.]. - Астрахань, 2008. - C. 127-130.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.