Иерархические методы кластеризации в задаче поиска аномальных наблюдений на основе групп с нарушенной симметрией
Решение проблемы идентификации и интерпретации аномальных наблюдений при исследовании социально-экономических процессов. Особенности применения групп нарушенной симметрии для "визуализации" процессов в природных и социально-экономических системах.
Рубрика | Экономика и экономическая теория |
Вид | статья |
Язык | русский |
Дата добавления | 08.02.2021 |
Размер файла | 892,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Иерархические методы кластеризации в задаче поиска аномальных наблюдений на основе групп с нарушенной симметрией
Кисляков А.Н., Поляков С.В.
Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации (Владимирский филиал), г. Владимир, Российская Федерация
Реферат
Работа направлена на решение актуальной проблемы идентификации и интерпретации аномальных наблюдений при исследовании социально-экономических процессов. Предлагаемый в работе метод основан на использовании кластерного подхода к выявлению аномальных наблюдений. Кластеризация выполняется иерархическими методами, которые представляют собой совокупность алгоритмов упорядочивания данных, направленных на создание дендрограмм, состоящих из групп наблюдаемых точек. В качестве метрики расстояний между элементами в случае смешанных данных, состоящих из числовых и категориальных переменных предлагается использовать расстояние Гауэра. Оценка качества кластеризации выполняется на основе показателя суммы квадратов метрических расстояний между объектами внутри кластера и средней ширины силуэта. Эти показатели позволяют выбрать оптимальное количество кластеров и оценить качество результатов разбиения. Дендрограмма может быть использована для исследования групп симметрии кластерных систем и причин нарушения симметрии. Выявление аномалий осуществляется путем анализа результатов иерархической кластеризации и выявления ветвей дендрограммы, располагающихся на начальных уровнях построения дерева и не имеющих ветвлений. Реализованная методика позволяет более точно интерпретировать результаты кластеризации относительно определения ошибок первого и второго рода виде аномальных наблюдений в наборе данных. С помощью описанной методики возможно эффективно исследовать социально-экономические системы и управлять их развитием.
Ключевые слова: кластерный анализ, сетевые графы, нарушение симметрии, аномальные наблюдения, деревья решений.
Abstract
Hierarchical clustering methods in a task to find abnormal observations based on groups with broken symmetry
Aleksey N. Kislyakov, Sergey V. Polyakov*
Russian Presidential Academy of National Economy and Public Administration (Vladimir Branch), Vladimir, Russian Federation;
The work is aimed at solving the actual problem of identification and interpretation of anomalous observations in the study of socio-economic processes. The proposed method is based on the use of a cluster approach to detecting anomalous observations. Clustering is performed using hierarchical methods, which are a set of data ordering algorithms aimed at creating dendrograms consisting of groups of observed points. In the case of mixed data consisting of numeric and categorical variables, it is proposed to use the Gower
distance as a metric for distances between elements. Clustering quality is evaluated based on the sum of squares of metric distances between objects within the cluster and the average width of the silhouette. These indicators allow you to select the optimal number of clusters and evaluate the quality of the split results. The dendrogram can be used to study the symmetry groups of cluster systems and the causes of symmetry breaking. Anomaly detection is performed by analyzing the results of hierarchical clustering and identifying branches of the dendrogram that are located at the initial levels of tree construction and do not have branches. The implemented method makes it possible to more accurately interpret the results of clustering with respect to determining errors of the first and second kind in the form of anomalous observations in the data set. Using the described method, it is possible to effectively investigate socio-economic systems and manage their development.
Keywords: cluster analysis, network graphs, symmetry breaking, anomalous observations, decision trees.
Круг задач, решаемых на основе перспективного анализа данных и прогнозного моделирования постоянно расширяется. На основе математических моделей возможна выработка рекомендаций и составление прогнозов показателей социальноэкономического развития. Сам подход к использованию данных для принятия решений становится ключевым фактором экономического роста [6; 7]. Данные являются основой для построения прогнозных моделей и от их качества зависит результат принятия решений.
При этом исходный набор данных может содержать нехарактерные показатели или аномальные наблюдения [1]. Существует достаточно способов [7; 16] выявления аномальных наблюдений от самых простых -- визуальных, а также методов, основанных на критериях проверки статистических гипотез, до более сложных использующих алгоритмы линейной регрессии и заканчивая рекуррентными нейронными сетями. Обычно выделяют следующие возможные источники аномальных наблюдений.
1. Неумышленная, ошибочная запись значения наблюдаемого показателя -- ошибка первого рода, подлежащая устранению.
2. Резкое изменение внешних и внутренних условий, связанных с формированием результата наблюдения (ошибка второго рода, которую следует учитывать в модели).
3. Резкие отличия показаний объектов исследования, неочевидно находящихся в различных условиях функционирования (действие скрытых факторов).
4. Умышленное искажение с определенной целью результатов наблюдений.
В этой связи на первый план выходит задача не только поиска, идентификации, но и интерпретации аномальных наблюдений. Так, например, визуальная оценка наличия таких наблюдений на диаграмме рассеяния не всегда дает однозначный ответ на вопрос является ли аномальным наблюдением данная точка. Еще сложнее обстоят дела, когда изучается поведение человека как составляющей социально-экономической системы на основе вектора признаков (факторов) на основе групп с нарушением симметрии [8; 10].
Подходом к поиску аномалий, заслуживающим особого внимания, является использование методов кластерного анализа. Суть кластерных методов заключается в оценке метрических расстояний между объектами (точками), характеризующимися векторами признаков. Если значение этого расстояния удалено от центров кластеров более чем на определенную величину, то наблюдение можно считать аномальным.
В этом понимании кластерные методы схожи с метрическими и статистическими методами [1; 15] поиска аномальных наблюдений, однако при более детальном рассмотрении кластерные методы позволяют решить более широкий круг задач, связанных с интерпретацией выявленных аномалий.
Целью работы является разработка метода идентификации аномальных наблюдений на основе иерархической кластеризации. При этом основной задачей является выбор метода иерархической кластеризации, а также метрики расстояний в пространстве признаков. Данный подход позволяет добиться более сбалансированных результатов кластеризации при возможности определения количества кластеров.
При исследовании реальных систем, объектов и их структур, изменяющихся в процессе развития, чаще, где это возможно, обращаются к математическим моделям, относящимся к алгебраическим структурам. Классификацию алгебраических структур можно построить на основе визуализаторов. Визуализатор -- тип программного обеспечения, предназначенный для преобразования различной информации в зрительные образы. В качестве одного из результатов работы визуализатора является дендрограмма [17], которая используется для представления результатов иерархической кластеризации. Дендрограмма может быть использована для исследования групп симметрии кластерных систем и причин нарушения симметрии [8; 9] (наличии, появлении аномальных наблюдений).
Методы исследования
Методы иерархической кластеризации представляют собой совокупность алгоритмов упорядочивания данных, направленных на создание иерархии (дерева, графа) состоящего из групп наблюдаемых точек.
Исходными данными для проведения кластерного анализа служит матрица расстояний между объектами, сформированная с использованием той или иной метрики. Распространенная мера удаленности объектов друг от друга, используемая чаще всего -- евклидово расстояние [11; 12].
Основным преимуществом иерархических методов кластеризации является отсутствие необходимости начального предопределения количества групп разбиения -- кластеров.
Результат иерархической кластеризации представляется в виде дендрограммы [13; 14]. Для разбиения на кластеры также необходимо определить метод объединения, т. е. метод, который позволит выявить наиболее сильные связи между группами объектов и метрики разбиения.
Иерархические методы разбиения на кластеры позволяют выбрать из двух вариантов объединения.
1. Агломеративная кластеризация начинается с п кластеров, где п -- число наблюдений: предполагается, что каждое из них представляет собой отдельный кластер. Затем алгоритм пытается найти и сгруппировать наиболее схожие между собой точки данных -- так начинается формирование групп.
2. Дивизионная кластеризация выполняется противоположным образом -- изначально полагается, что все п точек данных, представляют собой одну большую группу, а далее наименее схожие из них разделяются на отдельные подгруппы.
В этом смысле методы иерархической кластеризации весьма схожи с методом Isolation Forest («изолированный лес») [1], но не являются полностью идентичными. Суть алгоритма Isolation Forest состоит в том, что аномалию можно изолировать с помощью меньшего количества случайных разделений по сравнению с образцом обычного класса, поскольку отклонения встречаются реже и не укладываются в общую статистику имеющегося набора данных.
Так, при «случайном» способе построения деревьев выбросы будут попадать в «листья» (вершины ветвей дерева), т. е. выбросы проще «изолировать». Выделение аномальных значений происходит на первых итерациях работы алгоритма на небольшой глубине построения дерева -- когда относительное расстояние между кластерами больше 0,5 [1; 16], потому как именно при этих значениях наблюдается выделение аномалий в отдельную ветвь. Вторым признаком аномалии является отсутствие дальнейшего разветвления этой ветви дерева.
Дендрограмма также имеет древовидную структуру, однако принципы построения отличаются от принципов построения случайного и изолированного леса. При этом иерархическая кластеризация с использованием дендрограмм позволяет интерпретировать найденные аномалии: если точку можно выделить в отдельный кластер, и признаки ее отделимы от всех кластеров, то данное аномальное наблюдение следует учесть в модели, если же аномалия наблюдается только по одному или двум-трем признакам, то существует вероятность, что данное наблюдение является ошибочным и его следует исключить из рассмотрения для получения более адекватных характеристик модели.
Таким образом, предлагается выстроить следующую методику автоматической идентификации аномальных наблюдений на основе методов иерархической кластеризации с использованием показателей отделимости элементов друг от друга внутри кластера и показателя отделимости кластеров между собой:
1) загрузка исходных данных с указанием упорядоченных значений факторов;
2) вычисление матрицы отличий на основе расстояний Гауэра;
3) выполнение иерархического разбиения данных агломеративным и дивизионным методом;
4) построение дендрограммы для каждого вида кластеризации, первичная идентификация аномальных уровней.
5) выбор количества кластеров на основе показателей разделимости признаков точек внутри кластера и разделимости самих кластеров.
6) выбор метода объединения в кластеры.
7) построение дендрограммы с разбиением на кластеры, интерпретация идентифицированных аномалий.
Результаты
Рассмотрим в качестве примера возможность кластеризации тестовой базы данных, содержащей признаки поведенческой активности клиентов сети ресторанов быстрого питания. Тестовая выборка состояла из 100 клиентов (п = 100) и нескольких признаков. Пример выборки показан на рис. 1. Для программной реализации кластерных методов использовались пакетные функции: daisy(), diana(), clusplot() из библиотеки кластеризации на языке R.
По сути данная выборка состоит из идентификатора сделки и нескольких показателей по каждому из признаков, характеризующих эти сделки [2; 3]. Каждая из сделок является вершиной сетевого графа («листья» дерева), а связи между этими вершинами характеризуются мерами схожести каждой пары сделок.
Рис. 1. Пример тестовой выборки
Fig. 1. Example of test selection
В качестве метрики расстояний между элементами в случае смешанных данных, состоящих из числовых и категориальных переменных предлагается использовать расстояние Гауэра [11], которое при оценке сходства (различия) допускает, одновременное использование смешанных переменных (качественных и количественных), измеренных по различным шкалам
где -- весовой коэффициент, принимающий значение 1, если сравнение объектов по признаку & следует учитывать, и 0 -- в противном случае; Бф -- вклад в сходство объектов, зависящий от того, учитывается ли признак & при сравнении объектов I и ф. В случае бинарных признаков = 0, если признак & отсутствует у одного или обоих сопоставляемых объектов. В итоге чем меньше расстояние Гауэра, тем лучше классификация отражает структуру данных. Эта метрика позволяет выстроить структуру дендрограммы.
На основе расстояния Гауэра вычисляется матрица отличий [4; 5], -- таблица, заполненная в идеальном случае 0 и 1. Значение «0» означает отсутствие связи между признаками, значение «1» говорит об однозначной связи. Использование такой матрицы отличий позволяет реализовать основной принцип кластеризации: объединить в группы вершины, которые находятся ближе всего друг к другу, или разделить наиболее удаленные друг от друга. На рис. 2 приведены результаты такого разбиения и построены дендрограммы на основе агломеративного и дивизионного подхода.
На рис. 2 можно в обоих случаях наблюдаются «тупиковые» ветви дендрограммы, которые заканчиваются на уровнях построения дерева больше или равных 0,5. Это и есть те самые аномалии, причину появления которых и предстоит выяснить. Для этого необходимо в первую очередь оценить качество кластеризации. Таким образом, идентификация аномалий осуществляется путем выявления ветвей дендрограммы, располагающихся на начальных уровнях построения дерева и не имеющих ветвлений.
В данном случае (рис. 3) сумма квадратов расстояний между объектами внутри кластера не дает однозначных выводов о выборе количества кластеров. И в том и в другом случае логично предположить, что в данном наборе присутствует 8-10 кластеров
Рис. 2. Результат дивизионной (a) и агломеративной (b) кластеризации
Для реализации высокого качества кластеризации необходимо, чтобы расстояние между точками внутри кластера (или компактность) было минимальным, а расстояние между группами (отделимость) -- максимально возможным. Для этого необходимо выполнить расчет основных характеристик качества кластеризации: суммы квадратов метрических расстояний между объектами внутри кластера и среднюю ширину силуэта [12]. Особого пояснения требует показатель ширины силуэта, который для г-го объекта (вг) определяется соотношением
где а% -- среднее расстояние между г-м объектом и всеми членами кластера, которому он принадлежит (если объект в кластере один, то а% = 0), Ь% -- среднее расстояние между г-м объектом и членами другого ближайшего кластера (на практике рассчитывается среднее расстояние до членов всех остальных кластеров и выбирается минимум).
Рис. 3. Сумма квадратов метрических расстояний между объектами внутри кластера для дивизионной (а) и агломеративной (b) кластеризации
Fig. 3. Sum of squares of metric distances between objects within the cluster for divisional (a) and agglomerative (b) clustering
Ширина силуэта характеризует степень разброса принадлежности объектов к кластеру и может варьироваться от -1 до 1. Если она близка к единице, объект находится фактически в центре кластера и его принадлежность к нему не вызывает сомнений. Если вг близко к нулю, объект лежит между двумя кластерами. Отрицательные значения вг свидетельствуют о, вероятно, неверной классификации объекта.
Резкое изменение показателя суммы квадратов метрических расстояний между объектами внутри кластера (резкий изгиб на графике -- рис. 3) при определенном количестве кластеров позволяет сделать вывод о том, что дальнейшее разбиение на кластеры теряет смысл.
При использовании метода оценки силуэтов, следует выбирать такое количество кластеров, которое дает максимальную ширину силуэта, потому что для интерпретации результатов нужны кластеры, которые достаточно далеко отстоят от друга, чтобы считаться отдельными. Если набор данных будет разбиваться на более мелкие группы, тем лучше кластеры отделимы друг от друга, однако так дело может дойти до отдельных точек и процесс потеряет смысл. С другой стороны, деление множества на малое количество кластеров усложняет дальнейшую интерпретацию, поэтому целесообразнее оценивать локальные экстремумы. Как видно из рис. 4, ширина силуэтов в обоих случаях имеет локальный максимум при 8-10 кластерах.
Рис. 4. Средняя ширина силуэта для дивизионной (а) и агломеративной (b) кластеризацииFig. 4. Average silhouette width for divisional (a) and agglomerative (b) clustering
Именно это количество и будет использоваться в дальнейшем при построении дендрограмм с разбиением на кластеры (рис. 5).
Рис. 5. Результаты иерархической кластеризации
Fig. 5. Results of a hierarchical clustering
Обсуждение
Как видно из рис. 5, наиболее отличными от остальных ветвей дендрограммы являются ветви с наблюдением № 48 и № 68, которые начинаются на уровне большем и равном 0,5 и далее не разветвляются, тем не менее алгоритмы их определили к одному из кластеров. Также можно наблюдать, что оба метода кластеризации показывают различные результаты объединения, однако данные аномалии выделяются бесспорно в каждом их этих методов. Кроме того, при дивизионной кластеризации мы можем наблюдать ветвь, состоящую всего из четырех точек. Эти точки также можно считать аномальными второго рода, однако три из них имеют больше общих признаков.
Теперь для того чтобы оценить, как будет работать алгоритм, умышленно попытаемся внести изменения двух видов в исходный набор данных: сначала необоснованно увеличим показатель дохода от одной сделки при покупке одного из видов продукции -- пусть, к примеру, это будет наблюдение № 15, затем заметено увеличим доходы с продаж напитков по субботам (таких наблюдений было немного, их номера: № 52, 53, 62, 63, 79, 89 и 91). Построим теперь дендрограммы и сравним результаты.
Рисунок 6 показывает, что при дивизионной кластеризации наблюдение № 68 уже не является аномальным, зато наблюдение № 48 выделено даже в отдельный кластер в виде одной точки. Кроме того, ожидаемо отнесено к аномалиям наблюдение и № 15. Следует также обратить внимание на наблюдение № 44, которое тоже отнесено к аномалиям. В свою очередь аномалии продаж напитков по субботам даже не выделены в отдельный кластер.
Рис. 6. Результаты кластеризации с аномальными наблюдениями
Если рассматривать результат агломеративной кластеризации, то легко заметить, что здесь даже наблюдение № 48 уже не является аномальным, как, впрочем, и наблюдение № 68. Однако наблюдение № 15 по-прежнему относится к аномальным, кроме этого наблюдения больше не существует ветвей без дальнейшего деления на уровне построения дерева более или равном 0,5. Часть аномальных наблюдений (продажи напитков по субботам -- ошибки второго рода) с номерами 52, 62, 91 отнесены к одному кластеру, но не определены как аномалии.
Таким образом, решив подобную обратную задачу, можно сделать вывод о том, что данная методика позволяет выполнить не только поиск аномальных наблюдений, но и объяснить их происхождение для дальнейшего учета в модели. Кроме того, подобный анализ дендрограммы позволяет определить наиболее значимые группы сделок и степень полезности каждого кластера с возможностью построения карты предпочтений потребителей.
Результаты анализ дендрограмм позволяет сделать выводы.
1. Для получения более осмысленных результатов интерпретации поведенческой активности объектов в кластерах необходимо выявление аномальных наблюдений в наборе данных.
2. Использование расстояния Гауэра в качестве метрики кластеризации позволяет выполнить расчет расстояний между числовыми и категориальными переменными.
3. Методы иерархической кластеризации дают возможность автоматизированной оценки количества кластеров на основе характеристик качества кластеризации: суммы квадратов метрических расстояний между объектами внутри кластера и средней ширины силуэта.
4. Анализ дендрограмм позволяет более точно интерпретировать результаты кластеризации относительно определения ошибок первого и второго рода виде аномальных наблюдений в наборе данных.
5. Описанная методика дает возможность управлять развитием социально-экономических систем, исследуя свойства симметрии групп элементов и их признаков.
экономический симметрия визуализация социальный
Литература
1. Барский М. Е., Шиков А. Н. Исследование алгоритма поиска аномалий isolation forest // Фундаментальные и прикладные научные исследования: актуальные вопросы, достижения и инновации. Сб. статей XXIII Международной научно-практической конференции 5 мая 2019 г. Пенза: Наука и Просвещение (ИП Гуляев Г. Ю.), 2019. С. 113-117.
2. Белоцерковская М. Г. Кластеризация клиентской базы участников программы лояльности // Московский экономический журнал. 2017. № 2. С. 112-119.
3. Галямова А. Ф., Тархов С. В. Управление взаимодействием с клиентами коммерческой организации на основе методов сегментации и кластеризации клиентской базы // Вестник УГАТУ. 2014. Т. 18, № 4 (65). С. 149-156.
4. Кисляков А. Н. Интеллектуальный анализ потребительского спроса в условиях информационной асимметрии // Современная экономика: проблемы и решения. 2019. № 10 (118). С. 8-17.
5. Кисляков А. Н. Тихонюк Н. Е. Модель ценообразования однородного рынка с учетом асимметричности информации // Инновационное развитие экономики. 2019. № 1. С. 93-100.
6. Кисляков А. Н. Методы и инструменты анализа данных в экономике и управлении: учебно-методическое пособие. Владимир: Владимирский филиал РАНХиГС, 2019. 161 с.
7. Поляков С. В., Кисляков А. Н. Основы математического моделирования социально-экономических процессов: учебно-методическое пособие. Владимир: Владимирский филиал РАНХиГС, 2017. 269 с.
8. Рау В. Г., Кисляков А. Н., Тихонюк Н. Е., Рау Т. Ф. Принцип нарушения асимметрии в моделях развития экономических систем опыт и проблемы // Региональная экономика: опыт и проблемы. Материалы XI международной научно-практической конференции (Гутманские чтения) 15 мая 2018 г. / под общ. ред. А. И. Новикова, А. Е. Илларионова. Владимир: Владимирский филиал РАНХиГС, 2018. С. 201-211.
9. Рау В. Г., Поляков С. В., Рау Т. Ф., Фирсов И. В. и др. Некоторые особенности применения групп нарушенной симметрии для «визуализации» процессов в природных, «живых» и социально-экономических системах // Региональная экономика: опыт и проблемы. Материалы XII международной научно-практической конференции (Гутманские чтения) 15 мая 2019 г. / под общ. ред. А. И. Новикова, А. Е. Илларионова. Владимир: Владимирский филиал РАНХиГС, 2019. С. 111-119.
10. Тихонюк Н. Е., Кисляков А. Н. Экономические модели работы с асимметрией информации: эволюция подходов // Региональная экономика: опыт и проблемы. Материалы XI международной научно-практической конференции (Гутманские чтения) 15 мая 2018 г. / под общ. ред. А. И. Новикова, А. Е. Илларионова. Владимир: Владимирский филиал РАНХиГС, 2018. С. 236-244.
11. Якимов В. Н., Шурганова Г. В., Черепенников В. В., Кудрин И. А. и др. Методы сравнительной оценки результатов кластерного анализа структуры гидробиоценозов (на примере
12. зоопланктона реки Линда Нижегородской области) // Биология внутренних вод. 2016. № 2. С. 94-103.
13. Alboukadel K. Practical Guide to Cluster Analysis in R. Unsupervised Machine Learning (Multivariate Analysis). Vol. 1. 1st ed. / Publisher: CreateSpace Independent Publishing Platform, 2017.
14. Murtagh F., Contreras P. Methods of Hierarchical Clustering // Computing Research Repository -- CORR, 2011.
15. Nielsen F. Introduction to HPC with MPI for Data Science // Springer International Publishing, 2016.
16. Gareth J., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R / Publisher: Springer, 2013.
17. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. Springer, 2017.
18. Tripathi Sh., BhardwajA., Poovammal E. Approaches to Clustering in Customer Segmentation // International Journal of Engineering &Technology, 2018, N 7 (3.12). P. 802-807.
References
1. Barsky M. E., Shikov A. N. Research of the algorithm for finding anomalies of isolation forest // Fundamental and applied scientific research: topical issues, achievements and innovations. collection of articles of the XXIII International Scientific and Practical Conference on May 5, 2019 Penza: Science and Enlightenment (IP Gulyaev G. Y), 2019. P 113-117. (In rus)
2. Belotserkovskaya M. G. Clustering of client base of loyalty program participants // Moscow Economic Journal [Moskovskii ekonomicheskii zhurnal]. 2017. № 2. P 112-119. (In rus)
3. Galyamova A. F, Tarhov S. V. Management of interaction with clients of commercial organization on the basis of methods of segmentation and clustering of client base // Journal of USATU [Vestnik UGATU]. 2014. V. 18, No. 4 (65). P 149-156. (In rus)
4. Kislyakov A. N. Intelligent analysis of consumer demand in conditions of information asymmetry // Modern economy: problems and solutions [Sovremennaya ekonomika: problemy i resheniya]. 2019. № 10 (118). P 8-17. (In rus)
5. Kislyakov A. N. Tikhonyuk N. E. Model of homogeneous market pricing taking into account asymmetric information // Innovative development of the economy [Innovatsionnoe razvitie ekonomiki]. 2019. № 1. P 93-100. (In rus)
6. Kislyakov A. N. Methods and Tools of Data Analysis in Economy and Management: Educational and Methodological Manual. Vladimir: RANEPA Vladimir branch, 2019. 161 p. (In rus)
7. Polyakov S. V., Kislyakov A. N. Basics of mathematical modeling of socio-economic processes: educational and methodological manual. Vladimir: RANEPA Vladimir branch, 2017, 269 p. (In rus)
8. Rau V. G., Kislyakov A. N., Tikhonyuk N. E., Rau T. F. Principle of violation of asymmetry in models of economic systems development experience and problems // Regional economy: experience and problems. Materials of the XI International Scientific and Practical Conference (Gutman Readings) on May 15, 2018 / under general ed. of A. I. Novikov and A. E. Illarionov. Vladimir: RANEPA Vladimir branch, 2018. P 201-211. (In rus)
9. Rau V. G., Polyakov S. V., Rau T. F, Firtsov I. V., Togunov I. A. Some features of using groups of broken symmetry to “visualize” processes in natural, “living” and socio-economic systems // Regional economy: experience and problems. Materials of the XII International Scientific and Practical Conference (Gutman Readings) May 15, 2019 / under the general ed. of A. I. Novikov and A. E. Illarionov. Vladimir: RANEPA Vladimir branch, 2019. P 111-119. (In rus)
10. Tikhonyuk N. E., Kislyakov A. N. Economic models of work with asymmetry of information: evolution of approaches // Regional economy: experience and problems. Materials of the XI International Scientific and Practical Conference (Gutman Readings) on May 15, 2018 /under general ed. of A. I. Novikov and A. E. Illarionov. Vladimir: RANEPA Vladimir branch, 2018. P 236-244. (In rus)
11. Yakimov V. N., Shurganova G. V., Cherepennikov V. V., Kudrin I. A., Ilin M. Y Methods of comparative assessment of results of cluster analysis of hydrobiocenosis structure (on the example of zooplankton of Linda River of Nizhny Novgorod region) // Biology of internal waters [Biologiya vnutrennikh vod]. 2016. № 2. P 94-103. (In rus)
12. Alboukadel K. Practical Guide to Cluster Analysis in R. Unsupervised Machine Learning (Multivariate Analysis). Vol. 1. 1st ed. / Publisher: CreateSpace Independent Publishing Platform, 2017.
13. Murtagh F., Contreras P Methods of Hierarchical Clustering // Computing Research Repository -- CORR, 2011.
14. Nielsen F. Introduction to HPC with MPI for Data Science // Springer International Publishing, 2016.
15. Gareth J., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R / Publisher: Springer, 2013.
16. Hastie T, Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. Springer, 2017.
17. Tripathi Sh., Bhardwaj A., Poovammal E. Approaches to Clustering in Customer Segmentation // International Journal of Engineering &Technology, 2018, N 7 (3.12). P 802-807.
Размещено на Allbest.ru
...Подобные документы
Теоретико-методологические основы методов и принципов социально-экономического планирования и прогнозирования. Анализ и прогнозирование социально-экономических процессов МО Улан-Удэ. Прогноз основных показателей социально-экономических процессов.
курсовая работа [180,6 K], добавлен 04.12.2013Виды, типы и методы исследования экономических и политических процессов. Анализ состояния и тенденций развития социальных процессов. Сущность метода структуризации. Изучение социальной системы, освоение взаимосвязей и взаимозависимостей ее элементов.
курсовая работа [158,0 K], добавлен 24.10.2014Статистическое наблюдение выступает как один из главных методов статистики и как одна из важнейших стадий статистического исследования. Под статистическими данными понимают совокупность количественных характеристик социально-экономических процессов.
контрольная работа [8,0 K], добавлен 23.03.2004Проведение экспериментального статистического исследования социально-экономических явлений и процессов Смоленской области на основе заданных показателей. Построение статистических графиков, рядов распределения, вариационных рядов, их обобщение и оценка.
курсовая работа [786,2 K], добавлен 15.03.2011Качественный и количественный анализ ресурсов социально–экономических процессов предприятия на основе статистических данных. Использование компьютерных программ для анализа эффективности экономических процессов. Пути оптимизации производственного цикла.
курсовая работа [895,9 K], добавлен 01.11.2014Анализ процессов возникновения, развития и смены экономических воззрений идеологов различных социальных групп, школ и течений. Переломные моменты в истории экономической мысли. Методы и приемы исторического видения развития экономических теорий.
шпаргалка [107,8 K], добавлен 18.01.2011Виды корреляции и регрессии, применяемые в статистическом анализе социально-экономических явлений и процессов. Построение корреляционной модели (уравнения регрессии). Построение корреляционной таблицы, выполнение интервальной группировки по признакам.
курсовая работа [131,7 K], добавлен 03.10.2014Понятие, виды и роль инфляции в экономических системах. Концепции инфляционных процессов в экономических системах. Модели антиинфляционного регулирования со стороны государства. Динамика среднегодового уровня инфляции в России. Индекс потребительских цен.
курсовая работа [49,7 K], добавлен 10.08.2011Анализ обобщающих показателей и закономерностей социально-экономических явлений и процессов в конкретных условиях места и времени. Описание количественной стороны массовых социально-экономических явлений, отражаемых посредством показателей статистики.
контрольная работа [761,6 K], добавлен 22.01.2015Особенности построения статистических сводок и рядов распределения в экономическом исследовании. Практическое применение метода группировок при анализе кадрового состава современной организации. Этапы изучения взаимосвязей социально-экономических явлений.
курсовая работа [240,4 K], добавлен 20.01.2015Классификация признаков в статистике. Основные требования к организации сбора первичной информации об исследованиях социально-экономических явлений. Формы и виды статистических наблюдений. Методы контроля за соблюдением достоверности полученных сведений.
презентация [226,3 K], добавлен 20.12.2014Математические методы систематизации и использования статистических данных для научных и практических выводов. Формирование закономерностей массовых социально-экономических процессов. Толкование экономических явлений посредством закона больших чисел.
контрольная работа [19,5 K], добавлен 28.10.2010Особенности применения метода математического моделирования в экономике. Роль экономических наблюдений и измерений в моделировании экономики. Необходимость создания целостной концепции развития аудита. Методы, предмет и виды экономического анализа.
курсовая работа [29,1 K], добавлен 17.11.2010Общая тенденции развития как направление в исследовании закономерностей динамики социально-экономических процессов. Основная тенденция - составляющий элемент динамики. Выявление типа тенденции. Методы анализа основной тенденции развития в рядах динамики.
курсовая работа [553,6 K], добавлен 07.04.2015Структура и значение финансового прогнозирования и планирования. Методы расчета финансовых показателей, учет тенденций, условий, факторов, влияющих на социально-экономическое развитие. Баланс денежных доходов и расходов населения; налоговое регулирование.
презентация [424,4 K], добавлен 22.10.2014Решение проблем создания рыночной среды с благоприятным инвестиционным и предпринимательским климатом. Регулирование социально-экономических процессов, методические подходы оценки и основные факторы функционирования региональных финансовых рынков.
реферат [21,8 K], добавлен 27.08.2009Понятие и сущность социально-культурных услуг. Изучение исторического аспекта развития сферы оказания услуг. Рассмотрение проблемы повышения экономической эффективности некоммерческих организаций в системе социально-экономических отношений Росии.
реферат [73,6 K], добавлен 11.05.2014Особенности социально-экономической политики Курской области. Анализ промышленного и сельскохозяйственного развития. Социальное развитие региона. Оценка показателей численности населения области, уровня безработицы и среднемесячной заработной платы.
контрольная работа [49,5 K], добавлен 22.04.2016Анализ основных инфляционных процессов, их основных особенностей и социально-экономических последствий. Характеристика наиболее эффективных форм и методов регулирования инфляционных процессов с возможностью их использования в Республике Беларусь.
курсовая работа [223,5 K], добавлен 26.06.2013Характеристика текущего состояния экономики. Особенности современных экономических процессов в условиях глобализации мировой экономики. Ограничители роста в современной экономической системе. Революционные изменения экономики России.
реферат [74,6 K], добавлен 20.09.2006