Иерархические методы кластеризации в задаче поиска аномальных наблюдений на основе групп с нарушенной симметрией

Знакомство с основными иерархическими методами кластеризации в задаче поиска аномальных наблюдений на основе групп с нарушенной симметрией. Иерархические методы как совокупность алгоритмов упорядочивания данных, направленных на создание дендрограмм.

Рубрика Экономика и экономическая теория
Вид статья
Язык русский
Дата добавления 03.04.2021
Размер файла 2,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Иерархические методы кластеризации в задаче поиска аномальных наблюдений на основе групп с нарушенной симметрией

Кисляков А.Н. - доцент кафедры информационных технологий Владимирского филиала РАНХиГС (г. Владимир, Российская Федерация), кандидат технических наук;

Поляков С.В. - доцент кафедры информационных технологий Владимирского филиала РАНХиГС (г. Владимир, Российская Федерация), кандидат технических наук;

Работа направлена на решение актуальной проблемы идентификации и интерпретации аномальных наблюдений при исследовании социально-экономических процессов. Предлагаемый в работе метод основан на использовании кластерного подхода к выявлению аномальных наблюдений. Кластеризация выполняется иерархическими методами, которые представляют собой совокупность алгоритмов упорядочивания данных, направленных на создание дендрограмм, состоящих из групп наблюдаемых точек. В качестве метрики расстояний между элементами в случае смешанных данных, состоящих из числовых и категориальных переменных предлагается использовать расстояние Гауэра.

Оценка качества кластеризации выполняется на основе показателя суммы квадратов метрических расстояний между объектами внутри кластера и средней ширины силуэта. Эти показатели позволяют выбрать оптимальное количество кластеров и оценить качество результатов разбиения. Дендрограмма может быть использована для исследования групп симметрии кластерных систем и причин нарушения симметрии. Выявление аномалий осуществляется путем анализа результатов иерархической кластеризации и выявления ветвей дендрограммы, располагающихся на начальных уровнях построения дерева и не имеющих ветвлений. Реализованная методика позволяет более точно интерпретировать результаты кластеризации относительно определения ошибок первого и второго рода виде аномальных наблюдений в наборе данных. С помощью описанной методики возможно эффективно исследовать социально-экономические системы и управлять их развитием.

Ключевые слова: кластерный анализ, сетевые графы, нарушение симметрии, аномальные наблюдения, деревья решений.

Hierarchical clustering methods in a task to find abnormal observations based on groups with broken symmetry

Aleksey N. Kislyakov, Associate Professor of the Chair of Information Technology of Vladimir Branch of RANEPA (Vladimir, Russian Federation), PhD in Technical Science;

Sergey V. Polyakov, Associate Professor of the Chair of Information Technology of Vladimir Branch of RANEPA (Vladimir, Russian Federation), PhD in Technical Science;

The work is aimed at solving the actual problem of identification and interpretation of anomalous observations in the study of socio-economic processes. The proposed method is based on the use of a cluster approach to detecting anomalous observations. Clustering is performed using hierarchical methods, which are a set of data ordering algorithms aimed at creating dendrograms consisting of groups of observed points. In the case of mixed data consisting of numeric and categorical variables, it is proposed to use the Gower distance as a metric for distances between elements. Clustering quality is evaluated based on the sum of squares of metric distances between objects within the cluster and the average width of the silhouette. These indicators allow you to select the optimal number of clusters and evaluate the quality of the split results. The dendrogram can be used to study the symmetry groups of cluster systems and the causes of symmetry breaking. Anomaly detection is performed by analyzing the results of hierarchical clustering and identifying branches of the dendrogram that are located at the initial levels of tree construction and do not have branches. The implemented method makes it possible to more accurately interpret the results of clustering with respect to determining errors of the first and second kind in the form of anomalous observations in the data set. Using the described method, it is possible to effectively investigate socio-economic systems and manage their development.

Keywords: cluster analysis, network graphs, symmetry breaking, anomalous observations, decision trees.

Круг задач, решаемых на основе перспективного анализа данных и прогнозного моделирования постоянно расширяется. На основе математических моделей возможна выработка рекомендаций и составление прогнозов показателей социальноэкономического развития. Сам подход к использованию данных для принятия решений становится ключевым фактором экономического роста [6; 7]. Данные являются основой для построения прогнозных моделей и от их качества зависит результат принятия решений.

При этом исходный набор данных может содержать нехарактерные показатели или аномальные наблюдения [1]. Существует достаточно способов [7; 16] выявления аномальных наблюдений от самых простых -- визуальных, а также методов, основанных на критериях проверки статистических гипотез, до более сложных использующих алгоритмы линейной регрессии и заканчивая рекуррентными нейронными сетями. Обычно выделяют следующие возможные источники аномальных наблюдений.

Неумышленная, ошибочная запись значения наблюдаемого показателя -- ошибка первого рода, подлежащая устранению.

Резкое изменение внешних и внутренних условий, связанных с формированием результата наблюдения (ошибка второго рода, которую следует учитывать в модели).

Резкие отличия показаний объектов исследования, неочевидно находящихся в различных условиях функционирования (действие скрытых факторов).

Умышленное искажение с определенной целью результатов наблюдений.

В этой связи на первый план выходит задача не только поиска, идентификации, но и интерпретации аномальных наблюдений. Так, например, визуальная оценка наличия таких наблюдений на диаграмме рассеяния не всегда дает однозначный ответ на вопрос является ли аномальным наблюдением данная точка. Еще сложнее обстоят дела, когда изучается поведение человека как составляющей социальноэкономической системы на основе вектора признаков (факторов) на основе групп с нарушением симметрии [8; 10].

Подходом к поиску аномалий, заслуживающим особого внимания, является использование методов кластерного анализа. Суть кластерных методов заключается в оценке метрических расстояний между объектами (точками), характеризующимися векторами признаков. Если значение этого расстояния удалено от центров кластеров более чем на определенную величину, то наблюдение можно считать аномальным.

В этом понимании кластерные методы схожи с метрическими и статистическими методами [1; 15] поиска аномальных наблюдений, однако при более детальном рассмотрении кластерные методы позволяют решить более широкий круг задач, связанных с интерпретацией выявленных аномалий.

Целью работы является разработка метода идентификации аномальных наблюдений на основе иерархической кластеризации. При этом основной задачей является выбор метода иерархической кластеризации, а также метрики расстояний в пространстве признаков. Данный подход позволяет добиться более сбалансированных результатов кластеризации при возможности определения количества кластеров.

При исследовании реальных систем, объектов и их структур, изменяющихся в процессе развития, чаще, где это возможно, обращаются к математическим моделям, относящимся к алгебраическим структурам. Классификацию алгебраических структур можно построить на основе визуализаторов. Визуализатор -- тип программного обеспечения, предназначенный для преобразования различной информации в зрительные образы. В качестве одного из результатов работы визуа- лизатора является дендрограмма [17], которая используется для представления результатов иерархической кластеризации. Дендрограмма может быть использована для исследования групп симметрии кластерных систем и причин нарушения симметрии [8; 9] (наличии, появлении аномальных наблюдений).

Методы исследования

Методы иерархической кластеризации представляют собой совокупность алгоритмов упорядочивания данных, направленных на создание иерархии (дерева, графа) состоящего из групп наблюдаемых точек.

Исходными данными для проведения кластерного анализа служит матрица расстояний между объектами, сформированная с использованием той или иной метрики. Распространенная мера удаленности объектов друг от друга, используемая чаще всего -- евклидово расстояние [11; 12].

Основным преимуществом иерархических методов кластеризации является отсутствие необходимости начального предопределения количества групп разбиения -- кластеров.

Результат иерархической кластеризации представляется в виде дендрограммы [13; 14]. Для разбиения на кластеры также необходимо определить метод объединения, т. е. метод, который позволит выявить наиболее сильные связи между группами объектов и метрики разбиения.

Иерархические методы разбиения на кластеры позволяют выбрать из двух вариантов объединения.

1. Агломеративная кластеризация начинается с п кластеров, где п -- число наблюдений: предполагается, что каждое из них представляет собой отдельный кластер. Затем алгоритм пытается найти и сгруппировать наиболее схожие между собой точки данных -- так начинается формирование групп.

2. Дивизионная кластеризация выполняется противоположным образом -- изначально полагается, что все п точек данных, представляют собой одну большую группу, а далее наименее схожие из них разделяются на отдельные подгруппы.

В этом смысле методы иерархической кластеризации весьма схожи с методом Isolation Forest («изолированный лес») [1], но не являются полностью идентичными. Суть алгоритма Isolation Forest состоит в том, что аномалию можно изолировать с помощью меньшего количества случайных разделений по сравнению с образцом обычного класса, поскольку отклонения встречаются реже и не укладываются в общую статистику имеющегося набора данных.

Так, при «случайном» способе построения деревьев выбросы будут попадать в «листья» (вершины ветвей дерева), т. е. выбросы проще «изолировать». Выделение аномальных значений происходит на первых итерациях работы алгоритма на небольшой глубине построения дерева -- когда относительное расстояние между кластерами больше 0,5 [1; 16], потому как именно при этих значениях наблюдается выделение аномалий в отдельную ветвь. Вторым признаком аномалии является отсутствие дальнейшего разветвления этой ветви дерева.

Дендрограмма также имеет древовидную структуру, однако принципы построения отличаются от принципов построения случайного и изолированного леса. При этом иерархическая кластеризация с использованием дендрограмм позволяет интерпретировать найденные аномалии: если точку можно выделить в отдельный кластер, и признаки ее отделимы от всех кластеров, то данное аномальное наблюдение следует учесть в модели, если же аномалия наблюдается только по одному или двум-трем признакам, то существует вероятность, что данное наблюдение является ошибочным и его следует исключить из рассмотрения для получения более адекватных характеристик модели.

Таким образом, предлагается выстроить следующую методику автоматической идентификации аномальных наблюдений на основе методов иерархической кластеризации с использованием показателей отделимости элементов друг от друга внутри кластера и показателя отделимости кластеров между собой:

1) загрузка исходных данных с указанием упорядоченных значений факторов;

2) вычисление матрицы отличий на основе расстояний Гауэра;

3) выполнение иерархического разбиения данных агломеративным и дивизионным методом;

4) построение дендрограммы для каждого вида кластеризации, первичная идентификация аномальных уровней.

5) выбор количества кластеров на основе показателей разделимости признаков точек внутри кластера и разделимости самих кластеров.

6) выбор метода объединения в кластеры.

7) построение дендрограммы с разбиением на кластеры, интерпретация идентифицированных аномалий.

Результаты

Рассмотрим в качестве примера возможность кластеризации тестовой базы данных, содержащей признаки поведенческой активности клиентов сети ресторанов быстрого питания. Тестовая выборка состояла из 100 клиентов (п = 100) и нескольких признаков. Пример выборки показан на рис. 1.

Рис. 1. Пример тестовой выборки

Fig. 1. Example of test selection

Для программной реализации кластерных методов использовались пакетные функции: daisy(), diana(), clusplot() из библиотеки кластеризации на языке R.

По сути данная выборка состоит из идентификатора сделки и нескольких показателей по каждому из признаков, характеризующих эти сделки [2; 3]. Каждая из сделок является вершиной сетевого графа («листья» дерева), а связи между этими вершинами характеризуются мерами схожести каждой пары сделок.

В качестве метрики расстояний между элементами в случае смешанных данных, состоящих из числовых и категориальных переменных предлагается использовать расстояние Гауэра [11], которое при оценке сходства (различия) допускает, одновременное использование смешанных переменных (качественных и количественных), измеренных по различным шкалам

где -- весовой коэффициент, принимающий значение 1, если сравнение объектов по признаку k следует учитывать, и 0 -- в противном случае; Sijk -- вклад в сходство объектов, зависящий от того, учитывается ли признак & при сравнении объектов I и ф. В случае бинарных признаков = 0, если признак k отсутствует у одного или обоих сопоставляемых объектов. В итоге чем меньше расстояние Гауэра, тем лучше классификация отражает структуру данных. Эта метрика позволяет выстроить структуру дендрограммы.

На основе расстояния Гауэра вычисляется матрица отличий [4; 5], -- таблица, заполненная в идеальном случае 0 и 1. Значение «0» означает отсутствие связи между признаками, значение «1» говорит об однозначной связи. Использование такой матрицы отличий позволяет реализовать основной принцип кластеризации: объединить в группы вершины, которые находятся ближе всего друг к другу, или разделить наиболее удаленные друг от друга. На рис. 2 приведены результаты такого разбиения и построены дендрограммы на основе агломеративного и дивизионного подхода.

Рис. 2. Результат дивизионной (a) и агломеративной (b) кластеризации

Fig. 2. Result of divisional (a) and agglomerative (b) clustering

На рис. 2 можно в обоих случаях наблюдаются «тупиковые» ветви дендрограммы, которые заканчиваются на уровнях построения дерева больше или равных 0,5. Это и есть те самые аномалии, причину появления которых и предстоит выяснить. Для этого необходимо в первую очередь оценить качество кластеризации. Таким образом, идентификация аномалий осуществляется путем выявления ветвей дендрограммы, располагающихся на начальных уровнях построения дерева и не имеющих ветвлений.

Для реализации высокого качества кластеризации необходимо, чтобы расстояние между точками внутри кластера (или компактность) было минимальным, а расстояние между группами (отделимость) -- максимально возможным. Для этого необходимо выполнить расчет основных характеристик качества кластеризации: суммы квадратов метрических расстояний между объектами внутри кластера и среднюю ширину силуэта [12]. Особого пояснения требует показатель ширины силуэта, который для г-го объекта (вг) определяется соотношением

где аi -- среднее расстояние между г-м объектом и всеми членами кластера, которому он принадлежит (если объект в кластере один, то аi = 0), bi -- среднее расстояние между г-м объектом и членами другого ближайшего кластера (на практике рассчитывается среднее расстояние до членов всех остальных кластеров и выбирается минимум).

Ширина силуэта характеризует степень разброса принадлежности объектов к кластеру и может варьироваться от -1 до 1. Если она близка к единице, объект находится фактически в центре кластера и его принадлежность к нему не вызывает сомнений. Если вг близко к нулю, объект лежит между двумя кластерами. Отрицательные значения вг свидетельствуют о, вероятно, неверной классификации объекта.

Резкое изменение показателя суммы квадратов метрических расстояний между объектами внутри кластера (резкий изгиб на графике -- рис. 3) при определенном количестве кластеров позволяет сделать вывод о том, что дальнейшее разбиение на кластеры теряет смысл. В данном случае (рис. 3) сумма квадратов расстояний между объектами внутри кластера не дает однозначных выводов о выборе количества кластеров. И в том и в другом случае логично предположить, что в данном наборе присутствует 8-10 кластеров.

Рис. 3. Сумма квадратов метрических расстояний между объектами внутри кластера для дивизионной (а) и агломеративной (b) кластеризации

Fig. 3. Sum of squares of metric distances between objects within the cluster for divisional (a) and agglomerative (b) clustering

При использовании метода оценки силуэтов, следует выбирать такое количество кластеров, которое дает максимальную ширину силуэта, потому что для интерпретации результатов нужны кластеры, которые достаточно далеко отстоят от друга, чтобы считаться отдельными. Если набор данных будет разбиваться на более мелкие группы, тем лучше кластеры отделимы друг от друга, однако так дело может дойти до отдельных точек и процесс потеряет смысл. С другой стороны, деление множества на малое количество кластеров усложняет дальнейшую интерпретацию, поэтому целесообразнее оценивать локальные экстремумы. Как видно из рис. 4, ширина силуэтов в обоих случаях имеет локальный максимум при 8-10 кластерах.

Рис. 4. Средняя ширина силуэта для дивизионной (а) и агломеративной (b) кластеризации

Fig. 4. Average silhouette width for divisional (a) and agglomerative (b) clustering

Именно это количество и будет использоваться в дальнейшем при построении дендрограмм с разбиением на кластеры (рис. 5).

Рис. 5. Результаты иерархической кластеризации

Fig. 5. Results of a hierarchical clustering

Обсуждение

Как видно из рис. 5, наиболее отличными от остальных ветвей дендрограммы являются ветви с наблюдением № 48 и № 68, которые начинаются на уровне большем и равном 0,5 и далее не разветвляются, тем не менее алгоритмы их определили к одному из кластеров. Также можно наблюдать, что оба метода кластеризации показывают различные результаты объединения, однако данные аномалии выделяются бесспорно в каждом их этих методов. Кроме того, при дивизионной кластеризации мы можем наблюдать ветвь, состоящую всего из четырех точек. Эти точки также можно считать аномальными второго рода, однако три из них имеют больше общих признаков.

Теперь для того чтобы оценить, как будет работать алгоритм, умышленно попытаемся внести изменения двух видов в исходный набор данных: сначала необоснованно увеличим показатель дохода от одной сделки при покупке одного из видов продукции -- пусть, к примеру, это будет наблюдение № 15, затем заметено увеличим доходы с продаж напитков по субботам (таких наблюдений было немного, их номера: № 52, 53, 62, 63, 79, 89 и 91). Построим теперь дендрограммы и сравним результаты.

Рис. 6. Результаты кластеризации с аномальными наблюдениями

Fig. 6. Results of clustering with abnormal observations

Если рассматривать результат агломеративной кластеризации, то легко заметить, что здесь даже наблюдение № 48 уже не является аномальным, как, впрочем, и наблюдение № 68. Однако наблюдение № 15 по-прежнему относится к аномальным, кроме этого наблюдения больше не существует ветвей без дальнейшего деления на уровне построения дерева более или равном 0,5. Часть аномальных наблюдений (продажи напитков по субботам -- ошибки второго рода) с номерами 52, 62, 91 отнесены к одному кластеру, но не определены как аномалии.

Таким образом, решив подобную обратную задачу, можно сделать вывод о том, что данная методика позволяет выполнить не только поиск аномальных наблюдений, но и объяснить их происхождение для дальнейшего учета в модели. Кроме того, подобный анализ дендрограммы позволяет определить наиболее значимые группы сделок и степень полезности каждого кластера с возможностью построения карты предпочтений потребителей.

Выводы

Результаты анализ дендрограмм позволяет сделать выводы.

1. Для получения более осмысленных результатов интерпретации поведенческой активности объектов в кластерах необходимо выявление аномальных наблюдений в наборе данных.

2. Использование расстояния Гауэра в качестве метрики кластеризации позволяет выполнить расчет расстояний между числовыми и категориальными переменными.

3. Методы иерархической кластеризации дают возможность автоматизированной оценки количества кластеров на основе характеристик качества кластеризации: суммы квадратов метрических расстояний между объектами внутри кластера и средней ширины силуэта.

4. Анализ дендрограмм позволяет более точно интерпретировать результаты кластеризации относительно определения ошибок первого и второго рода виде аномальных наблюдений в наборе данных.

5. Описанная методика дает возможность управлять развитием социально-экономических систем, исследуя свойства симметрии групп элементов и их признаков.

Литература

1. Барский М. Е., Шиков А. Н. Исследование алгоритма поиска аномалий isolation forest // Фундаментальные и прикладные научные исследования: актуальные вопросы, достижения и инновации. Сб. статей XXIII Международной научно-практической конференции 5 мая 2019 г. Пенза : Наука и Просвещение (ИП Гуляев Г. Ю.), 2019. С. 113-117.

2. Белоцерковская М. Г. Кластеризация клиентской базы участников программы лояльности // Московский экономический журнал. 2017. № 2. С. 112-119.

3. Галямова А. Ф., Тархов С. В. Управление взаимодействием с клиентами коммерческой организации на основе методов сегментации и кластеризации клиентской базы // Вестник УГАТУ. 2014. Т. 18, № 4 (65). С. 149-156.

4. Кисляков А. Н. Интеллектуальный анализ потребительского спроса в условиях информационной асимметрии // Современная экономика: проблемы и решения. 2019. № 10 (118). С. 8-17.

5. Кисляков А. Н. Тихонюк Н. Е. Модель ценообразования однородного рынка с учетом асимметричности информации // Инновационное развитие экономики. 2019. № 1. С. 93-100.

6. Кисляков А. Н. Методы и инструменты анализа данных в экономике и управлении: учебно-методическое пособие. Владимир : Владимирский филиал РАНХиГС, 2019. 161 с.

7. Поляков С. В., Кисляков А. Н. Основы математического моделирования социально-экономических процессов : учебно-методическое пособие. Владимир: Владимирский филиал РАНХиГС, 2017. 269 с.

8. Рау В. Г., Кисляков А. Н., Тихонюк Н. Е., Рау Т. Ф. Принцип нарушения асимметрии в моделях развития экономических систем опыт и проблемы // Региональная экономика: опыт и проблемы. Материалы XI международной научно-практической конференции (Гутманские чтения) 15 мая 2018 г. / под общ. ред. А. И. Новикова, А. Е. Илларионова. Владимир : Владимирский филиал РАНХиГС, 2018. С. 201-211.

9. Рау В. Г., Поляков С. В., Рау Т. Ф., Фирсов И. В. и др. Некоторые особенности применения групп нарушенной симметрии для «визуализации» процессов в природных, «живых» и социально-экономических системах // Региональная экономика: опыт и проблемы. Материалы XII международной научно-практической конференции (Гутманские чтения) 15 мая 2019 г. / под общ. ред. А. И. Новикова, А. Е. Илларионова. Владимир : Владимирский филиал РАНХиГС, 2019. С. 111-119.

10. Тихонюк Н. Е., Кисляков А. Н. Экономические модели работы с асимметрией информации: эволюция подходов // Региональная экономика: опыт и проблемы. Материалы XI международной научно-практической конференции (Гутманские чтения) 15 мая 2018 г. / под общ. ред. А. И. Новикова, А. Е. Илларионова. Владимир : Владимирский филиал РАНХиГС, 2018. С. 236-244.

11. Якимов В. Н., Шурганова Г. В., Черепенников В. В., Кудрин И. А. и др. Методы сравнительной оценки результатов кластерного анализа структуры гидробиоценозов (на примерезоопланктона реки Линда Нижегородской области) // Биология внутренних вод. 2016. № 2. С. 94-103.

12. Alboukadel K. Practical Guide to Cluster Analysis in R. Unsupervised Machine Learning (Multivariate Analysis). Vol. 1. 1st ed. / Publisher: CreateSpace Independent Publishing Platform, 2017.

13. Murtagh F., Contreras P. Methods of Hierarchical Clustering // Computing Research Repository -- CORR, 2011.

14. Nielsen F. Introduction to HPC with MPI for Data Science // Springer International Publishing, 2016.

15. Gareth J., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R / Publisher: Springer, 2013.

16. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. Springer, 2017.

17. Tripathi Sh., BhardwajA., Poovammal E. Approaches to Clustering in Customer Segmentation // International Journal of Engineering &Technology, 2018, N 7 (3.12). P. 802-807.

References

1. Barsky M. E., Shikov A. N. Research of the algorithm for finding anomalies of isolation forest // Fundamental and applied scientific research: topical issues, achievements and innovations. collection of articles of the XXIII International Scientific and Practical Conference on May 5, 2019 Penza: Science and Enlightenment (IP Gulyaev G. Y), 2019. P 113-117. (In rus)

2. Belotserkovskaya M. G. Clustering of client base of loyalty program participants // Moscow Economic Journal [Moskovskii ekonomicheskii zhurnal]. 2017. № 2. P 112-119. (In rus)

3. Galyamova A. F, Tarhov S. V. Management of interaction with clients of commercial organization on the basis of methods of segmentation and clustering of client base // Journal of USATU [Vestnik UGATU]. 2014. V. 18, No. 4 (65). P 149-156. (In rus)

4. Kislyakov A. N. Intelligent analysis of consumer demand in conditions of information asymmetry // Modern economy: problems and solutions [Sovremennaya ekonomika: problemy i resheniya]. 2019. № 10 (118). P 8-17. (In rus)

5. Kislyakov A. N. Tikhonyuk N. E. Model of homogeneous market pricing taking into account asymmetric information // Innovative development of the economy [Innovatsionnoe razvitie ekonomiki]. 2019. № 1. P 93-100. (In rus)

6. Kislyakov A. N. Methods and Tools of Data Analysis in Economy and Management: Educational and Methodological Manual. Vladimir : RANEPA Vladimir branch, 2019. 161 p. (In rus)

7. Polyakov S. V., Kislyakov A. N. Basics of mathematical modeling of socio-economic processes: educational and methodological manual. Vladimir : RANEPA Vladimir branch, 2017, 269 p. (In rus)

8. Rau V. G., Kislyakov A. N., Tikhonyuk N. E., Rau T. F. Principle of violation of asymmetry in models of economic systems development experience and problems // Regional economy: experience and problems. Materials of the XI International Scientific and Practical Conference (Gutman Readings) on May 15, 2018 / under general ed. of A. I. Novikov and A. E. Illarionov. Vladimir: RANEPA Vladimir branch, 2018. P 201-211. (In rus)

9. Rau V. G., Polyakov S. V., Rau T. F, Firtsov I. V., Togunov I. A. Some features of using groups of broken symmetry to “visualize” processes in natural, “living” and socio-economic systems // Regional economy: experience and problems. Materials of the XII International Scientific and Practical Conference (Gutman Readings) May 15, 2019 / under the general ed. of A. I. Novikov and A. E. Illarionov. Vladimir: RANEPA Vladimir branch, 2019. P 111-119. (In rus)

10. Tikhonyuk N. E., Kislyakov A. N. Economic models of work with asymmetry of information: evolution of approaches // Regional economy: experience and problems. Materials of the XI International Scientific and Practical Conference (Gutman Readings) on May 15, 2018 /under general ed. of A. I. Novikov and A. E. Illarionov. Vladimir : RANEPA Vladimir branch, 2018. P 236-244. (In rus)

11. Yakimov V. N., Shurganova G. V., Cherepennikov V. V., Kudrin I. A., Ilin M. Y Methods of comparative assessment of results of cluster analysis of hydrobiocenosis structure (on the example of zooplankton of Linda River of Nizhny Novgorod region) // Biology of internal waters [Biologiya vnutrennikh vod]. 2016. № 2. P 94-103. (In rus)

12. Alboukadel K. Practical Guide to Cluster Analysis in R. Unsupervised Machine Learning (Multivariate Analysis). Vol. 1. 1st ed. / Publisher: CreateSpace Independent Publishing Platform, 2017.

13. Murtagh F., Contreras P Methods of Hierarchical Clustering // Computing Research Repository -- CORR, 2011.

14. Nielsen F. Introduction to HPC with MPI for Data Science // Springer International Publishing, 2016.

15. Gareth J., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R / Publisher: Springer, 2013.

16. Hastie T, Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition. Springer, 2017.

17. Tripathi Sh., Bhardwaj A., Poovammal E. Approaches to Clustering in Customer Segmentation // International Journal of Engineering &Technology, 2018, N 7 (3.12). P 802-807.

18. кластеризация аномальный симметрия

Размещено на Allbest.ru

...

Подобные документы

  • Роль прогнозирования в развитии фирмы. Анализ финансово-хозяйственной деятельности предприятия ООО "Ритейл групп". Определение факторов, влияющих на ее развитие. Основные виды и методы прогнозирования. Анализ внешней и внутренней среды ООО "Ритейл групп".

    курсовая работа [102,7 K], добавлен 25.01.2013

  • Первичный анализ экспериментальных данных. Построение эмпирической плотности распределения случайной анализируемой величины и расчет ее характеристик. Определение вида закона распределения величины и расчёт его параметров при помощи метода моментов.

    курсовая работа [1,2 M], добавлен 23.05.2009

  • Распределение результатов наблюдений. Неустойчивость параметрических методов отбраковки резко выделяющихся результатов наблюдений. Однородность двух независимых выборок. Критерий Крамера-Уэлча равенства математических ожиданий. Критерий Вилкоксона.

    реферат [192,2 K], добавлен 19.01.2009

  • Способы сбора и группировки статистических сведений, полученных в результате наблюдений или экспериментов. Методы анализа статистических данных в зависимости от целей исследования. Проверка статистических гипотез, оценка неизвестной вероятности события.

    курсовая работа [172,8 K], добавлен 15.11.2009

  • Знакомство с видами деятельности ООО "Новстель групп", анализ организационной структуры. Характеристика важнейших факторов, формирующих объем и уровень валового дохода. Рассмотрение показателей по труду и заработной плате работников торгового предприятия.

    отчет по практике [258,3 K], добавлен 28.05.2015

  • Анализ состояния техники и технологии на предприятии, методы повышения эффективности производства. Характеристика программы ресурсосбережения, принятой в ОАО "Татнефть" и ООО "НКТ-Сервис" УК ООО "ТМС групп". Факторный анализ прибыли и рентабельности.

    дипломная работа [5,3 M], добавлен 24.07.2015

  • Особенности применения метода математического моделирования в экономике. Роль экономических наблюдений и измерений в моделировании экономики. Необходимость создания целостной концепции развития аудита. Методы, предмет и виды экономического анализа.

    курсовая работа [29,1 K], добавлен 17.11.2010

  • Изучение экономической сущности хозяйственных резервов производства. Классификация внутрихозяйственных резервов. Принципы организации поиска и определение величины резервов для повышения эффективности производства: экономический и статистический подходы.

    дипломная работа [102,3 K], добавлен 22.02.2010

  • Статистика в медицине как один из инструментов анализа экспериментальных данных и клинических наблюдений. Понятие количественных (числовых) данных. Выборки численных переменных. Виды критериев для независимых выборок, особенности их использования.

    презентация [750,1 K], добавлен 16.10.2016

  • Статистическое наблюдение выступает как один из главных методов статистики и как одна из важнейших стадий статистического исследования. Под статистическими данными понимают совокупность количественных характеристик социально-экономических процессов.

    контрольная работа [8,0 K], добавлен 23.03.2004

  • Оценка структуры баланса и финансовых результатов деятельности организации на примере ООО "Аметист групп". Организация бухгалтерского учета. Анализ доходов (прибыли) организации, основные методы и инструменты планирования ее хозяйственной деятельности.

    отчет по практике [49,7 K], добавлен 02.12.2014

  • Простая сводка данных по показателю "Внешняя торговля по субъектам РФ". Вариационный анализ статистической совокупности. Выборочное наблюдение и генеральная совокупность на основе выборочной. Анализ рядов динамики и корреляционный анализ показателей.

    курсовая работа [1,6 M], добавлен 26.02.2012

  • Совершенствование организации труда на основе изучения трудовых процессов методами наблюдения, обработки и анализа статистических отчетных данных. Организация и нормирование труда на участке на примере шахты "Распадская". Проект научной организации труда.

    курсовая работа [80,8 K], добавлен 18.11.2011

  • Сущность и характеристика бизнес-групп, их отличительные признаки и история развития в России и современное состояние. Роль интегрированных бизнес-групп в определении направлений развития предприятий, их влияние на конкурентоспособность производства.

    дипломная работа [72,7 K], добавлен 19.05.2009

  • Этапы развития, причины и принципы формирования финансово-промышленных групп (ФПГ), их классификация и участники. Интеграционная и инновационная функции ФПГ в трансформации российской экономики. Роль банков в деятельности финансово-промышленных групп.

    курсовая работа [87,0 K], добавлен 29.07.2011

  • Классификация признаков в статистике. Основные требования к организации сбора первичной информации об исследованиях социально-экономических явлений. Формы и виды статистических наблюдений. Методы контроля за соблюдением достоверности полученных сведений.

    презентация [226,3 K], добавлен 20.12.2014

  • Проведение статистических наблюдений в биологии. Методы изучения массовых явлений. Графическое изображение рядов распределения. Показатели вариации признаков. Ошибки и надежность статистических показателей. Основные характеристики интервальных рядов.

    отчет по практике [199,4 K], добавлен 23.12.2010

  • Общая характеристика ТОО "Меир", знакомство с основными путями повышения эффективности производства на основе прогрессивной техники и технологий. Рассмотрение ключевых методов измерения производительности труда. Особенности факторов, влияющих на прибыль.

    дипломная работа [770,7 K], добавлен 13.05.2014

  • Основные принципы и условия предпринимательской деятельности, ее иерархические ступени. Взаимоотношения потребителя и предпринимателя, эффективные средства воздействия первого на второго. Три ведущие формы предпринимательства в экономической теории.

    контрольная работа [27,5 K], добавлен 19.05.2014

  • Виды деятельности и основные цели предприятия ООО "Авто-групп". Ключевые рынки сбыта предприятия: Украина, Беларусь и Прибалтика. Анализ управленческих расходов ООО "Авто-групп". Характеристика финансовой деятельности предприятия, себестоимость продукции.

    реферат [69,4 K], добавлен 01.04.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.