Нахождение подобия между неструктурированными объектами данных на основе метода сингулярного разложения спектра графа
Изучение типов визуализации данных программных продуктов Hewlett-Packard. Анализ подобия между объектов сравнения с применением подхода основанного на сингулярном разложении матриц смежности графов. Суть информации, касающейся сценариев использования.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 27.02.2018 |
Размер файла | 565,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Ростовский государственный университет путей сообщения
Нахождение подобия между неструктурированными объектами данных на основе метода сингулярного разложения спектра графа
Г.С. Мизюков
Ростов-на-Дону
Большие данные сейчас являются новым трендом в области высоких технологий, в частности рынок аналитических инструментов, представлен широким спектром инструментов, позволяющим проводит различные манипуляции с информацией, хранящейся на серверах и представлять аналитические отчеты компании в различных разрезах. Росту информации, в свою очередь, способствует колоссальный «информации взрыв», произошедший в результате удешевления элементарной базы компонентов, необходимых для производства, как устройств хранения информации, так и устройств, которые генерируют информацию различной природы. Из-за этого многократного увеличения объема информации, а также многообразия хранимой информации различной природы, усложняется процесс управления данными. По данным аналитической компании International Data Corporation (IDC) до 60% информации, которая хранится на серверах в компаниях, не несёт в себе пользы. Эта информация представляет собой информационный шум, который усложняет процесс обработки и анализа информации. На рис. 1 представлен один из прогнозов представленных IDC, на котором можно увидеть динамику роста объемов информации. Так например, объем данных на планете вырастет до 40 зеттабайт к 2020 году, т.е. каждый активный пользователь сети интернет будет генерировать по 5200 Гб. данных (рис. 1).
Рис. 1. - Прогноз компании IDC до 2020 года
Однако основной информационный поток будут формировать не люди, а устройства: сенсоры, смартфоны, интеллектуальные системы и т.д. Это в свою очередь приводит к потребности появления новых направлений в сфере информационных технологий, а также увеличению количество серверов, способных хранить и обрабатывать огромные массивы данных. На текущий момент все больше компаний заинтересовано в эффективном управлении информаций, так как неэффективное управление информацией, в условиях рыночных отношений, где преобладают информационные технологии, может оказать негативную динамику на прибыль компании, поэтому нельзя не отметить роль компаний в формировании мировоззрения по отношению к большим массивам информации и проблеме их анализа. Что в свою очередь обусловлено тем, что умение эффективно и качественно проводить анализ информации, а также оперативно реагировать на все изменения в структуре информации является одним из основных показателей зрелости компании в области информационной политики.
Тематике анализа данных посвящён один из документов представленных исследовательской и консалтинговой компанией, специализирующейся на рынках информационных технологий Gartner под названием «Market Guide for File Analysis Software». В документе приводится информация, касающаяся типовых сценариев использования аналитических инструментов, среди которых можно отметить следующие:
1. Оптимизация хранения;
2. Выявление ненужных данных и избавление от них при миграции ИТ-инфраструктуры;
3. Классификация;
4. Соблюдение нормативов и требований (compliance);
5. Управление уровнями доступа;
6. Автоматизация проведения расследований.
Для нас наиболее интересны первые три позиции, а именно: оптимизация хранения, выявление ненужных данных и классификация. На рынке существуют два инструмента, которые в равной степени позволяют качественно выполнять перечисленные выше сценарии при работе, в особенности с неструктурированной информацией. Это программные продукты компании Hewlett-Packard под названием HP Storage Optimizer и HP Control Point. Первый продукт специализируется на оптимизации хранения, второй продукт ориентирован на комплексный анализ с целью снижения бизнес-рисков, связанных с хранением данных. Оба инструмента обладают широким спектром функций, позволяющих качественно и эффективно управлять информацией. В частности хотелось бы отметить типы визуализации данных, которые могут представлять программные продукты - это карта кластеров информации рис. 2, а и спектограф рис. 2, б отображающий процесс изменения информации во времени внутри документа.
Рис. 2. - Типы визуализации данных программных продуктов Hewlett-Packard
а - карта кластеров; б - спектограф
Для определения подобия или схожести двух и более объектов информации программные продукты Hewlett-Packard использую мета данные содержащиеся в структуре документов. На основании метаданных осуществляется классификация и кластеризация данных со схожими наборами метаданных.
В качестве альтернативы программным продуктам Hewlett-Packard и методам, которые используются для нахождения подобия между объектами сравнения, мы будем использовать подход, основанный на спектральном разложении графа с использованием метода сингулярного разложения [1 - 3, 8]. Данный метод хорошо себя зарекомендовал в реконструкции и распознании 3D-объектов по спутниковым изображениям, с чем можно ознакомиться в статье с одноимённым названием [4]. Однако мы будем применять данный метод для нахождения подобия между неструктурированной информацией, на основе их спектра. В качестве исходных данных мы также будем использовать метаданные, содержащиеся в структуре документов.
На первом этапе нам необходимо построить два графа и описать их с помощью матрицы смежности (рис. 3). Первый граф будет выступать в качестве эталона, с которым необходимо будет производить математические операции, с целью определение подобия. Второй граф - это граф, полученный в результате выявления метаданных одного из множества документов хранящихся в n мерном массиве. Так как в данном решении предлагается взаимодействие с неструктурированными данными, построение графов и их структура может сильно отличаться, вплоть до использования вложенных метаграфом, которые в полной мере могут описать структуру документа и взаимосвязи внутри документа [5]. Для хранения подобных структур наиболее подходящими будут являться NoSQL базы данных, которые обладают широкими возможностями по описанию сложных структур данных с большим количеством связей [6, 7, 9, 10]. Однако же в нашем примере мы будем использовать простые полносвязные неориентированные графы. Матрица смежности неориентированного графа имеет вид: - квадратная симметричная матрица A(G) порядка n, элементы aij которой равны числу ребер, соединяющих вершины vi и vj.
Рис. 3. - Нахождение подобия между вершинами графа
а - граф эталон; б - граф построенный на основе мета данных
В результате того, что оба графа изоморфны, матрица смежности обеих графов представленных на рис. 3 будут идентичны:
Рис. 4. - Матрицы смежности графа A и B
Нахождение подобия между сравниваемыми объектами на основе построенных графов состоит в поиске соответствий между структурами графов, поэтому предлагается использовать методы нахождения подобия на основе спектральной теории графов. Спектр графа представляет собой множества собственных значений упорядоченных по убыванию или возрастанию. Спектральные методы основаны на следующем свойстве: собственные значения и собственные векторы матрицы смежности графа инвариантны относительно перестановок вершин в матрице. Следовательно, если два графа изоморфны, их матрицы смежности будут иметь одинаковые собственные значения и векторы, что собственно и показано на рис. 4. [4]. визуализация программный матрица граф
Из-за изоморфности двух графов мы будем производить разложение только матрицы . Разложение матрицы размерности на собственные значения с использованием сингулярного разложения, можно представить в виде следующих формул:
или
где U и V - ортогонали матриц, если - действительная или унитарная матрица; если - комплексная матрица; - сопряжённо-транспонированная матрица V с порядками m и n соответственно; - диагонали матрица с действительными элементами :
где - сингулярные значения матрицы , а первые min(m,n) столбцы матриц U и V - левые и правые вектора матрицы , которые должны удовлетворять следующему отношению:
где - i-ые столбцы матриц U и V соответственно.
Следующим этапом выполним сингулярное разложение матрицы смежности графа представленного на рис. 3 на основе формулы 1. В результате мы получим следующие результаты:
Сингулярные значения:
8,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Матрица собственных векторов:
Рис. 5. - Матрица собственных векторов графа
В матрице собственных векторов изменим значения отрицательных элементов, используя модуль числа, в результате получим матрицу .
Затем транспонируем полученную матрицу :
Для нахождения подобия необходимо перемножить матрицу с матрицей собственных векторов сравниваемого объекта, т.е графа . За счет того, что в нашем методе будут применяться только изофорфные графы, матрицы собственных векторов, следовательно, будут идентичны с матрицей . В результате перемножения матриц , мы получим матрицу .
В матрице максимальные значения заменим на 1 остальные значения приравняем к 0, в итоге мы получим матрицу P.
В полученной матрице P номер столбца равен номеру узла в графе , номер строки - номеру узла в графе с которым производилась операция сравнения . Единица в матрице P указывает на соответствие между сравниваемыми объектами. Из всего выше перечисленного можно сделать вывод, что два объекта сравнения, описанные в виде графом подобны.
В заключении хотелось бы отметить, что в статье описан пример с идеально подобранными параметрами и, который является одним из немногих исключений из правил, но даже он нам демонстрирует, что на основании спектра графа, полученного путем сингулярного разложения матриц смежности графов, может использоваться для нахождения подобия между различными структурами. При этом в отличие от программных продуктов Hewlett-Packard, которые используют промежуточные состояния для хранения и анализа информации в структурированных БД, описанный метод позволяет работать напрямую с n мерным массивом данных и сохранять результаты как с использованием структурированных баз данных, так и базы данных основанные на NoSql подходе, что в свою очередь способствует не только сбалансированному распределению нагрузки, но и более эффективному и быстрому процессу анализа данных.
Литература
1. Chung F.R.K. Spectral graph theory. - AMS. - 1997. - 207 p.
2. Shokoufandeh A., Dickinson S.J., Siddiqi K., Zucker S.W. Indexing using a spectral encoding of topological structure // Int'l Conf. Computer Vision and Pattern Recognition. - 1999. - Vol. 2. - pp. 491 - 497.
3. Zakharov A., Zhiznyakov A. Synthesis of threedimensional models from drawings based on spectral graph theory // Applied Mechanics and Materials. - 2015. - Vol. 756. - pp. 598 - 603.
4. Тужилкин А.Ю. Распознавание и реконструкция 3D-объектов по спутниковым изображениям на основе сравнения спектров графов // Фундаментальные исследования. - 2015.
5. Ian Robinson, Jim Webber, Graph Databases. O'Reilly, 2015. pp. 8 - 10.
6. Umeyama S. An eigendecomposition approach to weighted graph matching problems // IEEE transactions on pattern analysis and machine intelligence. - 1988. - Vol. 10, № 5. - pp. 695 - 703
7. Gavin Powell, Beginning Database Design. Wrox, 2006. p. 219.
8. Niklaus Wirth, Algorithms and Data Structures. Prentice-Hall, Inc, 1986. pp. 109 - 111.
Аннотация
В статье рассматривается вопрос нахождения подобия между объектами, содержащими неструктурированную информацию на основании спектров двух объектов. Для нахождения спектра используется матрица смежности графа. Подобие между объектов сравнения определяется с использованием подхода основанного на сингулярном разложении матриц смежности графов. Также в статье рассматриваются существующие решения и приведены примеры сфер возможного применения описанного подхода.
Ключевые слова: спектр графа, сингулярное разложение, матрица смежности, неструктурированная информация, анализ больших массивов информации.
Размещено на Allbest.ru
...Подобные документы
Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013Виды связей между объектами в системе управления базами данных MS Access. Ввод и редактирование данных в таблицах, обработка информации базы данных. Архитектура БД по принципу файл-сервер. Создания формы в окне базы данных, использование отчетов.
презентация [511,9 K], добавлен 20.01.2014Технология и средства прикладного программирования. Физическая модель данных. Программа для управления базой данных. Добавление, удаление и редактирование информации. Трудоёмкость ведения базы данных взятых и оставшихся книг. Типы структуры данных.
курсовая работа [2,3 M], добавлен 14.04.2014Математические графы, области их применения. Способы раскраски вершин и ребер графов, задачи на их применение. Разработка алгоритма, работающего на основе операций с матрицей смежности. Описание логической структуры программы. Пример зарисовки графа.
курсовая работа [145,5 K], добавлен 27.01.2013Методы физического моделирования. Основные положения теории подобия. Характеристика особенностей метода эквивалентных материалов. Обзор программных продуктов, используемых для геологического моделирования. Современный комплекс Reservoir Modeling System.
контрольная работа [312,0 K], добавлен 30.05.2013Выбор средств методологии проектирования базы данных, требования к ее функциональности и возможностям. Выделение информационных объектов и их атрибутов, определение отношений и мощности отношений между объектами. Разработка интерфейса и права доступа.
курсовая работа [658,1 K], добавлен 03.06.2015Этапы нахождения хроматического числа произвольного графа. Анализ примеров раскраски графа. Характеристика трудоемкости алгоритма раскраски вершин графа Мейниеля. Особенности графов, удовлетворяющих структуру графов Мейниеля, основные классы графов.
курсовая работа [1,1 M], добавлен 26.06.2012Топология вычислительной системы - структура узлов сети и линий связи между этими узлами. Парные операции передачи данных. Топология некоторого графа. Производные типы данных. Реализация последовательности базовых типов и смещений в скрытом объекте.
презентация [446,0 K], добавлен 10.02.2014Основные понятия и определения теории графов: теоремы и способы задания графа, сильная связность графов. Построение блок-схем алгоритма, тестирование разработанного программного обеспечения, подбор тестовых данных, анализ и исправление ошибок программы.
курсовая работа [525,6 K], добавлен 14.07.2012Наглядное представление массивов различной информации в компьютерной графике. Типы визуализации: схематическая, концептуальная, стратегическая, графическая, комбинированная. Виды сравнения данных: покомпонентное, позиционное, временное, частотное.
контрольная работа [1,4 M], добавлен 20.12.2015Назначение разработанных программных средств. Визуализации иклинометрии и каротажа. Изучение структуры баз данных, используемых в приложении. Встроенные типы данных Oracle и описание разработанных методов. Взаимодействие пользователя с экранной формой.
курсовая работа [1,1 M], добавлен 14.08.2014Характеристика программных продуктов: MySQL, MSSQL, MSAccess. Разработка базы данных в среде C++Builder. Описание таблиц и установление связей между ними. Реализация функций просмотра, добавления, редактирования БД с применением языка запросов SQL.
курсовая работа [393,0 K], добавлен 13.06.2015Сущность и характеристика типов моделей данных: иерархическая, сетевая и реляционная. Базовые понятия реляционной модели данных. Атрибуты, схема отношения базы данных. Условия целостности данных. Связи между таблицами. Общие представления о модели данных.
курсовая работа [36,1 K], добавлен 29.01.2011Разработка программных продуктов на языке программирования Borland Delphi. Применяемые таблицы и связи между ними. Пользовательский интерфейс работы с базой данных. Алгоритм работы программы "Футбольные команды и игроки". Защита от ввода неверных данных.
курсовая работа [788,1 K], добавлен 22.06.2011Обзор существующих решений на основе открытых данных. Технологии обработки данных и методы их визуализации. Социальные сети для извлечения данных. Ограничение географической локации. Выбор набора и формат хранения открытых данных, архитектура системы.
курсовая работа [129,5 K], добавлен 09.06.2017История возникновения, основные понятия и теоремы теории графов. Способы предоставления графов в компьютере. Матрица смежности, инциденций, списки смежности и массив дуг. Программа определения кратчайшего пути в графах. Язык программирования Delphi.
курсовая работа [823,5 K], добавлен 24.11.2010Основные типичные системы управления базами данных. Способы описания взаимодействий между объектами и атрибутами. Структурная и управляющая части иерархической модели базы данных. Представление связей, операции над данными в иерархической модели.
реферат [30,5 K], добавлен 22.02.2011Структура простейшей базы данных и свойства полей. Характеристика типов данных. Описание процесса создания базы данных, таблиц и связей между ними, простых и составных форм, запросов в Microsoft Access. Пример составления подчинённых отчетов и макросов.
курсовая работа [2,9 M], добавлен 14.11.2016Разработка базы данных "Учет движения товара в магазине", ее основные функции. Разработка инфологической, концептуальной и физической моделей, предметная область. Определение объектов и связей между объектами. Структура программного обеспечения.
курсовая работа [1023,7 K], добавлен 05.12.2012Типы связей между сущностями и их характеристика. Определение связных таблиц на основе правил ER-подхода и внедрение внешних ключей. Запись одного запроса к базе данных с полученной схемой на языке SQL. Реализация проектируемой БД в выбранной СУБД.
контрольная работа [329,0 K], добавлен 08.03.2009