Применение методов интеллектуального анализа данных при создании алгоритмических и программных средств интеграции
Тенденция к возрастанию объема и сложности процессов измерения и управления в информационных системах. Проблема развития методов анализа сложной (текстовой и структурной) распределенной информации в различных областях научной и практической деятельности.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 20.08.2018 |
Размер файла | 606,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ДЕКАБРЬ 2017 |
|
ТЕХНИЧЕСКИЕ НАУКИ |
Размещено на http://www.allbest.ru/
Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ДЕКАБРЬ 2017 |
|
ТЕХНИЧЕСКИЕ НАУКИ |
ФГАОУ ВО Сибирский федеральный университет, г. Красноярск
Применение методов интеллектуального анализа данных при создании алгоритмических и программных средств интеграции
Мадаминова М.О.
Аннотации
В настоящее время наблюдается тенденция к непрерывному возрастанию объема и сложности процессов измерения и управления в крупных информационных системах. В данной работе рассматриваются методов интеллектуального анализа данных и их интеграции. Актуальность проведения исследования вызвана острой необходимостью развития методов анализа сложной (текстовой и структурной) распределенной информации в различных областях научной и практической деятельности (от наук о жизни до экономики, социологии и политологии).
Ключевые слова: распределенные системы, механизмы интеграции данных, методы интеллектуального анализа, архитектура программного обеспечения, интеллектуальный анализ данных.
Currently there is a trend towards a continuous increase in the amount and complexity of measurement processes and management in large information systems. This paper discusses the methods of data mining and integration. Actuality of research is caused by an acute necessity of development of methods of complex analysis (textual and structural) of distributed information in various fields of scientific and practical activities (from the life Sciences to Economics, sociology and political science).
Keywords: distributed systems, data integration mechanisms, methods of intellectual analysis, software architecture, data mining.
Основное содержание исследования
Стремительная эволюция и широкое внедрение информационных систем в различные технологические процессы привели к резкому повышению требований к оперативности вырабатываемых ими решений. В большинстве систем, решения строятся на основе данных, собираемых с различных измерительных средств, задаваемых пользователями, получаемых от других систем. От достоверности данных, скорости сбора и сохранения целостности при передаче, зависит эффективность принятия решений и управления в целом. В последние десятилетия сбор информации значительно усложнился в связи с распространением гетерогенных сред передачи данных и появлением распределенных систем, использующих эти сети в ходе работы.
Цель работы
Вывить преимущества использования методологии интеллектуального анализа данных в качестве основы для построения его аналитической подсистемы. В настоящее, время исследования в области анализа данных очень значимы для создания новых поколений интеллектуальных систем.
Исходя из этого, можно сказать что анализ существующих и разработка новых методов сбора данных в распределенных системах представляет большой интерес как для научного мира - с точки зрения построения новых моделей и алгоритмов, так и для разработчиков программного обеспечения - как новые практики и решения, позволяющие улучшить некоторые характеристики создаваемых продуктов (такие как снижение временных задержек при принятии решений, повышение надежности систем, уменьшение нагрузки на сети передачи данных и т.д.).
Задача сбора информации из различных источников, её очистки, предобработки и формирования единого выходного потока является одной из подмножества задач, решаемых средствами интеграции данных.
алгоритмическое программное средство интеграция
Интеллектуальный анализ данных (Data Mining) - процесс обнаружения пригодных к использованию сведений в крупных наборах данных [1]. В интеллектуальном анализе применяется математический анализ для выявления закономерностей и тенденций, существующих в данных. Эти закономерности можно определить, как модель интеллектуального анализа данных. Большие данные (Big Data) привели к взрывному росту популярности различных методов интеллектуального анализа, потому что информации стало гораздо больше, и она по своей природе и содержанию становится все более разнообразной и обширной.
По определению аналитиков Gartner (крупная исследовательская и консалтинговая компания, специализирующаяся на рынках информационных технологий), интеграция данных охватывает практики, архитектурные подходы и программные инструменты для обеспечения согласованного доступа и доставки данных для всего спектра приложений и бизнес-процессов компании [3].
Типовая архитектура системы, использующей интеграцию данных, представлена на рисунке 1.
Представляет собой процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов. ИАД используется для решения таких задач, как выявление скрытых закономерностей в архивных финансовых, верификация данных о курсах валют, выявление новых потенциальных клиентов, выявление счетов потенциально платежеспособных дебиторов, в различных задачах прогнозирования [2]. Подобные и другие вопросы требуют решения, как на базе предприятий, так и кредитно-финансовых учреждений, в силу пересечения по видам деятельности: работа с клиентами и счетами, анализ финансовой деятельности, принятие решений и т.д.
Рисунок 1 - Типовая архитектура системы с интеграцией данных
Проблема исследования
Все вышеперечисленные достоинства ИАД, доказательства его эффективного применения в силу специфики требований ERP-систем обуславливают выбор именно этого направления для поиска алгоритмов и методов извлечения знаний. Однако, несмотря на значительный прогресс в области ИАД, практическая реализация этой технологии сопряжена с рядом трудностей. В настоящее время ИАД использует достижения многих разделов современной математики. Многие фирмы-разработчики концентрируют свои усилия на одном-двух конкретных методах, не связывая свои продукты с разработками других фирм в этой области. В результате внедрение средств ИАД существенно усложняется, поскольку многообразие и программных продуктов ИАД, и применяемых в них математических методов затрудняет выбор базового комплекта алгоритмических средств.
Целью интеллектуального анализа данных (англ. Data mining, другие варианты перевода
"добыча данных", "раскопка данных") является обнаружение неявных закономерностей в наборах данных. Как научное направление он стал активно развиваться в 90-х годах XX века, что было вызвано широким распространением технологий автоматизированной обработки информации и накоплением в компьютерных системах больших объёмов данных. И хотя существующие технологии позволяли, например, быстро найти в базе данных нужную информацию, этого во многих случаях было уже недостаточно. Возникла потребность поиска взаимосвязей между отдельными событиями среди больших объёмов данных, для чего понадобились методы математической статистики, теории баз данных, теории искусственного интеллекта и ряда других областей. [4]
В настоящее время наблюдается тенденция к непрерывному возрастанию объема и сложности процессов измерения и управления в крупных информационных системах. Современные распределенные информационные системы находят применение в различных областях как производственной, так и непроизводственной сфер деятельности.
Примерами таких систем являются различные системы контроля технологического процесса, автоматизированные производственные линии, системы автоматизации научных исследований и т.д. Вместе с тем, на сегодняшний день не существует универсальной системы, которая позволяла бы проводить алгоритмические и программные исследования "под ключ". Иными словами, отсутствуют программные продукты, обеспечивающие поддержку полного цикла исследования, начиная от проектирования и заканчивая выдачей результатов, с предоставлением их в удобном виде для дальнейшей интерпретации и принятия решений в области исследуемого процесса или явления.
Одним из подвидов являются распределенные системы, включающие измерительные средства (ИС), распределенные в пространстве (иногда на значительные расстояния) и вычислительный центр, который предназначен для агрегации, обработки, хранения и дальнейшей передачи данных, собираемых с ИС. Источники данных генерируют большое количество информации, которую необходимо своевременно, целостно и в полном объеме доставлять в вычислительные центры. Не всегда каналы передачи данных имеют высокую пропускную способность, в связи с чем возникают задачи оптимизации трафика и снижения сетевой нагрузки для повышения общей эффективности и работоспособности системы.
В настоящее время среди методов алгоритмической и программной обработки данных выделяют две группы: методы статистического анализа и методы интеллектуального анализа данных (ИАД). Как уже отмечалось, традиционный подход при анализе данных основан на использовании алгоритмических и программных методов. Вместе с тем, одним из главных ограничений такого подхода является невозможность обнаружения неоднородных, локальных взаимосвязей, присутствующих в социальных явлениях, поскольку в основе методов статистической обработки обычно лежит концепция усреднения по выборке.
Методы интеллектуального анализа данных (в англоязычной литературе принят термин Data Mining) - это новое, более перспективное направление, стремительно развивающееся в настоящее время [4].
Инструменты ИАД могут находить такие закономерности самостоятельно и также самостоятельно строить гипотезы о взаимосвязях. Поскольку именно формулирование гипотез относительно зависимостей является самой сложной задачей, преимущество методов ИАД по сравнению с другими методами анализа данных является очевидным [5].
В таблице 1 приведена сравнительная характеристика некоторых распространенных методов. Оценка каждой из характеристик проведена следующими категориями, в порядке возрастания: чрезвычайно низкая, очень низкая, низкая/нейтральная, нейтральная/низкая, нейтральная, нейтральная/высокая, высокая, очень высокая.
Таблица 1. Сравнительная характеристика методов интеллектуального анализа данных
Традиционные методы решения оптимизационных задач - Включают в себя вариационные методы, методы исследования операций, включающие в себя различные виды математического программирования (линейное, нелинейное, дискретное, целочисленное), динамическое программирование, принцип максимума Понтрягина, методы теории систем массового обслуживания. Программные реализации большинства этих методов входят в стандартные пакеты:
MathCAD и MatLab.
Проведение условной классификации по методам, реализованным в этих системах, и анализа средств ИАД позволило прийти к нижеследующим заключениям. Несмотря на обилие методов ИАД, приоритет в эффективных современных разработках смещается в сторону использования моделей представления знаний: логических (дедуктивных и индуктивных), продукционных и графовых (фреймовых).
С их помощью решаются задачи прогнозирования, классификации, распознавания образов, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД. Результаты таких алгоритмов эффективны и легко интерпретируются. Однако известные методы поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. Решением перечисленных проблем можно добиться новых более успешных результатов в области разработок ИАД.
Среди других преимуществ методов ИАД можно отметить:
- возможность одновременного анализа разнородных (количественных и качественных) данных;
- поддержка неполных (нерепрезентативных с точки зрения статистики) выборок;
- возможность обнаружения локальных закономерностей (например, установления и изучения структуры связей между локальными подмножествами значений признаков);
- наличие некоторого класса методов, применимых для решения схожих задач при различающихся формах представления исходных данных (например, различные алгоритмы кластеризации для числовых и категориальных данных), что позволяет строить модели, детально учитывающие специфику обрабатываемых данных. [6]
Заключение
Все вышесказанное позволяет сделать вывод о целесообразности поддержки методов и программных средств ИАД при решении задач автоматизации процессов алгоритмических и программных исследований.
Как уже отмечалось, идея, положенная в основу создаваемого программного комплекса (ПК), предполагает поддержку полного цикла алгоритмического и программного исследования. При этом, среди ключевых требований, предъявляемых к ПК, можно выделить следующие:
полная автоматизация сбора первичных данных от респондентов, что позволит исключить этап переноса собранной информации с бумажных носителей и, тем самым, упростить процесс подготовки информации к ее последующей обработке;
поддержка различных методов анализа данных, в том числе ИАД, с возможностью расширения класса поддерживаемых методов. [7]
Дополнительным требованием также является обеспечение возможности экспорта алгоритмических и программных данных в различные форматы для дальнейшей обработки в сторонних аналитических системах.
Отметим, что возможны два пути удовлетворения требования, связанного с поддержкой различных методов анализа данных: самостоятельная реализация необходимого набора методов, либо использование готовых программных решений и реализация механизмов интеграции с ними. При проектировании ПК был выбран второй путь, а в качестве соответствующего программного решения была выбрана аналитическая платформа Deductor Enterprise [6], которая является разработкой российской компании BaseGroup, поддерживает широкий спектр методов и технологий анализа данных, в том числе ETL, OLAP и ИАД и входит в число лидеров отечественного рынка аналитических программных систем.
Возможность интеграции платформы Deductor с внешними системами обеспечивается наличием в ее составе серверных компонентов: аналитической службы Analytic Server и службы обмена данными Integration Server.
Таким образом, предлагаемый программный комплекс может рассматриваться в качестве эффективного инструмента поддержки всех этапов интеллектуального анализа данных, а лежащий в его основе математический и технологический аппарат ИАД будет способствовать повышению достоверности и обоснованности результатов исследования.
Список литературы
1. Гарипов В.К. Разработка методов и средств построения распределенных информационноизмерительных систем многосвязных объектов: автореф. дис, Москва, доктор технических наук, Моск. Гос. Акад. Приборостроения и информатики, 2016.
2. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: Учебное пособие.2е изд., испр. - СПб: Питер, 2013. - 704 с.
3. Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живём, работаем и мыслим / пер. с англ. Инны Гайдюк. - М.: Манн, Иванов, Фербер, 2014.
4. Мосягин А.Б. Использование методологии Data Mining при решении задач обработки социальных данных // Мониторинг общественного мнения. - 2015. - № 2 (126). - С.138-140. ООО "Аналитические технологии". - Режим доступа: https: // www.basegroup.ru.
5. Основные понятия интеллектуального анализа данных, Microsoft Inc [Электронный ресурс]. URL: https: // msdn. microsoft.com/ruru/library/ms174949. aspx
6. Чучуева И.А. Модель прогнозирования временных рядов по выборке максимального подобия. Диссертация, канд. тех. Наук, МГТУ им. Н.Э. Баумана, Москва, 2012.
7. Средство интеллектуального анализа WEKA [Электронный ресурс]. URL: http://www.cs. waikato. ac. nz/ml/weka/
Размещено на Allbest.ru
...Подобные документы
Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.
презентация [2,6 M], добавлен 09.10.2013Анализ методов оценки надежности программных средств на всех этапах жизненного цикла, их классификация и типы, предъявляемые требования. Мультиверсионное программное обеспечение. Современные модели и алгоритмы анализа надежности программных средств.
дипломная работа [280,5 K], добавлен 03.11.2013Изучение общих понятий теории систем и системного анализа. Методика построения объектных репозиториев открытых информационных систем. Принципы восприятия визуальной информации. Средства визуального моделирования рабочих процессов по интеграции данных.
курсовая работа [195,1 K], добавлен 04.06.2015Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Исследование процессов, методов и средств технологии хранения информации. Изучение единиц измерения памяти и классификации запоминающих устройств. Характеристика основных способов кодирования данных на компьютере на сегодняшний день, таблиц кодировок.
курсовая работа [86,9 K], добавлен 07.12.2011Принципы компьютерной стеганографии. Классификация методов сокрытия информации. Популярность метода замены наименьшего значащего бита. Сущность методов расширения палитры и блочного сокрытия. Применение методов в GIF изображениях. Реализация алгоритмов.
курсовая работа [589,7 K], добавлен 17.02.2013Общее понятие алгоритма и меры его сложности. Временная и емкостная сложность алгоритмов. Основные методы и приемы анализа сложности. Оптимизация, связанная с выбором метода построения алгоритма и с выбором методов представления данных в программе.
реферат [90,6 K], добавлен 27.11.2012Теоретические аспекты некоторых областей информационных технологий: программы обработки данных, глобальная сеть Internet. Характеристика методов использования информационных технологий в различных областях бизнеса, опасностей и сложностей в их применении.
реферат [1,4 M], добавлен 11.04.2010Классификация методов анализа по группам. Сбор и хранение необходимой для принятия решений информации. Подготовка результатов оперативного и интеллектуального анализа для эффективного их восприятия потребителями и принятия на её основе адекватных решений.
контрольная работа [93,2 K], добавлен 15.02.2010Характеристики распределенной системы управления базой данных. Уровни представления информации в распределенной базе. Сравнительные характеристики стратегий хранения информации: централизованной, расчленения (фрагментации), дублирования, смешанной.
курсовая работа [1,7 M], добавлен 16.05.2014Применение нейрокомпьютеров на российском финансовом рынке. Прогнозирование временных рядов на основе нейросетевых методов обработки. Определение курсов облигаций и акций предприятий. Применение нейронных сетей к задачам анализа биржевой деятельности.
курсовая работа [527,2 K], добавлен 28.05.2009Тенденция развития систем управления базами данных. Иерархические и сетевые модели СУБД. Основные требования к распределенной базе данных. Обработка распределенных запросов, межоперабельность. Технология тиражирования данных и многозвенная архитектура.
реферат [118,3 K], добавлен 29.11.2010Разработка программного обеспечения для реализации криптографической защиты информации. Обоснование выбора аппаратно-программных средств. Проектирование модели информационных потоков данных, алгоритмического обеспечения, структурной схемы программы.
дипломная работа [2,0 M], добавлен 10.11.2014Рассмотрение основных понятий защиты информации в сетях. Изучение видов существующих угроз, некоторых особенностей безопасности компьютерных сетей при реализации программных злоупотреблений. Анализ средств и методов программной защиты информации.
дипломная работа [1,5 M], добавлен 19.06.2015Разработка и реализация многомасштабного анализа дискретных сигналов путем вейвлет-преобразований и структурной индексации, объединение методов в единую систему. Поисково-исследовательский характер и направление на упрощение многомасштабного анализа.
дипломная работа [3,0 M], добавлен 01.07.2008Обзор существующих методов межпроцедурного анализа. Получение входных и выходных данных подпрограмм с помощью графа алгоритма. Описание входных и выходных данных подпрограммы в терминах фактических параметров. Определение параллелизма по графу алгоритма.
учебное пособие [77,5 K], добавлен 28.06.2009Виды угроз безопасности в экономических информационных системах, проблема создания и выбора средств их защиты. Механизмы шифрования и основные виды защиты, используемые в автоматизированных информационных технологиях (АИТ). Признаки современных АИТ.
курсовая работа [50,8 K], добавлен 28.08.2011Информационные технологии в управлении: комплекс методов переработки исходных данных в оперативную информацию механизма принятия решений с помощью аппаратных и программных средств с целью достижения оптимальных рыночных параметров объекта управления.
контрольная работа [24,1 K], добавлен 15.03.2013Анализ методов и средств выявления мнений пользователей социальных сетей. Обзор средств мониторинга и анализа, подбор необходимого программного обеспечения и технических средств. Разработка архитектуры базы данных, реализация программных модулей.
дипломная работа [3,7 M], добавлен 19.01.2017