Применение технологий бизнес-анализа к большим данным в системах нового типа
Работа с информацией огромного объема. Тенденции развития информационных систем в соответствии с технологиями обработки больших данных. Обработка больших данных, ее связь с технологиями бизнес-анализа и развитием на их основе подходов к интеграции данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 18.07.2018 |
Размер файла | 22,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Гуманитарно-педагогическая академия (филиал)
Крымский федеральный университет им. В.И. Вернадского в г. Ялта
Применение технологий бизнес-анализа к большим данным в системах нового типа
Маковейчук Кристина Александровна,
кандидат наук, доцент, заведующий кафедрой
Аннотация
В статье рассмотрены современные тенденции развития информационных систем в соответствии с технологиями обработки больших данных. Обработка больших данных тесно увязана с технологиями бизнес-анализа и развитием на их основе подходов к интеграции данных.
Ключевые слова: интеграция данных, хранилище данных, бизнес-аналитика, большие данные
Основное содержание исследования
Большие данные (англ. Big Data) - серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста информации [2, 7].
Согласно отчету McKinsey Institute, “Большие данные: новый рубеж для инноваций, конкуренции и производительности” (Big data: The next frontier for innovation, competition and productivity), термин “большие данные” относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации [2].
“Большие данные” предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что большая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, - это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате, корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Кроме того, данные сейчас обновляются все чаще и чаще, поэтому традиционные методы анализа информации не дают необходимой скорости и качества обработки огромных объемов постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.
Понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности.
Бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее [3, 4, 5]. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.
Большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), и отличаются друг от друга по трем аспектам.
1. Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
2. Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
3. Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.
Мировые репозитарии данных продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC “Исследование цифровой вселенной" (Digital Universe Study), подготовку которого спонсировала компания EMC, констатировалось, что общий мировой объем созданных и реплицированных данных в 2011-м составит около 1,8 зеттабайта (1,8 трлн. гигабайт) - примерно в 9 раз больше того, что было создано в 2006-м [1].
К большим данным сегодня относят следующие категории данных.
1. Данные сенсоров (датчиков).
Датчики используются для функции контроля все большим и большим количеством систем сегодня.
Одним из примеров является отслеживание чувствительных товаров, таких как фармацевтические, а также одежды, или запасных частей.
Метки радиочастотной идентификации (RFID) или двумерные штрих-коды, так называемые данные матрицы.
2. Данные событий (в играх).
3. Данные систем аэропортов и медицинских систем.
4. Данные соцсетей.
5. Данные облачных приложений.
6. Данные мобильных операторов.
7. Данные систем производства и распределения.
8. Данные по использованию Wi-Fi в общественных зонах (аэропорт, супермаркет, вокзал и т.п.).
При разработке совершенно новой системы управления базами данных для корпоративных вычислений, возникает вопрос, есть ли необходимость в такой системе. Современные компании изменились. В настоящее время в компаниях больше данных управления, чем раньше. Например, в процессе производства гораздо большее количество данных генерируется датчиками конвейеров или производственных роботов. Кроме того, компании обрабатывают данные более широких масштабов, например, поведение конкурентов, ценовые тенденции, и т.д., для поддержки принятия управленческих решений. И объемы данных будет продолжать расти в будущем, что подтверждает необходимость разработки систем нового типа.
Технологии бизнес-анализа - одно из интереснейших современных направлений науки информатики, реализующееся в прикладном экономическом аспекте. Технологии бизнес-анализа объединили в себе несколько интеллектуальных направлений обработки и анализа данных, привнеся в них общий смысл.
Анализ данных - широкое понятие. Сегодня существуют десятки его определений. В самом общем смысле анализ данных - это исследования, связанные с обсчетом многомерной системы данных, имеющей множество параметров. В процессе анализа данных исследователь производит совокупность действий с целью формирования определенных представлений о характере явления, описываемого этими данными [6].
Бизнес-аналитика или Business Intelligence (BI) - это совокупность технологий, программного обеспечения и практик, направленных на достижение целей бизнеса путём наилучшего использования имеющихся данных.
Именно поэтому, в отличие от других классов делового ПО, актуальность во внедрении BI-систем в трудные с экономической точки зрения времена не ослабевает, а только усиливается. Многообразие представленных на рынке решений, от мощных платформ бизнес-анализа до простых систем аналитики и отчетности, позволяет выбрать решение, доступное любой организации.
Развитие средств визуального представления данных, мобильных и облачных технологий сделали BI-инструменты массовыми всего за последние несколько лет.
Впервые термин Business Intelligence предложил американский ученый Ханс Петер Лун (1896-1964). Рождение BI датируется 1958 годом, когда Лун опубликовал в IBM System Journal статью "A Business Intelligence System". В ней он представил бизнес как набор различных видов деятельности в науке, технологиях, обороне, коммерции, индустрии и даже в законодательной сфере, а обеспечивающие его системы - системами, поддерживающими разумную деятельность (intelligence system).
информация огромный объем бизнес анализ
Под intelligence Лун понимал способность устанавливать взаимосвязь между представлениями отдельных фактов с тем, чтобы действовать в интересах решения поставленных задач и намеченных целей.
В определении аналитиков Gartner конца 1980-х годов business intelligence - это "пользователецентрический процесс, который включает доступ и исследование информации, ее анализ, выработку интуиции и понимания, которые ведут к улучшенному и неформальному принятию решений".
Большинство определений трактуют "business intelligence" как процесс, технологии, методы и средства извлечения и представления знаний.
Определение, предложенное The Data Warehousing Institute: "Business Intelligence имеет отношение к процессу превращения данных в знания, а знаний в действия бизнеса для получения выгоды. Является деятельностью конечного пользователя, которую облегчают различные аналитические и групповые инструменты и приложения, а также инфраструктура хранилища данных".
Итак, бизнес-интеллект ("Business Intelligence") в широком смысле слова определяет:
· процесс превращения данных в информацию и знания о бизнесе для поддержки принятия улучшенных и неформальных решений;
· информационные технологии (методы и средства) сбора данных, консолидации информации и обеспечения доступа бизнес-пользователей к знаниям;
· знания о бизнесе, добытые в результате углубленного анализа детальных данных и консолидированной информации.
Данные, используемые для бизнес-анализа, организуются в специальные хранилища (data warehouse, DW). Эти данные должны отражать текущую, реальную и полную картину бизнеса. Информация в хранилище данных (включая исторические данные) собирается из различных операционных (транзакционных) систем и структурируется специальным образом для более эффективного анализа и обработки запросов (в обличие от обычных баз данных, где информация организована таким образом, чтобы оптимизировать время обработки текущих транзакций).
Хранилища данных содержат огромные объемы информации, охватывающей все доступные стороны деятельности предприятия и позволяющие рассматривать все аспекты функционирования бизнеса в совокупности. Для решения более узких, конкретных задач из общего хранилища могут вычленяться подмножества данных - так называемые витрины данных (data marts).
Ценность и достоверность знаний, полученных в результате интеллектуального анализа бизнес-данных, зависит не только от эффективности используемых аналитических методов и алгоритмов, но и от того, насколько правильно подобраны и подготовлены исходные данные для анализа.
Интеграция данных является начальным этапом реализации любой аналитической задачи или проекта. В основе интеграции лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. Сопутствующими задачами интеграции являются оценка качества данных и их обогащение.
Основные критерии оптимальности с точки зрения интеграции данных:
· обеспечение высокой скорости доступа к данным;
· компактность хранения;
· автоматическая поддержка целостности структуры данных;
· контроль непротиворечивости данных.
Ключевым понятием интеграции является источник данных - объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат, в противном случае, очевидно, что объект не может считаться источником данных.
Аналитические приложения, как правило, не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками. Таким образом, формирование массивов данных для анализа в большинстве случаев ложится на плечи заказчиков аналитических решений.
Существует несколько подходов к интеграции данных.
Для формирования и поддержания хранилищ данных используются так называемые ETL-средства - инструменты для извлечения данных (extract), преобразования данных (transform), то есть приведения их к необходимому формату, обработки в соответствии с определенными правилами, комбинировании с другими данными и т.п., а также для загрузки данных (load), записи данных в хранилище или в другую базу.
В дополнение к ETL, BI-системы включают в себя инструменты для работы с SQL (structured query language), позволяющие пользователям напрямую обращаться к данным. В последнее время инструменты для формирования и обработки запросов стали более "дружественными", ориентированными на неподготовленных бизнес-пользователей (а не на квалифицированных ИТ-специалистов).
Для интеграции данных из разрозненных источников в современных BI-системах используется промежуточный, виртуальный слой метаданных, что позволяет избавить бизнес-пользователей от необходимости разбираться с тонкостями хранения и обработки информации и облегчающий внесение изменений. Эти средства не требуют никаких физических операций по перемещению и обработке данных, что отличает их от ETL-инструментов. Использование подобного слоя метаданных, в принципе, позволяет отказаться от организации дорогостоящих хранилищ данных (однако при этом необходимо принимать во внимание вопросы обеспечения необходимой производительности).
Кроме того, для интеграции данных могут создаваться корпоративные порталы, обеспечивающие взаимосвязь на уровне данных и бизнес-процессов. Такие порталы реализуют лишь внешнюю взаимосвязь, иначе говоря - обеспечивают совместный доступ к информации.
Список литературы
1. Plattner, Hasso. In-Memory Data Management. The Inner Mechanics of In-Memory Databases / Hasso Plattner; Hasso Plattner Institute, Potsdam, Brandenburg Germany // Springer. - 2013. - 298 р. ISBN 978-3-642-36523-2
2. Вахрамеев, К. СУБД для анализа Больших Данных / К. Вахрамеев // Открытые системы. СУБД. - 2001. - № 10. - Режим доступа: osp.ru/os/2011/10/13012223. - 17.01.2017.
3. Галлини, Н.И., Маковейчук, К.А. Проектирование информационной системы анализа и мониторинга показателей контингента обучающихся в организации высшего образования / Н.И. Галлини, К.А. Маковейчук // В сборнике: ПЕРСПЕКТИВЫ НАУКИ - 2015 Материалы I Международного заочного конкурса научно-исследовательских работ. Научно-образовательный центр "ЗНАНИЕ". Том 4 (Технические науки) / Научный ред. д. э. н., проф. А.В. Гумеров. - Казань: ООО "Рукета Союз", 2015. - 212 с. - ISBN 978-5-9907553-5-2 (т.4). - С.183 - 187.
4. Галлини, Н.И., Филимоненкова, Т.Н. Информационно-справочная система Yaltavernadainfocenter / Н.И. Галлини, Т.Н. Филимоненкова // В сборнике: ПЕРСПЕКТИВЫ НАУКИ - 2015 Материалы I Международного заочного конкурса научно-исследовательских работ. Научно-образовательный центр "ЗНАНИЕ". Том 4 (Технические науки) / Научный ред. д. э. н., проф. А.В. Гумеров. - Казань: ООО "Рукета Союз", 2015. - 212 с. - ISBN 978-5-9907553-5-2 (т.4). - С.147 - 152.
5. Маковейчук, К.А., Галлини, Н.И. Визуализация результатов и формирование отчетности учреждения высшего образования с помощью комплексной информационно-справочной системы анализа и мониторинга показателей контингента абитуриентов, обучающихся и преподавателей [Электронный ресурс] / К.А. Маковейчук, Н.И. Галлини. - Журнал "Постулат". - 2016. - № 3. - Режим доступа: e-postulat.ru/index. php/Postulat/article/view/61/64. - 17.01.2017.
6. Паклин, Н.Б. Бизнес-аналитика: от данных к знаниям: учебное пособие / Н.Б. Паклин, В.И. Орешков. - 2-е изд., испр. - СПб: Питер, 2013. - 704 с.: ил. ISBN 978-5-459-00717-6
7. Сухобоков, А.А. Влияние инструментария Big Data на развитие научных дисциплин, связанных с моделированием / А.А. Сухобоков, Д.С. Лахвич // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. - 2015. - № 3. - С. 207-240.
Размещено на Allbest.ru
...Подобные документы
Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел
курсовая работа [29,2 K], добавлен 09.02.2011Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.
реферат [1,3 M], добавлен 25.03.2013Этапы статистического анализа данных, приемы и методы его проведения. Ключевые положения закона больших чисел в теории вероятностей, его общий смысл. Теорема Бернулли - простейшая форма закона больших чисел. Количество данных, способы его измерения.
реферат [112,3 K], добавлен 03.03.2014Анализ основных направлений автоматизации бизнес-процессов с информационными технологиями. Разработка баз данных для решения проблем хранения и систематизации информации. Проектирование и реализация логической модели бизнес-процесса на примере библиотеки.
курсовая работа [505,8 K], добавлен 25.10.2011Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Метод анализа иерархий. Система для хранения больших объемов информации является база данных. База данных в наибольшей степени удовлетворяет всем выделенным критериям. Она обеспечивает быстрый поиск нужной информации (оперативность).
контрольная работа [326,9 K], добавлен 10.06.2004Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.
реферат [22,5 K], добавлен 05.02.2011Сущность необходимости применения информационных технологий при анализе бизнеса. Модель информационной интеграции современной методической базы. Механизм трансформации элементов ER-модели в открытую объектно-ориентированную среду "1С: Предприятие".
дипломная работа [2,3 M], добавлен 17.12.2009Реляционная система управления базой данных Microsoft SQL Server архитектуры клиент-сервер. Тиражирование данных, параллельная обработка, поддержка больших баз данных. Определение маршрута движения документов в СЭД "Directum" и "Евфрат-документооборот".
контрольная работа [21,2 K], добавлен 17.10.2009Особенности управления информацией в экономике. Понятие и функции системы управления базами данных, использование стандартного реляционного языка запросов. Средства организации баз данных и работа с ними. Системы управления базами данных в экономике.
контрольная работа [19,9 K], добавлен 16.11.2010Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.
лекция [169,7 K], добавлен 19.08.2013Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.
реферат [849,7 K], добавлен 16.12.2016Сбор ключевой статистики по интерфейсам, проведение аналитики и выдвижение гипотез по улучшению продукта. Рассмотрение методов анализа данных на базе конкретного проекта. Расположение инструментов на экране и порядок взаимодействия с ними у пользователя.
курсовая работа [664,7 K], добавлен 01.01.2018Возможности Matlab, выполнении математических и логических операций, интерактивные инструменты построения графиков. Конструкции для обработки и анализа больших наборов данных, программные и отладочные инструменты, оптимизация данных, операций и функций.
статья [170,5 K], добавлен 01.05.2010Системы автоматизированной обработки информации. Хранение большого объема информации. Понятие базы данных (БД). Обеспечение секретности данных. Уровни представления данных в БД. Логическая структура данных. Ограничения, накладываемые на данные.
реферат [65,2 K], добавлен 26.11.2011Анализ применяемых технологий в мультисервисных сетях. Сосуществование сетей АТМ с традиционными технологиями локальных сетей. Характеристика сети передачи данных РФ "Электросвязь" Кемеровской области. Схема организации сети передачи данных, каналы связи.
дипломная работа [642,3 K], добавлен 02.11.2010Осмысление и переработка информационных данных, которые используются для решения управленческих задач. Общая схема информационной системы, ввод данных, их обработка, хранение и распределение полученной информации. Характеристики информационных систем.
контрольная работа [59,8 K], добавлен 03.10.2010Определения теории баз данных (БД). Элементы приложения информационных систем. Реляционные модели данных. Задача систем управления распределенными базами данных. Средства параллельной обработки запросов. Использование БД при проведении инвентаризации.
курсовая работа [518,9 K], добавлен 01.05.2015Хранилище данных, принципы организации. Процессы работы с данными. OLAP-структура, технические аспекты многомерного хранения данных. Integration Services, заполнение хранилищ и витрин данных. Возможности систем с использованием технологий Microsoft.
курсовая работа [1,0 M], добавлен 05.12.2012