Сравнение сущности транзакционных и аналитических процессов в базах данных

Методы анализа тенденций продажи продуктов или услуг клиенту. Основные требования к современным средствам управления базами данных. Реализация проекта Apache Hadoop на основе открытого кода. Способы синхронизации аналитической системы с транзакционной.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 20.07.2018
Размер файла 311,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Гуманитарно-педагогическая академия (филиал), Крымский федеральный университет им. В. И. Вернадского в г. Ялта

Сравнение сущности транзакционных и аналитических процессов в базах данных

Маковейчук Кристина Александровна, кандидат наук,

доцент, заведующий кафедрой

Существует два основных требования к современной системе управления базами данных:

· данные из различных источников должны быть объединены в единую базу данных;

· данные должны иметь возможность быть проанализированными в реальном времени, поддерживать интерактивные принятия решений [1, 4].

До появления больших данных традиционный анализ предусматривал занесение информации в традиционную БД. Этот подход основывался на модели реляционных БД, использующей таблицы для хранения данных и отношений между ними. Данные обрабатывались и запоминались в строках таблиц.

С течением времени БД совершенствовались и сейчас используют массовую параллельную обработку, когда данные разбиваются на небольшие группы и обрабатываются одновременно на многих узлах, что обеспечивает значительное ускорение работы.

Вместо хранения информации в строках таблиц БД могут также использовать архитектуры столбцов, которые позволяют обрабатывать только столбцы с данными, необходимыми для формирования результатов запроса, и, кроме того, поддерживают хранение неструктурированной информации.

MapReduce -- это модель распределённых вычислений, представленная компанией Google, используемая для параллельных вычислений над очень большими, несколько петабайт, наборами данных в компьютерных кластерах.

Технология MapReduce представляет собой комбинацию двух функций, улучшающих обработку данных. Сначала map-функция разделяет данные на несколько групп, которые затем обрабатываются параллельно. Затем reduce-функция объединяет результаты расчетов в варианты ответов.

MapReduce библиотеки были написаны на многих языках программирования, с различными уровнями оптимизации.

Компания Google использовала технологию MapReduce для индексирования сети Интернет и получила патент на свою MapReduce-платформу. Однако постепенно эта методика начинает использоваться все шире и шире.

Наибольшую известность получила ее реализация в проекте Apache Hadoop на основе открытого кода.

Платформа Hadoop на основе открытого кода была разработана с помощью технологии MapReduce для параллельной обработки больших объемов информации на множестве узлов стандартного недорогого оборудования.

Информация разделяется на блоки и загружается в файловое хранилище данных, например Hadoop Distributed File System (HDFS), организованное как несколько избыточных узлов на недорогом запоминающем устройстве. Узел name протоколирует размещение данных на конкретных узлах. Данные реплицируются более чем на одном узле, что обеспечивает их сохранность в случае выхода какого-либо узла из строя.

Затем данные можно анализировать с помощью технологии MapReduce, которая определяет местонахождение необходимых для расчета сведений из узла name.

После этого обработка на узлах идет параллельно. Результаты расчетов обобщаются для составления ответа на запрос и затем загружаются на узел, который впоследствии доступен для анализа с помощью других инструментов. В качестве альтернативы возможна загрузка полученных сведений в традиционные хранилища для обработки с помощью транзакций [5].

Сегодня многие компании стараются увязать свою собственную технологию в области БД с технологией Hadoop и предложить результат в качестве собственной стратегии по решению задач, связанных со скоростью обновления.

Немецкая компания SAP в качестве основной стратегии в области больших данных предлагает представленное в 2011 г. хранилище данных на платформе высокопроизводительного аналитического программно-аппаратного комплекса (high-performance analytic appliance -- HANA).

В этом комплексе реализована прогрессивная технология вычислений in-memory, обеспечивающая обработку в реальном времени больших объемов данных в оперативной памяти сервера для получения результатов, касающихся аналитики и транзакций.

В начале 2012-го появился продукт Oracle Exalytics, также реализующий данную технологию.

Размещение на платформе HANA бизнес-приложений, таких как SAP Business Objects, обеспечивает серьезный выигрыш в их производительности.

SAP состыковала систему HANA с Hadoop, позволив покупателям обмениваться данными между Hive, Hadoop Distributed File System и SAP HANA или SAP Sybase IQ server.

Таким образом, требование первое - система управления базой данных предприятия должна быть в состоянии обрабатывать данные, поступающие из различных типов источников (рис. 1).

Проблема 1: разнообразие приложений, создающих данные

Система управления данными предприятия должна быть в состоянии обрабатывать транзакционные и аналитические типы запросов, которые отличаются в нескольких измерениях.

Типичные запросы для оперативной обработки транзакций (OLTP) - это создание заказов на продажу, счетов-фактур, бухгалтерских данных, выборка заказа для клиента или отображение его основных данных.

Online Analytical Processing (OLAP) состоит из аналитических запросов. Типичные запросы OLAP-стиля - напоминания (напоминание об оплате), перекрестные продажи (продажи дополнительных продуктов или услуг клиенту), оперативная отчетность, или анализ тенденций на основе истории.

Рисунок 1. Источники данных в современных системах [1]

Проблема 2: системы, реализующие OLTP и/или OLAP - альтернатива или объединение?

Так как всегда считалось, что эти типы запросов значительно отличаются, было принято разделение системы управления данными на две отдельные системы обработки OLTP и OLAP запросов. В литературе утверждается, что OLTP нагрузка при записи интенсивней, в то время как OLAP-нагрузки появляются только при чтении, и что две рабочие нагрузки полагаются на "Противоположные законы физики баз данных".

Тем не менее, исследования в современных корпоративных системах показали, что это утверждение не соответствует действительности [1].

Основное различие между системами, которые обрабатывают эти типы запросов, в том, что OLTP системы обрабатывают больше запросов с одним объектом выборки или запросов, которые из большого объема данных возвращают всего несколько объектов, в то время как системы OLAP агрегируют лишь несколько столбцов таблицы, но для большого количества объектов. Для синхронизации аналитической системы с транзакционной системой (системами), необходим многотиражный ETL (Extract-Transform-Load) процесс. аналитический транзакционный код управление

Процесс ETL занимает много времени и является относительно сложным, потому что все соответствующие изменения должны быть извлечены из внешнего источника или источников, если их несколько, данные преобразуются в формат, необходимый для аналитики, и загружаются в целевую базу данных.

Несмотря на то, что разделение базы данных на две системы позволяет рабочей нагрузке специфичным образом оптимизироваться в обеих системах, оно приводит к целому ряду недостатков:

· система OLAP не имеет последних (актуальных) данных, так как процесс ETL вводит задержку. Задержка может варьироваться от нескольких минут до нескольких часов или даже дней. Следовательно, многие решения должны опираться на устаревшие данные, а не использовать новейшую информацию;

· для достижения приемлемой производительности, системы OLAP работают с предопределенными материальными агрегатами, что уменьшает гибкость запросов пользователя;

· избыточность данных является высокой. Аналогичная информация хранится в обеих системах, просто различно оптимизирована;

· схемы, используемые OLTP и OLAP системами, различны, что вносит сложность для приложений, использующих их обе, и сложно для процесса ETL синхронизации данных между системами.

При обработке транзакций часто принимают, что доли чтения и записи равны, в то время как на самом деле в аналитической обработке доминируют больше чтение и различные запросы.

Тем не менее, анализ рабочей нагрузки нескольких систем реальных предприятий показывает, что OLTP и OLAP системы не так и отличаются, как ожидалось в классических корпоративных системах.

Рисунок 2. Анализ рабочей нагрузки нескольких систем по OLTP и OLAP запросам [1]

Как показано на рисунке 2, OLTP процессы в системе имеют более 80% запросов на чтение.

Менее 10% от фактического объема - запросы на изменение существующих данных, например, обновление и удаление. Системы OLAP обрабатывают еще большее количество запросов на чтение, которые составляют около 95% рабочей нагрузки.

Обновления в транзакционной нагрузке представляют особый интерес. Анализ обновлений в различных сферах промышленности показывает их отличие [1, 2, 3, 6].

Отличие состоит в том, что количество обновлений в OLTP системах является достаточно низким и варьируется по отраслям.

В проанализированных высокотехнологичных компаниях, пики «частота обновления» около 12%, это означает, что около 88% из всех сохраненных в базе данных транзакций никогда не обновляются.

В других секторах исследование показало, что возможны даже более низкие проценты обновления, например, менее 1% в банковском и дискретном производстве.

Список литературы

1. Plattner, Hasso. In-Memory Data Management. The Inner Mechanics of In-Memory Databases / Hasso Plattner ; Hasso Plattner Institute, Potsdam, Brandenburg Germany // Springer. - 2013. - 298 р. ISBN 978-3-642-36523-2

2. Маковейчук, К.А., Галлини, Н.И. Визуализация результатов и формирование отчетности учреждения высшего образования с помощью комплексной информационно-справочной системы анализа и мониторинга показателей контингента абитуриентов, обучающихся и преподавателей [Электронный ресурс] / К. А. Маковейчук, Н. И. Галлини. - Журнал "Постулат". - 2016. - № 3. - Режим доступа: e-postulat.ru/index.php/Postulat/article/view/61/64. - 17.01.2017.

3. Маковейчук, К.А., Колодин, В. Р. Построение алгоритма формирования базы данных информационного и контрольно-аналитического обеспечения финансовой стратегии предприятия / К.А. Маковейчук, В.Р. Колодин // В сборнике: Информационные системы в моделировании и управлении: сборник материалов Всероссийской научно-практической конференции. Гуманитарно-педагогическая академия (филиал) ФГАОУ ВО «КФУ им. В.И. Вернадского» в г. Ялте; Санкт-Петербургский государственный электротехнический университет "ЛЭТИ". - Симферополь: ИТ "АРИАЛ", 2016. - 290 с. - С. 214 - 219.

4. Паклин, Н. Б. Бизнес-аналитика: от данных к знаниям: учебное пособие / Н. Б. Паклин, В. И. Орешков. - 2-е изд., испр. - СПб: Питер, 2013. - 704 с.: ил. ISBN 978-5-459-00717-6

5. Спирли, Э. Корпоративные хранилища данных. Планирование, разработка, реализация [Текст] = Enterprise data warehouse. Planning, building, and implementation / Э. Спирли; [Пер. с англ. и ред. В.М. Неумоина]. - М. : Вильямс, 2001. -Т. 1. - Парал. тит. л.: англ. - 396 с.: ил., табл. - Библиогр.: с. 383-386. ISBN 5-8459-0191-X

6. Сухобоков, А. А. Влияние инструментария Big Data на развитие научных дисциплин, связанных с моделированием / А. А. Сухобоков, Д. С. Лахвич // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. - 2015. - № 3. - С. 207-240.

Аннотация

Сравнение сущности транзакционных и аналитических процессов в базах данных. Маковейчук Кристина Александровна, кандидат наук, доцент, заведующий кафедрой. Гуманитарно-педагогическая академия (филиал), Крымский федеральный университет им. В. И. Вернадского, в г. Ялта

На основе обращения к сущности процессов OLTP и OLAP в статье дается ответ на вопрос о необходимости и возможности существования систем, объединяющих оба процесса. Приводятся примеры таких систем и краткая характеристика реализованных в них технологий.

Ключевые слова: параллельные вычисления, данные в памяти, архитектура столбцов, транзакции, аналитика

Размещено на Allbest.ru

...

Подобные документы

  • Скачивание и установка VMware Workstation 12 Player for Windows 64 – bit operating systems. Скачивание и установка HDP 2.3 on Hortonworks Sandbox for VMware. Настройка конфигурационных файлов. Поддержка целостности данных в HDFS. Проверка работы Hadoop.

    лабораторная работа [10,7 M], добавлен 19.09.2019

  • Системы управления базами данных в медицине. Основные идеи, которые лежат в основе концепции базы данных. Требования, предъявляемые к базам данных и системе управления базами данных. Архитектура информационной системы, организованной с помощью базы данных

    реферат [122,5 K], добавлен 11.01.2010

  • Особенности управления информацией в экономике. Понятие и функции системы управления базами данных, использование стандартного реляционного языка запросов. Средства организации баз данных и работа с ними. Системы управления базами данных в экономике.

    контрольная работа [19,9 K], добавлен 16.11.2010

  • Система управления базами данных как составная часть автоматизированного банка данных. Структура и функции системы управления базами данных. Классификация СУБД по способу доступа к базе данных. Язык SQL в системах управления базами данных, СУБД Microsoft.

    реферат [46,4 K], добавлен 01.11.2009

  • Назначение и основные функции системы управления базами данных СУБД, особенности и признаки их классификации. Архитектура баз данных (БД). Разработка распределенных БД. Язык структурированных запросов (SQL). Правила Кодда: требования к реляционным БД.

    курсовая работа [376,2 K], добавлен 21.07.2012

  • Тенденция развития систем управления базами данных. Иерархические и сетевые модели СУБД. Основные требования к распределенной базе данных. Обработка распределенных запросов, межоперабельность. Технология тиражирования данных и многозвенная архитектура.

    реферат [118,3 K], добавлен 29.11.2010

  • Основные классифицирующие признаки системы управления базами данных. Модель данных, вид программы и характер ее использования. Средства программирования для профессиональных разработчиков. Организация центров обработки данных в компьютерных сетях.

    презентация [6,8 K], добавлен 14.10.2013

  • Хранение и обработка данных. Компоненты системы баз данных. Физическая структура данных. Создание таблиц в MS Access. Загрузка данных, запросы к базе данных. Разработка информационной системы с применением системы управления базами данных MS Access.

    курсовая работа [694,0 K], добавлен 17.12.2016

  • Сущность и функциональные особенности баз данных, их классификация и типы, внутренняя структура и элементы. Модели данных, хранящихся в базах: иерархическая, сетевая, реляционная, многомерная, объектно-ориентированная. Виды запросов и типы таблиц.

    дипломная работа [66,7 K], добавлен 06.01.2014

  • Базы данных и системы управления ими. Свойства полей баз данных, их типы и безопасность. Программное обеспечение системы управления базами данных, современные технологии в данной области. Принципы организации данных, лежащие в основе управления.

    курсовая работа [24,6 K], добавлен 11.07.2011

  • Системы управления базами данных: сущность и характеристика. Типы данных и свойства полей СУБД Access. Объекты базы данных: таблицы, схемы данных, формы, запросы, отчеты. Разработка и проектирование базы данных "Продажи книг" в среде Microsoft Access.

    курсовая работа [1,8 M], добавлен 04.02.2013

  • Назначение и область применения программного продукта. Построение ER-диаграммы. Получение наборов отношений. Реализация SQL-запросов в Access. Порядок следования строк и столбцов. Обработка информации в базах данных. Системы управления базами данных.

    курсовая работа [1,2 M], добавлен 19.05.2014

  • Предпосылки появления и история эволюции баз данных (БД и СУБД). Основные типы развития систем управления базами данных. Особенности и черты Access. Создание и ввод данных в ячейки таблицы. Сортировка и фильтрация. Запрос на выборку, основные связи.

    презентация [1,2 M], добавлен 01.12.2015

  • Основные понятия базы данных и систем управления базами данных. Типы данных, с которыми работают базы Microsoft Access. Классификация СУБД и их основные характеристики. Постреляционные базы данных. Тенденции в мире современных информационных систем.

    курсовая работа [46,7 K], добавлен 28.01.2014

  • Теоретические сведения и основные понятия баз данных. Системы управления базами данных: состав, структура, безопасность, режимы работы, объекты. Работа с базами данных в OpenOffice.Org BASE: создание таблиц, связей, запросов с помощью мастера запросов.

    курсовая работа [3,2 M], добавлен 28.04.2011

  • Классификации баз данных по характеру сберегаемой информации, способу хранения данных и структуре их организации. Современные системы управления базами данных и программы для их создания: Microsoft Office Access, Cronos Plus, Base Editor, My SQL.

    презентация [244,3 K], добавлен 03.06.2014

  • Алгоритмы обработки массивов данных. Система управления базами данных. Реляционная модель данных. Представление информации в виде таблицы. Система управления базами данных реляционного типа. Графический многооконный интерфейс.

    контрольная работа [2,8 M], добавлен 07.01.2007

  • Структура, классификация и этапы проектирования баз данных. Системы управления базами данных, их жизненный цикл. Разработка и реализация базы данных в MS Access. Организация входных и выходных данных. Защита данных от внешних угроз. Сведение о программе.

    курсовая работа [558,6 K], добавлен 21.06.2012

  • Реализация приложения "Книжный магазин" средствами систем управления базами данных. Проектирование структуры базы данных, определение сущности и атрибутов. Логическое проектирование базы данных и реализация базы данных в СУБД Microsoft Office Access.

    курсовая работа [7,8 M], добавлен 13.02.2023

  • Основные этапы проектирования базы данных. Access как система управления базами данных (СУБД), ее предназначение, отличительные возможности. Работа с таблицами, их создание и редактирование. Порядок создания запросов. Способы защиты баз данных.

    лабораторная работа [3,1 M], добавлен 18.08.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.