Способы хранения и обработки большого объема данных с использованием MapReduce и Percona Server

Методы обработки больших объемов данных на основе модели распределенных вычислений MapReduce и Percona server - сборкой MySQL, изначально предназначенной и оптимизированной для работы с большими данными. Преимущества данного программного обеспечения.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 28.07.2017
Размер файла 20,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Омский Государственный Технический Университет

Статья

на тему: Способы хранения и обработки большого объема данных с использованием MapReduce и Percona Server

Выполнила:

А.Г. Янишевская

Аннотация

Работа с большими данными подразумевает работу с информацией огромного объема и содержания, быстро обновляемой, находящейся в разных источниках. Задачи работы с большими данными требуются для эффективности работы, применяются для создания новых продуктов и повышения конкурентоспособности. В данной статье рассмотрены следующие методы работы с большими объемами данных:

MapReduce - разработка компании Google в области моделей распределенных вычислений. Используется самой компанией для параллельных вычислений над большими наборами данных;

Percona server -- сборкой MySQL изначально предназначенной и оптимизированной для работы с большими данными.

Ключевые слова: Большие данные, параллельные вычисления, map, reduce, mapreduce, percona server.

Под большими данными (Big data) в информационных технологиях понимается серия подходов, а также инструментов и методов, обработки структурированных и неструктурированных данных огромных объемов для получения из них воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети. Первые методы работы с большими данными были сформированы в конце 2000-х годов и стали альтернативой традиционным системам управления базами данных и решениями класса Business Intelligence. В данную серию включат, прежде всего, такие средства массово-параллельной обработки неопределенно структурированных данных как решения категории NoSQL, а так же алгоритмы MapReduce и программные каркасы и библиотеки проекта Hadoop.

В качестве основных характеристик при работе с большими данными отмечают “три V”: объём (volume), скорость (Velocity, скорость прироста, скорость обработки и получения результатов), многообразие (Variety, возможность одновременной обработки различных типов данных).

Основными источниками больших данных можно назвать:

1. данные измерительных устройств и приборов, поступающие непрерывно;

2. потоки данных из социальных сетей;

3. данные метеорологических служб;

4. данные о местонахождения абонентов сотовой связи.

Благодаря развитию и широкому распространению этих источников ожидается проникновение технологий больших данных, как в научно-исследовательскую сферу, так и в коммерческий сектор и в сферу государственного управления.

Обработка больших объемов данных зачастую становится самой трудной и самой проблемной областью в создании крупных агрегационных сервисов. Это привело к созданию довольно эффективных способов решения проблемы.

Подробнее остановимся на двух наиболее распространенных решениях: модель распределенных вычислений MapReduce и Percona server - сборкой MySQL изначально предназначенной и оптимизированной для работы с большими данными.

MapReduce.

MapReduce -- модель распределённых вычислений, представленная компанией Google, используется компанией в компьютерных кластерах для параллельных вычислений над очень большими, даже несколько петабайт, наборами данных.

MapReduce -- это фреймворк для работы с набором распределенных задач, использующий большое количество компьютеров (называемых «нодами»), образующих структуру кластера.

Работа фреймворка состоит из двух шагов:

1. Map-шаг. Происходит предварительная обработка входных данных. Компьютер - главный узел (master node) получает входные данные. Происходит разделение исходного набора данных на части и передача другим компьютерам - рабочим узлам (worker node) для предварительной обработки. Название шаг берет от одноименной функции высшего порядка;

2. Reduce-шаг. Шаг заключается в свертке обработанных данных. От рабочих узлов в главный узел поступают отчеты и на их основе формируется результат - решение изначальной задачи.

Преимущество MapReduce заключается в возможности распределенно производить операции предварительной обработки и свертки. Операции предварительной обработки могут производиться параллельно так, как работают независимо друг от друга. Однако, процесс может быть менее эффективным по сравнению с более последовательными алгоритмами, так как целью алгоритма MapReduce является применение его к большим объёмам данных, которые могут обрабатываться большим количеством серверов.

Тем не менее, MapReduce может быть использован для сортировки огромного количества данных, и требует лишь несколько часов даже на объемы порядка петебайта данных. Также параллелизм предоставляет возможности восстановления после частичных сбоев: если возникает сбой в рабочем узле, то его работа может быть передана другому рабочему узлу.

Таким образом, хотя фактически семантика отличается от прототипа, в основе фреймворка лежат функции мар и reduce, широко применяемые в функциональном программировании.

Percona server.

Percona server -- это сборка MySQL от российской команды под руководством Петра Зайцева -- эксперта по производительности MySQL, бывшего руководителем группы High Perfomance в MySQL Inc и ведущего блог MySQLPerformanceBlog.com.

Этой сборке по умолчанию включен XtraDB storage engine, который отличается от MySQL+InnoDB plugin. Ключевыми показателями является лучшая производительность/масштабируемость, особенно на современных многоядерных серверах. mapreduce percona server данные

Также улучшена функциональность -- добавлено много полезной для оптимизации статистики. Percona server собирается наверсиях MySQL 5.0 и 5.1. Сервер полностью совместим с таблицами innodb, что означает возможность перехода от innodb к xtradb и обратно без проблем, за исключением случаев, когда используются некоторые харрактерные только для xtradb функции.

Хранилище XtraDB основано на InnoDB-plugin и полностью совместимо с ним, однако, отличается более высокой производительностью, благодаря интеграции патчей от компаний Google и Percona, а именно:

1. улучшена работа с памятью;

2. изменена подсистема ввода/вывода;

3. расширены возможности по масштабированию для больших проектов;

4. система организации блокировок адаптирована для работы на системах с большим числом CPU;

5. реализованы дополнительные возможности для накопления и анализа статистик;

6. добавлен ряд новых возможностей: поддержка нескольких потоков чтения и записи, управление пропускной способностью, упреждающая выборка данных (read-ahead), адаптивная установка контрольных точек (adaptive checkpointing).

Литература

MapReduce: Simplified Data Processing on Large Clusters /Jeffrey D., Sanjay G. //COMMUNICATIONS OF THE ACM January 2008/Vol. 51, No. 1 13 p.

Percona // Percona Server 5.6 - Documentation -- 2014.

Натальченко И.А. Анализ механизмов передачи крупных массивов данных через сеть интернет с помощью технологии веб-сервиса // Инженерный вестник Дона, 2015, №2 URL: ivdon.ru/ru/magazine/archive/n4y2008/98.

Шарапов Р.В. Аппаратные средства хранения больших объёмов данных // Инженерный вестник Дона, 2015, №2.

Pete Warden Big Data Glossary. O'Reilly, 2011. 62 p.

Виктор Майер-Шенбергер, Кеннет Кукьер Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим. Манн, Иванов и Фербер, 2014. 240 с.

Karan Dabhade Big Data Overview. LAP Lambert Academic Publishing, 2015. 52 p.

Michael Gage A Stand-Alone Methodology for Data Exploration. LAP Lambert Academic Publishing, 2013. 116 p.

John R. Talburt, Yinle Zhou Entity Information Life Cycle for Big Data. Elsevier / Morgan Kaufmann, 2015. 254 p.

Чарльз Белл, Мэтс Киндал, Ларс Талманн Обеспечение высокой доступности систем на основе MySQL. БХВ-Петербург, Русская Редакция 2011. 624 с.

References

1. MapReduce: Simplified Data Processing on Large Clusters. Jeffrey D., Sanjay G. COMMUNICATIONS OF THE ACM January 2008/Vol. 51, No. , 13p.

2. Percona. Percona Server 5.6 - Documentation. 2014. URL: percona.com/software/documentation/5.6/

3. Natalchenko I.A. Inћenernyj vestnik Dona (Rus), 2015, №2.

4. Sharapov R.V. Inћenernyj vestnik Dona (Rus), 2015, №2.

5. Pete Warden Big Data Glossary. O'Reilly, 2011. 62 p.

6. Viktor Mayer-Shenberger, Kennet Bolshie Dannie. Revoluciya, kotoraya izmenit to, kak mi jivem, rabotayem i mislim. [ Big Data: Revolution That Will Transform How We Live, Work, and Think] Mann, Ivanov I (Rus), 2014. 240 p.

7. Karan Dabhade Big Data Overview. LAP Lambert Academic Publishing, 2015. 52 p.

8. Michael Gage A Stand-Alone Methodology for Data Exploration. LAP Lambert Academic Publishing, 2013. 116 p.

9. John R. Talburt, Yinle Zhou Entity Information Life Cycle for Big Data. Elsevier. Morgan Kaufmann, 2015. 254 p.

10. Charlz Bell, Mets Kindal, Lars Obespechenie visokoy dostupnosty sistem na osnove MySQL. BHV-Peterburg (Rus), 2011. 624 p.

Размещено на Allbest.ru

...

Подобные документы

  • Реляционная система управления базой данных Microsoft SQL Server архитектуры клиент-сервер. Тиражирование данных, параллельная обработка, поддержка больших баз данных. Определение маршрута движения документов в СЭД "Directum" и "Евфрат-документооборот".

    контрольная работа [21,2 K], добавлен 17.10.2009

  • Хранилище данных, принципы организации. Процессы работы с данными. OLAP-структура, технические аспекты многомерного хранения данных. Integration Services, заполнение хранилищ и витрин данных. Возможности систем с использованием технологий Microsoft.

    курсовая работа [1,0 M], добавлен 05.12.2012

  • Программные продукты, используемые при проектировании базы данных. Разработка базы данных "Библиотека" с использование программного проекта Microsoft SQL Server. Создание таблиц, триггеров, пользователей, репликации, запросов, функций, процедур.

    курсовая работа [897,6 K], добавлен 21.11.2011

  • Общие сведения о безопасности, угрозы и уязвимости MS SQL Server. Предопределенные роли базы данных. Изучение компонента резервного копирования и восстановления. Иерархия средств шифрования. Служба хранилищ больших двоичных объектов Windows Azure.

    курсовая работа [425,2 K], добавлен 03.03.2014

  • Установка "Microsoft SQL SERVER 2012". Создание файла данных, журнала транзакций, таблиц, запросов и фильтров, диаграмм и триггеров, табличных форм и отчетов. Подключение файла данных к проекту. Создание простых и сложных ленточных форм для работы с ними.

    курсовая работа [1,9 M], добавлен 13.12.2013

  • Преимущества распределенных система обработки данных. Классификация интегрированных технологий. Модели реализации технологии "клиент-сервер". Мониторы обработки транзакций. Глобальные вычислительные и информационные сети. Виды доступа к глобальным сетям.

    презентация [2,1 M], добавлен 20.11.2013

  • Создание автоматизированной системы для упрощения работы с данными, расчётами и отчётами, анализа и хранения поступающих в лабораторию хроматографических исследований данных. Функциональные требования к системе. Проектирование программного обеспечения.

    курсовая работа [1,9 M], добавлен 23.01.2013

  • Основные сведения об SQL Server. Логическая структура реляционной базы данных. Создание базы данных Server. Обработка элементов оператора SELECT. Структура таблиц inserted и deleted. Ввод данных в таблицу "Клиенты". Краткая справка по языку запросов SQL.

    курсовая работа [2,9 M], добавлен 11.05.2012

  • Управление службами SQL Server 2000. Настройка данного приложения. Использование SQL Server Enterprise Manager для запуска и остановки служб. Применение инструментов Windows. Учетные записи служб SQL Server 2000, консоль, интерфейс и утилиты Osql.

    презентация [200,9 K], добавлен 10.11.2013

  • Общая характеристика, функциональность и возможности SQL Server 2000. Поддержка связи между данными в базе. Восстановление данных после аварии системы, зафиксированных до сбоя. Развитие интегрированной среды разработки и ряда дополнительных подсистем.

    курсовая работа [91,6 K], добавлен 07.12.2010

  • Программные средства, которые помогают манипулировать и управлять данными. Приемы создания и редактирования баз данных в СУБД MySQL. Способы и средства доступа и манипулирования данными. Создание, удаление, редактирование таблиц данных и их элементов.

    практическая работа [1,2 M], добавлен 14.03.2013

  • Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел

    курсовая работа [29,2 K], добавлен 09.02.2011

  • Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.

    дипломная работа [3,9 M], добавлен 06.03.2013

  • Агентно-ориентированная программная архитектура систем обработки потоковых данных. Обеспечение гибкости и живучести программного обеспечения распределенных информационно-управляющих систем. Спецификации программных комплексов распределенной обработки.

    реферат [1,1 M], добавлен 28.11.2015

  • Проектирование базы данных для автоматизации работы салона художественной татуировки в среде разработки Delphi 7 с использование сервера баз данных Microsoft SQL Server 2008 R2. Схема алгоритма системы. Протокол тестирования программного продукта.

    курсовая работа [539,3 K], добавлен 15.02.2017

  • Мобильная платформа OpenVPN/OpenVPN Connect, каналы управления и передачи данных. Рассмотрение закрытых исходников Access Server. Преимущества и недостатки VPN на основе SSL, исследование алгоритмов шифрования и хеширования. OpenSSL против PolarSSL.

    курсовая работа [879,4 K], добавлен 05.05.2023

  • Разработка программного обеспечения для автоматизации доступа, обработки, вывода информации об услугах автосервиса и его клиентах с использованием языка программирования С# и MySQL. Проектирование интерфейсов системы. Схема алгоритма работы программы.

    курсовая работа [665,6 K], добавлен 02.04.2015

  • Выбор методологии проектирования и системы управления базами данных. Описание предметной области и проектирование физической структуры базы данных. Реализация проекта в MS SQL Server 2008. Построение инфологической модели. Ограничения целостности связи.

    курсовая работа [679,2 K], добавлен 22.01.2013

  • Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.

    лекция [169,7 K], добавлен 19.08.2013

  • Особенности технологий создания и работы с базами данных. Реализация структуры базы данных в MS Visio и MS SQL Server. Виды манипуляций над данными, создание сложных запросов. Суть и характеристика прав пользователей, разработка клиентских приложений.

    учебное пособие [2,2 M], добавлен 16.05.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.