Огляд екосистеми Hadoop

Розгляд розподіленої файлової системи для роботи з великими обсягами даних Hadoop та спеціальних інструментів, що інтегруються разом з нею для вирішення різноманітних дослідницьких задач. Основні технології та елементи програмної платформи Hadoop.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 07.04.2018
Размер файла 17,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 004.4

Огляд екосистеми Hadoop

Бугайов Олександр Сергійович,

студент Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського»

Анотація

Розглянута програмна платформа для роботи з великими обсягами даних Hadoop та технології для інтеграції з нею, що використовуються для вирішення різноманітних дослідницьких задач.

Ключові слова: Big Data, Hadoop, дані.

Аннотация

Обзор экосистемы Hadoop.

Бугаев Александр Сергеевич, студент Национального технического университета Украины «Киевский политехнический институт имени Игоря Сикорского».

Рассмотрена программная платформа для работы с большими объемами данных Hadoop и технологии для интеграции с ней, которые используются для решения различных исследовательских задач.

Ключевые слова: Big Data, Hadoop, данные.

Summary

Hadoop ecosystem rewiew.

Buhaiov Oleksandr, student of the National technical university of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute».

Program platform for work with Big Data - Hadoop is reviewed with technologies for integration with it, which can be applied for resolving different research tasks.

Key words: Big Data, Hadoop, data.

Вступ

Оскільки різноманітність і обсяг даних, накопичених компаніями, продовжує зростати значними темпами, то також зростає і популярність Hadoop. Це обумовлено тим, що ця платформа дає змогу зберігати та обробляти величезні обсяги неструктурованих даних через не надто вартісне обладнання.

Основи Hadoop

Існує дві першочергові речі, які потрібно знати про Hadoop. По-перше, розподілена файлова система Hadoop (HDFS) дозволяє зберігати файли надвеликого об'єму - таблиці з мільярдами записів, що розміщуються на десятках (а в деяких випадках - тисячах) дешевих серверах. До того ж, він може бути використаний безліч різноманітних файлів таким самим чином. Це пояснює, чому HDFS використовують компанії, що працюють з найбільшими у світі наборами даних - Facebook, Google, IBM. По-друге, парадигма MapReduce - це алгоритм Hadoop обробки та аналізу великих об'ємів даних, якими керує HDFS. MapReduce перевертає традиційний принцип аналізу даних. Замість того щоб збирати дані з десятків чи сотень серверів та передавати їх через мережу, MapReduce переміщає програмне забезпечення до даних, виконуючи певні обчислення паралельно. Ці два компонента разом зробили Hadoop одним з найпоширеніших інструментів для BigData, що використовують як великі компанії так і стартапи. Популярність Hadoop обумовлена наявність великої кількості ПЗ, яке допомагає значно розширити базові можливості Hadoop, та утворює цілу екосистему навколо нього.

Вдосконалення MapReduce

Базова парадигма MapReduce - потужний інструмент для аналізу великих обсягів даних, але він має певні недоліки, найголовніший з яких - це інструмент низького рівня, тому він вимагає написання великої кількості коду для виконання стандартних задач. Це обумовило створення деяких мов обробки даних, що компілюються у MapReduce. Серед них:

• Hive - розробка Facebook, створений з метою додати до неструктурованого Hadoop SQL-подібні можливості. Головною перевагою є те, що він дозволяє розробникам виконувати ad-hoc запити без знання того, як влаштований MapReduce. Hive написаний на HiveQL, що базується на SQL. Таким чином, якщо набір даних містить багато структурованих табличних даних - Hive буде доречним.

• Pig - розробка Yahoo, інструмент для інженерів, що потребують глибокого аналізу та контролю для їх процесів обробки даних. Ця платформа використовує процедурну мову, Pig Latin, що дозволяє інженерам визначати потік даних на кожному кроці. Звідси одна з переваг Pig - простота відлагодження. Також, оскільки Pig базується на мові більш високого рівня, вона включає набір вбудованих функцій, що дозволяють інженерам керувати даними та проводити базовий аналіз, не потребуючи написання програм MapReduce.

• Crunch - бібліотека для Java, створена Apache, дозволяє розробникам зі знаннями Java використовувати потужні та ефективні інструменти для написання застосунків з MapReduce.

файловий hadoop дослідницький програмний

NoSQL можливості

Стандартні засоби Hadoop підходять для оффлайн та пакетної обробки «холодних» даних (тих, що не використовуються, історичних). При роботі з даними, доступ до яких відбувається в момент роботи, виникає потреба у більш продуктивних інструментах. Для цього використовується Cassandra - розподілена NoSQL база даних. При цьому для роботи з цією БД використовується структурована мова схожа на SQL. В результаті отримана система має високу продуктивність та майже постійні показники доступності даних, що робить її системою для мобільних та веб-застосунків, що використовують опитування в реальному часі. Інша значна перевага Cassandra - майже лінійне масштабування. Зі збільшенням обсягів даних додаються нові вузли до кластера.

Аналітика та Машинне навчання

Для організацій, що навантажені великим обсягом даних та потребують проведення просунутого аналізу над цими даними, також є кілька інструментів, що інтегруються разом з Hadoop:

• Milb - бібліотека Spark, що має підтримку таких операцій як кластеризація, регресія, класифікація, спільна фільтрація та розмірнісна редукція.

• Mahout - бібліотека алгоритмів для машинного навчання, що розроблена спеціально для роботи над Hadoop. Це добре задокументована бібліотека, що дозволяє інженеру швидко та ефективно аналізувати дані та знаходити паттерни.

Збір та розміщення даних

Hadoop може використовуватись також з великими обсягами даних, що постійно збільшуються. Для того, щоб скерувати потік нових даних до сховища можна використовувати спеціальні інструменти:

• Flume - використовує систему «агентів» щоб зібрати та скерувати дані в HDFS або іншу систему, що використовується. Ці агенти налаштовуються на очікування певних подій, які вони захоплять на направлять у відповідні канали для запису в сховище.

• Sqoop - інструмент що створений для роботи саме з Hadoop, який переміщує дані між HDFS та реля- ційними базами даних.

Висновок

Таким чином, Hadoop - це комплексне рішення для роботи з великими обсягами даних, функціонал якого може бути розширений з використанням наявних для інтеграції технологій.

Література

1. Keenan T. Get to Know the Hadoop Ecosystem [Електронний ресурс] / Tyler Keenan / UpWork - Режим доступу до ресурсу: https://www.upwork.com/hiring/data/get-to-know-hadoop-ecosystem/.

2. Who uses Hadoop [Електронний ресурс] / Apache - Режим доступу до ресурсу: https://wiki.apache.org/hadoop/Pow- eredBy.

3. Apache Hadoop [Електронний ресурс] / Wikipedia. - 2017. - Режим доступу до ресурсу: https://en.wikipedia.org/wiki/ Apache_Hadoop.

Размещено на Allbest.ru

...

Подобные документы

  • Скачивание и установка VMware Workstation 12 Player for Windows 64 – bit operating systems. Скачивание и установка HDP 2.3 on Hortonworks Sandbox for VMware. Настройка конфигурационных файлов. Поддержка целостности данных в HDFS. Проверка работы Hadoop.

    лабораторная работа [10,7 M], добавлен 19.09.2019

  • Проектування розподіленої інформаційної системи із використанням технології MIDAS. Методика створення сервера прикладень за технологією MIDAS. Віддалений модуль даних - основна частина сервера прикладень. Методика створення клієнтського прикладення.

    лабораторная работа [582,2 K], добавлен 08.06.2009

  • Вміння та навички роботи з об’єктами файлової системи. Перевірка вміння учнів працювати з об’єктами файлової системи. Шкідливі комп’ютерні програми за рівнем небезпечності дій. Зменшення об'єму інформації – поняття про архівування та стиснення даних.

    конспект урока [13,7 K], добавлен 03.01.2010

  • Android, iOS та Windows як основні платформи для розробки додатків для мобільних пристроїв. Перелік вимог до програмної системи. Основні вимоги, які є критичними для працездатності мобільного додатку. Аналіз основних напрямків розвитку системи.

    курсовая работа [1,1 M], добавлен 19.08.2016

  • Виявлення основних сутностей предметної області. Побудова схеми реляційної бази даних. Вбудовані процедури і тригери. Опис архітектури програмної системи і концептуальної моделі бази даних, програмної реалізації та інтерфейсу користувача додатку.

    курсовая работа [4,3 M], добавлен 05.12.2012

  • Особливості системи онлайн-агрегаторів новин, універсальної програмної платформи Microsoft Window. Використання мови програмування C#, створення бази даних. Розробка програмного продукту, алгоритм його створення. Вихідний код та інструкція користувача.

    дипломная работа [730,9 K], добавлен 21.01.2016

  • Переваги технології асинхронного обміну даних (AJAX), огляд створених на її основі Інтернет-проектів. Алгоритм роботи веб-ресурсу, що надає можливість обміну повідомленнями між користувачами за допомогою AJAX-технології. Програмна реалізація веб-додатку.

    дипломная работа [398,3 K], добавлен 18.12.2013

  • Функції інформаційної системи. Аналіз функцій системи управління базами даних: управління транзакціями і паралельним доступом, підтримка цілісності даних. Аналіз системи MySQL. Елементи персонального комп’ютера: монітор, клавіатура, материнська плата.

    дипломная работа [1,2 M], добавлен 15.05.2012

  • Розробка бази даних для автоматизації облікової інформації в системі управління базами даних Access з метою полегшення роботи з великими масивами даних, які існують на складах. Обґрунтування вибору системи управління. Алгоритм та лістинг програми.

    курсовая работа [550,9 K], добавлен 04.12.2009

  • Коротка історія розвитку об'єктно-реляційної СУБД - PostgreSQL. Проект POSTGRES департаменту Берклі. Основні концепції роботи з PostgreSQL: створення таблиць, внесення даних у таблицю та їх редагування. Основні елементи мови PLpgSQL, її структура.

    курсовая работа [1,0 M], добавлен 06.08.2013

  • Історія розвитку мови Java, основні технології та їх застосування для роботи з SQL-серверами. Огляд багатопоточного програмування в Java. Принципи функціонування сервлетів та JSP-сторінок. Зміна розміру графічних об’єктів, робота з кольорами в Java.

    курсовая работа [49,3 K], добавлен 29.03.2010

  • Створення програми для роботи з файловою системою. Ступінь деталізації файлу. Структура файлової системи. Таблиця розміщення файлів. Розподіл пам'яті в FAT для типового диска MS DOS. Відповідність між FAT й областю файлів даних. Корневий каталог.

    дипломная работа [32,6 K], добавлен 24.03.2009

  • Набори структур даних, використовуваних для управління файлами. Права доступу до файлу. Монітор файлової системи Process Monitor. Управління аудитом в ОС Windows та в ОС Linux. Доступ до служби каталогів. Практичне застосування Process Monitor.

    курсовая работа [695,9 K], добавлен 09.01.2014

  • Характеристики вузлів системи автоматичного закривання жалюзі. Розробка схеми електричної функціональної. Блок-схема алгоритму роботи пристрою. Середовище розробки програмної частини пристрою. Основні компоненти розробки програмної частини системи.

    курсовая работа [1,0 M], добавлен 06.12.2014

  • Створення оригінальної розподіленої інформаційної системи на основі технології SOAP. Надана архітектура клієнт-серверної взаємодії: клієнтське прикладення споживає Web-сервіс з Internet, а отримані об'єктні методи звертаються до віддалених даних на Web.

    лабораторная работа [556,0 K], добавлен 08.06.2009

  • Розгляд основ сучасної технології підготовки та рішення на електронних обчислювальних машинах розрахункових задач військового та прикладного характеру. Побудова блок схеми, програмної реалізації алгоритму сортування. Оцінка трудомісткості сортування.

    курсовая работа [301,5 K], добавлен 08.07.2015

  • Вибір методів та засобів створення інформаційної системи для обліку і перегляду продукції на складі. Розробка моделі даних для реляційної бази даних, прикладного програмного забезпечення. Тестування програмного додатку, виявлення можливих проблем.

    курсовая работа [1,1 M], добавлен 22.09.2015

  • Вибір технології для створення системи управління контентом. Можливості платформи Node.JS. Опис framework Express, який використовується для створення каркасу додатку. База даних MongoDB. Опис компонентів і проектних рішень. Взаємодія клієнта та сервера.

    курсовая работа [5,2 M], добавлен 29.11.2013

  • Еволюція GPU та поява GPGPU. OpenCL – відкритий стандарт для паралельного програмування гетерогенних систем. Сутність та особливості технології Nvidia CUDA. Програмно-апаратна платформа CUDA. Програмування за допомогою CUDA SDK. Огляд архітектури Fermi.

    курсовая работа [3,0 M], добавлен 09.06.2012

  • Аналіз задач, які вирішуються з використанням інформаційної системи. Вибір серверного вирішення, клієнтської частини, мережного вирішення, системного програмного забезпечення. Розробка підсистеми діагностики, керування, забезпечення безпеки даних.

    курсовая работа [1,5 M], добавлен 22.04.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.