Анализ и установка платформы для распределённой обработки больших данных "Apache Hadoop"
Исследование платформы для распределённой обработки больших данных "Apache Hadoop". Описание алгоритма её установки и настройки. Оценка возможности использования "Apache Hadoop" для обработки огромного количества ежеминутно поступающей информации.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 11.10.2024 |
Размер файла | 3,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Анализ и установка платформы для распределённой обработки больших данных «Apache Hadoop»
Мельников Д.С.
студент, высшая школа информационных технологий и автоматизированных систем Северный (Арктический) Федеральный Университет имени М.В. Ломоносова (г. Архангельск, России)
Аннотация
в статье проанализированы возможности платформы для распределённой обработки больших данных «Apache Hadoop», а также проведана её установка и настройка.
Ключевые слова: большие данные, обработка и хранение данных.
Melnikov D.S.
Northern (Arctic) Federal University named after M.V. Lomonosov
(Arkhangelsk, Russia)
ANALYSIS AND INSTALLATION OF THE APACHE HADOOP PLATFORM FOR DISTRIBUTED BIG DATA PROCESSING
the article analyzes the capabilities of the Apache Hadoop platform for distributed big data processing, as well as its installation and configuration.
Keywords: big data, data processing storage.
Работа в сфере аналитики данных часто связана с обработкой большого объёма информации. Такими сферами, например является следующий список:
1) Банковская - для обработки данных о клиентах и автоматического подборка лучших для клиентов предложениях
2) Здравоохранение - для обработки данных о пациентах, вывода статистки, составления прогнозов эпидемий и пандемий.
3) Розничная торговля - для отслеживания роста и падения цен.
4) Обучение нейронных сетей.
5) И так далее
На обработку огромного количества ежеминутно поступающей информации одному устройству понадобится большой промежуток времени. Именно для этих целей в 2005 году был разработан «Apache Hadoop» (далее Hadoop). Hadoop является экосистемой с открытым кодом и состоит из несколько приложений позволяющим быстро обрабатывать и удобно работать с большими данными. Стоит ответить, что установка и настройка Hadoop это сложный и времязатратный процесс. Это вкупе с необходимостью искать или дописывать необходимые для отдельных задач скрипты отталкивают пользователей от использования данного продукта.
Для того чтобы начать установку необходимо создать виртуальную машину на базе операционной системы (далее ОС) «Linux». Для данного исследования был выбран дистрибутив ОС «Linux» «Linux Mint». Для создания виртуальной машины был использован «Oracle VM VirtualBox». Было выделено 32 гигабайта на жёстком диске, 4 гигабайта ОЗУ и 2 ядра процессора.
После создания виртуальной машины необходимо открыть консоль и прописать команды, представленные на рисунке 1.
Рис. 1. Процесс скачивания и разархивирования «Hadoop»
Далее откроем файл «set_vars.sh» и отредактируем его с помощью редактора «nano». Список внесённых изменений представлен на рисунке 2.
Рис. 2. Внесённые изменения в файл «set_vars.sh»
Далее создадим исполняющие файлы для запуска и остановки «Hadoop». С ними можно ознакомиться на рисунках 3 и 4.
Рис. 3. Запуск «Hadoop»
Рис. 4. Остановка «Hadoop»
Последним действием будет запуск «Hadoop». Если всё успешно запустилось, то в консоли будет отражена информация, представленная на рисунке 5.
Рис. 5. Успешный запуск «Hadoop»
В заключении можно сказать, что «Hadoop» достаточно сложно устанавливать и настраивать. В процессе установки несколько раз появлялась критические ошибки, информацию о исправлении которых было крайне сложно найти. Но после устранения всех ошибок и предварительной настройки, получилось запустить экосистему, с которой можно дальше работать.
Список литературы
apache hadoop платформа для обработки больших данных
1. Из чего состоит Hadoop: концептуальная архитектура [Электронный ресурс]. URL: https://bigdataschool.ru/wiki/hadoop (дата обращения: 22.08.2023)
2. Hadoop [Электронный ресурс]. URL: https://hadoop.apache.org/docs/stable/ (дата обращения: 22.08.2023)
Размещено на Allbest.ru
...Подобные документы
Скачивание и установка VMware Workstation 12 Player for Windows 64 – bit operating systems. Скачивание и установка HDP 2.3 on Hortonworks Sandbox for VMware. Настройка конфигурационных файлов. Поддержка целостности данных в HDFS. Проверка работы Hadoop.
лабораторная работа [10,7 M], добавлен 19.09.2019Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел
курсовая работа [29,2 K], добавлен 09.02.2011Установка и настройка локального web–сервера и его компонентов. Конфигурационные файлы сервера Apache и их натройка. Настройка PHP, MySQL и Sendmail. Проверка работоспособности виртуальных серверов. Создание виртуальных хостов. Тест Server Side Includes.
учебное пособие [6,2 M], добавлен 27.04.2009Функції прикладних програм керування контентом. Apache HTTP-сервер та його архітектура. Файл .htacces та фреймворк Bootstrap. Розробка системи управління контенту, її реалізація на сервері Apache. Пояснення принципу роботи CMS та контрольні приклади.
курсовая работа [1,1 M], добавлен 11.04.2015Компоненты вычислительной системы, предоставляющие клиенту доступ к определенным ресурсам и обмен информацией. Функциональные возможности ядра веб-сервера Apache. Механизм авторизации пользователей для доступа к директории на основе HTTP-аутентификации.
курсовая работа [105,6 K], добавлен 07.06.2014Опис механізмів передачі даних між сторінками. Розробка доступного та зручного інтерфейсу веб-сайту компанії "Artput" для відвідувачів сайту і для адміністратора. Установка Apache 1.3.29 та PHP 4.3.4 під Windows XP. Структура веб-сервера та веб-сайту.
дипломная работа [5,0 M], добавлен 24.09.2012Описание платформы Deductor, ее назначение. Организационная структура аналитической платформы Deductor, состав модулей. Принципы работы программы, импорт и экспорт данных. Визуализация информации, сценарная последовательность и мастер обработки.
курсовая работа [3,7 M], добавлен 19.04.2014Разработка программного продукта, позволяющего автоматизировать деятельность предприятия. Автоматизация ввода и обработки больших объемов информации. Формирование выходной документации. Установка системы и порядок работы с дистрибутивом. Обзор алгоритма.
курсовая работа [3,6 M], добавлен 18.02.2013Структура автомата для сбора данных. Программы, реализующие заданный пользователем алгоритм автоматизации процедуры обработки журнальных данных. Описание микропроцессорной системы, ее упрощенная модель, система команд, блок-схема алгоритма обработки.
контрольная работа [65,8 K], добавлен 14.11.2010Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.
реферат [22,5 K], добавлен 05.02.2011Изучение особенностей информационного процесса обработки данных. Процессы, связанные с поиском, хранением, передачей, обработкой и использованием информации. Основные режимы обработки данных на ЭВМ. Организация обслуживания вычислительных задач.
реферат [130,9 K], добавлен 28.09.2014Аналитический обзор видеосистем с элементами интеллектуальной обработки видеоконтента: FaceInspector, VideoInspector Xpress. Разработка алгоритма организации вычислительных средств комплекса, в структуру поэтапного решения задачи анализа видеообъекта.
дипломная работа [3,4 M], добавлен 14.06.2012Режимы компьютерной обработки данных. Централизованный, децентрализованный, распределенный и интегрированный способы обработки данных. Средства обработки информации. Типы ведения диалога, пользовательский интерфейс. Табличный процессор MS Excel.
курсовая работа [256,9 K], добавлен 25.04.2013Рассмотрение общей характеристики данных. Исследование особенностей и назначения линейных, табличных и иерархических структур данных, анализ процесса их упорядочения. Рассмотрение основных режимов обработки данных. Описание алгоритма решения задачи.
реферат [27,4 K], добавлен 20.04.2019Разработка программы на языке Си++ и осуществление постановки и выбора алгоритмов решения задач обработки экономической информации, создание и редактирование базы данных, сортировка записей по определенному запросу, анализ эффективности обработки данных.
контрольная работа [316,8 K], добавлен 28.08.2012Основные возможности программных комплексов "АРМ-Клиент", "Астрал-Отчет". Технология обработки информации в системе электронной обработки данных. Разработка рабочего места налогового инспектора, предназначенного для автоматизации заполнения деклараций.
дипломная работа [285,3 K], добавлен 12.04.2013Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.
дипломная работа [3,9 M], добавлен 06.03.2013Изучение применяемых в программировании и информатике структур данных, их спецификации и реализации, алгоритмов обработки данных и анализ этих алгоритмов. Программа определения среднего значения для увеличивающегося количества чисел заданного типа.
контрольная работа [16,0 K], добавлен 19.03.2015Возможности Matlab, выполнении математических и логических операций, интерактивные инструменты построения графиков. Конструкции для обработки и анализа больших наборов данных, программные и отладочные инструменты, оптимизация данных, операций и функций.
статья [170,5 K], добавлен 01.05.2010Робота з програмами FTP та Mail, їх порівняльна характеристика, оцінка переваг та недоліків, функції та можливості. Конфігурування http-серверу Apache, їхнє настроювання. Редагування файлу httpd.conf, файлу srm.conf, та access.conf, сервера inetd.
реферат [24,1 K], добавлен 26.04.2011