Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Рассмотрение и анализ наиболее успешных it решений в области мониторинга больших данных (BIG DATA). Выбор IT решения и его обоснование

Рассмотрение и анализ наиболее успешных it решений в области мониторинга больших данных (BIG DATA). Выбор IT решения и его обоснование

Анализ наиболее успешных IT решений в области мониторинга больших данных (big data) и осуществление выбора IT решения, его обоснование. Рассмотрение и анализ продуктов Microsoft Azure HDInsight, IBM InfoSphere Streams, платформы Amazon Kinesis Streams.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	17.08.2018
Размер файла	28,3 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Электронный научно-практический журнал «МОЛОДЕЖНЫЙ НАУЧНЫЙ ВЕСТНИК» ^{АВГУСТ 2017}
ТЕХНИЧЕСКИЕ НАУКИ

Размещено на http://www.allbest.ru//

Национальный исследовательский технологический университет «МИСиС»

Рассмотрение и анализ наиболее успешных it решений в области мониторинга больших данных (BIG DATA). Выбор IT решения и его обоснование

Бухлина Д.Д.

Мусатов В.В.

Сегодня в мире происходит процесс всеобщей информатизации. На данный момент времени рассмотрение и анализ наиболее успешных IT решений в области мониторинга больших данных (big data) и выбор наилучшего IT решение является ведущим направлением для бизнесаналитиков в связи с их работой по принятию мер, направленных на повышение эффективности работы компаний. В данной статье был выполнен анализ и выбор наилучшего IT решение из трёх наиболее удачных в рассматриваемой предметной области. Отобраны критерии для анализа IT решений, составлена сравнительная характеристика успешных IT решений, осуществлён и обоснован выбор наилучшего решения.

Ключевые слова:большие данные (big data), кластер, сервер, программное обеспечение, IT. решение, внедрение.

CONSIDERATION AND ANALYSIS OF THE MOST SUCCESSFUL IT SOLUTIONS IN THE FIELD OF MONITORING OF BIG DATA. THE CHOICE OF IT SOLUTIONS AND ITS RATIONALE

Bukhlina D.D., Musatov V.V.

Today there is a process of universal informatization in the world. Now the analysis and selection of the best IT solutions in the field of monitoring big data is a leading area for business analysts regarding their work to take measures aimed at improving the efficiency of companies. This article made the analysis and selection of the best IT solution from the three most successful solutions in the subject domain. Criteria for the analysis of solutions, a comparative characteristic of successful IT solutions, and the choice of the best solution are considered.

Keywords: big data, cluster, server, software, IT solutions, implementation.

Введение

Данная работа посвящена рассмотрению и анализу наиболее успешных IT решений в области мониторинга больших данных (big data) и осуществлению выбора IT решения и также его обоснованию. Сегодня рассмотрение и анализ наиболее успешных IT решений в области мониторинга больших данных (big data) и осуществление выбора самого удачного IT решения является одним из ведущих направлений для бизнес-аналитиков в связи с их работой по принятию мер, направленных на повышение эффективности работы компаний.

Рассмотрение и анализ наиболее успешных проектов в IT сфере и выбор из них наилучшего позволяет компании сконцентрировать ресурсы в тех областях, где она может достичь значительного преимущества над основными конкурентами и завоевать лучшую позицию на целевом рынке. Таким образом, данная работа является актуальной на сегодняшний день.

Основной задачей данной работы является обзор отечественного и мирового опыта построения информационной системы (ИС) в области мониторинга больших данных (big data) и выбор наилучшего IT решения.

Решение следующих задач способствовало достижению поставленной цели:

рассмотрение и отбор критериев для анализа решений, относящихся к IT сфере;

анализ каждого отобранного критерия;

составление сравнительной характеристики успешных ИТ-проектов в области

мониторинга больших данных (big data), то есть:

рассмотрение и анализ продукта IBM InfoSphere Streams;

рассмотрение и анализ продукта Microsoft Azure HDInsight;

рассмотрение и анализ продукта Amazon Kinesis Streams; ?выбор наиболее удачного IT-решения и его обоснование.

В данной роботе объектом исследования являются выбранные для рассмотрения IT решения в области мониторинга больших данных (big data), а предметом - критерии для анализа данных решений.

Отбор критериев для анализа IT решений

Во время данного исследования основное внимание будет направлено на такие ключевые факторы, как цель решения, задачи решения, основные функции, стоимость решения, время обработки данных, программная платформа, поддерживаемые языки программирования, интеграция с другими платформами. Далее необходимо рассмотреть каждый из критериев более подробно.

Цель решения должна содержать описание того, как изменится ситуация в ходе его реализации. Для всех рассматриваемых решений целью будет являться мониторинг больших данных (big data).

Задачи решения будут отражать конкретные части цели, которую предстоит реализовать, то есть действия, которое необходимо предпринять, чтобы достичь цели проекта. Они будут различаться в зависимости от особенностей каждого конкретного предприятия [4].

Важно также рассмотреть основные функции IT решений. Обширный функционал продукта открывает множество возможностей по обработке больших данных (big data).

Стоимость решения также является важным критерием, так как компания, выбравшее данное решение, сможет посчитать, сколько необходимо потратить денежных средств на всём жизненном цикле данного решения.

Время обработки данных - один из ключевых критериев, по которому будут сравниваться IT решения. Время обработки данных будет сравниваться по затраченному времени на обработку одного сообщения [1].

Играет большую роль для выбора IT решения в области мониторинга больших данных (big data) программная платформа, на которой базируется данное решение. Также стоит сказать, что немаловажным является интеграция платформы с другими платформами, так как это обеспечивает более широкую применяемость IT решения в деятельности компании.

Особое внимание также будет уделяться поддерживаемым языкам программирования. Чем больше решение поддерживает языков, тем большими возможностями обладает данный продукт.

Данные критерии позволят наиболее подробно описать и проанализировать такие ИТрешения для анализа и обработки больших данный (big data), как IBM InfoSphere Streams, Microsoft Azure HDInsight и Amazon Kinesis Streams.

Сравнительная характеристика успешных ИТ - проектов в области мониторинга больших данных (big data)

На сегодняшний день как в отечественной, так и в зарубежной практике достаточно примеров успешной реализации IT-решений в области мониторинга больших данных (big data). Далее пойдёт речь о наиболее успешных IT-решений в данной области, то есть будет проведено рассмотрение каждого из продуктов, осуществлён анализ по отобранным ранее критериям и выбрано самое удачное IT-решений.

IBM InfoSphere Streams

IBM InfoSphere Streams является передовой вычислительной платформой, которая позволяет оперативно анализировать, принимать, соотносить информацию в решениях, которые были разработаны пользователями, по мере обнаружения информации из множества источников в режиме реального времени. Данное решение может обрабатывать данные с дастоточно высокой пропускной способностью, то есть в секунду может обрабатываться до нескольких миллионов сообщений или событий.

IBM InfoSphere Streams помогает решать следующие задачи:

1.Анализировать данные "в движении". Это обеспечивает время отклика менее миллисекунды, что позволяет просматривать информацию и события по мере возникновения.

Поддержка анализа непрерывно поступающих данных, в том числе текстов, изображений, аудио - и голосовых данных, видео, Web - трафика, электронной почты, данных GPS, данных о финансовых транзакциях, спутниковых данных и показаний датчиков.

Содержит наборы инструментов и ускорители для выполнения расширенной аналитики, включая ускоритель для работы с телекоммуникационными событиями, анализирующий большие объемы потоковых данных от телекоммуникационных систем практически в реальном времени, а также ускоритель социальных данных для анализа данных из социальных сетей.

Распределяет программы по вычислительным узлам кластера для обработки нескольких миллионов сообщений в секунду, при этом на обработку одного сообщения тратится менее миллисекунды.

Позволяет осуществлять фильтрацию и выделять только значимые данные из огромных объемов информации, что помогает снизить затраты на хранение данных.

В зависимости от объемов данных и сложности выполняемого анализа расширяется с одного сервера до нескольких тысяч вычислительных узлов.

Предоставляет возможности обеспечения безопасности и обеспечивает конфиденциальность совместно используемой информации [5].

2.Упростить разработку потоковых приложений - использует интегрированную среду разработки на основе Eclipse.

Позволяет создавать приложения с возможностями перетаскивания и динамически добавлять новые представления к уже работающим приложениям с использованием возможностей визуализации данных, в частности, диаграмм и графиков.

Позволяет создавать, редактировать, визуализировать, тестировать, отлаживать и запускать приложения на языке Streams Processing Language (SPL).

Обладает композитной структурой, необходимой для повышения модульности приложений и поддержки разработки крупных приложений распределенными командами разработчиков.

Позволяет создавать вложенные и агрегированные типы данных в рамках единого определения потока.

Позволяет выстраивать приложения на кластере разработки и перемещать их в рабочую среду без перекомпиляции [5].

3. Повысить ценность уже используемых систем - интегрируется с приложениями и поддерживает как структурированные, так и неструктурированные источники данных.

Адаптируется к быстро меняющимся формам и типам данных.

Позволяет быстро разрабатывать новые приложения, которые могут быть сопоставлены широкому спектру конфигураций аппаратного обеспечения.

Поддерживает повторное использование кода на языках Java и C++, а также моделей Predictive Model Markup Language (PMML).

Включает ограниченную лицензию IBM InfoSphere BigInsights - предложения для анализа больших объемов неструктурированных данных на основе Hadoop.

Интегрируется с IBM DB2, IBM Informix, IBM Netezza, IBM solidDB, IBM InfoSphere Warehouse, IBM Smart Analytics System, Oracle, Microsoft SQLServer и MySQL [2].

Microsoft Azure HDInsight

Azure HDInsight - расширение Apache Hadoop на основе облачных технологий. Это подразумевает возможность обработки любого объема информации с масштабированием от терабайтов до петабайтов данных по запросу.

Azure HDInsight решает такие задачи как:

1.Обработка любых данных: структурированные, частично структурированные и неструктурированные:

HDInsight полностью совместим с Apache Hadoop и поэтому может обрабатывать неструктурированные или частично структурированные данные журналов посещений сайта, социальных сетей, журналов серверов, устройств, сенсоров и так далее.

Благодаря этому можно анализировать новые наборы данных и находить новые возможности для бизнеса, которые будут способствовать росту организации [1].

2.Разработка программного обеспечения на предпочитаемом языке:

?HDInsight имеет эффективные программные расширения для языков, включаяC#,Javaи.NET, то есть выбранный язык программирования на Hadoop можно использовать для создания, настройки, отправки и контроля заданий Hadoop.

3.Проведение наглядной визуализации данных Hadoop:

?Интеграция HDInsight с Excel позволяет визуализировать и анализировать данные Hadoop новыми способами при помощи инструмента, хорошо известного бизнес-пользователям. В Excel пользователи могут выбрать Azure HDInsight в качестве источника данных.

4.Соединение локальных кластеров с облаком:

?HDInsight также интегрирован сплатформой данных Hortonworks, поэтому можно перемещать данные Hadoop из локального центра обработки данных в облако Azure для архивации, разработки и тестирования и сценариев перевода нагрузки из частного облака в общедоступное.

?С помощьюплатформенной системы аналитики Майкрософтможно одновременно отправлять запросы в локальные и облачные кластеры Hadoop.

5.Настройка кластеров для запуска других проектов Hadoop:

?Экосистема Apache Hadoop -- это портфель легко переносимых проектов с открытым кодом, которые быстро развиваются. Служба HDInsight способна разворачивать произвольные проекты Hadoop при помощи пользовательских скриптов. Пример -- проекты Spark, R, Giraph и Solr.

6.Использование транзакционных способностей NoSQL:

?HDInsight также включает в себя Apache HBase, столбчатую базу данных NoSQL, работающую на базе распределенной файловой системы Hadoop (HDFS). Это позволяет обрабатывать большие транзакции с нереляционными данными, реализуя интерактивные вебсайты или записывая информацию с датчиков в хранилище больших двоичных объектов Azure.

7.Обработка потоков в реальном времени:

?HDInsight включает Apache Storm, потоковую платформу аналитики, способную обрабатывать множество событий в реальном времени. Это позволяет обрабатывать миллионы событий по мере их появления, что дает возможность реализовать такие варианты использования, как Интернет вещей, и вести аналитику по данным с подключенных устройств или на основе действий пользователей в Интернете.

8.Использование Spark для интерактивного анализа:

HDInsight включает Apache Spark, проект с открытым исходным кодом в экосистеме Apache, который может выполнять крупномасштабные приложения анализа данных в памяти. Spark обрабатывает запросы до 100 раз быстрее, чем традиционные запросы больших данных.

Apache Spark использует общую модель для выполнения задач, например, ETL, запросов пакетной службы, интерактивных запросов, потоковой передачи в реальном времени, машинного обучения и обработки данных из службы хранения Azure с использованием графов.

9.Развертывание в Windows и Linux:

При развертывании рабочих нагрузок по обработке больших данных в Microsoft Azure можно выбрать кластеры Linux или Windows.

При выборе Windows можно пользоваться существующим кодом на базе Windows, включая .NET, для охвата всех своих данных, находящихся в Azure.

При выборе Linux клиентам проще перемещать существующие рабочие нагрузки Hadoop в облако и внедрять дополнительные компоненты по работе с большими данными, которые могут выполняться в службе.

Предлагая на выбор кластеры Windows и Linux, Майкрософт повышает уровень гибкости для клиентов, давая им возможность формировать значимую информацию на основе громадных объемов данных, создаваемых в облаке, с помощью ОС по своему выбору [6].

Amazon Kinesis Streams

Amazon Kinesis Streams - сервис, который позволяет создавать пользовательские приложения для обработки или анализа данных в режиме реального времени при решении узкоспециальных задач. Amazon Kinesis Streams может непрерывно получать и сохранять данные со скоростью нескольких терабайт в час из сотен тысяч источников, таких как истории посещений веб-сайтов, финансовые транзакции, ленты социальных медиа, IT-логи и события отслеживания местоположений [3].

Amazon Kinesis Streams существует для решения таких задач, как:

1.Сбор данных логов и событий:

?Amazon Kinesis Streams можно использовать для сбора данных логов и событий из таких источников, как серверы, стационарные компьютеры и мобильные устройства. При этом созданные вамиприложения Amazon Kinesisбудут выполнять непрерывную обработку данных, создавать метрики, работать с информационными панелями в режиме реального времени и передавать сводные данные в хранилища, например, в Amazon S3.

2.Аналитика в режиме реального времени:

?Приложения Amazon Kinesisмогут выполнять аналитические вычисления в режиме реального времени, обрабатывая данные высокочастотных событий, например, показания сенсоров, собираемые Amazon Kinesis Streams. Аналитическую информацию можно получить по минутам, а не часам или дням.

3.Захват данных мобильных приложений:

?Мобильные приложения могут передавать данные в Amazon Kinesis Streams с сотен тысяч устройств. Данные будут доступны сразу же после их создания мобильными устройствами.

4.Сбор игровых данных:

?Amazon Kinesis может непрерывно собирать данные о взаимодействии игроков с приложением и передавать их на игровую платформу. Используя данные о действиях и поведении игроков, собираемые Amazon Kinesis, можно проектировать захватывающие и динамичные игры.

5. Обеспечить надёжность данным:

?Amazon Kinesis Streams осуществляет синхронную репликацию потоковых данных в трех центрах обработки данных (ЦОД) региона AWS и хранит их в течение 7 дней, препятствуя потере данных в случае сбоя приложения, отдельной машины или ЦОД.

6.Создание гибкой пропускной способности потока:

?Пропускная способность потока данных Amazon Kinesis может масштабироваться от мегабайт до терабайт в час и от тысяч до миллионов записей в секунду. Пропускную способность потока можно динамически регулировать в любое время в зависимости от объема входных данных.

7.Осуществление параллельной обработки потока:

?Можно одновременно выполнять обработку одного и того же потока с помощью несколькихприложений Amazon Kinesis. Например, пользуясь данными одного и того же потока Amazon Kinesis, одно из приложений может в реальном времени выполнять аналитические вычисления, а другое - отправлять данные вхранилище Amazon S3[7].

Обоснование выбора ИТ - решения

Для осуществления выбора наиболее выгодного ИТ - решения, необходимо составить

сравнительную таблицу (см. таблица 1) по таким критериям как:

цель проекта;

задачи проекта;

основные функции;

стоимость проекта;

время обработки данных;

программная платформа;

поддерживаемые языки программирования; интеграция с другими платформами.

Таблица 1 - Сравнительный анализ программных продуктов

Критерии оценки	ИТ - решения
	IBM InfoSphere Streams	Microsoft Azure HDInsight	Amazon Kinesis Streams
Цель проекта	Обеспечить непрерывный анализ крупных объемов потоковых данных	Обеспечить непрерывный анализ крупных объемов потоковых данных	Обеспечить непрерывный анализ крупных объемов потоковых данных
Задачи проекта	1.Анализировать данные "в движении" (поддержка анализа непрерывно поступающих данных;	1.Обработать любые данные: структурированные, частично	Сбор данных логов и событий; Аналитика в режиме реального времени;
	осуществление фильтрации); 2.Упростить разработку потоковых приложений - использует интегрированную среду разработки на основе Eclipse (создание приложений; обладает композитной структурой); 3.Повысить ценность уже используемых систем - интегрируется с приложениями и поддерживает как структурированные, так и неструктурированные источники данных (адаптируется к меняющимся формам и типам данных).	структурированные и неструктурированные; 2.Разработать программное обеспечение на предпочитаемом языке; 3.Наглядная визуализация данных Hadoop; 4.Соединить локальные кластеры с облаком; 5.Настроить кластеры для запуска других проектов Hadoop; 6.Использовать транзакционные способности NoSQL; 7.Обработка потоков в реальном времени; 8.Использование Spark для интерактивного анализа; 9.Развертывание в Windows и Linux.	3.Захват данных мобильных приложений; 4.Сбор игровых данных; 5.Обеспечить надёжность данным; 6.Создание гибкой пропускной способности потока; 7.Осуществление параллельной обработки потока.
Основные функции	Принятие, анализ и сопоставление информации в решениях, разработанных пользователями, по мере поступления информации из тысяч источников в реальном времени.	Обработка, анализ, сопоставление любого объема информации с масштабированием от терабайтов до петабайтов данных по запросу.	Обработка или анализа данных в режиме реального времени при решении узкоспециальных задач.
Стоимость проекта	Лицензия на всё время использования: 2 200 000 рублей.	Лицензия на месяц использования: 40 672 рублей.	Лицензия на месяц использования: 11 302 рублей.
Время обработки данных	На обработку одного сообщения тратится менее миллисекунды	На обработку одного сообщения тратится менее миллисекунды	На обработку одного сообщения тратится менее миллисекунды
Программная платформа	IBM InfoSphere Streams	Microsoft Azure HDInsight	Amazon Kinesis Streams
Поддерживаемые языки программирования	Java, C++, Predictive Model Markup Language (PMML), Streams Processing Language (SPL).	C#,Java,.NET.	Java,.NET, Node.js, PHP, Python, Ruby, Go.
Интеграция с другими	IBM DB2, IBM Informix, IBM Netezza, IBM	Apache Hadoop, Excel, Oracle, Microsoft	Amazon Kinesis (KCL), Amazon Simple Storage
платформами	solidDB, IBM InfoSphere Warehouse, IBM Smart Analytics System, Oracle, Microsoft SQLServer, MySQL	SQLServer, MySQL.	Service (Amazon S3), Amazon Redshift, Amazon Elastic Map Reduce (Amazon EMR) и AWS Lambda.

мониторинг данные продукт microsoft

На основании проведённого сравнительного анализа, представленного в таблице один можно сделать вывод, наиболее рентабельным ИТ-решением является IBM InfoSphere Streams.

Во-первых, данная платформа обладает широким спектром основных функций таких, как принятие, анализ и сопоставление информации в решениях, разработанных пользователями, по мере поступления информации из тысяч источников в реальном времени.

Во-вторых, данный продукт поддерживает такие языки программирования, как Java, C++, Predictive Model Markup Language (PMML), Streams Processing Language (SPL).

В-третьих, по сравнению с другими решениями обладает самым большим количеством интеграций с другими платформами, и в данные платформы входят не только продукты компании IBM, но и других производителей.

В-четвёртых, наиболее существенным критерием выбора данного решения является стоимость данного проекта. Лицензия на IBM InfoSphere Streams покупается сразу на всё время использования, в отличии от Microsoft Azure HDInsight и Amazon Kinesis Streams. Такой подход позволяет клиенту сэкономить на покупки продукта по анализу и обработке больших данных (big data), если он планирует использовать данную платформу в течении нескольких лет. Заключение

Таким образом, были решены следующие задачи данной работы: рассмотрение и отбор критериев для анализа решений, относящихся к IT сфере; анализ каждого отобранного критерия; составление сравнительной характеристики успешных ИТ-проектов в области мониторинга больших данных (big data), то есть: рассмотрение и анализ продукта IBM InfoSphere Streams, рассмотрение и анализ продукта Microsoft Azure HDInsight, рассмотрение и анализ продукта Amazon Kinesis Streams; выбор наиболее удачного IT-решения и его обоснование.

Также стоит сказать, что была выполнена основная задача, то есть был проведён обзор отечественного и мирового опыта построения информационной системы (ИС) в области мониторинга больших данных (big data), с помощью которого был проведён выбор наилучшего IT решения.

Результатом данного исследования можно считать выбранное IT решение по отобранным критериям. Таким решением является IBM InfoSphere Streams, так как данное решение имеет большие преимущества перед остальными продуктами по сравниваемым критериям. Данный продукт обладает наиболее широким функционалом относительно обработки больших данных, поддерживает самые популярные и перспективные языки программирования, обладает самым большим количеством интеграций с другими платформами, и также лицензия на IBM InfoSphere Streams покупается сразу на всё время использования, это позволяет клиенту сэкономить на покупки продукта по анализу и обработке больших данных (big data), если он планирует использовать данную платформу в течении нескольких лет.

Список литературы

Избачков С.Ю., Петров В.Н. Информационные системы. // СПБ. - 2014. - с. 576;

Schmarzo B. Big Data: Understanding How Data Powers Big Business // Wiley. - 2013. - 240 c.

Frank J. Big Data Analytics: Turning Big Data into Big Money (Wiley and SAS Business Series) // Гостехиздат. - 2014. - 176 c.

Mayer-Schцnberger V., Kenneth C. Big Data: A Revolution that Will Transform How We Live, Work, and Think // Гостехиздат. - 2015. - 34c.

Продукт IBM InfoSphere Streams // Официальный сайт компании IBM. - Режим доступа: http://www-03.ibm.com/.

Продукт Microsoft Azure HDInsight // Официальный сайт серии продукции Azure компании Microsoft - Режим доступа: https://azure.microsoft.com.

Продукт Amazon Kinesis Streams // Официальный сайт компании Amazon. - Режим доступа: https://aws.amazon.com.

Размещено на Allbest.ru

...

статья "Рассмотрение и анализ наиболее успешных it решений в области мониторинга больших данных (BIG DATA). Выбор IT решения и его обоснование" скачать

Подобные документы

Разработка информационной системы ОВД г. Донецка
Анализ решений по автоматизации предметной области. Выбор методологии проектирования информационной системы. Обоснование выбора платформы. Взаимодействие приложения с источниками данных. Выбор жизненного цикла разработки программного обеспечения.

дипломная работа [3,7 M], добавлен 18.12.2010
Анализ данных дистанционного практикума по программирования с помощью методов Data Mining
Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.

курсовая работа [728,4 K], добавлен 10.07.2017
Технологии извлечения знаний из больших баз данных
Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.

эссе [36,8 K], добавлен 17.12.2014
Анализ данных с помощью технологии Data Mining
Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.

контрольная работа [2,0 M], добавлен 13.06.2014
Технологии анализа данных (Text Mining, Data Mining)
Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

реферат [443,2 K], добавлен 13.02.2014
Современная технология обработки информационных данных Data Mining
Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.

контрольная работа [565,6 K], добавлен 02.09.2010
Big Data
Проблемы оценки клиентской базы. Big Data, направления использования. Организация корпоративного хранилища данных. ER-модель для сайта оценки книг на РСУБД DB2. Облачные технологии, поддерживающие рост рынка Big Data в информационных технологиях.

презентация [3,9 M], добавлен 17.02.2016
Использование Oracle Streams для репликации
Возможности репликации в СУБД Oracle. Основные шаги по настройке баз данных (Startup open) и tnsnames.ora. Табличное пространство и пользователь Streams. Dblink между исходной и целевой базами данных. Использование PL/SQL API для настройки репликации.

курсовая работа [2,7 M], добавлен 14.07.2012
Проектирование базы данных "Адвокатская контора"
Анализ информационных связей, выявление наиболее существенных недостатков и резервов в области экономики и управления предприятием. Обоснование проектных подходов к разработке автоматизированных информационных систем для решения управленческих проблем.

курсовая работа [64,4 K], добавлен 13.05.2013
Автоматизированная информационная система обработки данных учета пенсионных начислений и компенсаций ЦСО Военного комиссариата Курской области
Анализ программных решений для учета данных в системах начисления военных пенсий. Анализ возможностей использования решений на базе Microsoft Dynamics AX. Особенности языка FoxPro. Назначение пенсий списком. Формирование файлов электронного реестра.

дипломная работа [1,9 M], добавлен 18.11.2013
Структура данных
Рассмотрение общей характеристики данных. Исследование особенностей и назначения линейных, табличных и иерархических структур данных, анализ процесса их упорядочения. Рассмотрение основных режимов обработки данных. Описание алгоритма решения задачи.

реферат [27,4 K], добавлен 20.04.2019
Информационная система управления
Разработка информационной системы управления, ориентированной на учет закупленного товара, работу с историческими данными компании и анализ данных для принятия стратегически верных решений. Хранилище данных в 3NF Билла Инмона. Компоненты Data Vault.

дипломная работа [3,6 M], добавлен 22.09.2016
Мониторинг качества данных в компании
Способы мониторинга качества данных. Формирование функциональных требований к системе мониторинга консистентности данных. Документирование требований к системе мониторинга консистентности данных. Написание скриптов проверок для системы мониторинга.

дипломная работа [387,3 K], добавлен 26.08.2017
Методы Data Mining
Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.

курсовая работа [3,2 M], добавлен 19.05.2011
Автоматизация таможенных процедур
Технология деятельности техника-программиста на предприятии. Анализ предметной области. Обоснование выбора среды разработки. Сравнительный анализ методов сортировки данных. Проектирование базы данных. Методы, алгоритм и средства обработки данных.

отчет по практике [498,2 K], добавлен 03.05.2015
Разработка ИС агентства недвижимости
Анализ существующих решений по автоматизации предметной области. Методология проектирования информационной системы агентства недвижимости. Спецификация и аттестация требований. Проектирование пользовательского интерфейса. Обоснование выбора платформы.

курсовая работа [412,8 K], добавлен 10.02.2013
Проектирование РБД "Санатория" с помощью инструментария AllFusion ERwin Data Modeler
Изучение возможностей AllFusion ERwin Data Modeler и проектирование реляционной базы данных (БД) "Санатория" на основе методологии IDEF1x. Определение предметной области, основных сущностей базы, их первичных ключей и атрибутов и связи между ними.

лабораторная работа [197,5 K], добавлен 10.11.2009
Разработка архитектуры учебного класса с использованием технологии виртуализации
Анализ решений и выбор платформы виртуализации. Обоснование выбора VMwareESXi в качестве платформы для создания учебного класса. Системные требования к аппаратной части для выбранной платформы. Создание макета на основе сервера виртуализации VMwareESXi.

дипломная работа [4,1 M], добавлен 12.04.2017
Управление частной организацией
Обоснование выбора средств разработки приложения. Добавление, удаление, редактирование информации. Отражение информации из базы данных. Поиск информации по выбранной таблице. Проекты Data, Entity, Logic, Firm. Схема взаимодействия проектов программы.

курсовая работа [1,8 M], добавлен 18.01.2015
Разработка системы распределенного обучения нейронной сети с использованием Windows Azure
Изучение и реализация системы, использующей возможности Microsoft Azure для распределенного обучения нейронной сети. Рассмотрение функционирования распределенных вычислений. Выбор задачи для исследования; тестирование данного программного ресурса.

дипломная работа [2,0 M], добавлен 20.07.2015

Другие документы, подобные "Рассмотрение и анализ наиболее успешных it решений в области мониторинга больших данных (BIG DATA). Выбор IT решения и его обоснование"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.