Введение в большие данные

Техники анализа большого количества постоянно прибывающей информации. Специфика больших данных. Традиционные методы работы с массивами информации. Программные инструменты для извлечения данных из внешних источников и обработки огромных массивов.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 17.09.2014
Размер файла 71,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

  • Введение
    • 1. Большие данные
    • 2. Техники анализа больших данных
    • 3. Технологии анализа больших данных
    • 4. Рынок СУБД. Игроки и тренды
  • Заключение
  • Библиографический список

Введение

Объем данных, генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями, уже привычно измеряется петабайтами. Так в дата-центрах Facebook хранится уже более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, Большой адронный коллайдер получает около 1 Пб данных в секунду.

Таким образом, в современном мире возникла проблема больших данных или Big Data. Мировые лидеры в сфере ИТ и бизнеса заняты поиском оптимального решения для управления огромным количеством постоянно прибывающей информации и ее анализа. Они ищут пути извлечения выгоды из данных находящихся в их распоряжении.

Тема больших данных интересна как с практической, так и с теоретической точек зрения. Сами технологии находятся в состоянии непрерывного развития, что позволяет как в режиме реального времени наблюдать за процессом их внедрения и совершенствования, так и непосредственно участвовать в создании новых технологий обработки больших массивов данных.

Также хочется заметить, что расширение познаний и навыков в сфере Big Data является особенно актуальным для студентов специальности бизнес-информатика.

1. Большие данные

Описывая специфику больших данных, первым делом упоминают 3V: "volume, variety and velocity" или объем, разнообразие и скорость.

Объем подразумевает не только большое количество хранимой информации, но и ее дополнение, рост, изменение с течением времени.

Разнообразие типов и источников информации всегда было большой проблемой, когда появлялась необходимость свести их в один массив данных. Сегодня это разнообразие только увеличивается.

Скорость оценивается как при создании информации, так и при ее обработке.

Традиционным методом работы с массивами информации являются реляционные базы данных. Однако работа с реляционной базой данных на сотни терабайт - это еще не Big Data, а, например, "обычная" highload-БД. Разница, в данном случае, заключается в архитектуре БД и логике взаимодействия СУБД с хранящейся информацией.

В реляционных БД информация распределена дисперсионно, т.е. имеет место изначально заданная четкая структура, изменение которой в уже работающей базе связано с множеством проблем. Таким образом, в силу своей архитектуры, реляционные БД лучше всего подходят для коротких быстрых запросов, идущих однотипным потоком. Сложный же запрос либо потребует перестройки структуры БД, либо, в угоду быстродействию, увеличения вычислительных мощностей. Это указывает на еще одну проблему традиционных баз данных, а именно на сложность их масштабируемости.

Таким образом, для работы со сложными гибкими запросами необходима среда, позволяющая хранить и обрабатывать неструктурированные данные, поддающаяся масштабированию и допускающая применения распределенных вычислений, где для обработки данных используется не одна высокопроизводительная машина, а целая группа таких машин, объединенных в кластер.

2. Техники анализа больших данных

На данный момент существует и разрабатывается множество техник анализа больших кластеров информации. Далее будут приведены некоторые из них.

Слияние и интеграция данных (Data fusion and data integration). Набор техник, которые сводят вместе и анализируют информацию из различных источников, с целью получения более достоверной и, в перспективе, полезной информации, чем при использовании единственного источника. Для этого может быть использована обработка цифровых сигналов (Signal processing). Например, данные СМИ, проанализированные с помощью обработки естественного языка (natural language processing) и сопоставленные с данными о продажах, могут выявить механизм воздействия рекламных компаний и другой информации на поведение покупателей.

Интеллектуальный анализ данных (Data mining). Набор техник извлечения потенциально полезной информации из больших массивов данных путем комбинации различных методов, от статистики до машинного обучения (machine learning) и управления базами данных (database management). Они включают в себя ассоциативное обучение (association rule learning), кластерный анализ (cluster analysis), классификацию и регрессию.

Генетические алгоритмы (Genetic algorithms). Техника, используемая для оптимизации и основанная на принципе естественной эволюции: "выживание наиболее приспособленного". Здесь потенциальные решения внесены в код подобно хромосомам и могут составлять комбинации и мутировать. Также часто описываются как тип эволюционных алгоритмов, хорошо подходящих для решения нелинейных задач. Примером может являться улучшение рабочего графика или оптимизация инвестиционного портфеля.

Нейронные сети (Neural networks). Вычислительные модели, вдохновленные нервной системой человека и животных. Они хорошо подходят для нахождения сложных образов, и могут быть использованы для распознавания и оптимизации. Могут включать в себя, так называемое, обучение с учителем (supervised learning), или обучение без учителя (unsupervised learning)

Обработка потоков (Stream processing). Технологии обработки большого количества потоков данных о событиях в реальном времени.

Также широко используется метод визуализации и другие.

3. Технологии анализа больших данных

Технологии анализа, в силу перспективности развития этого направления и большой коммерческой отдачи, также широко представлены, и их число продолжает расти. Ниже приведен список и описание наиболее заметных из них.

Business intelligence (BI). Прикладное программное обеспечение, разработанное для сбора, анализа и представления данных. Инструменты IB часто используются для создания стандартных отчетов или для отображения информации в реальном времени на панелях управления.

Cassandra. Бесплатная СУБД с открытым кодом, предназначенная для обращения с большим количеством данных на базе распределенной системы. Изначально разработана в Facebook, сейчас числится как проект the Apache Software foundation

Extract, transform, and load (ETL). Программные инструменты для извлечения данных их внешних источников, адоптации их под стандарт системы и загрузки в базу данных.

Google File System. Фирменная распределенная фаиловая система Гугла.

Hadoop. Бесплатная программная среда для обработки огромных массивов данных и решения определенных типов задач на основе распределенных систем. Разработка вдохновлена Google's MapReduce и Google File System. Изначально разработана в Yahoo!, сейчас числится как проект the Apache Software foundation.

4. Рынок СУБД. Игроки и тренды

В феврале 2012 года исследовательская и консалтинговая компания Gartner представила свой аналитический отчет для хранилищ данных. В рамках этого отчета хранилища данных определены, как СУБД, которая управляет и поддерживает одну или несколько логических баз данных в хранилище. Кроме этого, СУБД хранилища данных должна поддерживать реляционную модель данных, а также иметь возможность предоставить доступ к данным через программные интерфейсы для того, чтобы сторонние аналитические приложения могли воспользоваться данными, находящимися в хранилище данных. В дополнение к этому, СУБД хранилища данных должна иметь механизмы, изолирующую различные типы нагрузок друг от друга, а также управлять различными параметрами доступа пользователей в рамках одного экземпляра данных.

По результатам анализа, проведенного в этом отчете, Gardner составил так называемый Magic Quadrant, где разместил компании соответственно полям этого квадрата. большое анализ массив информация

Очевидно, что кампании, находящиеся в правом верхнем углу, представили самые успешные решения, что гарантировало им лидерство в данной отрасли. Естественно, борьба между этими компаниями идет и в сфере анализа больших данных. Тут можно выделить два основных подхода:

Адаптационный. Разработчик оптимизирует систему для работы с большими данными, при этом не меняя логику и архитектуру существенно, а, в основном, дополняя и дорабатывая готовый продукт.

Революционная. Создание качественно нового продукта, использующего принципиально другую логику, например, NoSQL, и разработанного специально для анализа массивов неструктурированной информации.

Сложно сказать, какой из этих подходов правильней. Первое решение будет востребовано, т.к. реляционные БД используются сейчас и будут использоваться в обозримом будущем, а потому на технологию анализа больших данных в их рамках будет спрос. Второй подход также успешно применяется уже несколько лет и приносит коммерческую выгоду. Также это острие аналитической мысли, которое привлекает многих специалистов.

Еще хочется отметить, что тенденция в области хранилищ данных относительно архитектуры такова, что в будущем останутся только решения, основанные на MPP (Massive Parallel Processing) архитектуре, так как именно они позволяют обрабатывать огромные объемы информации на стандартном аппаратном обеспечении.

Массово-параллельная архитектура (Massive Parallel Processing, MPP) - это класс параллельных вычислительных систем, состоящих из множества узлов, где каждый узел представляет собой автономную, независимую от других единицу. Если применить это определение к области хранилищ данных, то лучше всего его смысл будет отражать термин "распределённые базы данных". Каждый узел в распределенной базе данных представляет собой полноценную СУБД, работающую независимо от других. Сама же распределенная база данных - это совокупность независимых, автономных узлов, связанных коммуникационной сетью. Все данные в такой сети распределяются между узлами равномерно, т.е. каждый узел хранит свою, уникальную данных, логически, тем не менее, представляя единую базу данных.

Заключение

Большие данные, появившиеся как следствие движения общества по информационному пути развития, уже стали частью нашей ежедневной жизни. Почти каждый человек ежедневно генерирует информацию, которая обрабатывается и записывается на различного рода носители. Неудивительно, что правительство и бизнес, в их извечной гонке за эффективностью, крайне заинтересованы в анализе этой информации, что в свою очередь, подогревает интерес разработчиков к данной сфере.

Но необходимо помнить, что попав в круг пристального внимания прессы и инвесторов, "Big data" не стали чем-то качественно новым. Разработанные технологии анализа носят, скорее, количественный характер, и их развитие обусловлено, в первую очередь, появлением нового оборудования, обладающего большой вычислительной мощностью и возможностью записи огромных объемов информации.

Также, несмотря на наличие большого количества идей по использованию технологий "Big data" в социальной среде, их первоначальной целью было и остается извлечение прибыли.

Библиографический список

1. McKinsey Global Institute: Big data: The next frontier for innovation, competition, and productivity, 2011. - 145 с.

2. Jeffrey Stanton: Introduction to Data science, 2013. - 195 c.

3. The Gartner: How to Leverage Pattern-Based Strategy to Gain Value in Big Data, 2011.

4. The Gartner: Data Warehouse DBMS, 2012.

5. The Economist, Virginia Rometty: Deep thought on big data, 2014.

6. The Economist: Rules for the new tools, 2014.

7. The Economist: Data, data everywhere, 2010.

8. Открытые системы, Леонид Черняк: Большие Данные - новая теория и практика, 2011.

9. CNews: Интервью Николая Валиотти, 2012.

10. Habrahabr.ru: Просто и доступно о аналитических БД, 2012.

11. Habrahabr.ru: Перевод интервью с Майклом Видениусом, 2013.

12. Habrahabr.ru: Big Data - почему это так модно?, 2012.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.