Управление большими данными

Процесс управления большими данными (БД). Формулирование определения проекта управления БД. Формирование списка бизнес-задач в проектах управления БД. Анализ российского и международного рынков решений в области БД. Классификация проектов управления БД.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 29.11.2015
Размер файла 5,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Оглавление

  • Введение
  • Глава 1. Анализ основных понятий предмета исследования
  • 1.1 Определение понятия больших данных (БД)
  • 1.2 Анализ процесса управления большими данными
  • 1.3 Формулирование определения проекта управления БД
  • Глава 2. Формирование списка бизнес-задач в проектах управления БД
  • 2.1 Анализ российского и международного рынков решений в области БД
  • 2.2 Исследование ограничителей роста российского и международного рынков решений в области БД
  • Раздел 3. Разработка рекомендаций по постановке задач к проектам управления БД
  • 3.1 Формирование списка проектов управления БД
  • 3.2 Классификация проектов управления БД и задач в проектах

Введение

Актуальность

Большие данные остаются одной из наиболее обсуждаемых тем на рынке ИТ-технологий в последние годы. Согласно ежегодным прогнозам аналитической компании Gartner, большие данные (в дальнейшем БД) наряду с развитием мобильных систем и облачных вычислений являлись одним из основным трендов развития информационных технологий в 2013 году. Стратегическое управление большими массивами данных, в первую очередь, предполагает уход от традиционных способов организации корпоративных хранилищ к логической структуре систем хранения данных, позже, в 2015 году, фокус в области развития технологий БД смещается на использование результатов аналитики, построенной на собранной информации, что становится основой таких направлений как: продвинутая аналитика, интернет вещей, контекстно-зависимые системы. Вместе с тем, инвестиции в решения БД продолжают расти: количество компаний, заинтересованных (уже инвестируют или планируют инвестиции в ближайшее время) во внедрении решений в области БД выросло с 64% в 2013 году до 73% в 2014 году, также согласно опросу, проведенному компанией Gartner, и по прогнозу аналитической компании IDC расходы на эту сферу будут уверенно увеличиваться.

Рост вложенных средств может обуславливаться как увеличением стоимости выполняемых проектов, так и общим ростом количества проектов, так и обоими этими факторами. Тем не менее рост инвестиций не отражается на уровне внедрения технологий. Так же, как и в предыдущие годы большую часть проектов составляют пилотные проекты, например, проекты-спутники, внедряемые в качестве дополнения к обновлению старых информационных систем. В прошлом году только 13% опрошенных рассказали о промышленной реализации проектов БД, и только 27% из них могут говорить об ощутимых полученных результатах. Согласно отчету Capgemini, неудачи проектов использования "больших данные" большей частью были связаны с высокой долей разброса данных среди систем и хранилищ компаний; плохо поставленными целями и задачами; недостатком профессиональных знаний, то также отразилось на отсутствии предварительного планирования хода реализации проектов. Российский рынок, находящийся на стадии формирования, пока не оценивается аналитическими компаниями, тем не менее ряд специалистов отечественного ИТ-рынка особо отмечают важность постановки конкретных задач в рамках определенной отрасли (см. Приложение 1).

Таким образом, противоречие между вложенными инвестициями и полученной отдачей от проектов БД формулирует следующую проблему: недостаток понимания ценности собранных данных, сформулированных в форме конкретных бизнес-задач в той или иной индустрии на основе уже работающих проектов. Следует сформировать списки бизнес-задач (best practices) из мировых опыта внедрения решений БД для формирования перспектив развития данной области на российском рынке. Поскольку существует потребность в создании Базы знаний успешных проектов БД разработка рекомендаций по формулированию таких бизнес-задач является актуальной темой для российских компаний, планирующих или только рассматривающих возможности БД в своем бизнесе.

Актуальность темы усиливается тем, что сейчас Россия переходит на стадию зрелости технологий Больших данных, "вдогонку" за мировыми тенденциями и переходами мировых игроков к понятиям Интернета вещей и Умных данных. Отличие второго понятия от Больших данных состоит в использовании не всего массива накопленных данных, а в фокусировании только на необходимой информации, предварительно отобранной для решения конкретной поставленной бизнес-задачи.

Степень изученности и научной проработанности

Рассматриваемая проблема широко обсуждается в специализированных отраслевых ИТ-изданиях и интернет-ресурсах ("Открытые системы", ComputerWorld, КомпьютерПресс, cnews.ru, pcweek.ru). Большой отклик данная тема нашла среди профессионалов российского ИТ-рынка - представители российского ИТ-сообщества (сотрудники крупных вендоров решений БД - IBM, Sap, Oracle, Teradata, ЕМС, а также российских интеграторов: IBS, Ланит) говорят о тенденциях развития Больших данных на основе мировой статистики, делятся экспертным мнением о готовности компаний внедрять и использовать подобные решения в России, а также предполагают основные препятствия, связанные с бурным развитие проектов БД. Они отмечают проекты компаний в других странах, при этом из-за большого разнообразия проектов нет общей базы, которая позволила бы увидеть не разовый успешный кейс клиента, а набор задач в определенной отрасли или возможностей БД для решения определенной задачи бизнеса.

Кроме наличия непосредственно базы, приближенной к "лучшим практикам" в области внедрения БД, еще одним важным вопросом является определение понятия больших данных и того, что понимается под проектом управления БД. Базовые определения представлены теми же аналитическими компаниями, перечисленными выше. Например, исследование компании TDWI (2013) формирует понимание предмета управления большими данными, предполагая что лучшие практики в управлении данными также применимы в управлении БД, с определенными оговорками. Исследование включает опросы более 460 ИТ-профессионалов, консультантов, конечных пользователей и представителей бизнес-подразделений крупных предприятий в сфере управления данными, в том числе 189 специалистов, непосредственно работяющих с БД. Н аибольшую точность дает компания IDC, которая кроме численного уточнения основных характеристик понятия также предлагает методику отнесения проектов к Big Data. Компания SAP, являясь самым активным участником российского рынка БД, вносит еще одно принципиальное дополнение в определение проектов больших данных. Эта характеристика играет важную роль в постановке задач для проектов БД [].

Анализ рынка БД и прогноз его развития технологии представлены в исследованиях аналитических компаний: Gartner отслеживает тенденцию развития БД как мирового тренда, IDC, Capgemini опрашивают ИТ-специалистов и представителей бизнеса об их видении и отношении к технологиям БД; отдельные отраслевые обзоры консалтинговых фирм, таких как PWC, Accenture, на основе собственных исследований и сбора общей аналитики оценивают перспективы развития рынка БД. Данные по российскому рынку БД, помимо ранее упомянутых источников прессы, освещаются в исследованиях российских венчурных компаний, что говорит о наличии потенциала данного сегмента в России [] .

Информация о проектах, деталях их реализации и полученных результатах собрана из открытых источников: основные и дополнительные сайты вендоров устанавливаемых решений, так, например, по проектам компании SAP помимо основного официального сайта вендора sap. сom, также оказались информативными ресурсы: sapplanet.ru, sapland.ru и т.п.; презентации для клиентов и партнеров, материалы интеграторов и консалтинговых компаний, участвовавших во внедрении решений, в том числе представленные на различных конференциях ("Большие Данные в национальной экономике" в 2013г.; "Big Data Russia", круглый стол "Большие данные: тренд новых ИТ" в 2014г.). Информация чаще всего либо ограничена одним вендором, либо представлена частично, без определенной классификации, например, по отраслям.

Объект, предмет

Объектом исследования является рынок проектов БД в России и мире, предметом исследования является бизнес-задачи, реализованные в ходе внедрения рассмотренных проектов.

Цель

Цель данной работы - разработать рекомендации для постановки задач в проекте БД по определенным отрасли (индустрии), процессу или деятельности.

Гипотеза

В основе работы лежит гипотеза, что накопленный мировой опыт успешных проектов в сфере больших данных даст более четкое понимание для лиц, принимающих решение о запуске подобного проекта в своей компании, о том, какие задачи они могут решить в их отрасли с учетом своих собранных данных, или как определенный процесс решался другими компаниями, или в какой деятельности подобное решение принесло наилучший результат. Предполагается, что на основе этих знаний и предложенных рекомендаций более точная постановка задач приведет к более ощутимому для бизнеса эффекту.

Задачи

В соответствие с поставленной целью работы сформулированы следующие задачи:

1. Проанализировать существующий рынок БД в мире и России, для понимания общих трендов и возможных верхнеуровневых различий в постановках задач в проектах;

2. Исследовать задачи управления БД на основе собранных данных о проектах в мире и России с целью их сравнения и формирования классифицированных списков бизнес-задач;

3. Провести анализ полученных результатов, оценив применимость рекомендаций к Российскому ИТ-рынку.

Теоретическая база, методы, подходы

Теоретическую базу составляют концепция больших данных, рассмотренная в трудах российских и зарубежных авторов, таких как???; методика отнесения ИТ-проектов к Big Data, описанная в исследованиях аналитической компании IDC;

В работе применены общенаучные методы исследования, анализ, синтез информации по искомым проектам БД и проведение аналогий российских и зарубежных проектов, консолидация и классификация выбранных проектов, обобщение полученных результатов.

Результаты работы

Результатом работы является классифицированная и удобная в использовании база бизнес-задач, реализованных в различных проектах БД, с рекомендациями по постановке задач исходя из определенной индустрии, процесса или деятельности, в том числе с описанием возможных ограничений и допущений, необходимых для учета при работе с базой.

Научная новизна

Разработанные в ходе исследования рекомендации по постановке задач для проектов управления БД, отличительными особенностями рекомендаций являются расширенные и конкретизированные возможности работы с большими данными, основанные на положительном опыте зарубежных компаний и имеющие удобную классификацию, позволяющую наиболее полно отвечать требования бизнеса, в особенности на российском рынке.

Практическая область применения

Практическая область применения заключается в создании базы для инструмента, позволяющего решить одну из основных проблем малой доли реализованных проектов в сфере БД в России, а именно сложность определения проектов БД, постановки бизнес-задачи и, соответственно, выбора необходимых данных для обработки.

Структура работы (полстраницы)

Работа состоит из трех разделов, содержание которых соответствует поставленным задачам. Первая глава содержит теоретические основы решения вопроса: определения понятия "больших данных" и "проектов управления БД", также дается обзор рынка БД в России и мире, с исследованием тех факторов, которые тормозят развитие решений в данной области. Вторая глава посвящена исследованию задач в проектах БД, которые удовлетворяют определениям, поставленным в первой главе, которые были успешно реализованы в России и других странах и имеют измеримые результаты на данном этапе. Эта глава также описывает подход к сбору информации по рассматриваемым проектам и приводит их классификацию. В третьей главе представлены описание результатов проведенной работы, область применимости результатов и дальнейшие рекомендации по развитию темы исследования. Обобщение выводов трех описанных выше глав позволит достичь обозначенную цель работы, а именно, сформировать рекомендации для постановки задач в проектах управления БД.

управление проект большой

Глава 1. Анализ основных понятий предмета исследования

1.1 Определение понятия больших данных (БД)

1) Определение БД и разногласия

Термин "большие данные" впервые появился в 1997 году в научных трудах сотрудников NASA при описании трудностей визуализации данных таких объемов, при которых они не могли быть размещены на основных, локальных и удаленных дисках. Массовую же популярность БД получили позже, в 2008 году, когда группа американских ученых впервые подняла вопрос важности обработки БД и перспектив применения вычислений больших данных как для частного бизнеса, так и для государственных организаций [http://www.forbes.com/sites/gilpress/2014/09/03/12-big-data-definitions-whats-yours/].

Традиционное определение, на которое в дальнейшем ссылались первые работы в области больших данных, описано в Oxford English Dictionary (OED). Согласно словарю, большие данные - это данные таких значительных размеров, при которых их обработка и управление такими данными представляют технические проблемы для существующих систем (ориг.: "big data is a data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges").

Одно из весьма распространенных определений, к которому обращаются современные работы, представлено независимым исследовательским подразделением MGI (McKinsey Global Institute). В отчете, опубликованном в 2011 году, говорится о больших наборах данных, размер которых значительно превышает возможности типичных программных средств сбора, хранения, управления и анализа данных. Авторы признают субъективность данного определения, не приводя конкретные цифровые значения в Тб, ссылаясь на то, что со временем размеры "больших" данных заметно вырастут. Также они отмечают, что определение БД может отличаться в зависимости от индустрии, используемых программных средств и определенных размеров данных в той или иной области. Таким образом, объемы БД могут находиться в диапазоне от нескольких террабайтов до нескольких петабайтов. В исследовании дается понимание цифровых больших данных, ценность работы с ними как для частных, так и для публичных компаний на примере детального рассмотрения пяти областей: медицина, ритейл в США, государственный сектор в Европе, производство и управление частными данными на глобальном рынке.

Идею о том, что при определении "больших данных", не стоит ограничивать размеры информации точными численными значениями, поддерживается также в одной из популярнейших книг, посвященной исследованию больших данных - "Большие данные. Революция, которая изменит то, как мы живем и мыслим", В. Майер-Шенбергер, К. Кукьер ["Большие данные. Революция, которая изменит то, как мы живем и мыслим", В. Майер-Шенбергер, К. Кукьер]. Авторы отмечают, что не существует единого строго определения БД, при этом в рамках одиного из подходов, рассматриваемых в книге, понятие "больших данных" относится к операциям, которые можно выполнять исключительно в большом масштабе, т.е. в основе БД лежит понимание того, что с ними можно сделать и почему размер данных имеет значение: "…things one can do at a large scale that cannot be done at a smaller one, to extract new insights or create new forms of value." В книге также подчеркивается важность корреляций, которые могут быть обнаружены благодаря аналитике БД, и которые, возможно, в корне поменяют понимание причинности рассматриваемых процессов.

Такое понимание БД применяется различными компаниями на практике. Так ведущий вендор решений Big Data - компания SAP - определяет большие данные как "группу технологий и методов производительной обработки динамически растущих объемов данных (структурированных и неструктурированный) в распределенных информационных системах, обеспечивающих организацию качественно новой полезной информацией" [презентация САП].

В основе этого определения лежит описание технологии БД, данное в 2001 году аналитиком Дугом Лэйни, которое описывает три главные характеристики "больших" данных 3Vs: - Volume, Variety, Velocity:

1. Volume - объем (эффективное хранение и обработка больших объемов данных). Рост объема накопленных данных также характеризуется большим количеством нерелевантных данных, таким образом уменьшая относительную ценность отдельно взятой единицы данных [http://blogs. gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/] http://blogs. gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/

Deja VVVu: Others Claiming Gartner's Construct for Big Data];

2. Variety - разнообразие (обработка и классификация структурированной, полуструктурированной и неструктурированной информации (к ним относят неструктурированные файлы, цифровое видео, изображения, данные датчиков, log-файлы и вообще любые данные, не содержащие в записях специальных поисковых полей. Неструктурированные данные интересны, но из них трудно синтезировать бизнес-аналитику или сделать выводы, если они не коррелируют со структурированными данными);

3. Velocity - скорость обработки информации. Например, в электронной коммерции существует понятие point-of-interaction (POI) speed - темп данных поддерживающих выполнений итерации и генерируемых в ходе ее выполнения. Высокий уровень данного показателя дает бизнесу конкурентные преимущества, такие как более бытсрое реагирования веб-сайта на действия пользователя, аналитика в режиме реального времени о свойствах поведения посетителя интернет-ресурса, управление поставками и логистика товара и т.д.

Эти три характеристики также представлены в определении компании Gartner: "большие" данные - "технологии и архитектуры нового поколения для экономичного извлечения ценности из разноформатных данных большого объема путем их быстрого захвата, обработки и анализа" [http://compress.ru/article. aspx? id=23469#10].

Несмторя на то, что понятие БД еще формируется, некоторые специалисты готовы представить конкретные цифровые значения для оценки определения. На конференции "Большие данные и бизнес-аналитика 2012" в докладе менеджера по исследованиям IDC Александра Прохорова к классическому определению было добавлено четвертое V - Value (ценность) и числовые оценки характеристик больших данных: объем БД не менее 100 Тбайт; скорость представлена двумя видами - это скорость захвата и обработки данных в режиме реального времени более 60Гбит/с и скорость накапливания информации более 10% в год (такие значения характеризуют ситуацию, при которой объем накопленных данных велик, но расширение возможностей существующей ИТ-инфраструктуры будет экономически нецелесообразно - в такой ситуации рекомендуется рассмотреть переход на технологии Big Data); вариативность или разнообразие данных означает сбор данных либо из разных источников, либо данных разных форматов. При этом, специалисты IDC отмечают, что данные критерии не обязательно должны выполняться одновременно, и численные оценки являются актуальными только на текущий момент.

Иногда, говоря о БД, в различных источниках упоминают пятую характеристику - Veracity (достоверность) [ http://blogs. sap.com/innovation/big-data/2-more-big-data-vs-value-and-veracity-01242817, http://insidebigdata.com/2013/09/12/beyond-volume-variety-velocity-issue-big-data-veracity/]. Достоверность данных очень сильно может повлиять на окончательный результат, полученный на выходе после обработки не совсем "чистых" данных. Цена такой погрешности, например, в медицине может быть весьма велика. Но в данной работе эта характеристика не будет рассматриваться отдельно, поскольку для решения этой проблемы недостаточно совершенствования только информационных технологий, необходимо улучшение процедур рассматриваемого процесса и учет влияния человеческого фактора в ходе работы с данными, и внашем исследоавнии она не будет играть критически важную роль в определении "Больших" данных, предположив, что рассматриваемые нами данные достоверны по своей сути (при это не исключены "шумы" в данных на уровне, не влияющем на процесс принятия решения на основе представленной и полученной информации).

БД в других трендах (Маки)

Но при этом ряд работ ([Big Data: A Survey Min Chen · Shiwen Mao · Yunhao Liu, Springer], исследование McKinsey) подчеркивают важность понимания того, какое место большие данные занимают среди других технологий, которые будут определять стратегическое развитие компаний в ближайшие годы. К таким технологиям относятся облачные вычисления, Интернет вещей, дата-центры и технология Hadoop - лидирующие ИТ-тренды, согласно спискам Gartner 2014-2015.

Большие данные являются неотъемлемой частью облачных технологий и предоставляют широкие возможности для использования как традиционной, структурированной информации из баз данных, так и неструткурированной и полу-структурированной информации, собранной из различных источников. Данные больших объемов участвуют в вычислительных операциях и в организации хранения данных в "облаке". Суть облачных вычислений заключается в предоставлении достаточных вычислительных мощностей для приложений, работающих с большими объемами информации, здесь "облака" могут рассматриваться как решения для хранения и обработки БД: распределенные вычисления могут стать ключом к управлению, а также анализу данных. Несмотря на то, что эти технологии во многом схожи, помимо различных целевых аудиторий, облачные вычисления отличаются тем, что преобразуют ИТ-инфраструктуру предприятия, в то время как большие данные влияют на процесс принятия решений в бизнесе. Согласно исследования ЕМС, роль облачных технологий в управлении БД будет расти ти видоизменяться. Количество сервероыв в мире вырастет примерно в 10 раз, в то время как объем обрабатываемых данных из ЦОД увеличится в 14 раз. Все больше "облака" будут использоваться для работы с личными данными, сферой развлечения, данными систем видеонаблюдения и т.п., менее чем с традиционными корпоративными данными, обрабатываемыми сейчас.

Еще одна технология, тесно связанная с понятием БД - это Интернет вещей (Internet of Things). Эта область порождает огромное количество данных, например, данные датчиков, установленных на различных приборах и машинах. Такие сенсоры могут применяться в любой отрасли и передавать информацию о состоянии окружающей среды, данные управления транспортом, об эмоциональном настрое покупателей, данные системы управления "умным домом". Такие данные обладают высоким уровнем разнообразия, неструктурированности, зачастую отличающихся присутствием шумов, избыточностью нерелевантных данных. Данные "Интернета вещей" пока не составляют основную часть среди больших данных, тем не менее к 2030 году, согласно исследованию McKinsey, количество датчиков и сенсоров достигнет порядка 1 триллиона и Интернет вещей составит превалирующую долю "больших данных", согласно исследованию НР [BigDataSurvey2014]. Кроме того, развитие Интернета вещей будет способствовать росту доли полезной информации - до 35% к 2020 году. Сегодня только 22% собранной информации является полезной, и только 5% действительно анализируются.

Большие данные также напрямую связаны с дата-центрами, поскольку организация дата-центров - это не только платформа хранения данных, но и управление данными, использование аналитических инструментов, что требует развитие не только аппаратного, но и программного обеспечения. Вместе с развитием больших данных будет увеличиваться роль дата-центров и разнообразие выполняемых ими функций.

Технология Hadoop, упоминание которой неразврывно связано с развитием БД, широко используется в приложениях по боработке данных в различных отраслях, например, для фильтрации спама, поиска взаимосвязей между объектами, потокового анализа информации, отслежвания социальных активностей целевой аудитории и т.д. Hadoop используется для надежных, масштабируемых и распределенных вычислений, но может также применяться и как хранилище файлов общего назначения, способное вместить петабайты данных. Многие компании используют Hadoop в исследовательских и производственных целях. Сегодня фреймворк Apache Hadoop лежит в основе большинства решений "больших" данных таких крупных ИТ-компаний, как Cloudera, IBM, MapR, EMC, Oracle.

Таким образом, под термином "большие" данные - одно из лидирующих стратегических направлений среди "Интернета вещей", облачных вычислений, дата-центров - мы будем понимать набор технологий и методов обработки динамически растущих объемов данных, анализирующихся в распределенных информационных системах, обладающих одной или несколькими характеристиками в совокупности

1) данные поступают из одного или нескольких разных источников или (и) обладают разной степенью структурированностью и форматом представления;

2) объем накопленных данных превышает 100 Тбайт;

3) данные поступают через высокоскоростную потоковую передачу и объем генерируемых данных растет со скоростью более 60% в год;

и обеспечивающих организацию качественно новой полезной информацией.

1.2 Анализ процесса управления большими данными

Управление большими данными (Big Data Management) - понятие, складывающееся из понимания "больших данных" и "управления данными": в предыдущем разделе определено то, что понимается под термином "большие" данные; под управлением данными понимается сбор, хранение, а также обработка и доставка данных. Под обработкой может пониматься обширное количество процессов, особенно в том случае, когда применение информации, полученной из данных, отличается от первоначально заданой цели обработки данных. Управление данными включает в себя большое колчество различных дисциплин, в том числе, создание информационных хранилищ, интеграцию данных, проверку качества данных, управление контентом, обработку событий и т.д.

Управление большими данными - это совокупность дисциплин, инструментов и платформ для работы с БД, согласно определению "больших" данных, данному выше. Такое определение дается в исследовании TDWI [tdwi-managing-big-data. pdf], в котором также приводится опрос среди специалистов, работающими с БД, на тему тему "Есть ли в вашей организации "большие" данные?". Согласно опросу, около четверти опрошенных компаний работают с структурированными большими данными; 31 % респондентов показали, что их большие данные представлены разнообразными форматами и 38% не используют решения БД ни в каком виде. Следует отметить, что участник опроса в основном являлись компании двух видов: интернет-компании среднего размера и крупные корпорации с доходом более чем 10 млн. долл. в год. Авторы отмечают, что при усреднененной выборке компаний, количество организаций без БД было бы заметно больше, но не на настолько, чтобы стать большинством.

Рисунок n. Есть ли в вашей организации БД, согласно определению, приведенному определению*? (* Данные больших размеров, в первую очередь) 461 опрошенный

26% - да, но большинство таких данных структурированы

31% - да, данные разнообразные

38% - нет, мы не работаем с БД, ни в каком определении

4% - не знаю

1% - другое

Управление большими данными для большинства компаний сегодня - это возможность получить понимание собранных данных, построить предиктивную аналитику для выявления новых интересных взаимосвязей о потребителях, рынках, партнерах, издержках и операциях компании. Для выявления основных причин, был составлен опрос на тему: "Какие сегменты вашего бизнеса или технологии вы бы улучшили, используя решения управления БД?" [tdwi-managing-big-data. pdf] (Рис n).61% опрошенных заявили о возможном использовании БД для развития аналитических инструментов, включая функции расследования мошенничества (21%) и приложения по оценки риска (16%). Второе, что представители различных компаний улучшили бы с помощью анализа БД - это раскрытие информации, что отметили 39% опрошенных, получение business insights (особо важной для бизнеса информации) с большей точностью и аккуратностью отметили 34%, извлечения большей ценности для бизнеса - 33%. В этом направлении участники опроса особенно отметили важность БД для оптимизации бизнес-процессов, соблюдение требований бизнеса, а также понимание изменения, происходящих на рынке присутствия компании. Третий блок вопросов, к которым бы активно применялись решения БД, при условии их успешного внедрения - управление продажами и маркетинговыми кампаниями. К таким вопросам относятся исследование рынка, отслеживание потребительских настроений по статистике "кликов", таргетированный маркетинг, построение и прогнозирование развития трендов, и т.д.

1.3 Формулирование определения проекта управления БД

Проекты, рассматриваемые в данной работе, в первую очередь, должны соответствовать определению "больших" данных, и соответствовать трем V-характеристикам БД.

Первая характеристика такого проекта говорит о его возможности работать с данными разного вида и разной степени структурированности. Сегодня доля структурированных данных составляет 88% от общего объема обрабатываемых данных, и большую часть структурированных данных составляют реляционные данные. Следовательно, применение таких инструментов обработки данных как DMBSs, SQL, остается актуальными и при работе с большими данными. Второй по распространенности использования формат БД - это полуструктурированные данные, распространенными примерами которых являются стандарты XML, JSON, RSS. Среди них стремительную популярность набирают интернет-данные, генерируемые веб-приложениями и веб-серверами. Удивительным остается то, что около половины участников (45%) опроса не анализируют веб-данные. В последние три года также все больше обращают внимание на сбор и анализ данных социальных медиа. Но наибольший интерес все-таки вызывают неструктурированные данные: аудио/видео файлы (45%), персональные файлы (43%), почтовая переписка или e-mails (53%). Также к неструктурированным данным относятся данные, порождаемые сенсорами, датчиками, машинами.

Проекты, относящиеся к проектам управления "большими" данными, должны содержать несколько видов перечисленных выше данных.

Вторая характеристика БД, влияющая на определение рассматриваемых проектов - объем данных. По результатам опроса, большинство компаний переступили порог в 10Тбайт и планируют достичь 100Тбайт в перспективе на ближайшие три года.

Третья характеристика оценивает скорость работы с большими данными и темп их накопления и также учитывается при отборе проектов управления БД. Скорость говорит о том, что захват и обработка данных производится в режиме близком к реальному времени, или о том, что в организации накопление данных идет с высокой скоростью [обзор Хабр http://habrahabr.ru/company/moex/blog/250463/]. Необходимость в быстром анализе подкреплется развитием конкуренции на многих рынках, именно поэтому большинство компаний-первопроходцев, внедривших решения по управлению БД - это компании из высоконкурентных областей бизнеса, использующие ИТ-технологии для получения дополнительных возможностей.

В основе отбора проектов БД лежит методика отнесения ИТ-проектов к "большим данным", предложенная компанией IDC [IDC Russia] (с Рис.1.).

Согласно данной методике, под категорией "Данные" понимаются 4V - характеристики стандартного определения БД, оцененные в текущий момент. Категория "Инфраструктура" говорит о развертки решений на базе динамически адаптируемой инфраструктуры, основным параметром которой является обеспечение вычислительных ресурсов и памяти по требованию/по необходимости. Категория "Приложения" характеризует платформу обработки БД, например, программная платформа построения распределенных приложений - Hadoop. Последняя категория о формулируется как постоянное извлечение ценной информации для бизнеса.

В данной работе рассмотренная методика изменена. Во-первых, в основе нашего определения БД, агрегированного из определения понятия БД аналитических компаний, ведущих производителей решений БД, лежит три основные характеристики БД, а именно объем, сокрость и разнообразие данных. Во-вторых, определения критериев "Платформа" и "Инфраструктура" остаются теми же, но небольшая поправка внесена в определение "Значения для бизнеса". Здесь используется уточнение, связанное с предоставлением бизнесу качественно новых знаний, результатов аналитики, что подчеркивает ся в определении "больших" данных, заданном компанией SAP.

Такая методика позволит отобрать среди множества проектов, связанных с обработкой информации и построением аналитики, те проекты, которые максимально соответствуют современному пониманию больших данных. Эта методика является часть общего алгоритма отнесения ИТ-проектов к проектам БД, который использовался в данной работе, по ее соответствию определению БД (Рис.2).

Предварительно, перед использованием этого блока анализа проекта, начальные данные о проектах собираются с веб-сайтов, пресс-релизов, презентаций для партнеров и клиентов, материалов конференций по ведущим вендорам в области решений БД. Согласно различным аналитическим обзорам, ими являются SAP, Oracle, IBM. Для сбора информации по российским проектам также использовались материалы специализированных отраслевых изданий, информационных ИТ-порталов и информации консалтинговых компаний, ИТ-интеграторов на российском рынке, непосредственно участвующих во внедрении этих проектов [ссылки из изученности]. Зная, основные понятия темы исследования, можно построить алгоритм отбора проектов БД, который будет рассмотрен подробнее в Главе 2.

К рассматриваемым проектам также применения классификация, основой которой послужила данная классификация задач, требующих применения технологии БД [http://compress.ru/article. aspx? id=23469]:

Глава 2. Формирование списка бизнес-задач в проектах управления БД

2.1 Анализ российского и международного рынков решений в области БД

Прогноз мирововго рынка по странам и регионам

Согласно прогнозам различных аналитических компаний, общий объем рынка больших данных в мире будет продолжать расти. Росту решений в области управления БД будут способствовать развивающиеся страны, перенимающие опыт развитых стран. Аналитики компаний Cisco прогнозируют такую же популярность технологий "больших" данных в развивающихся странах, какую они приобрели в развитых странах, чему поспособствует доступность технологии, накопление достаточного объема данных, наличие примеров проектов и best practices, успешно внедренных в других странах. Таким образом, 40%, которые занимают развивающиеся страны сегодня вырастут до 62% накопленной в мире информации к 2020 году, по прогнозам компании ЕМС и IDC, и развивающиеся рынки станут основным поставщиком информации [http://russia. emc.com/about/news/press/2012/20121211-01. htm].

Говоря о географическом распределении проектов БД, лидируют по внедрению проектов управления БД компании Западной Европы и США, составляя почти половину рынка ПО, услуг и оборудования в сфере "больших" данных. Уровень инвестиций в Западной Европе составляет 2, 49 долл/гигабайт данных, в США - 1,77 долл/гигабайт данных. Страны Азиатско-Тихоокеанского региона также стремительно развиваются в этом направлении (на третьем мете по уровню инвестиций на гигибайт данных находится Китай - 1,31долл/гигабайт данных, далее Индия с показателем 0,87 долл/гигабайт ланных). Следом за АТР располагаются страны Латинской Америки, стремительно развивающиеся в это направлении.

Инвестици - как есть - как будет вместе с переходом на следующую ступень зрелости технологии "больших" данных, рынок БД продолжает расти, и, в первую очередь, об этом говорит рост инвестиций в области БД на международном уровне. В 2014 году, по данным исследования Mind Commerce, объем мирового рынка БД составил 29 млрд. долл. Из них большая часть расходов пришлась на сегмент сервисных услуг, 38% на оборудование и 22% на программное обеспечение, согласно отчету исследовательского агентства Wikibon [Big Data Vendor Revenue and Market Forecast 2013-2017, http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017]. Согласно исследованию компании IDC, к 2018 году расходы на технологии БД в совокупности на оборудование, программное обеспечение и ИТ-услуги, приблизятся к 80 млрд. долл [IDC Worldwide Big Data Technology and Services 2014-2018 Forecast, 2014]. Такой рост многие специалисты ЕМС обосновывают увеличение доли автоматически генерируемых данных. Данные, вырабатываемые различными сенсорами, датчиками, система займут почти 40% от общего объема данных к 2020 году, что в 4 раза больше их доли в 2005 году и именно они станут основным фактором увеличения рынка БД.

По задачам

По поставленным задачам, инвестиции в "большие" данные будут вложены в такие приоритетные направления в рамках 2014-2017 годов, как исследование поведения клиентов и таргетинга, финансовое планирование и финансовый анализ, а также в процесс управления продажами. Сегодня больше внимание уделяется таким областям как исследование клиентуры компаний, риск-менеджмент, а также оценка жизненного цикла продуктов и управление планированием запасов [Economist Intelligence Unit Survey 2014].

Стратегия и технологии

Важно отметить, что с ростом инвестиций в решения БД меняется и отношений бизнеса к их использованию. Опрос компании T-System показал, что существуют как скептически настроенные страны (Германия, Австрия, Швейцария, Франция), так и страны, активно вкладывающиеся в развитие этих технологий (США, Испания, Россия). У большинства компаний уже существует стратегия развития проектов по управлению БД, среди них также российских компаний, 46% которых оценивают свой уровень как "хорошо подготовленные" [http://www.computerra.ru/105278/nebolshie-vyivodyi-o-bolshih-dannyih/].

В рамках этого же исследования, проведенным T-Systems в 2013 году, среди внедряемых технологий наиболее популярными технологиями оказались Microsoft SQL и SAP HANA. Около 30% опрошенных компаний признали In-memory технологии (SAP HANA, Oracle Exadata и т.п.) наиболее полезными в вопросе решения проблем БД. За ними следуют NoSQL базы данных, анализ log-файлов, Hadoop/ MapReduce.

Тенденции развития рынка

Согласно исследования IDC, среди основных тенденций развития рынка решений БД выделяют:

1. Развитие гибридных платформ хранения данных как следствие роста интереса к облачным решениям в сфере БД в 3 раза по сравнению с текущим положением;

2. Темп роста количества приложений работающих с прогнозной аналитикой будет на 65% выше, чем у приложений без аналитического инструментария;

3. В 3 раза больше аналитики будет построено на анализе данных социальных сететй и медиа-данных, что станет одним из основных драйверов развития БД;

4. Интернет вещей стимулирует развитие решений для анализа потоковой информации в режиме реального времени, сто скажется в росте соответствующих приложений;

5. К 2018 году 50% пользователей будут взаимодействовать с сер-

висами, основанными на когнитивном вычислении (вычисления основанные на искусственном вычислительном процессе, в системе, действующей разумно по некоторому определению) [МОЕХ - обзор рынка].

Количество проектов БД мало.

О развитости рынка на практике можно судить исходя из опросов, проводимых различными аналитическими компаниями и представляющих информацию о том, на какой стадии сейчас находятся проекты в сфере БД.461 участник опроса ответили на вопросы "Каков статус управления БД в вашей организации сегодня?", "Как вы планируете развивать подобные решения в будущем?" В итоге, только 10% смогли с уверенностью сказать, что решения БД в их компании уже внедрены, причем из них только 3% - те, кто действительно получают ценность из обработанных данныхи 7% - новички в этой сфере. В стадии внедрения проектов БД находится 10% опрошенных, что говорит об удвоении пользователей решениями БД в ближайшие полгода, и в рамках трех лет более половины компаний планируют использовать подобные решения. При этом количество не заинтересованных в решениях БД в ближайшем будущем весьма мало и составляет 23% тех, кто не имеет четких планов по внедрениям БД [tdwi research]

В 2014 году по сравнению с предыдущим количество успешно реализованных проектов выросло на 45%, и достигло 29 млрд. долл.

Ключевые факторы роста

Исследователи выделяют следующие ключевые факторы роста рынка в течение года:

· растущая уверенность среди корпоративных клиентов в продуктах и услугах, связанных с "большими данными", в результате улучшения маркетинга со стороны поставщиков;

· повышение уровня готовности этих продуктов и услуг, включая выпуск YARN (MapReduce 2.0);

· повышение конфиденциальности и безопасности, а также гибкости управления, улучшение резервного копирования и ускорение процесса восстановления (в частности для Hadoop);

· увеличение числа партнёрских соглашений между компаниями с традиционной ИТ-инфраструктурой и внедряющими решения Big Data;

· рост числа активных посредников. [wikibon]

Эксперты IDC, выделили 3 драйвера рынка Больших Данных 2015 года:

· Массовые поглощения клиентской базы компаний, предлагающих мобильные приложения и другие дата-платформы;

· Развитие облачной инфраструктуры; [http://habrahabr.ru/company/moex/blog/256747/]

Дальнейшее развитие

В 2015 году начнут внедряться технологии, позволяющие бизнес-пользователям самостоятельно обращаться к интересующим их данным, - отметил Шредер. - Системы самообслуживания помогут разработчикам и аналитикам изучать данные напрямую. Прежде создание централизованных структур данных считалось возможным лишь при участии ИТ-служб.

2.2 Исследование ограничителей роста российского и международного рынков решений в области БД

Как отмечает Светлана Мальцева, одной из сложностей развития решений в сфере "больших" данных является отсутствие проработанных методик внедрения подобных проектов. В первую очередь, это связано с тем, что у таких проектов присутствует не только технологическая, но и организационная составляющая. Для успешного использования технологий БД предприятие должно иметь соответствующе настроенные бизнес-процессы и подходы их настройки, иметь развитую ИТ-инфраструктуру и профессиональных специалистов в области работы с данными.

Низкий уровень зрелости организации также отмечен в опросе, проводимом в рамках исследования. Когда компания впервые сталкивается с БД, она обычно имеет слабую ИТ-инфраструктуру для использования таких решений (28%), а также наблюдаются сложности в работе с данными нового типа или с данными из новых источников (22%), но большие затруднения возникают с отсутствием в компании сотрудников с нужными профессиональными навыками в этой области (40%).

Недостаток знаний проявляется не только в непосредственной работе с БД, но в большей мере в управлении ими, в понимании и умении получить пользу от работы с БД. Как отмечает Константин Поляков в статье [http://www.osp.ru/cio/2012/04/13015322/]: " Для этого потребуются не только новые технологии, но - главное - новые подходы к формулировке и решению прикладных задач, в которых задействованы большие цифровые массивы". Эта проблема хорошо видена на российском рынке проектов управления БД: большинство проектов управления БД появились не для решения каких-то конкретных практических, бизнес-задач, а из-за наличия возможности снизить стоимость хранения данных. Об отсутствии четкого понимания актуальности и необходимости работы с БД и необходимости проработки теоретической базы, методологических подходов также говорят многие представители российского ИТ-сообщества (Валерий Артемьев, советник директора Центра информационных технологий Банка России, Борис Славин, директор по исследованиям и инновациям компании "АйТи).

При всех этих позитивных изменениях в этом году на пути внедрения технологий обработки "больших данных" остаётся часть прежних барьеров. К ним относятся:

· отсутствие достаточной практики по интеграции аналитических инструментов для обработки "больших данных" в существующие бизнес-процессы;

· отсутствие отточенных приложений для решения конкретных бизнес-задач;

· сформировавшаяся ранними продуктами обеспокоенность по поводу защищённости данных;

· нестабильный и динамичный рынок Big Data. [wikibon]

Например, в ритейле из 28 крупных игроков рынка только 5 имеют системы аналитики больших данных, остальные либо планируют, либо не имеют подобные решения, причем последних большинство. Узкая специфика ритейла, недостаточная осведомленность, в технологиях на уровне менеджмента не дает понимания пользы анализа больших данных (например, точечный целенаправленный маркетинг из анализа данных в чеке) (Источник: интервью в руководителем аналитического отдела Николаем Валиотти, Юлмарт)

"Мы часто ожидаем от будущего слишком много и слишком быстро и одновременно недооцениваем силу новой технологии в далекой перспективе, - говорит Джон Маттисон, директор по информационным технологиям крупнейшей калифорнийской сети клиник Kaiser Permanente. - Большие данные - один из примеров, сейчас вокруг них много медийного шума и при этом совсем мало каких-то действительно значительных историй успеха. Да, кто-то пытается продвигать свой опыт использования больших данных как большой успех, но пока все это совсем не впечатляет".

Проще говоря, революция пока не произошла. Но почему? [http://slon.ru/biz/1152340/]

Раздел 3. Разработка рекомендаций по постановке задач к проектам управления БД

3.1 Формирование списка проектов управления БД

SAP (Россия)

Сейчас Россия на экспериментальном этапе: внедрения САП ХАНА носят прикладной характер, при этом продукт увеличивает производительность уже встроенных систем САП в тысячи раз.

SAP HANA (высокая скорость обработки и доступа к информации за счет технологии in-memory - хранение данные в оперативной памяти в распределенном состоянии - любой объект в качестве ключа в хэш-таблице):

...

Подобные документы

  • Определение программы управления корпоративными данными, ее цели и предпосылки внедрения. Обеспечение качества данных. Использование аналитических инструментов на базе технологий Big Data и Smart Data. Фреймворк управления корпоративными данными.

    курсовая работа [913,0 K], добавлен 24.08.2017

  • Анализ современного состояния систем автоматизации управления данными; учет инфраструктуры информационной системы и требования к ресурсам организации. Разработка системы управления данными на базе SharePoint-сайта, программная реализация и внедрение.

    диссертация [4,1 M], добавлен 10.11.2011

  • Стратегия иерархического, многослойного управления большими системами. Метод согласования модели. Двухуровневое решение задачи статической оптимизации. Метод прогнозирования взаимодействия. Согласование цели, однородность. Время отклика прогнозирования.

    лекция [201,0 K], добавлен 29.09.2008

  • Программа управления данными для компьютера Microsoft Outlook, ее основные характеристики, примеры и области использования. Использование Outlook для управления личными и служебными данными, для организации коллективного доступа к данным в группе.

    контрольная работа [472,7 K], добавлен 18.07.2009

  • Понятие и структура банка данных. Основные структурные элементы базы данных. Система управления базами данных. Преимущества централизации управления данными. Понятие информационного объекта. Современные технологии, используемые в работе с данными.

    курсовая работа [1,8 M], добавлен 02.07.2011

  • Разработка информационной системы управления, ориентированной на учет закупленного товара, работу с историческими данными компании и анализ данных для принятия стратегически верных решений. Хранилище данных в 3NF Билла Инмона. Компоненты Data Vault.

    дипломная работа [3,6 M], добавлен 22.09.2016

  • Изучение областей использования вычислительной техники, истории систем управления данными во внешней памяти. Анализ разработки ряда стандартов в рамках языков описания и манипулирования данными. Обзор технологий по обмену данными между различными СУБД.

    презентация [263,2 K], добавлен 30.05.2012

  • Идентификация моделей каналов преобразования координатных воздействий объекта управления. Реализация моделей на ЦВМ и их адекватность. Формулирование задач управления, требований к их решению и выбор основных принципов построения автоматических систем.

    курсовая работа [1,4 M], добавлен 10.04.2013

  • Понятие и особенности технологий распределенных и параллельных систем управления базами данных, их отличительные черты, схожие признаки. Уникальная роль системы каждого типа и их взаимодополняемость при использовании для решения задач управления данными.

    курсовая работа [839,2 K], добавлен 24.05.2012

  • Характеристика формы как объекта базы данных, предназначенного для ввода и отображения информации. Этапы создания форм в Access, использование режимов Мастер форм и Конструктор. Видовое разделение элементов управления по способу заполнения их данными.

    реферат [190,6 K], добавлен 24.07.2011

  • Создание подсистемы хранения и управления данными для корпоративного сайта. Особенности корпоративного сайта компании "Гвоздь", условия эксплуатации, определяющие основные требования к системе. Обеспечение безопасных условий труда инженера-разработчика.

    дипломная работа [3,9 M], добавлен 06.04.2013

  • Описание существующих систем в области управления складом. Программные комплексы управления складом, их классификация, принцип работы и сравнительная характеристика. Оценка экономического эффекта от внедрения системы управления складом на производстве.

    курсовая работа [731,9 K], добавлен 16.09.2015

  • Теоретические аспекты управления бизнес-процессами. Разница функции и бизнес-процесса. История развития процессного управления. Основные и вспомогательные процессы, их автоматизация. Примеры нотации бизнес-процессов 1С и описание технологии Workflow.

    презентация [1,6 M], добавлен 13.05.2017

  • Понятие системы управления, ее виды и основные элементы. Критерии оценки состояния объекта управления. Классификация структур управления. Особенности замкнутых и разомкнутых систем автоматического управления. Математическая модель объекта управления.

    контрольная работа [1,0 M], добавлен 23.10.2015

  • Стандартизация подходов к управлению бизнес-процессами. Модель BMM для исследования взаимодействий и управления бизнес-процессами предприятия. Методологии моделирования и управления бизнес-процессами. Способы реализации поставленных перед системой задач.

    курсовая работа [232,3 K], добавлен 12.05.2014

  • Классификация компьютерных сетей (КС) по различным признакам. Исследование современных протоколов управления КС. Анализ архитектур управления КС. Разработка требований, предъявляемых к системам управления КС. Выбор способа организации системы мониторинга.

    дипломная работа [3,3 M], добавлен 13.10.2016

  • Описание входных и выходных документов и сообщений. Проектирование реляционной базы данных. Разработка механизмов управления данными в базе при помощи триггеров. Разграничение полномочий пользователя. Организация обмена данными между приложениями.

    курсовая работа [1,6 M], добавлен 22.06.2011

  • Типы моделей данных: иерархическая, сетевая, реляционная. Структура входных и выходных данных. Классы управления данными, исключений. Структура таблиц, используемых в программе. Описание алгоритмов решения задачи. Диаграммы классов, блок-схемы алгоритмов.

    курсовая работа [1,5 M], добавлен 22.06.2012

  • Современная система управления проектами ProjectExpert и Microsoft Project 2007. Project Expert – разработка бизнес планов и оценка инвестиционных проектов, возможности программы. Управление проектом "ОАО Ниф-Ниф" в программной среде Microsoft Project.

    курсовая работа [3,0 M], добавлен 14.05.2015

  • Синтез и реализация процедур управления объектами как главная идея интеллектуального управления. Основные определения, степени интеллектуальности. Свойства интеллектуальных систем управления (ИСУ) с "интеллектуальностью в целом", принципы их организации.

    презентация [51,8 K], добавлен 25.06.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.