Разработка оптимальной структуры хранения данных для систем поддержки принятия решений
Рассмотрение этапов построения концептуальной модели данных, реализации хранения в текстовых файлах, реляционных и нереляционных базах данных. Оценка эффективности структуры с точки зрения эффективности хранения и доступа, обеспечения целостности данных.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 07.03.2019 |
Размер файла | 141,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Разработка оптимальной структуры хранения данных для систем поддержки принятия решений
Сучкова Елена Александровна
аспирант, кафедра защиты информации в компьютеризованных системах, ФГБОУ ВПО "Ижевский государственный технический университет им. М.Т. Калашникова"
426069, Россия, Республика Удмуртия, г. Ижевск, ул. Студенческая, 7
Николаева Юлия Викторовна
аспирант, кафедра защиты информации в компьютеризованных системах, ФГБОУ ВПО "Ижевский государственный технический университет им. М.Т. Калашникова"
426069, Россия, Республика Удмуртия, г. Ижевск, ул. Студенческая, 7
Аннотация
В статье проводится разработка и экспериментальное сравнение эффективности структур данных и способов их хранения. В качестве данных для построения моделей используется информация системы поддержки принятия решения на финансовом рынке и данные об экспертных оценках электронной системы проведения тендеров. Для этих двух примеров проводятся этапы построения концептуальной модели данных, реализация хранения в текстовых файлах, реляционных и нереляционных базах данных и оценивается эффективность организованной структуры с точки зрения эффективности хранения и доступа, автоматического обеспечения целостности и непротиворечивости данных. С помощью теоретических методов (абстрагирование, анализ, синтез, идеализация) разрабатываются концептуальные модели баз данных. А с помощью эмпирических методов (эксперимент, сравнение) проверяется эффективность хранения данных с использованием текстовых файлов, реляционной, нереляционной СУБД. Основными выводами проведенного исследования являются рекомендации по выбору систем хранения данных электронных систем поддержки принятия решений. С помощью экспериментального сравнения было выявлено, что для разработанной структуры хранения экспертных оценок использование реляционной системы управления базами данных является наиболее эффективным способом. Для хранения информации по финансовым рынкам для рассматриваемой системы поддержки принятия решения более целесообразным является использование текстового файла.
Ключевые слова: данные, база данных, реляционная база данных, нереляционная база данных, поддержка принятия решений, разработка, информационная система, структура, экспертная оценка, финансовый рынок
реляционный база хранение целостность
Suchkova Elena Alexandrovna
post-graduate student of the Department of Information Protection in Computing Systems at Izhevsk State Technical University
426069, Russia, Republic of Udmurtia, Izhevsk, str. Studencheskaya, 7
hellenaalex@gmail.com
Nikolaeva Yuliya Viktorovna
post-graduate student of the Department of Information Protection in Computing Systems at Izhevsk State University
426069, Russia, Republic of Udmurtia, Izhevsk, str. Studencheskaya, 7
smail-nuv@mail.ru
The article presents the results of the development and experimental comparison of data structures and data storage methods. The basis for building the models included the financial market decision support system and expert evaluations of the electronic tendering system. In both cases the authors built conceptual data models, stored data in text files, relational and non-relational databases and evaluated efficiency of an organized structure from the point of view of efficient storage and access, automatic integrity control and data consistency. By using theoretical methods (abstraction, analysis, synthesis, and idealization) the authors developed conceptual database models. In its turn, by using empirical methods (experiment and comparison) they checked the efficiency of data storage with the use of text files, relational and non-relational databases. As the main conclusion of the research, the authors provide recommendations on how to select the best data storage structures for electronic decision support systems. The experimental comparison allowed to discover that for a developed expert evaluation storage structure the relational database control system is the most effective method while in case of storing information about financial markets, it is better to use text files for a developed decision support system.
Keywords: information system, development, desicion support, non-relational database, relational database, database, data, structure, expert evaluation, financial market
Одним из ключевых аспектов в разработке информационной системы является решение вопроса о выборе оптимальной структуры данных и способов работы с ними. Структура данных - это совокупность типизированных единиц информации и логических связей между ними, позволяющая хранить и обрабатывать данные, обеспечивая их целостность, непротиворечивость, связность и эффективность доступа к каждому модулю или блоку информации с целью его обработки или визуализации. Современные алгоритмы и программные средства обработки данных предоставляют возможности хранения и визуализации данных в разнообразных форматах. Выбор структуры хранения данных на ранних этапах работы с информационными массивами может помочь ускорить ввод данных, сделать более ясным представление данных и повысить эффективность работы аналитических алгоритмов. Работа с данными включает в себя этапы сбора данных, ввода и хранения, обработки и предоставления результатов. Эффективная структура хранения данных позволяет снизить временные затраты на ввод данных и ускорить обработку данных и получение отчетов.
Исходные данные могут быть получены из разных источников и быть представлены в разнообразных форматах: в виде текстовых файлов, документов, таблиц, веб-страниц, выгрузок в форматах xml, csv, и других. Данные могут содержать пробелы или дубликаты, ошибочные значения, противоречия. Перед обработкой данных, представленных в таких форматах необходимо их преобразовать к виду, удобному для применения аналитических алгоритмов, то есть применить процедуры и методы, позволяющие извлечь данные из разнообразных источников, преобразовать их в единый формат, нормировать данные, избавиться от пробелов, дубликатов, ошибок данных. Подробнее о нормировке данных описано в статьях [1][2]. Этот этап называется консолидацией данных и результатом этого этапа являются данные, представленные в оптимальном для обработки виде. Критерии, на основе которых делается вывод о целесообразности использования той или иной структуры для представления данных в порядке понижения их приоритетов: эффективный доступ к данным, автоматизация обеспечения целостности и непротиворечивости данных, скорость получения данных, минимизация объема хранения данных.
Наиболее удобными для работы с экономическими данными структурами являются массивы, графы[3], деревья, то есть данные могут быть представлены с помощью реляционных, иерархических или объектно-ориентированных моделей данных. Каждая из моделей в свою очередь может храниться в бинарных файлах, базах данных или текстовых файлов сложных форматов, таких как xml, csv. Каждый способ хранения имеет свои достоинства и недостатки, рассмотрим их с точки зрения трех критериев: транзакционность, аудит и многопоточность. Текстовые файлы могут быть открыты без использования специальных средств, но не позволяют на уровне хранилища данных обеспечивать целостность и достоверность информации, они также не поддерживают транзакционность, аудит, многопоточность. Бинарные файлы позволяют хранить данные в любом удобном формате, но доступ к этим данным невозможен без разработанных для этого инструментов, транзакционность и аудит также должны быть реализованы на уровне приложения. Базы данных поддерживают аудит, транзакционность, многопоточность, что позволяет сохранить целостность и достоверность данных. Ключи и ограничения на значения полей данных позволяют на уровне хранилища данных контролировать их формат, согласованность, отсутствие дубликатов. Если информация имеет структуру, которую сложно или неэффективно представлять в виде связанных отношениями таблиц, то нереляционные базы данных позволяют работать с информацией на уровне объектов, что позволяет оперировать в приложении бизнес-сущностями без создания сложных запросов, но в то же время снижает гарантии на автоматическую проверку согласованности и целостности данных. Теоретически верно выбранные структура данных и способ хранения могут оказаться несостоятельными на практике, в силу сложности предсказания наиболее используемых запросов и вероятности возникновения узких мест в системах. Эта неопределенность обусловлена разнообразием аналитических алгоритмов, которые могут потребовать определенные алгоритмы работы с имеющимися данными. Рассмотрим примеры сравнения моделей и средств хранения данных на двух примерах. Первый пример содержит упрощенную информационную модель экспертных оценок системы поддержки принятия решения по выбору поставщика [4]. Второй пример содержит модель данных для принятия решения на фондовом рынке [5]. Для каждого примера разработаем концептуальную схему данных и реализуем её хранение в реляционной и нереляционной базах данных, а также, если это возможно, в текстовом файле. Выбор системы управления базы данных является комплексным аналитическим процессом, особенности которого описаны подробнее в [6][7][8]. В качестве реляционной базы данных выбран сервер MySQL 5.6. В качестве нереляционной базы данных выбран MongoDB 3.0.
Рассмотрим логическую схему блока данных электронной системы проведения тендеров, относящуюся к критериям отбора и экспертным оценкам. Основные сущности: Пользователи (Users), Анкеты (Questionary), Вопросы (Question), Ответы (Answer), Типы ответов (AnswerType), Ответ на вопрос (QuestionResult). Каждый вопрос имеет идентификатор, текст и тип ответа (внешний ключ на таблицу AnswerType): свободный ответ, выбор одного из вариантов, множественный выбор и так далее. У каждой анкеты есть идентификатор, текст (название и описание), автор (внешний ключ на таблицу Users). Для тестов с вариантами ответа заполняются значения в таблицу Answer: идентификатор, текст ответа, идентификатор вопроса (внешний ключ на таблицу Question). Схема данных представлена на рисунке 1.
Рисунок 1 Схема базы данных сбора экспертных оценок
Для данной схемы реализован программный код на языке Java, созданы базы данных в MySQL и MongoDB. Далее последовательно было проведено сравнение времени выполнения запросов на добавление, обновление и получение данных (запросы выполнялись последовательно в 1 поток). Результаты экспериментальных запусков представлены в таблице 1.
Таблица 1 - Анализ эффективности способов хранения информации об экспертных оценках электронной системы проведения тендеров
Способ хранения |
Время добавления 10 000 записей, сек. |
Время получения 100 000 записей, сек. |
Время обновления 10 000 записей, сек. |
|
Реляционная база данных MySQL |
7 |
5 |
8 |
|
Нереляционная база данных MongoDB |
8 |
67 |
27 |
По таблице видно, что запросы к реляционной базе данных на получение данных требуют меньше времени на выполнение. То есть по скорости доступа к данным нереляционная база данных уступает реляционной.
Ниже представлена концептуальная схема данных о динамике показателей на фондовой бирже: котировки фьючерса нефти сорта BRENT (таблица ice_brn содержит ежедневные данные о максимальном, минимальном, среднем значении), промышленный индекс Доу - Джонса (таблица dji), индексы AEX, IPC,PTC, Фьючерс на S&P 500 (соответственно таблицы aex,ipc,ptc, sp500vix содержат почасовые изменения). Данные представляют собой временные ряды значений указанных показателей. Статистические и эконометрические зависимости между данными высчитываются и реализуются на уровне аналитического приложения, то есть при формировании структуры хранения данных они считаются независимыми. Изменение во времени и независимость показателей друг от друга диктуют необходимость хранить их в отдельных, не связанных отношениями таблицах, либо осуществлять связь только на основе даты и времени. В качестве первичного ключа, гарантирующего отсутствие дубликатов логично выбрать поле, содержащее timestamp значение точной даты и времени.
Рисунок 2 Схема базы данных о показателях фондовой биржи
Для данной схемы разработан программный код на языке Java, реализующий хранение данных в csv файлах, базах данных MySQL и MongoDB. Разработаны методы для генерации данных, чтения записей и обновления записей для каждого способа. Результаты измерения скорости работы каждого из них представлены в таблице 2.
Таблица 2 - Анализ эффективности способов хранения данных фондовых бирж
Способ хранения |
Время добавления 10 000 записей, сек. |
Время получения 100 000 записей, сек. |
Время обновления 10 000 записей, сек. |
|
Csv файл |
4,6 |
1,576 |
9 |
|
Реляционная база данных MySQL |
7 |
4 |
8 |
|
Нереляционная база данных MongoDB |
1,7 |
39 |
4 |
Итак, согласно проведенному эксперименту, оптимальным способом хранения данных с финансовых рынков является csv файл. Можно выделить следующие достоинства:
- высокая скорость доступа к данным;
- возможность просмотра содержимого файла без использования сложных программных продуктов;
- отсутствие необходимости преобразования данных;
Высокая скорость доступа к файлу в сравнении с базами данных достигается за счет отсутствия затрат на открытие соединения к базе данных, авторизацию, преобразование форматов, контроль целостности и согласованности. Так как из источников данных о биржевых показателях возможна выгрузка сразу в csv формат, то нет необходимости преобразовывать данные, удобнее работать сразу с той структурой, которая предоставляется биржевыми сервисами.
Недостатки хранения данных в csv файлах следующие:
- отсутствие автоматического контроля согласованности и целостности;
- сложность параллельной работы;
- отсутствие транзакционности.
Недостатки использования файлов вместо базы данных для рассматриваемого примера не играют значительной роли. Поскольку для принятия решения на рынке необходима, как правило, самая последняя информация, имеет смысл каждый раз получать новые данные из стороннего сервиса, так что за контроль их целостности и согласованности будет отвечать источник данных. Параллельная работа также не является приоритетным направлением разрабатываемой системы поддержки принятия решения на бирже, так как это приложения является локально установленной программой для каждого пользователя. Необходимости параллельной работы с данными в данном случае нет. Транзакционность не является обязательным требованием, ввиду однопользовательской работы и особенностями процесса поддержки принятия решения, которые не требуют обновления данных, а только лишь чтения и добавления новых.
Таким образом, для разработки приложения поддержки принятия решения на финансовых рынках целесообразно использовать в качестве хранилища данных текстовые файлы, а не реляционные или нереляционные базы данных ввиду отсутствия таких требований, как транзакционность, параллельная работа, контроль целостности, непротиворечивости и согласованности данных, а также приоритета скорости получения данных. При дальнейшей разработке и появлении нового функционала могут появиться новые требования, которые сформируют необходимость использования базы данных.
Необходимо отметить, что все выводы об эффективности структур данных и реализаций хранения в базах данных сделаны для описанных примеров, то есть для разработанных схем данных и программных продуктов с их функционалом и требованиями. Данные выводы не могут быть расширены на другие, пусть даже и схожие, структуры данных и алгоритмы без дополнительных проверок. Все эксперименты осуществлялись на 1 компьютере, серверы баз данных, файлы и приложения располагались локально. Развертывание кластеров баз данных, разнесение приложения и серверов баз данных на разные машины, изменение структуры данных или технологий взаимодействия с хранилищами данных, денормализация данных, и другие изменения могут привести к значительному изменению метрик, а, следовательно, и к целесообразности изменения хранилища данных или способа доступа к нему.
Библиография
1. Лялин В.Е., Сучкова Е.А. Проблемы выбора поставщика-критерии, инструменты и методы оценки // Математические модели и информационные технологии в организации производства. 2012. № 2 (25). С. 39-48.
2. Николаева Ю.В. Нормировка данных для нейронных сетей. Молодые ученые-ускорению научно-технического прогресса в XXI веке: сб.тр. научн.-техн. конф. аспирантов, магистрантов и молодых ученых. 2011. Т. 1 . C. 210-216.
3. Маликов А.В. Ориентированные графы в реляционных базах данных // Управление, вычислительная техника и информатика Доклады ТУСУРа, № 2 (18), часть 2, декабрь 2008. С. 100-104.
4. Suchkova Е.А. Using agent-based approach to implementation of supply processes // Modern informatization problems in the technological and telecommunication systems analysis and synthesis: Proceedings of the XX-th International Open Science Conference (Yelm, WA, USA, January 2015)-Yelm, WA, USA: Science Book Publishing House, 2015. P. 399-404. ISBN 978-1-62174-078-0
5. Николаева Ю.В. Распознавание кризисных паттернов в котировках фьючерсов на нефть сорта Brent // Молодые ученые - ускорению научно-технического прогресса в XXI веке: сборник материалов III Всероссийской научно-технической конференции аспирантов, магистрантов и молодых ученых с международным участием, Ижевск, 22-23 апреля 2015 года / ИжГТУ имени М.Т. Калашникова. 1010 с.
6. Лисин С.И. Обзор и сравнительный анализ систем управления нереляционными базами данных // Молодежный научно-технический вестник. 2013. № 5. ФГБОУ ВПО «МГТУ им. Н.Э. Баумана». С. 1-12. URL: http://sntbul.bmstu.ru/file/out/574615
7. Козлов И.А. Анализ и классификация нереляционных баз данных // Молодежный научно-технический вестник №02, ФГБОУ ВПО «МГТУ им. Н.Э. Баумана». C. 1-23. URL: http://sntbul.bmstu.ru/file/out/552140
8. Лучинин З.С. Структура данных для документо-ориентированных баз данных // Программные системы и вычислительные методы. 2013. № 3. C. 230 - 232. DOI: 10.7256/2305-6061.2013.3.10772.
9. Бондаренко И.Б., Коробейников А.Г., Прохожев Н.Н., Михайличенко О.В. Принятие технических решений с помощью многоагентных систем // Кибернетика и программирование. 2013. № 1. C. 16 - 20. DOI: 10.7256/2306-4196.2013.1.8305. URL: http://www.e-notabene.ru/kp/article_8305.html
Размещено на Allbest.ru
...Подобные документы
Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.
лекция [169,7 K], добавлен 19.08.2013Определение базы данных и банков данных. Компоненты банка данных. Основные требования к технологии интегрированного хранения и обработки данных. Система управления и модели организации доступа к базам данных. Разработка приложений и администрирование.
презентация [17,1 K], добавлен 19.08.2013Обслуживание двух встречных потоков информации. Структура информационных систем. Разработка структуры базы данных. Режимы работы с базами данных. Четыре основных компонента системы поддержки принятия решений. Выбор системы управления баз данных.
курсовая работа [772,0 K], добавлен 21.04.2016Структура и функции системы управления базами данных (СУБД). Управление хранением данных и доступом к ним. Защита и поддержка целостности данных. Надежность хранения данных во внешней памяти. Классификация СУБД по способу доступа к базе данных.
презентация [3,7 M], добавлен 05.06.2014Описание разрабатываемой программы с точки зрения пользователя и программиста. Поэтапная разработка программной системы. Создание базы данных в Access. Разработка структуры классов. Создание структуры для хранения данных. Проектирование интерфейса.
курсовая работа [1,4 M], добавлен 07.08.2013Модели данных как формальный аппарат для описания информационных потребностей пользователей. Структура информационной базы. Типы взаимосвязей. Разработка логической структуры базы для хранения данных о пяти поставщиках. Детализация реляционной модели.
презентация [28,9 K], добавлен 07.12.2013Составление схемы концептуальной модели данных. Разработка структуры реляционной базы данных и интерфейса пользователя. Особенности главных этапов проектирования базы данных. Способы реализации запросов и отчетов. Специфика руководства пользователя.
курсовая работа [186,9 K], добавлен 18.12.2010Понятие и назначение виртуализации систем хранения, хранение данных на уровне сервера и коммутатора. Обзор поставщиков решений виртуализации и характеристика их производительности. Изучение групп основных функций, реализуемых в системе хранения данных.
контрольная работа [1,3 M], добавлен 01.06.2014Microsoft Access - система управления базой данных, предназначенная для создания и обслуживания баз данных, обеспечения доступа к данным и их обработки. Разработка базы данных для хранения данных о книгах, покупателях, персонале книжного магазина.
курсовая работа [6,2 M], добавлен 14.11.2011Проведение системного анализа предметной области и разработка проекта по созданию базы данных для хранения информации о перевозках пассажиров и грузов. Обоснование выбора системы управления базой данных и разработка прикладного программного обеспечения.
курсовая работа [1,1 M], добавлен 18.07.2014Эволюция концепций баз данных. Требования, которым должна удовлетворять организация базы данных. Модели представления данных. Язык SQL как стандартный язык баз данных. Архитектуры баз данных. Среда Delphi как средство для разработки СУБД.
дипломная работа [278,9 K], добавлен 26.11.2004Обзор существующих решений на основе открытых данных. Технологии обработки данных и методы их визуализации. Социальные сети для извлечения данных. Ограничение географической локации. Выбор набора и формат хранения открытых данных, архитектура системы.
курсовая работа [129,5 K], добавлен 09.06.2017Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.
реферат [1,3 M], добавлен 25.03.2013Основные проблемы проектирования реляционных баз данных "МВД". Инфологическое описание сущностей и атрибутов программного обеспечения. Разработка датологической модели данных и гарантирование ее безопасности и целостности. Реализация запросов на SQL.
курсовая работа [3,0 M], добавлен 28.06.2011Разработка информационной системы для хранения данных для предметной области "Самолеты аэропорта". Формат хранения исходных данных, их загрузка в табличный процессор. Тестирование программного комплекса. Возможности пакета MS Excel по обработке данных.
курсовая работа [1,2 M], добавлен 23.04.2014Анализ реляционных баз данных и способов манипулирования ими. Основные понятия баз данных, архитектура СУБД, модели данных. Модель сущность-связь, характеристика связей, классификация сущностей, структура первичных и внешних ключей, целостности данных.
курсовая работа [166,6 K], добавлен 18.07.2012Выделение сущностей для создания структуры хранения данных. Выбор технологии ввода данных таксационных описаний. Разработка программного обеспечения для ввода данных таксационных описаний и его реализация. Безопасность геоинформационной системы.
дипломная работа [2,1 M], добавлен 20.07.2012Анализ предметной области. Проектирование концептуальной модели. Разработка логической структуры базы данных. Выделение информационных объектов. Создание глобальной схемы связей. Поддержка целостности данных. Структура и назначение существующих форм.
курсовая работа [1,4 M], добавлен 23.09.2016Выполнение операций, хранения, редактирования, систематизации данных. Рассмотрение подсистем разрабатываемой системы управления базами данных продуктового магазина. Разработка алгоритма функционирования системы и приложения для работы с базой данных.
курсовая работа [399,1 K], добавлен 26.08.2019Понятие информации, автоматизированных информационных систем и банка данных. Общая характеристика описательной модели предметной области, концептуальной модели и реляционной модели данных. Анализ принципов построения и этапы проектирования базы данных.
курсовая работа [1,7 M], добавлен 18.01.2012