Аналитическая обработка кэшированных данных

Особенность кэширования запросов к реляционной базе данных для систем с центральным сервером и распределенными клиентами. Важнейшая характеристика "универсального реляционного запроса", основанного на селекции и проекции естественном соединении.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 02.02.2019
Размер файла 47,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

УДК 004.652

Федеральное государственное бюджетное учреждение науки Институт математики им. С.Л. Соболева

Аналитическая обработка кэшированных данных

С.В. Мосин

С.В. Зыкин

Многие современные решения в области анализа больших объемов данных используют технологии аналитической обработки данных (Online Analytical Processing), сформировавшиеся еще в начале 90-х годов [1]. За последнее время в этой области было получено большое количество фундаментальных [2, 3, 4] и практических результатов [5, 6, 7].

В области теоретических исследований ситуация складывается следующим образом. Огромное число публикаций посвящено проблеме построения оптимального плана запроса на основе формальных правил, в которых не используются области определения предикатов в SQL-операторах (логическая оптимизация) либо эти области учитываются при вычислении статистических оценок для оптимизации физического доступа к базе данных. Близкими по методам решения являются задачи выполнения запросов на потоках данных [9, 10], однако различные, по сравнению с настоящей работой, цели приводят к различным результатам. Наиболее близка к рассматриваемой проблеме работа [11]. В ней рассматриваются конъюнктивные запросы над доменами данных с предикатами в виде арифметических сравнений и представлены алгоритмы вычисления запросов с использованием существующих представлений. В настоящей работе рассматривается специальный вид универсального реляционного запроса над отношениями базы даных, а не над отдельными доменами. Хотя цели в обеих работах совпадают, результаты различны по указанной причине. В частности, в настоящей работе нет необходимости разрабатывать алгоритмы выборки данных из промежуточных представлений, так как их замещает реляционная алгебра.

Существует ряд работ, в которых рассматривается проблема оптимизации запросов к хранилищам данных, имеющих концептуальное многомерное представлние, с использованием динамически формируемых представлений. При этом существуют два основных подхода для резервирования результатов запросов: статический [12-14] и динамический [15-19]. Первый базируется на использовании набора фиксированных запросов, во втором же предполагается динамический выбор результатов запросов для резерврвния на основе статистики появления а также вычислительной стоимости выполнения запросов. В качестве источника данных используются хранилища данных, либо реляционная база данных, преобразованная к иерархическому виду. При этом, рассматриваются специальные запросы манипулирования многомерными данными. В этой статье рассматривается технология раздельного формирования размерностей представления данных, необходимого для текущего анализа. Поэтому интерес представляют стандартные SQL запросы к базе данных и промежуточным представлениям. Результирующее представление может быть затем обработано специальными запросами манипулирования многомерными данными.

Цели и задачи исследования

Целью данной работы, включая результаты этой статьи, является изучение проблемы динамического формирования многомерного представления данных из реляционной базы данных с помощью зарезервированных представлений на компьютере пользователя, оснащенном графическим процессором (GPU). При этом не предполагается какое-либо преобразование исходной схемы базы данных, в том числе к иерархическому виду. кэширование реляционный база данный

Поставленная проблема связана с областью оптимизации запросов, поскольку нацелена на сокращение объема передаваемых данных с сервера базы данных. Зарезервированные данные активно используется в системах управления базами данных (СУБД). Но в большинстве случаев это касается повторного использования данных, записанных в кеш, без предварительного анализа содержимого на предмет возможности частичного или комбинированного использования. Работа СУБД ограничивается тем, что при выполнении очередного запроса блоки данных не запрашиваются с внешних устройств, если они есть в кеше, т. е. анализируются номера блоков, а не их содержимое.

Данная работа основывается на результатах, полученных в статье [8]. Устранено условие, ограничивающее атрибуты промежуточного представления, а также сделано обобщение теорем на случай нескольких промежуточных представлений.

Методы исследования

Основным методом исследования данной работы является анализ запросов к реляционной базе данных. Главными чертами предлагаемого анализа являются:

1. Использование семантики данных

2. Аналитическая проверка возможности использования кэша

3. Аналитическое определение недостающих данных

Для осуществления проверки использования кэша анализируются области истинности логических ограничений искомого запроса и запросов, результаты которых уже содержатся в кэше. Требуемые операции могут быть проведены аналитически, без необходимости дополнительных запросов к базе банных.

Предложенный метод может быть использован для определения недостающих в кэше данных и последующего запроса только на эти данные. Для этого также используются аналитические вычисления, что является принципиальным отличием данной работы от существующих технологий.

Полученные результаты

Сохраненные промежуточные представления данных обозначим =, , , ,

где - промежуточное представление, , - количество отношений в базе данных, использованных при формировании представления , - операция проекции по множеству атрибутов , - операция селекции с логическим ограничением на кортежи .

Целевое выражение, которое надо будет получить из представлений , запишем в виде:

Рассмотрим проблему формирования представления данных из существующих промежуточных представлений .

Теорема 1: , если:

а)

б)

в) .

Предложенные в теореме условия гарантируют, что данные, необходимые для формирования представления , содержатся в промежуточном представлении . Однако в нем могут быть лишние кортежи, которые дают значение при подстановке в формулу . Дело в том, что эти кортежи будут удалены при выполнении операции естественного соединения с отношениями, которых не хватает в множестве для совпадения с множеством .

Используя области области истинности логических выражений у СУБД, можно запросить минимально необходимый набор данных для определения лишних кортежей.

Следующая теорема соответствует частному случаю, где проблема лишних кортежей не возникает.

Теорема 2: , если:

а)

б)

в)

г) .

Для формирования результирующего представления возможно использование не одного, а нескольких промежуточных представлений . Для этого рассмотрим достаточно очевидное свойство операции естественного соединения.

Утверждение: Пусть - результат естественного соединения некоторых отношений. Пусть также . Тогда .

Это действительно так, поскольку после проведения операции естественного соединения с дополнительными отношениями исходные кортежи, содержавшиеся в , могут лишь ''отсеяться'' операцией естественного соединения. Тогда, взяв вырезку по исходным атрибутам, получим как максимум то же самое отношение . Поскольку операция естественного соединения коммутативна, то порядок присоединения отношений не имеет значения.

Теорема 3: , где , если:

а)

б)

в) .

Как и в предыдущем случае существуют условия, при которых целевое представление данных можно вычислить точно.

Теорема 4: , где если:

а) ,

б)

в)

г) .

Выполнение условий рассмотренных теорем не представляет собой исключительный случай, поскольку набор размерностей при формировании гиперкубов изменяется редко, что позволит формировать эти размерности из промежуточных представлений без обращения к СУБД.

Выводы

Подход, описанный в данной статье, является теоретической основой для системы, взаимодействующей с реляционной базой данных. Такая система сможет определять доступность кэша при выполнении последовательных запросов. Это новый подход, который не был представлен ранее. Условия, сформулированные в теоремах, не требуют обращения к базе данных. Полученные результаты дают возможность аналитически вычислять отсутствующие в кэше данные и делать запросы только на эти данные.

Предложенное решение будет использовано при построении многомерных данных. Системы управления многомерными данными, использующие дублированные данные, часто сталкиваются с проблемой обновления содержимого гиперкуба. Эта проблема может быть решена периодическим обновлением этого содержимого. Схожий подход может быть использован для обновления представлений. Для сокращения времени актуализации возможно получить доступ к журналу изменений, который сопровождает СУБД, и актуализировать только те представления, для которых изменились исходные данные в БД.

Работа выполнена при поддержке гранта РФФИ № 12-07-00066-а

Библиографический список

1. Codd E.F., Codd S.B., Salley C.T. Providing OLAP (On-line Analytical Processing) to User-Analysis: An IT Mandate. Sunnyvale(CA): Codd & Date Inc., 1993. 31 p.

2. Lechtenborger J., Vossen G. Multidimensional normal forms for data warehouse design // Inf. Syst. 2003. Vol. 28, N 5. P. 415434.

3. Lehner W., Albrecht J., Wedekind H. Normal forms for multidimensional databases // Proc. of the Tenth Intern. Conf. on Scientic and Statistical Database Management. Capri, 1998. P. 6372.

4. Mazon J.-N., Trujillo J., Lechtenborger J. Reconciling requirement-driven data warehouses with data sources via multidimensional normal forms //Data Knowledge Engineering. 2007. Vol. 63, N 3. P. 725751.

5. Vassiliadis P., Sellis T. A survey of logical models for OLAP databases // SIGMOD Rec. 1999. Vol. 28, N 4. P. 6469.

6. Pedersen T.B., Jensen C.S., Dyreson C.E. A foundation for capturing and querying complex multidimensional data // Inf. Syst. 2001. Vol. 26, N 5. P. 383423.

7. Giorgini P., Rizzi S., Garzetti M. Goal-oriented requirement analysis for data warehouse design // Proc. of the 8th ACM international Workshop on Data Warehousing and OLAP: DOLAP '05. Bremen, 2005. P. 4756.

8. С.В. Зыкин, А.Н. Полуянов Формирование многомерных данных с использованием промежуточных представлений. “Проблемы управления”. 2013. № 5. Стр. 54-59.

9. Olston C., Jiang J., Widom J. Adaptive lters for continuous queries over distributed data streams // Proc. of the 2003 ACM SIGMOD Intern. Conf. on Management of Data (SIGMOD '03). San Diego, 2003. P. 563574.

10. Denny M., Franklin M.J. Predicate result range caching for continuous queries // Proc. of the 2005 ACM SIGMOD Intern. Conf. on Management of Data (SIGMOD '05). N.-Y., 2005. P. 646657.

11. Afrati F., Li C., Mitra P. Rewriting queries using views in the presence of arithmetic comparisons // Theoretical Computer Science. 2006. Vol. 368, N 12. P. 88123.

12. Baralis, E., Paraboschi, S., Teniente, E. Materialized view selection in a multidimensional database. // Proc. of the 23rd International Conference on Very Large Data Bases, Athens, Greece. - 1997 - P. 318329

13. Gupta, H. Selection of views to materialize in a data warehouse. // Proceedings of the International Conference on Database Theory, Delphi. - Greece, 1997. - P. 98112.

14. Gupta, H., Mumick, I.S. Selection of views to materialize under a maintenance cost constraint. // Proceedings of the International Conference on Database Theory. - Israel, 1999. - P. 453470.

15. Scheuermann, P., Shim, J., Vingralek R. WATCHMAN: A data warehouse intelligent cache manager. // Proceedings of the 22nd International Conference on Very Large Data Bases. - Bombay, India, 1996. - P. 5162.

16. Shim, J., Scheuermann, P., Vingralek R. Dynamic caching of query results for decision support systems. // Proceedings of the 11th International Conference on Scientic and Statistical Database Management. - Cleveland, OH, 1999. - P. 254263.

17. Kalnis, P., Papadias, D. Proxy-server architectures for OLAP. // Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data. - Santa Barbara, CA, 2001. - P. 367378.

18. Chang-Sup Park, Myoung Ho Kim b, Yoon-Joon Lee Usability-based caching of query results in OLAP systems. // The Journal of Systems and Software - 2003 - Vol. 68, - P. 103119

19. Keller M., Basu J. A predicate-based caching scheme for client-server database architectures // VLDB Journal. 1996. N 5. P. 3547.

Аннотация

В данной статье предлагается новый метод кэширования запросов к реляционной базе данных для систем с центральным сервером и распределенными клиентами. Данные загружаются в клиентский кэш, основываясь на запросах, выполненных на сервере БД. Каждому запросу ставится в соответствие таблица - результат выполнения запроса. Эти запросы имеют специальный вид, называемый "универсальный реляционный запрос", основанный на трех базисных операциях реляционной алгебры: селекции, проекции естественном соединении (natural join).

Следует отметить, что такая форма запроса наиболее близка к естественному языку и большинство запросов может быть записано в этом виде. Кроме того, эта форма записи позволяет анализировать корректность запроса, проверяя свойство соединения без потери информации (СБПИ). Последовательные запросы могут исполняться на клиенте, используя кэш, если удастся определить, что результаты искомого запроса полностью содержатся в кэше. Для осуществления такой проверки анализируются области истинности логических ограничений искомого запроса и запросов, результаты которых уже содержатся в кэше.

Требуемые операции могут быть проведены аналитически, без необходимости дополнительных запросов к базе банных. Предложенный метод может быть использован для определения недостающих в кэше данных и последующего запроса только на эти данные. Для этого также используются аналитические вычисления, что является принципиальным отличием данной статьи от существующих технологий. Для этой цели в статье представлено четыре теоремы. В первой и третьей теореме получены условия, позволяющие определить наличие необходимых данных, а во второй и четвертой получены условия вычисления данных только с использованием кэша. Проблема актуализации данных не затрагивается в этой статье. Однако она может быть решена путем учета запросов на сервере и обновлении данных при помощи триггеров.

Ключевые слова: реляционная база данных, кэш, область истинности.

Размещено на Allbest.ru

...

Подобные документы

  • Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.

    реферат [849,7 K], добавлен 16.12.2016

  • Определения теории баз данных (БД). Элементы приложения информационных систем. Реляционные модели данных. Задача систем управления распределенными базами данных. Средства параллельной обработки запросов. Использование БД при проведении инвентаризации.

    курсовая работа [518,9 K], добавлен 01.05.2015

  • Тенденция развития систем управления базами данных. Иерархические и сетевые модели СУБД. Основные требования к распределенной базе данных. Обработка распределенных запросов, межоперабельность. Технология тиражирования данных и многозвенная архитектура.

    реферат [118,3 K], добавлен 29.11.2010

  • Понятие и структура реляционной базы данных, ее основные элементы и их взаимодействие. Методика и основные этапы создания базы данных, ее назначение и сферы применения. Правила ввода данных в таблицы. Создание запроса к базе данных, отчетов и диаграмм.

    учебное пособие [3,6 M], добавлен 19.12.2009

  • Описание концептуальной и реляционной баз данных. Характеристика sql-скриптов для создания и заполнение таблиц (devrlopers, e-mail, tel, progect, skills, clients). Правила составления запросов к базе данных. Запросы С Подзапросами и запросы с Having.

    практическая работа [4,2 M], добавлен 23.03.2019

  • Логическое моделирование данных. Структура реляционных данных. Ограничения, которые должны выполняться в любой реляционной базе данных. Запрос на выборку с параметром, перекрестные запросы. Создание запроса в режиме SQL. Создание формы при помощи мастера.

    курсовая работа [1,2 M], добавлен 09.09.2012

  • Определенная логическая структура данных, которые хранятся в базе данных. Основные модели данных. Элементы реляционной модели данных. Пример использования внешних ключей. Основные требования, предъявляемые к отношениям реляционной модели данных.

    презентация [11,7 K], добавлен 14.10.2013

  • Базы данных с двумерными файлами и реляционные системы управления базами данных (СУБД). Создание базы данных и обработка запросов к ним с помощью СУБД. Основные типы баз данных. Базовые понятия реляционных баз данных. Фундаментальные свойства отношений.

    реферат [57,1 K], добавлен 20.12.2010

  • Разработка вычислительной структуры, реализующей заданный набор операций для обработки запросов в реляционной базе данных (БД). Описание общей структуры системы с машиной баз данных. Разработка схем исполнительных процессоров и алгоритмов их операций.

    реферат [140,3 K], добавлен 27.10.2010

  • Определение функциональных зависимостей. Разработка структуры базы данных. Организация запросов к базе данных. Использование триггеров для поддержки данных в актуальном состоянии. Разработка хранимых процедур и функций. Ограничения ведения базы данных.

    курсовая работа [113,2 K], добавлен 17.06.2014

  • Определение архитектуры реляционных СУБД. Рассмотрение кластеризации как основного способа минимизации числа дисковых операций ввода-вывода данных. Применение индексов для повышения производительности SQL-запросов. Процесс кэширования в базах данных.

    курсовая работа [61,1 K], добавлен 15.07.2012

  • Подключение к серверу баз данных, основные функции. Использование PHP в сочетании с сервером Apache. Закрытие соединения, осуществляемое с помощью функции mysql_close. Обработка ошибок подключения к серверу. Создание таблицы, выполнение SQL-запроса.

    презентация [130,8 K], добавлен 21.06.2014

  • Создание баз данных с помощью Transact-SQL. Специализированные типы данных. Обеспечение целостности ссылок. Преимущества хранимых процедур. Синтаксис запроса на создания триггера. Фиксированные серверные роли. Предоставление прав на объекты в базе данных.

    лабораторная работа [2,2 M], добавлен 12.09.2012

  • Сущность базы данных. Процесс построения концептуальной модели. Построение реляционной модели, создание ключевого поля. Процесс нормализации. Проектирование базы данных в ACCESS. Порядок создание базы данных. Создание SQL запросов и работа в базе данных.

    курсовая работа [185,6 K], добавлен 08.11.2008

  • Особенности управления информацией в экономике. Понятие и функции системы управления базами данных, использование стандартного реляционного языка запросов. Средства организации баз данных и работа с ними. Системы управления базами данных в экономике.

    контрольная работа [19,9 K], добавлен 16.11.2010

  • Обработка распределенных данных и запросов. Многопотоковые и многосерверные архитектуры. Основные типы параллелелизма при обработке запросов. Структура компонентов поддержки удаленного доступа. Доступ к базам данных в двухзвенных моделях клиент-сервер.

    презентация [123,1 K], добавлен 19.08.2013

  • Преимущества и недостатки роботизированной сварки. Характеристика видов систем управления базами данных. Информационная модель сварочного робота, системы управления роботом сварочных клещей. Критерии выбора робота и структура запроса на выборку.

    курсовая работа [3,3 M], добавлен 22.12.2014

  • Основы работы с языком программирования Visual Basic 6.0, разработка и обработка созданных баз данных. Создание экранной формы и запросов по таблице VIP. Алгоритм совместного запроса по таблицам VIP и PROD. Методика разработки пользовательского меню.

    курсовая работа [2,7 M], добавлен 04.06.2009

  • Особенности и преимущества Microsoft Office Access как системы управления базами данных реляционного типа. Процесс создания новой таблицы с помощью конструктора, построение схемы данных, создание запроса с помощью языка SQL, вывод информации в отчёте.

    контрольная работа [199,2 K], добавлен 15.12.2014

  • Исследование логической структуры реляционной базы данных на основе инфологической модели и её реализации в программе Microsoft SQL Server 2000. Характеристика разработки вложенных запросов на выборку записей, процедур, триггеров, создания представлений.

    реферат [1,2 M], добавлен 11.05.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.