Методы и модели обработки информации в хранилищах данных
Исследование методов интеллектуального анализа: классификации, регрессии, поиска ассоциативных правил. Анализ архитектурных решений хранилищ данных с интерфейсом запросов. Оценка автоматизированной банковской системы, основанной на использовании ХД.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | русский |
Дата добавления | 28.03.2018 |
Размер файла | 309,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
АВТОРЕФЕРАТ
диссертации на соискание учёной степени кандидата технических наук
Методы и модели обработки информации в хранилищах данных
05.13.18 - Математическое моделирование, численные методы и комплексы программ
Кузьмин Андрей Николаевич
Казань 2006
1. Общая характеристика работы
Актуальность темы.
Корпоративные структуры часто сталкиваются с проблемой анализа больших объёмов данных, имеющих сложную структуру. Помочь в решении данной проблемы могут системы поддержки принятия решений (СППР), основанные на использовании технологии хранилищ данных (ХД).
Хранилище данных (data warehouse) - накопитель информации из других систем, на основе которых строятся процессы принятия решений и анализа данных. Для хранилища данных характерны предметная ориентация, интеграция, поддержка хронологии и неизменяемость.
Построение СППР актуально для крупных банков, предприятий нефтяной, газовой отрасли, машиностроения, металлургии и т.д. Причём, СППР, основанная на технологии хранилищ данных, будет быстрее окупаться на крупных предприятиях или организациях с развитой филиальной сетью и разнообразной деятельностью.
Среди отечественных коммерческих информационно-аналитических систем, основанных на технологии ХД и предназначенных для автоматизации банковских процессов, можно выделить такие продукты, как RS-DataHouse и InterBank v 5.2 (обе системы разработаны специалистами компании R-Style Softlab), IQ DW (разработка фирмы CSBI), 5NTe RETAIL (предложение от компании «Диасофт»). Из зарубежных банковских технологий, использующих хранилища данных, наиболее перспективными являются разработки компании Misys Retail Banking.
Тем не менее, несмотря на наличие уже готовых банковских систем, использующих технологию ХД, как правило, все имеющиеся на сегодня решения, ориентированы на конкретный тип банков: Альфа-Банк использует систему Equation при доработке 20% программного кода; продукт IQ DW предназначен для задач розничного банковского обслуживания; Interbank v 5.2. разрабатывался в первую очередь для удобства корпоративных клиентов; Bankmaster Plus является специальной разработкой для небольших банков.
Проблемами хранилищ данных занимались такие специалисты, как Э. Спирли, Л. Хоббс, С. Чаудхури, Д. Шаша, Р. Кимбал, С. Хилсон, В. Ганти, К. Лисянский, С. Архипенков, С. Федечкин и др. Вопросы анализа и добычи знаний поднимали в своих работах Кохонен Т., Эйриэнн Х. Слотер, Барсегян А.А., Куприянов М.С., Арсеньев С., Киселев М., Соломатин Е. и др.
Целью работы является повышение эффективности обработки больших объёмов информации за счёт использования технологии хранилищ данных (на примере банковской области).
Для достижения поставленной цели необходимо:
1. Провести анализ и исследование существующих способов хранения данных и принятия решений, а также методов интеллектуального анализа, применимых в банковских системах на основе технологии хранилищ данных.
2. Разработать модели существующих архитектур ХД.
3. Используя разработанные модели, произвести выбор архитектуры ХД для создания СППР, предназначенной для использования в банковской сфере.
4. Провести исследование повышения производительности работы с данными в хранилищах.
5. Осуществить программную реализацию выбранных алгоритмов СППР, основанных на интеллектуальном анализе.
Методы исследований. Для решения перечисленных вопросов использованы методы математического и имитационного моделирования, теория вероятностей, теория множеств, теория массового обслуживания.
Научная новизна работы представлена следующими результатами:
1. Систематизированы архитектурные принципы хранилищ данных.
2. Предложены математические модели взаимодействия пользователей с источниками данных и различными архитектурами хранилищ данных.
3. Предложена трёхуровневая архитектура хранилища данных с интерфейсом запросов.
Практическая ценность диссертации состоит в следующем:
- разработан комплекс SQL-запросов, при помощи которого реализован алгоритм, основанный на идее карт Кохонена, для распределения заёмщиков-юридических лиц по заданным группам риска;
- разработана структура системы поддержки принятия решения, основанная на применении технологии хранилищ данных и предназначенная для крупных банков и предприятий, имеющих развитую филиальную сеть;
- разработана подсистема для осуществления операций по банковским картам;
- разработан программный модуль интерфейса управления запросами, предназначенный для ускорения работы аналитиков без знания структуры конкретных отношений, составляющих витрины и хранилище данных;
- разработан программный модуль для расчета показателей качества обслуживания, оказываемого многоканальной системой массового обслуживания с ограниченной длиной очереди при простейшем входящем потоке требований и распределении времени обслуживания по показательному закону.
Апробация работы. Основные положения диссертационной работы и её отдельные результаты докладывались и обсуждались на следующих конференциях и симпозиумах:
1. Естественные науки: 5-я международная конференция молодых учёных и студентов, Самара, 2004.
2. Туполевские чтения: Международная молодёжная научная конференция, посвящённая 1000-летию города Казани, Казань, 2005.
3. IV Спиридоновские чтения: Актуальные проблемы современной экономики. Международная научно-практическая конференция, Казань, 2006.
4. Доклад на кафедре автоматизированных систем обработки информации и управления, Казан. гос. техн. ун-т, 2006.
5. Информационная культура в системе подготовки будущего инженера: Региональная научно-практическая конференция, Нижнекамск, 2006.
6. XIX международная научная конференция: Математические методы в технике и технологиях, Воронеж, 2006.
7. Научно-техническая конференция по вопросам информатики, вычислительной техники и информационной безопасности, Казань, 2006.
8. Инфокоммуникационные технологии глобального информационного общества: 4-я ежегодная международная научно-практическая конференция, Казань, 2006.
На защиту выносятся:
1. Методы интеллектуального анализа и добычи знаний, применяемые для создания систем поддержки принятия решений, основанных на хранилищах данных.
2. Модель трёхуровневого хранилища данных с интерфейсом запросов, сохраняющая возможность создания запросов непосредственно витрине данных, общему ХД и предоставляющая пользователю возможность работы с лаконичным описанием данных.
3. Способы выбора вариантов загрузки данных, типов индексов и количества получаемых атрибутов, приводящие к повышению производительности работы с ХД.
4. Результаты вычислений основных показателей многоканальной банковской системы массового обслуживания с ограниченной длиной очереди, предназначенной для обработки информации в ХД.
Публикации. Основные результаты диссертации опубликованы в 12-ти печатных работах, включая 3 статьи, 8 тезисов докладов (из них 5 на международных научных конференциях) и один препринт.
2. Основное содержание работы
Во введении обосновывается актуальность темы, сформулированы цели и задача диссертационной работы, приводится краткое содержание глав диссертации, показана научная новизна и её практическая значимость. Определены основные положения работы, выносимые на защиту.
В первой главе исследована архитектура СППР в банковской сфере без использования технологии ХД на примере изменения процентной ставки по вкладам в иностранной валюте и проведения операций с ценными бумагами в Сберегательном банке. Обобщённая архитектура СППР представлена на рис.1.
Рис. 1. Архитектура системы поддержки принятия решений без использования технологии хранилищ данных
Рассмотрены проблемы аномалий, присущих реляционным базам данных в банковских системах, а также возможные способы их устранения, которые сводятся к процессу нормализации, требующему значительных временных затрат и наличия высококвалифицированных специалистов. Рассмотрены такие типы ограничений проектов реляционных баз данных, предназначенные для улучшения их схем, как декомпозиция, функциональные зависимости, ограничения ссылочной целостности и др.
Для плавного перехода от использования автоматизированных систем, работающих с изолированными в каждом филиале банка реляционными базами данных, к качественно новому единому унифицированному программному продукту, основанному на СППР с использованием ХД, целесообразно проведение централизации ресурсов, которое заключается в размещении всех БД на серверах головного отделения.
В ходе проведённых исследований, целью которых являлся выбор СУБД для создания ХД новой СППР, было отдано предпочтение продукту Oracle 9i. Исследованиям подвергались следующие СУБД: Microsoft SQL Server 2000, Oracle 9i и dBase IV. Другие системы (Informix, Sybase и т.п.) не исследовались по причине отсутствия прикладного программного обеспечения, в котором было бы реализовано их применение. Результаты быстродействия исследуемых СУБД представлены на рис. 2, из которого следует, что Oracle 9i имеет лучшее быстродействие по сравнению с MS SQL Server 2000 и базами типа dBase IV.
Исследование проводилось при следующих условиях:
· удаление сервера баз данных от клиентских рабочих станций ?30км;
· общий объём всех таблиц в каждой из сравниваемых баз данных ? 10 Гбайт;
· время доступа с рабочих станций до сервера ? 21 мс (вычислено при количестве ping-ов равном 1000 с 32 байтами в каждом ping-e).
Рис. 2. Сравнение эффективности различных типов БД при работе с большими объёмами данных
Идея технологии ХД состоит в хранении ненормализованных исторических данных, за счёт агрегирования которых увеличивается скорость доступа.
Концепция хранилищ данных должна способствовать решению проблемы использования огромных массивов накопленной информации и являться единой базой для всей корпоративной структуры системы поддержки принятия решений, позволяющей улучшить аналитические, прогнозирующие и оперативные показатели.
Проведённый анализ имеющихся публикаций по использованию СППР, основанных на применении технологии хранилищ данных, позволяет сделать вывод о перспективности этого направления, которое позволит обеспечить лучшее качество всех данных в хранилище, задействованным в подготовке отчетности для контролирующих органов и руководства.
Для более быстрого и эффективного анализа больших объёмов находящихся в хранилище данных исследована возможность использования OLAP-технологии. На примере операций среза, вращения, консолидации и детализации трёхмерной модели «Доходность» (рис. 3) показана целесообразность применения методов OLAP-технологии для аналитической обработки данных, представимых в виде многомерного куба.
Рис. 3. Представление многомерной модели данных «Доходность» в виде гиперкуба
Проведено исследование трёх способов реализации OLAP-систем (MOLAP, ROLAP и HOLAP), а также получены результаты сравнения быстродействия двух аналогичных программных продуктов, работающих в первом случае - с реляционными БД формата dBase, во втором случае - с многомерной денормализованной БД на Microsoft SQL Server 2000 (результаты приведены на рис. 4). Проанализировано использование OLAP-технологии в кредитном мониторинге банка «Сосье Женераль Восток».
Рис. 4. Результаты сравнения быстродействия реляционной БД и многомерной БД
Во второй главе проведено исследование общих методов интеллектуального анализа, в число которых входят классификация, регрессия, поиск ассоциативных правил и др.
Вышеперечисленные методы являются основными задачами технологии Data Mining (добыча знаний) и применяются в СППР, основанных на использовании хранилищ данных. Для решения этих задач в технологии Data Mining широко используются алгоритмы перебора, нечёткая логика, генетические алгоритмы и нейронные сети.
Задача классификации исследуется на примере автоматизации операции закрытия глобального банковского дня, в которой каждый объект, оказывающий влияние на процесс закрытия глобального дня, характеризуется следующим набором переменных {Наличие открытого операционного дня исполнителя; Наличие открытого операционного дня филиалов Дневная капитализация, Пролонгация, Поднятие документов в бухгалтерию, Закрытие глобального операционного дня}. В этом наборе переменная «Закрытие глобального операционного дня» - зависимая, а остальные - независимые.
Данная задача решена двумя способами: при помощи алгоритма покрытия и методом Naпve Bayes. Несмотря на разные подходы (алгоритм покрытия предполагает построение деревьев решений для каждого класса по отдельности, а метод Naпve Bayes основан на вычислениях условных вероятностей принадлежности объекта к некоторому классу при равенстве независимых переменных определённым значениям и их независимости друг от друга), результат решения задачи в обоих случаях получается одинаковым. Однако, применение алгоритма покрытия для решения данной задачи более предпочтительно по причине наличия некоторых зависимостей переменных, определяющих условия возможности закрытия глобального дня. Поэтому, этот алгоритм рекомендован для реализации в СППР.
Предложено использовать метод поиска ассоциативных правил для решения задачи по распространению услуг карточных продуктов. В качестве базового алгоритма для реализации поиска частых наборов в СППР предложено использовать алгоритм Apriori, основанный на следующем свойстве поддержки ассоциативного правила: «поддержка любого набора объектов не может превышать минимальной поддержки любого из его подмножеств».
Используя вероятностную сеть Байеса, составлена модель решения задачи о влияниях курсов валют на изменение процентных ставок по вкладам, граф рассуждений которой представлен на рис. 5. В рассматриваемой сети введены следующие обозначения переменных: А='Изменение курса рубля', B='Изменение курса евро', C='Изменение %-й ставки по рублёвым вкладам', D='Изменение курса доллара', E='Изменение %-й ставки по вкладам в евро'.
Рис. 5. Граф рассуждений решения задачи о влиянии курсов валют на изменение процентных ставок по вкладам
Построена модель решения задачи распределения предприятий-заёмщиков по группам риска, основанная на идее самоорганизующихся карт Кохонена, не требующих больших объёмов исходных данных (в отличие от статистических методов). Суть решения задачи описана ниже.
Каждое предприятие характеризуется набором параметров, описывающих его благонадёжность. В случае трёх признаков, характеризующих предприятие (например, «Сумма в 1-й картотеке», «Сумма во 2-й картотеке», «Сумма просрочки по предыдущему кредиту»), возможен переход к представлению в обычном трёхмерном пространстве. На рис. 6 показано размещение объектов (предприятий) в кубе единичного размера с наложенной картой Кохонена. Каждой группе риска можно сопоставить узел карты Кохонена. Предприятиям, имеющим близкую степень благонадёжности, будут соответствовать соседние узлы карты Кохонена.
В третьей главе проведено исследование архитектурных решений хранилищ данных.
Рис. 6. Трехмерный куб с наложенной картой Кохонена
Исследованы следующие два противоположных друг другу подхода к проектированию ХД: проектирование «снизу вверх» и «сверху вниз». Показано, что подход «снизу вверх» не подходит для проектирования хранилищ данных по следующим причинам:
1) недостаточная гибкость;
2) большая стоимость;
3) сложность в сопровождении.
Подход «сверху вниз» более гибок, имеет меньшую стоимость, прост в сопровождении, может объединить в себе все приложения и обладает свойством увеличения степени детализации при переходе на следующий уровень.
Разработаны математические модели следующих архитектур:
· независимое тематическое ХД;
· зависимое тематическое ХД;
· двухуровневое ХД;
· трёхуровневое ХД с интерфейсом запросов.
Кроме того разработана модель функциональной СППР, в которой хранилища данных, как таковые, не используются (анализ производится непосредственно из оперативных источников).
Под тематическим хранилищем данных понимается ХД, в котором размещены данные только из одной конкретной предметной области (например, кредитование, ценные бумаги), в то время как в общем ХД может находиться информация из разных предметных областей. Но в принципе любое ХД можно считать тематическим (например, можно считать, что общее ХД имеет банковскую тематику). Тематическое хранилище считается независимым, если в него закачиваются данные непосредственно из рабочих систем (оно независимо от основного ХД). Тематическое хранилище считается зависимым в случае, когда данные поступают в него из основного ХД. Использование тематических ХД оправдано в том случае, когда требуется быстрая реализация хранилища данных для какого-то одного (либо нескольких) отдельно взятого направления, а на разработку общей архитектуры для отрасли в целом нет времени (например, можно реализовать тематическое ХД отдельно для кредитования юридических лиц, а впоследствии присоединить его к общему хранилищу).
Для применения в крупных банках предложено использование трёхуровневого хранилища данных, которое в состоянии обеспечить хорошую возможность расширения за счёт быстрого добавления витрин данных. Для упрощения работы пользователей в архитектуру трёхуровневого хранилища данных добавлен интерфейс запросов, получив этим новую архитектуру, названную трёхуровневым хранилищем данных с интерфейсом запросов. Интерфейс запросов позволяет пользователям формировать запросы без детального знания структуры таблиц в основном хранилище и в витринах данных.
Для разработки математической модели трёхуровневого хранилища данных с интерфейсом запросов введены следующие обозначения:
X - множество всех отношений, составляющих общее ХД;
Z - множество всех отношений промежуточной области;
- множество всех рабочих систем;
- множество всех внешних систем;
- множество всех зависимых ХД;
- множество всех пользователей;
- множество функций, являющееся интерпретацией интерфейса управления запросами;
- множество всех операций (запросов) пользователей к рабочим системам, порождающее множество всех ответов ;
- множество всех операций (запросов) пользователей к внешним системам, порождающее множество всех ответов ;
- множество всех операций пользователей к интерфейсу запросов, порождающее множество всех ответов ;
- количество рабочих источников данных;
- количество внешних источников данных;
- количество зависимых хранилищ данных;
- количество всех возможных запросов, определённых над множеством всех зависимых тематических хранилищ данных ;
- количество всех возможных запросов, определённых над множеством всех отношений хранилища данных ;
- количество всех возможных запросов, определённых над множеством всех функций интерфейса запросов ;
- количество правил, в соответствие с которыми информация из рабочих систем переносится в промежуточную область;
- количество правил, в соответствие с которыми информация из внешних систем переносится в промежуточную область;
- количество правил, в соответствие с которыми информация из промежуточной области переносится в общее ХД;
- количество правил, в соответствие с которыми информация из ХД переносится в зависимые тематические хранилища;
- количество пользователей общего ХД и зависимых тематических хранилищ.
С учётом принятых обозначений архитектуру трёхуровневого хранилища данных с интерфейсом запросов формально можно описать математической моделью (М.1), представленной ниже.
, где ,
, где ,
: , где , , (М.1)
: , где ,
: , где ,
, где , ,
,
где - множество натуральных чисел
Функция , интерпретирующая заполнение информацией промежуточной области из рабочих систем, определяется формулой:
(1).
Формула (1) справедлива при (2), (3), (4) и (5).
(2),
где - рабочая система, - количество отношений в ;
(3),
где - отношение базы данных рабочей системы , - атрибут отношения , - количество атрибутов в ;
(4),
где - отношение из промежуточной области , - количество отношений в ;
(5),
где - отношение из промежуточной области , - атрибут отношения , - количество атрибутов в .
Операция есть сопоставление атрибуту некоторого атрибута . Равенство в (1) означает перенос информации, имеющейся в атрибуте () всех кортежей отношения () рабочей системы , в промежуточную область . Равенство предполагает, что ни в одном из отношений () промежуточной области , не имеется атрибутов, сопоставленных атрибутам кортежей отношений рабочей системы .
Функция определяется аналогично (1).
Функция , интерпретирующая перенос данных из области в основное хранилище , задаётся следующей системой:
(6).
Формула (6) опирается на (7), (8), (9) и (10).
(7),
где - отношение из промежуточной области , - количество отношений в области ;
(8),
где - отношение из промежуточной области , - атрибут отношения , - количество атрибутов в ;
(9),
где - отношение из общего хранилища данных , - количество отношений в ХД ;
(10),
где - отношение из ХД , - атрибут отношения , - количество атрибутов в отношении .
В (6) операция означает сопоставление атрибуту некоторого атрибута .
Для реализации архитектуры ХД, описанной моделью (М.1), предложено воспользоваться СУБД Oracle 9i, которая использует распространённый язык SQL, реализующий реляционную алгебру. Кроме того, в Oracle 9i Database для улучшения производительности, управляемости и масштабируемости ХД введены такие возможности как, соединительные индексы на основе битовых карт, новый метод секционирования и др.
Предложено реализовать проектируемую систему на четырёхзвённой физической архитектуре с узлом управления питанием, относящейся к классу, которая называется «параллельная серверная конфигурация». В качестве системы дискового управления памяти предполагается использование массива RAID-5.
В четвёртой главе исследованы вопросы повышения производительности работы с данными в хранилищах; приведены реализации рассмотренных выше алгоритмов; произведена оценка автоматизированной банковской системы, основанной на использовании ХД, при помощи показателей теории массового обслуживания.
Архитектура трёхуровневого ХД с интерфейсом запросов предполагает следующую цепочку поступления данных в хранилище:
(Рабочие прикладные системы ) Внешние источники данных ) (Промежуточная область ) (Хранилище данных ).
Первоначальная закачка данных из существующих БД в новую систему является наиболее сложной операцией по причине большого количества таблиц, территориально разбросанных по всей филиальной сети. Предложено три варианта реализации первоначальной загрузки данных:
1) используя инструмент SQL *Loader, входящий в Oracle 9i;
2) при помощи специально разработанного интерфейса загрузки;
3) с использованием транспортируемых табличных пространств.
Загрузка данных часто предполагает соединение данных из многих таблиц, сортировку, создание индексов и т.п. Как правило, все эти процессы занимают очень много времени. Поэтому, в среде Oracle для уменьшения времени выполнения таких операций предусмотрена возможность параллельной обработки данных, которую можно применить и для ускорения процесса загрузки. В случае закачки данных в секционированную таблицу используют загрузку в режиме прямого пути для параллельного ввода информации сразу в несколько разделов. Использование при загрузке режима прямого пути (опция DIRECT_PATH) позволяет обходить ядро обработки запросов на сервере, что приводит к экономии времени.
Процесс параллельной загрузки в режиме прямого пути можно описать при помощи следующей математической модели:
(М.2),
где , и , - множество всех натуральных чисел.
Для создания модели (М.2) использовались следующие обозначения:
- множество параллельных сеансов SQL *Loader;
- множество всех секций таблицы ХД, в которые загружаются данные из сеансов множества S, причём , где ;
- множество всех файлов данных загружаемых в параллельные сеансы SQL *Loader;
- множество всех файлов для контроля загрузки в параллельные сеансы SQL *Loader;
- количество всех секций таблицы хранилища, в которую загружаются данные.
(М.2) можно записать в виде: .
Для того, чтобы загрузка, описанная моделью (М.2), не прерывалась и не выдавались сообщения об ошибках, во время её выполнения не проверяются ограничения, не запускаются триггеры и не обрабатываются индексы. Алгоритм параллельной загрузки в режиме прямого пути SQL *Loader-а можно записать в виде следующей последовательности шагов:
Шаг 1. Отключить все ограничения и триггеры.
Шаг 2. Удалить все индексы.
Шаг 3. Загрузить данные, используя модель (М.2).
Шаг 4. Проверить протокол загрузки данных.
Шаг 5. Включить ограничения и триггеры, отключенные в Шаге 1.
Шаг 6. Построить заново индексы, удалённые в Шаге 2.
Для ускорения выполнения запросов, операций вставки и удаления исследуются:
· эффективность использования индексов для отношений, имеющих небольшие размеры;
· влияние длины ключа в B+-дереве на коэффициент ветвления;
· сравнение эффективности иерархических индексов и индексов на основе битовых карт при работе с многомерными данными;
На рис. 7 и 8 показаны результаты применения иерархических индексов (B-деревья) и индексов на битовых картах при использовании различного набора данных в отношениях, полученных при выполнении алгоритма для определения благонадёжности предприятий, основанного на идее карт Кохонена.
Приведена реализация интерфейса запросов, ключевым звеном которого является список сопоставлений, составляемый для каждой реализованной в СППР подсистемы (Международные карты, Кредитование юридических лиц, Ценные бумаги и т.д.) и представляющий собой список, содержащий следующие сведения:
1) код подсистемы;
2) наименование сведения;
Рис. 7. Результаты сравнения быстродействия алгоритма при использовании различных типов индексов и редко повторяющихся данных
Рис. 8. Результаты сравнения быстродействия алгоритма при использовании различных типов индексов и часто повторяющихся данных
3) наименование отношения, в котором содержится данное сведение;
4) наименование атрибута отношения;
5) тип атрибута.
Алгоритм работы интерфейса управления запросами можно описать следующей последовательностью шагов:
Шаг 1. Получение информации от пользователей.
Шаг 2. Сопоставление информации, полученной в Шаге 1, со структурой отношений в хранилище в соответствии с имеющимися метаданными. Если поступившей информации и метаданных недостаточно для построения SQL-запроса, то возврат к Шагу 1, иначе - Шаг 3.
Шаг 3. Построение SQL-запроса для ХД и последующее его выполнение.
Шаг 4. Преобразование результата выполнения SQL-запроса к понятному пользователю виду.
Шаг 5. Вывод результатов запросов для принятия дальнейших решений.
Произведена оценка качества обслуживания автоматизированной банковской системы (АБС), основанной на использовании ХД, при помощи следующих показателей: вероятность отказа системы, среднее количество находящихся в системе запросов (уже обслуживаемых и стоящих в очереди) и средняя длина очереди. Для этого АБС рассматривалась как многоканальная система массового обслуживания с ограниченной длиной очереди, и предполагалось, что входящий поток требований является простейшим, а распределение времени обслуживания происходит по показательному закону. Сервера, задействованные в процессе обработки информации в ХД, считались каналами системы массового обслуживания.
Введёны следующие обозначения:
m - количество каналов, необходимых для обслуживания запросов всех отделений;
l - количество мест в очереди;
- среднее время обслуживания;
м - интенсивность потока обслуженных требований одним каналом системы, .
Po - вероятность состояния, при котором запросы в системе отсутствуют;
P1 - вероятность состояния, при котором в системе находится один выполняющийся запрос, очереди отсутствуют;
Pm - вероятность состояния, при котором в системе находится выполняющихся запросов, очереди отсутствуют;
Pm+1 - вероятность состояния, при котором в системе находится m+1 запрос: запросов выполняются, один - стоит в очереди;
Pm+l - вероятность состояния, при котором в системе находятся m+l запросов: m запросов выполняются, l - стоят в очереди;
Pотк - вероятность отказа системы, т.е. :
Кзаг - коэффициент загрузки системы.
Вероятности состояний рассчитываются по формуле:
, где , (11).
Формула (11) справедлива для рассматриваемой системы, так как переход автоматизированной системы из состояния, вероятность наступления которого равна Po, в состояние с вероятностью P1 и далее до состояния с Pm совершается так же, как и в системе массового обслуживания с отказами.
Вероятности состояний системы при переходе системы массового обслуживания с ограниченной длиной очереди с (m+1)-го состояния до (m+l)-го состояния можно получить из системы уравнений стационарного режима:
, где (12)
Произведены расчёты Po, Pотк, М, Можк и Кзаг единой системы массового обслуживания для всех отделений Сберегательного банка в республике Татарстан при количестве каналов m от 2 до 25-ти (при большем числе каналов результаты расчётов выходят за границы типа long double языка С++) и различных комбинациях l, м и л при следующих предположениях:
· среднее время нахождения нужной информации по одному запросу равно одному часу;
· длина очереди, ограниченна числом 8.
Такая величина среднего времени оправдана тем, что системы обслуживания клиентов будут работать не с ХД, а с оперативными базами данных, скорость обработки которых значительно выше.
Длина очереди равная восьми должна гарантировать получение результата к концу рабочего дня при условии, что в системе работоспособен только один канал и запрос был поставлен в очередь в течение первого часа рабочего дня пользователя.
На рис. 9 приведены динамики изменений Pотк и Кзаг при различных комбинациях значений l, м и л. На графиках рис. 9 по горизонтальной оси откладывается количество каналов, по вертикальной - коэффициент загрузки системы. Из полученных графиков видно, что для создания единой автоматизированной системы на основе хранилища данных для 41-го отделения Сберегательного банка в Татарстане достаточно наличия восьми каналов. Для более надежной работы системы предложено распределение отделений банка на восемь групп (по количеству каналов) с учётом их территориального расположения и объёма выполняемой работы.
В конце главы приведен проект подсистемы «Международные карты», позволяющей решать следующее задачи:
1. Первоначальная выдача банковских карт.
2. Очередной и досрочный перевыпуск карт.
3. Автоматическое отражение операций, совершённых с банковскими картами, в балансе отделения.
4. Приём карт при закрытии и при истёкшем сроке действия.
5. Приём файлов расшифровок на списание и зачисление из
Головного пластикового центра.
6. Получение отчёта о персонализации карты.
Рис. 9. Динамики изменений и .
В заключении сформулированы основные результаты работы.
В приложениях приведены: фрагменты модулей загрузки на языке запросов SQL; фрагменты отношений, а также их структуры, используемые в решаемых задачах; блок схема, иллюстрирующая взаимодействие пользователя и интерфейса запросов; фрагмент списка сопоставлений.
интеллектуальный хранилище банковский
Основные результаты работы
1. Проанализированы и исследованы существующие способы хранения данных и принятия решений в банковской сфере.
Для ускорения процесса анализа данных, представимых в многомерном виде, было предложено более интенсивное применение OLAP-технологии в СППР, основанных на ХД.
В ходе проведённого исследования методов интеллектуального анализа и добычи знаний, применимых в банковских системах на основе технологии ХД, было сделано следующее:
· решена задача автоматизации закрытия глобального операционного дня двумя способами: с использованием алгоритма покрытия и методом Naive Bayes;
· предложено решение задачи об учёте влияний курсов валют на величины процентных ставок вкладов при помощи вероятностных методик Байеса;
· решена задача распределения заёмщиков-юридических лиц по группам риска методом, основанном на идее карт Кохонена.
2. Разработаны математические модели следующих хранилищ данных:
· зависимое тематическое;
· независимое тематическое;
· двухуровневое ХД.
Впервые предложена архитектура трёхуровневого хранилища данных с интерфейсом запросов. Разработана математическая модель предложенной архитектуры.
3. Для использования в банковской сфере была выбрана архитектура трёхуровневого хранилища данных с интерфейсом запросов, как наиболее перспективная и обладающая наилучшими возможностями для добавления новых предметных областей.
4. Проведено исследование способов повышения производительности работы с данными в хранилищах.
Разработана математическая модель параллельной загрузки в режиме прямого пути. Разработаны алгоритм работы интерфейса запросов и его математическая модель. Предложен алгоритм определения степени благонадёжности предприятий-заёмщиков, основанный на идее самоорганизующихся карт Кохонена.
Доказана эффективность применения иерархических индексов при работе с частоповторяющимися данными, и индексов на основе битовых карт при работе с редкоповторяющимися данными многомерной структуры.
Произведён расчёт основных показателей качества обслуживания автоматизированной банковской системы, основанной на использовании ХД, при её рассмотрении как системы массового обслуживания с ограниченной длиной очереди.
5. Алгоритмы систем поддержки принятия решений на основе интеллектуального анализа и добычи данных реализованы в разработанном комплексе SQL-запросов и программных модулях.
Список публикаций
1. Чугунов А.В., Кузьмин А.Н., Ризаев И.С. Концепции построения электронного документооборота // Труды 5-й международной конференции молодых учёных и студентов. Естественные науки. Часть 18-Б, Секция: информатика, выч. техника и управление, Самара, 2004. - С.94-96.
2. Кузьмин А.Н., Сапаркин П.В. Технология хранилищ данных // Туполевские чтения: международная молодёжная научная конференция, посвящённая 1000-летию города Казани, Том 3, Казань, Изд-во Казан. гос. техн. ун-та, 2005. - С.133-134.
3. Кузьмин А.Н., Ризаев И.С. Методы устранения избыточности в банковских данных // IV Спиридоновские чтения. Актуальные проблемы современной экономики России: международная научно-практическая конференция, Казань, Изд-во Казан. гос. техн. ун-та, 2006. - С.148-150.
4. Кузьмин А.Н. Проблемы реляционных баз данных в банковских системах, математические модели хранилищ данных и параллельной загрузки // Препринт 06П1, Казань, Изд-во Казан. гос. техн. ун-та, 2006. - 12C.
5. Кузьмин А.Н., Ризаев И.С. О внедрении современных информационных технологий в сферу управления банком // Исследования по информатике, Выпуск 10, Институт проблем информатики АН РТ, Казань: Отечество, 2006. - С.151-158.
6. Кузьмин А.Н. Применение вероятностных методик Байеса и нейронных сетей в системах поддержки принятия решении на основе хранилищ данных // Информационная культура в системе подготовки будущего инженера. Материалы региональной научно-практической конференции, Казань, Изд-во Казан. гос. техн. ун-та, 2006. - С.108-110.
7. Кузьмин А.Н. Задача поиска ассоциативных правил в системах поддержки принятия решений на основе хранилищ данных // Информационная культура в системе подготовки будущего инженера. Материалы региональной научно-практической конференции, Казань, Изд-во Казан. гос. техн. ун-та, 2006. - С.111-112.
8. Кузьмин А.Н. Трёхуровневая архитектура хранилища данных с интерфейсом запросов // Электронное периодическое издание: СЭТС - Социально-экономические и технические системы: исследование, проектирование, организация. Секция: математика, механика и выч. техника, Набережные Челны, Камская гос. инж.-экон. акад-я, № 2 (18), 2006. - 6С.
9. Кузьмин А.Н., Ризаев И.С. Применение методов классификации в системах поддержки принятия решений на основе хранилищ данных // XIX международная конференция. Математические методы в технике и технологиях. Сборник трудов, Том 2, Воронеж, Воронежская гос. технол. акад-я, 2006 - С.146-148.
10. Кузьмин А.Н., Ризаев И.С. Интерфейс управления запросами в среде хранилищ данных // Научно-техническая конференция по вопросам информатики, вычислительной техники и информационной безопасности. Материалы конференции, Казань, Изд-во Казан. гос. техн. ун-та, 2006. - С.61-64.
11. Кузьмин А.Н., Ризаев И.С., Яхина З.Т. О повышении производительности хранилищ данных // Инфокоммуникационные технологии глобального информационного общества. Тезисы докладов 4-й ежегодной международной научно-практической конференции, 6-7 сентября 2006 г., Казань, Центр инновационных технологий, 2006, - С.106-110.
12. Кузьмин А.Н. Оценка качества автоматизированной системы, основанной на технологии хранилищ данных // Вестник Казанского технологического университета, Казань, Казан. гос. технол. ун-т, Отечество, №2, 2006. - С.315-324.
Размещено на Allbest.ru
...Подобные документы
Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.
реферат [1,3 M], добавлен 25.03.2013Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Построение информационно-логической модели базы данных. Корректировка данных средствами запросов. Проектирование алгоритмов обработки данных. Реализация пользовательского интерфейса средствами форм. Разработка запросов для корректировки и выборки данных.
курсовая работа [680,9 K], добавлен 19.10.2010Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.
презентация [2,6 M], добавлен 09.10.2013Понимание хранилища данных, его ключевые особенности. Основные типы хранилищ данных. Главные неудобства размерного подхода. Обработка информации, аналитическая обработка и добыча данных. Интерактивная аналитическая обработка данных в реальном времени.
реферат [849,7 K], добавлен 16.12.2016Системы автоматизированной обработки информации. Хранение большого объема информации. Понятие базы данных (БД). Обеспечение секретности данных. Уровни представления данных в БД. Логическая структура данных. Ограничения, накладываемые на данные.
реферат [65,2 K], добавлен 26.11.2011Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.
дипломная работа [3,9 M], добавлен 06.03.2013Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Проектирование базы данных для автоматизированной системы "Склад". Разработка концептуальной модели (ER-диаграмма). Преобразование в реляционную модель и ее нормализация. Разработка запросов к базе данных на языке SQL. Скрипт для создания базы данных.
курсовая работа [161,8 K], добавлен 07.10.2013Характерные черты информационных систем обработки информации (баз данных). Предметная область базы данных. Состояние объектов и их взаимосвязей. Основные модели данных, связывание таблиц. Потенциальные ключи отношений. Языки запросов SQL и QBE.
реферат [131,7 K], добавлен 20.10.2010Создание системы предобработки данных; разработка системы классификации на базе методов и алгоритмов машинного обучения, их реализация в программной системе. Предобработка информации, инструкция пользователя, система классификации, машинный эксперимент.
дипломная работа [917,1 K], добавлен 31.01.2015Описание функциональной структуры автоматизированной системы обработки информации и управления. Логическая и физическая структуры базы данных. Система классификации и кодирования. Математическое и программное обеспечение реляционной базы данных.
курсовая работа [739,7 K], добавлен 14.12.2017Роль классификации документов в решении задач информационного поиска. Методы автоматической классификации документов и этапы построения классифицирующей системы: индексация документа, построение классификаторов на базе обучающих данных, оценка их работы.
курсовая работа [354,2 K], добавлен 13.01.2013Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Обзор моделей анализа и синтеза модульных систем обработки данных. Модели и методы решения задач дискретного программирования при проектировании. Декомпозиция прикладных задач и документов систем обработки данных на этапе технического проектирования.
диссертация [423,1 K], добавлен 07.12.2010Осуществление анализа предметной области и определение модели базы данных. Реализация базы данных в среде Microsoft Access. Создание и исследование формы ввода информации, запросов с условиями выбора, диаграмм по результатам вычислений и отчетов.
курсовая работа [246,1 K], добавлен 19.10.2013Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.
контрольная работа [26,1 K], добавлен 13.01.2013Процессы обработки информации. Эффективность автоматизированной информационной системы. Система управления базой данных. Локальная и распределенная система банков и баз данных. Этапы проектирования базы данных. Различие уровней представления данных.
контрольная работа [75,7 K], добавлен 07.07.2015