Автоматизированная технология проектирования модели данных и контроля качества данных при построении информационно-аналитических систем
Характеристика технологий в области построения информационно-аналитических систем. Разработка программного комплекса, предназначенного проектировать модель данных и осуществлять контроль качества данных при построении информационно-аналитических систем.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | русский |
Дата добавления | 29.08.2018 |
Размер файла | 1,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
1
Автоматизированная технология проектирования модели данных и контроля качества данных при построении информационно-аналитических систем
Специальность 05.25.05 - информационные системы
и процессы, правовые аспекты информатики
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Ильин Алексей Андреевич
Тамбов - 2008
Работа выполнена в Государственном образовательном учреждении высшего профессионального образования «Тамбовский государственный университет имени Г.Р. Державина».
Научный руководитель: |
доктор технических наук, профессор Арзамасцев Александр Анатольевич |
|
Официальные оппоненты: |
доктор технических наук Муромцев Дмитрий Юрьевич; |
|
кандидат технических наук Громов Максим Сергеевич |
||
Ведущая организация: |
ГОУ ВПО «Воронежский государственный университет» |
Защита состоится «_4_» __04__ 2008 г. в 11 часов на заседании диссертационного совета Д 212.260.05 при ГОУ ВПО «Тамбовский государственный технический университет» по адресу: 392000, г. Тамбов, ул. Советская, д. 106, Большой актовый зал.
Отзыв на автореферат в двух экземплярах, заверенных гербовой печатью, просим направлять по адресу: 392000, г. Тамбов, ул. Советская, д. 106, ТГТУ, ученому секретарю диссертационного совета
Д 212.260.05 Селивановой З.М.
С диссертацией можно ознакомиться в научной библиотеке Тамбовского государственного технического университета.
Автореферат разослан «____»__________ 2008 г.
Ученый секретарь
диссертационного совета,
доктор технических наук, доцент Селиванова З.М.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
данные модель программа
Актуальность исследования. Диссертация посвящена разработке автоматизированной технологии проектирования модели данных и контроля качества данных при построении информационно-аналитических систем. Большинство организаций оперируют со значительным объемом данных, которые необходимо анализировать для получения полного представления о тенденциях, изменениях, других процессах, которые влияют или могут повлиять на деятельность организации. Одним из классов средств, используемых для анализа, являются информационно-аналитические системы. Информационно-аналитические системы состоят из набора интегрированных средств, выбор которых зависит от конкретной задачи. В общем случае, построение информационно-аналитической системы подразумевает решение следующих задач: 1) проектирование модели данных; 2) наполнение хранилища данных информацией с помощью процедур загрузки данных (ETL); 3) обеспечение необходимого качества данных; 4) предоставление доступа к информации пользователям и визуализация анализируемых данных.
Для задач 2 и 4 созданы специализированные программные средства, пригодные для использования практически в любом проекте по созданию информационно-аналитической системы, поэтому в данной работе эти задачи рассматриваться не будут. Задачи 1 и 3 являются уникальными для каждого проекта и решаются каждый раз заново. В результате, проблемы, связанные с задачами 1 и 3, приводят к тому, что, несмотря на опыт и технологии, накопленные за более чем 30-летнюю историю, проекты по созданию информационно-аналитических систем остаются рискованными.
Высокий уровень рисков, связанный с проектами по созданию информационно-аналитических систем, а также постоянно увеличивающийся спрос на системы данного класса требуют поиска и разработки новых технологий проектирования модели данных и контроля качества данных, что обусловливает актуальность представленной работы.
Цель и задачи исследования. Целью данной работы является разработка автоматизированной технологии проектирования модели данных и контроля качества данных, позволяющей сократить трудозатраты, необходимые для создания информационно-аналитических систем.
Для достижения поставленной цели решаются следующие задачи:
1) анализ существующих технологий в области построения информационно-аналитических систем, выявление существующих недостатков и определение требований к технологии разработки систем данного класса; 2) разработка методов проектирования модели данных и контроля качества данных при построении информационно-аналитических систем, удовлетворяющих сформулированным требованиям; 3) разработка программного комплекса, предназначенного проектировать модель данных и осуществлять контроль качества данных при построении информационно-аналитических систем в рамках разработанных методов;
4) экспериментальная проверка разработанной технологии с помощью макета информационно-аналитической системы для анализа деятельности вуза; 5) определение области применения разработанной технологии и возможности сокращения трудозатрат на основе анализа использования разработанной технологии для создания информационно-аналитических систем.
Объект исследования: информационно-аналитические системы.
Предмет исследования: технология проектирования модели данных и контроля качества данных для построения информационно-аналитических систем.
Научная новизна. В диссертационной работе получены новые научные результаты:
1) технология разработки модели данных для информационно-аналитических систем, отличительной особенностью которой является декомпозиция общей задачи построения модели данных на независимые подзадачи разработки модели предметной области и описание правил формирования физической модели данных; такая особенность позволяет проводить решение указанной проблемы независимо специалистами в предметной области и по системам управления базами данных и средствам анализа данных, а также использовать «предыдущий опыт» и наработки предшествующих проектов для разработки данного проекта;
2) а разработанный набор правил формирования физической модели данных позволяет автоматизировать получение ее, требуя лишь описание объектов предметной области;
3) методика автоматизированного контроля качества данных на всех этапах создания информационно-аналитической системы: в источниках данных, в приемнике, а также на всех промежуточных этапах;
4) программный комплекс, позволяющий автоматизировать решение задач проектирования модели данных и контроля качества информации и независимый от технологий, используемых при построении информационно-аналитической системы.
На защиту выносятся следующие основные положения:
1) технология проектирования модели данных для информационно-аналитических систем, дающая возможность автоматизировать получение физической модели данных;
2) методика контроля качества данных, позволяющая автоматизировать контроль качества информации на всех этапах создания информационно-аналитической системы;
3) структура программного комплекса, предназначенного для решения задач автоматизации проектирования модели данных и контроля качества информации.
Практическая ценность работы заключается в снижении трудозатрат при разработке информационно-аналитических систем; в возможности использования опыта предыдущих проектов в разработке данного; в возможности разделения функций «универсального» специалиста на независимые функции специалиста предметной области и специалиста по системам управления базами данных и средствам анализа данных. Указанная технология позволяет построить компьютерно-ориентированную автоматизированную систему.
Полученные в рамках диссертационной работы результаты были использованы в работе консалтинговой компании S&T International (г. Москва) при исследованиях и разработках в области информационно-аналитических систем. Разработанная технология и программный комплекс были успешно применены при разработке информационно-аналитических систем компаний Данон, Кампомос (обе - г. Москва),
Балтийский банк (г. Санкт-Петербург) и М.Видео (г. Москва).
Апробация работы. Полученные результаты докладывались и обсуждались на третьей и четвертой ежегодных конференциях Business
Intelligence (Москва, 2005 и 2006); конференции «XI Державинские чтения» (Тамбов, 2006); Всероссийских конференциях «XII и XIII Державинские чтения» (Тамбов, 2007 и 2008), XVII Международной конференции-выставке «ИТО-2007» (Москва, 2007) и в рамках публичных лекций для студентов и аспирантов в ходе мероприятий, посвященных 75-летию Института математики, физики и информатики ТГУ им. Г.Р. Державина. Результаты работы использовались в реализации совместного европейского проекта в ТГУ им. Г.Р. Державина по использованию информационных технологий в модернизации университетского управления TEMPUS TACIS «Joint European Project on System Modernization of University Management (SMOOTH, UM_JEP 24217-2003)».
Публикации. Основные положения диссертации опубликованы в 12 печатных работах, в том числе 4 статьи опубликованы в двух журналах из перечня рецензируемых научных журналов ВАК за 2006 г.: «Программные продукты и системы» (приложение к журналу «Проблемы теории и практики управления»), «Вестник Тамбовского университета. Серия: Естественные и технические науки».
Структура диссертационной работы. Диссертационная работа состоит из введения, трех глав и заключения, изложенных на 136 страницах, содержит 33 рисунка, 4 таблицы и библиографический список из 73 наименований.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении сформулирована цель работы, обоснована ее актуальность, научная новизна и практическая значимость. Дается общая характеристика содержания диссертационной работы, изложены основные положения, выносимые на защиту.
В первой главе «Задача проектирования модели данных и контроля качества данных при построении информационно-аналитических систем» приведен анализ существующих средств проектирования модели данных и контроля качества данных при построении информационно-аналитических систем, определены сильные и слабые стороны.
В разделе 1.1 приведено определение модели данных и уровней модели данных, проведен анализ особенностей проектирования логического и физического уровней модели данных при построении информационно-аналитических систем.
Описаны результаты анализа существующих технологий проектирования модели данных при построении информационно-аналитических систем. Выделено три подхода к решению данной задачи: 1) разработка модели данных «с нуля»; 2) использование готовых индустриальных моделей данных; 3) использование универсальной модели данных.
При разработке модели данных «с нуля» разработчик вначале проектирует логическую модель данных, определяя сущности предметной области, для которой она строится. Среди определенных сущностей выделяются факты - числовые показатели, интересующие аналитиков, и атрибуты, в разрезе которых определены анализируемые факты. После этого определяются виды связи между атрибутами и логические группировки атрибутов - иерархии. На основании логического уровня модели данных разработчик проектирует физический уровень - набор таблиц реляционной базы данных, а также связи между ними. Такой подход требует большого опыта по разработке моделей данных, владения инструментом, которым будет пользоваться конечный пользователь, знания предметной области, для которой строится хранилище данных. Зачастую возникают сложности с поиском специалиста, одинаково хорошо владеющего предметной областью, технологией проектирований моделей данных и инструментом для их визуализации. Разработка такой модели требует длительного времени, так как необходимо согласовывать требования со стороны различных специалистов: по предметной области, по моделированию данных и по средствам визуализации.
Описанных недостатков лишен второй подход, в основе которого лежит использование готовых индустриальных моделей данных компаний IBM, Oracle, SAS, Teradata, Sybase и др. Основным недостатком индустриальных моделей является возможность их использования лишь для ограниченного количества предметных областей. Кроме того, необходимо отметить, что поскольку готовые индустриальные модели покрывают в среднем 80% потребностей, то оставшиеся 20% требуют разработки «с нуля».
Альтернативой описанным выше подходам является использование универсальной модели данных. В качестве примера рассмотрена модель Claraview, которая создавалась для анализа произвольной информации, полученной из неструктурированных источников данных. В этой модели не содержится сущности конкретной предметной области, а лишь высокоуровневые объекты, например: сущность, связь, иерархия сущностей, иерархия связей и др. При использовании универсальной модели данных часто возникают проблемы с производительностью системы, а также сложности с настройкой средства визуализации данных, так как каждое средство визуализации имеет набор определенных ограничений и рекомендаций к модели данных.
В разделе 1.2 приводится определение качества данных. Под качественными понимаются данные, обладающие следующими свойствами: корректность, недвусмысленность, согласованность, полнота.
Показано, что недостаточно контролировать качество информации лишь в целевой базе данных и источниках; необходимо контролировать качество данных на каждом этапе построения информационно-аналитической системы: при извлечении информации из источников, приведении к общему формату, преобразовании и загрузке информации в хранилище.
Описаны результаты анализа существующих технологий контроля качества данных: репозитории метаданных, средства профилирования информации, системы мониторинга данных, средства очистки информации, системы управления базами данных, средства управления справочниками.
В результате проведенного анализа у существующих технологий контроля качества данных выявлен ряд недостатков.
Репозиторий метаданных является фундаментом, лежащим в основе как решения задачи построения информационно-аналитической системы в целом, так и контроля качества данных, но сам по себе он не способен ни улучшить качество информации, ни даже определить проблемы, связанные с качеством данных.
Средства профилирования и очистки информации крайне полезны на начальных стадиях проекта и после завершения проекта, но неприменимы на промежуточных этапах, в частности, для контроля процедур загрузки данных. Таким образом, эти средства не позволяют контролировать качество данных на всех стадиях создания информационно-аналитической системы.
Системы мониторинга данных и системы управления базами данных контролируют качество на уровне транзакций, поэтому они полезны при повышении качества данных в оперативных системах, но не при построении информационно-аналитических систем. Кроме того, использование средств систем управления базами данных для контроля их качества серьезно сказывается на производительности системы.
Средства управления справочниками решают задачу в узкой предметной области, но не задачу контроля качества данных в рамках всей информационно-аналитической системы.
На основании проведенного анализа существующих технологий и программных средств в разделе 1.3 определяются требования, предъявляемые к разрабатываемой технологии:
- технология должна позволять проектировать модель данных специалисту, обладающему знаниями лишь предметной области, и не требовать глубоких знаний теории хранилищ данных и требований, накладываемых на модель данных средством визуализации информации;
- возможность проектировать модель данных для решения аналитических задач в произвольной предметной области;
- возможность использовать произвольное средство визуализации данных для настройки над созданной моделью данных;
- необходимо обеспечить контроль качества данных на всех стадиях создания информационно-аналитической системы: при извлечении информации из источников, приведении к общему формату, преобразовании и загрузке информации в хранилище данных;
- возможность настройки производительности системы в зависимости от требований, предъявляемых к информационно-аналитической системе;
- наличие единого программного комплекса, позволяющего автоматизировать проектирование модели данных и контроль качества данных при построении информационно-аналитических систем.
Во второй главе «Формализация задачи и разработка автоматизированных методов проектирования модели данных и контроля качества информации» описаны разработанные методы проектирования модели данных и контроля качества данных.
Раздел 2.1 посвящен автоматизированному проектированию модели данных.
Логическая модель данных - ориентированный размеченный граф G(V,E), где V - множество анализируемых объектов предметной области; E - множество связей между анализируемыми объектами.
Разметка вершин j: A > S определяется типом анализируемого объекта, то есть S = {S1, S2, S3}, где S1 = «факт»; S2 = «атрибут»; S3 = «медленно меняющаяся размерность». Разметка дуг g: R > K определяется типом связи между объектами, то есть K = {K1, K2, K3, K4}, где K1 = «факт-атрибут»; К2 = «один-к-одному»; K3 = «один-ко-многим»; K4 = «многие-ко-многим».
Ориентация графа определяется направлением связи «родитель > потомок» в случае связей вида K2 - K4 и направлением связи «атрибут > факт» в случае связи вида K1.
Для определения физической модели данных используют реляционную модель. Для определения реляционной модели данных необходимо определить множество отношений.
Автоматизация разработки модели данных подразумевает, что физическая модель данных строится автоматически на основании логической модели данных и набора правил преобразования логической модели данных в физическую - шаблона генерации структуры базы данных.
В работе доказано утверждение: для произвольной логической модели данных и набора ограничений, накладываемых системой управления базами данных и средством визуализации данных, процесс построения физической модели данных для информационно-аналитической системы может быть автоматизирован.
Предложена методика автоматизации построения модели данных. В рамках данной методики предложено разделить решение задачи на две компоненты. 1. Определение списка объектов предметной области, которые необходимо анализировать, и связей между выделенными объектами (осуществляется специалистом по предметной области). Определенные объекты сохраняются в специализированной базе данных - репозитории метаданных. 2. Определение правил генерации структуры базы данных (осуществляется специалистом по теории хранилищ данных и средствам визуализации информации).
Специалист по предметной области определяет следующие виды объектов логической модели: факты - числовые характеристики, которые можно агрегировать и обозначающие некоторое событие; атрибуты - текстовый контекст фактов определяет уровень, на котором определен тот или иной факт; иерархии - логические группировки атрибутов; связи между объектами и их тип.
После этого разработчик выбирает правила генерации структуры базы данных. Правила могут быть представлены в форме кода на реляционно-полном языке, например, SQL, в котором часть конструкций заменена макросами, которые в процессе макроподстановки будут заменены соответствующими элементами графа G(V,E) логической модели данных. В работе показано, что для определения правил генерации структуры базы достаточно использовать макросы, описанные в табл. 1.
Таблица 1
Список макросов
Макрос |
Операция |
|
#GetObjectName |
Определение имени таблицы |
|
#GetFacts |
Получение списка фактов для таблицы фактов |
|
#GetAttributes |
Получение списка ссылок на атрибуты для таблицы фактов |
|
#GetAttrID |
Получение идентификатора атрибута |
|
#GetAttrDesc |
Получение описательных столбцов атрибута |
|
#GetAttrParentID |
Получение идентификатора родителя атрибута |
|
#Foreach |
Оператор цикла |
В работе реализованы шаблоны генерации структуры базы данных для создания следующих видов таблиц: фактов, атрибутов в схеме «звезда»; атрибутов в схеме «снежинка»; атрибутов «денормализованная снежинка»; атрибутов с историей изменений (два варианта).
В результате объединения информации репозитория метаданных и шаблонов на основании утверждения автоматически создается определение структуры хранилища данных. При разработке указанных шаблонов использовался стандарт ISO SQL92, таким образом, в результате работы получается код на SQL92, который может быть выполнен на любой системе управления базами данных, поддерживающей данный стандарт.
При использовании технологии в реальном проекте следует учесть особенности используемой системы управления базами данных, а также средства визуализации данных, и в соответствии с ними выбирать один из разработанных шаблонов либо дополнять список шаблонов новыми.
Раздел 2.2 посвящен разработке методов контроля качества данных при построении информационно-аналитической системы.
Для различных видов объектов, входящих в информационно-ана-
литическую систему - фактов и измерений - разработаны методы проверки признаков качественной информации, определенных в разделе 1.2.
Выделено пять классов проверок качества данных, которые необходимо реализовать для обеспечения необходимого качества данных в информационно-аналитической системе: 1) контроль значений колонок таблицы; 2) контроль наличия в таблице всех необходимых значений;
3) контроль дубликатов; 4) контроль правила «трех сигм»; 5) контроль качества информации с помощью прогнозирования.
Для каждого из пяти сформулированных классов проверок описаны алгоритмы процедур контроля качества данных и определены параметры, необходимые для осуществления проверки.
Предложен метод применения сформулированных видов проверок качества данных, удовлетворяющий требованию возможности контроля качества информации на всех этапах создания информационно-аналитической системы. В соответствии с этим требованием разрабатываемая система должна быть применима на любой стадии процесса ETL. При создании процедур ETL разработчик определяет источники и приемники данных, а также преобразования, которые осуществляются над данными. Для обеспечения возможности контроля качества данных на любой стадии процесса ETL необходимо, чтобы к существующим компонентам средства ETL (коннекторы к системам управления базами данных, средства преобразования данных и так далее) был добавлен компонент, вызывающий подсистему контроля качества данных. При выполнении этого требования разработчик может установить вызовы необходимых проверок качества информации в те моменты выполнения процедуры ETL, когда риск появления некачественной информации наиболее высок. Кроме того, обладая возможностью использовать систему контроля качества данных при определении процедур ETL, разработчик может управлять производительностью системы загрузки данных.
В третьей главе «Разработка программного комплекса и анализ результатов применения разработанной технологии» приведена архитектура разработанного программного комплекса и описаны практические результаты использования разработанной технологии и программного комплекса для построения информационно-аналитических систем.
Разработанный программный комплекс состоит из двух подсистем: 1) подсистема проектирования модели данных; 2) подсистема контроля качества данных.
Подсистема проектирования модели данных состоит из четырех компонент: 1) редактор объектов предметной области; 2) редактор шаблонов генерации структуры базы данных; 3) репозиторий метаданных;
4) генератор структуры базы данных (рис. 1).
Рис. 1. Архитектура подсистемы проектирования модели данных
С помощью редактора объектов предметной области определяется логическая модель данных, то есть факты, атрибуты и иерархии, а также связи между различными объектами.
С помощью редактора шаблонов генерации структуры базы данных определяются правила, по которым будет создана структура хранилища данных. При создании шаблонов разработчик использует язык платформы, на которой будет создано хранилище данных. При этом также используются макроподстановки, ссылающиеся на описанные объекты предметной области.
Например, для генерации таблицы фактов использовался следующий шаблон на языке ISO SQL-92:
CREATE TABLE #GetObjectName(this)(
#GetFacts(this),
#GetAttributes(this))
Макроподстановка #GetObjectName определяет имя таблицы фактов, #GetFacts - список фактов, #GetAttributes - список ссылок на атрибуты, в разрезе которых определены данные факты.
Созданные определения предметной области и шаблоны генерации структуры базы данных сохраняются в служебную базу данных - репозиторий метаданных.
После определения необходимых объектов предметной области и шаблонов генерации структуры базы данных автоматически создается определение физической модели данных с помощью генератора структуры базы данных, который производит замену макроподстановок, используемых в шаблонах, на соответствующие определения объектов предметной области.
После проектирования модели данных определяются правила контроля качества данных, накладываемые на созданные объекты предметной области и проверяемые с помощью подсистемы контроля качества данных. Подсистема контроля качества данных состоит из следующих компонент: 1) средство определения правил проверки качества данных;
2) инструмент ETL; 3) серверная часть системы, осуществляющая проверку качества данных.
Подсистема контроля качества данных позволяет создавать любой из 5 классов проверок, сформулированных в разделе 2.2. Созданные определения проверок качества данных переносятся в текстовый файл. Затем в процедуры ETL добавляются компоненты проверки качества данных, в качестве параметра которых указывается имя файла, содержащего сформулированные правила проверки качества данных. При выполнении процедур ETL происходит вызов необходимых проверок качества данных, результат выполнения которых определяет последующие действия процедур ETL (продолжение загрузки данных либо предупреждение о низком качестве данных).
Для осуществления взаимодействия между ETL-средством и серверной частью системы был выбран один из универсальных способов интеграции нескольких приложений - web-сервисы, так как технология web-сервисов поддерживается большинством ETL-средств.
Продемонстрирован механизм интеграции разработанного программного комплекса с ETL-средством IBM WebSphere DataStage. Для этого в DataStage создан дополнительный модуль, состоящий из компоненты вызова web-сервиса и компоненты «Трансформер», который принимает на вход результат выполнения процедуры контроля качества данных и в зависимости от результата направляет информацию по одной из ветвей «true» или «false».
Созданный модуль можно использовать в любой создаваемой процедуре ETL аналогично другим компонентам, передавая в качестве параметра имя файла, содержащего ограничения, накладываемые на качество данных. Например, можно разрешить продолжение обработки данных лишь в случае, когда информация удовлетворяет сформулированным ограничениям, в противном случае поступит уведомление об обнаруженных ошибках.
В разделе 3.5 описана реализация макета информационно-аналити-
ческой системы, разработанной на основе созданной технологии и программного комплекса, для управления деятельностью университета. Данный раздел работы выполнялся в рамках реализации проекта tempus tacis «system modernization of university management» в тамбовском государственном университете им. г.р. державина.
В работе предложен набор сущностей, которые могут быть использованы для анализа и управления деятельностью университета: кафедры, студенты, сотрудники, полученные гранты, публикации, контакты, оценки и зачеты, отчетные данные кафедр, читаемые курсы. В макет также добавлена информация, полученная при анкетировании студентов Тамбовского государственного университета им. Г.Р. Державина. Особенностью информации анкет является относительно небольшое количество фактов и большое количество атрибутов измерений, благодаря чему логическая модель данных для информации одной лишь анкеты получилась достаточно объемной. Часть полученной модели данных (логический и физический уровень) представлена на рис. 2-4.
При работе с информацией анкет были выявлены примеры некачественных данных: наличие неполной информации (отсутствие какого-либо ответа на вопрос анкеты), дубликаты (несколько ответов на вопрос, подразумевающий лишь один ответ) и пр.
Рис. 2. Часть логической модели данных
Рис. 3. Детализированная логическая модель данных
Рис. 4. Физическая модель данных
Таким образом, разработанная технология использована для создания информационно-аналитической системы для управления деятельностью университета. Разработанная технология и программный комплекс могут быть также использованы и для решения широкого спектра аналитических задач в других областях (анализ деятельности предприятий в производственной, банковской и других сферах).
В разделе 3.6 приведен анализ возможности сокращения трудозатрат при использовании разработанной технологии и программного комплекса при создании информационно-аналитических систем. Для сравнения была проанализирована усредненная статистика большого числа проектов по созданию информационно-аналитических систем, которые проводились компанией S&T International, используя традиционные технологии, и проекты, при разработке которых использовались разработанные в рамках диссертационной работы технология и программный комплекс: Данон (производство), Кампомос (производство), Банк Балтийский, М.Видео (розничная торговля). Результаты сравнения трудозатрат проектов по длительности их этапов приведены в табл. 2.
Таблица 2
Сокращение трудозатрат в случае применения разработанной технологии и программного комплекса при создании информационно-аналитической системы
Этап проекта |
Данон (производство) |
Кампомос (производство) |
М.Видео (розничная торговля) |
Банк Балтийский |
|
Разработка модели данных (чел./дней) |
20 |
17 |
27 |
30 |
|
Разработка ETL (чел./дней) |
48 |
50 |
51 |
63 |
|
Разработка процедур контроля качества данных (чел./дней) |
36 |
35 |
41 |
49 |
|
Настройка средства анализа данных (чел./дней) |
18 |
17 |
21 |
23 |
|
Итого: |
122 |
119 |
140 |
165 |
|
Средняя длительность разработки без использования пред- лагаемого решения (чел./дней) |
145 |
145 |
180 |
215 |
|
Сокращение трудозатрат, % |
16 |
18 |
22 |
23 |
Из табл. 2 следует, что использование разработанной технологии и программного комплекса позволяет сократить длительность разработки информационно-аналитической системы на 16-23 %, причем результативность использования увеличивается при возрастании сложности проекта.
В заключении сформулированы основные результаты диссертационной работы:
1. Проанализированы существующие решения в области построения информационно-аналитических систем, выявлены их сильные и слабые стороны и определены требования к технологии разработки систем данного класса.
2. Разработаны методы проектирования модели данных и контроля качества данных при построении информационно-аналитических систем, удовлетворяющих сформулированным требованиям.
3. Разработан программный комплекс, позволяющий проектировать модель данных и осуществлять контроль качества данных при построении информационно-аналитических систем в рамках разработанных методов.
4. Проведена экспериментальная проверка разработанной технологии, для этого разработан макет информационно-аналитической системы для анализа деятельности вуза.
5. На основе анализа результатов опытной эксплуатации макета определены возможности по сокращению трудозатрат и область применения разработанной технологии.
ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИИ ОТРАЖЕНЫ В СЛЕДУЮЩИХ ПЕЧАТНЫХ РАБОТАХ
Статьи в журналах, рекомендованных ВАК, для публикации результатов диссертации
1. Ильин, А.А. Некоторые проблемы построения корпоративных хранилищ данных / А.А. Ильин // Программные продукты и системы (междунар. науч.-практ. приложение к междунар. журналу «Проблемы теории и практики управления»). - 2005. - № 3 (71). - С. 29-32.
2. Ильин, А.А. Перспективы использования информационно-аналитических систем для управления в системе образования / А.А. Ильин, А.А. Арзамасцев // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2006. - Т. 11, вып. 2. - С. 181-184.
3. Ильин, А.А. Разработка информационной системы управления учебным процессом и научной деятельностью в Институте математики, физики и информатики ТГУ им. Г.Р. Державина / А.А. Арзамасцев,
4. Д.В. Слетков, Н.А. Зенкова, Ю.А. Зусман, А.А. Ильин, В.П. Дудаков,
5. С.Б. Лазутин, Н.О. Шкута, А.Н. Королев, С.С. Банников, Л.С. Шкатова, Т.Б. Шохина, О.С. Алферова, О.В. Кукушкина // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. - Тамбов, 2006. - Т. 11, вып. 2. - С. 177-180.
6. Ильин, А.А. Построение информационно-аналитической системы для управления деятельностью университета / А.А. Ильин, А.А. Арзамасцев, М.С. Головкин, А.С. Ермаков, Е.В. Юрьева // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. Материалы междунар. конф «Информационные технологии в управлении университетом»; Третье рабочее совещание по проекту SMOOТH. 17-20 окт. 2006 г., г. Тамбов. - Тамбов, 2006. - Т. 11, вып. 5. - 7. С. 698-704.
Другие издания
7. Ильин, А.А. Методы контроля качества данных при построении систем поддержки принятия решений / А.А. Ильин // Сборник тезисов лучших дипломных работ 2005 года / сост. А.В. Ильин, В.В. Фомичев. - М.: Издат. отдел Фак-та ВМиК МГУ им. М.В. Ломоносова, 2005. - С. 86-87.
8. Ильин, А.А. BI-решения компании S&T International на основе уникальных технологий Sunopsis / А.А. Ильин // Business Intelligence: результативность использования технологий и приложений: материалы
9. 3 конф. - Москва, 30 нояб. 2005 г. - М., 2005. - С. 13.
10. Ильин, А.А. Построение систем Business Intelligence и Enterprise Application Integration на основе средства интеграции данных Sunopsis / А.А. Ильин // Business Intelligence: материалы 4 конф. 23 нояб. 2006 г.,
11. г. Москва. - М., 2006. - С. 13.
12. Ильин, А.А. Инструменты Extract-Transform-Load (ETL) для создания хранилищ данных / М.С. Головкин, А.А. Ильин // Машиностроитель. - 2006. - № 11. - С. 26-29.
13. Ильин, А.А. Контроль качества данных при построении информационно-аналитической системы / А.А. Ильин // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. XII Державинские чтения. - Тамбов, 2007. - Т. 12, вып. 1. - С. 119-120.
14. Ильин, А.А. Автоматизация проектирования модели данных при построении информационно-аналитической системы для управления деятельностью университета / А.А. Ильин // XVII Междунар. конф.-выставка «Информационные технологии в образовании» (ИТО-2007). 9-11 нояб. 2007 г., г. Москва. - М.: МИФИ, 2007. - Ч. 5. - С. 41.
15. Ильин, А.А. Будущее КИС. Общемировые тенденции / Алексей Ильин, Илья Малиновский // Connect! Мир связи. - 2007. - № 11 (141). - С. 128-131.
16. Ильин, А.А. Автоматизированная технология проектирования модели данных при построении информационно-аналитической системы / А.А. Ильин // Вестн. Тамб. ун-та. Сер. Естеств. и техн. науки. XIII Державинские чтения. - Тамбов, 2008. - Т. 13, вып. 1. - С. 89-90.
Размещено на Allbest.ru
...Подобные документы
Правовые основы аренды в Республике Казахстан. Обзор существующего программного обеспечения по работе агентств недвижимости. Выбор и проектирование инфологической модели базы данных. Организация технологии сбора, передачи, обработки и выдачи информации.
дипломная работа [1,3 M], добавлен 02.11.2015Базы данных - важнейшая составная часть информационных систем. Проектирование базы данных на примере предметной области "Оргтехника". Сбор информации о предметной области. Построение информационно-логической модели данных. Разработка логической структуры.
курсовая работа [318,6 K], добавлен 24.12.2014Хранилище данных, принципы организации. Процессы работы с данными. OLAP-структура, технические аспекты многомерного хранения данных. Integration Services, заполнение хранилищ и витрин данных. Возможности систем с использованием технологий Microsoft.
курсовая работа [1,0 M], добавлен 05.12.2012Понятие информации, автоматизированных информационных систем и банка данных. Общая характеристика описательной модели предметной области, концептуальной модели и реляционной модели данных. Анализ принципов построения и этапы проектирования базы данных.
курсовая работа [1,7 M], добавлен 18.01.2012История создания и развития информационно-правовых и справочно-правовых систем. Первым разработчиком коммерческой правовой базы данных стало агентство INTRALEX. "Консультант", "Гарант", "Кодекс". Разработка систем управления базами данных в MS Access.
реферат [636,7 K], добавлен 28.06.2008Агентно-ориентированная программная архитектура систем обработки потоковых данных. Обеспечение гибкости и живучести программного обеспечения распределенных информационно-управляющих систем. Спецификации программных комплексов распределенной обработки.
реферат [1,1 M], добавлен 28.11.2015Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.
курсовая работа [101,1 K], добавлен 01.06.2012Характеристики, класификация и структура типового микропроцессора. Основные типы данных микропроцессора: непосредственные, простые и сложные. Назначение информационно-правовых систем и их виды. Принципы проектирования информационного обеспечения.
курсовая работа [112,7 K], добавлен 25.03.2015Информационно-вычислительный комплекс "Ангара" для компьютерного моделирования трубопроводных систем энергетики. Генерации SQL скрипта структуры базы данных и средства программного доступа. Описание интерфейса пользователя и его режимы генерации.
дипломная работа [5,0 M], добавлен 09.05.2014Создание информационно-аналитической системы компьютерного салона, организующей операции с продажей компьютеров и комплектующих к ним (принтеров, мониторов и т.д.), на основе справочной информации, содержащейся в четырнадцати взаимосвязанных таблицах.
контрольная работа [4,8 M], добавлен 11.01.2009Обзор моделей анализа и синтеза модульных систем обработки данных. Модели и методы решения задач дискретного программирования при проектировании. Декомпозиция прикладных задач и документов систем обработки данных на этапе технического проектирования.
диссертация [423,1 K], добавлен 07.12.2010Анализ данных предметной области. Информационно-логическая модель базы данных. Физическое проектирование и мероприятия по защите и обеспечению целостности базы данных. Приложение интерфейса для SQL-сервера базы данных на языке программирования Delphi.
курсовая работа [2,2 M], добавлен 30.05.2013Содержание и анализ статистической информации в сфере образования, классификация применяемых информационно-аналитических систем. Разработка модели программы. Проведение технико-экономического обоснования разработки и внедрения программного средства.
дипломная работа [143,0 K], добавлен 06.09.2014Анализ баз данных и систем управления ими. Проектирование и создание реляционной базы данных в среде MS Access для ресторана "Дельфин": построение информационно логической модели, разработка структур таблиц базы данных и схемы данных, создание Web-узла.
курсовая работа [3,7 M], добавлен 15.11.2010Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.
дипломная работа [942,1 K], добавлен 19.05.2011Определение многомерной модели данных для удовлетворения основных информационных потребностей предприятия. Экстракция, загрузка и перенос данных из различных источников данных. Разработка собственных ETL–систем. Оптимизация работы хранилища данных.
презентация [9,1 M], добавлен 25.09.2013Основные области проектирования информационных систем: базы данных, программы (выполнение к запросам данных), топология сети, конфигурации аппаратных средств. Модели жизненного цикла программного обеспечения. Этапы проектирования информационной системы.
реферат [36,1 K], добавлен 29.04.2010Теоретические основы проектирования информационно-справочных систем. Значение информационно-справочных компонент в корпоративных информационных системах. Разработка концептуальной и инфологической модели информационно-справочной системы ГОУ НПО ПУ №33.
дипломная работа [645,4 K], добавлен 02.09.2010Разработка информационно-программного комплекса для использования на IBM-совместимых ПК в качестве автоматизированного рабочего места обработки информации. Реализация базы данных в СУБД IBexpert. Характеристики разработанной информационной системы.
курсовая работа [1,3 M], добавлен 13.08.2012Тенденция развития систем управления базами данных. Иерархические и сетевые модели СУБД. Основные требования к распределенной базе данных. Обработка распределенных запросов, межоперабельность. Технология тиражирования данных и многозвенная архитектура.
реферат [118,3 K], добавлен 29.11.2010