Интеграция и поиск распределенных данных на основе Semantic web технологий
Сравнительный анализ существующих подходов и моделей поиска данных и интеграции данных распределенных неоднородных информационных систем. Разработка и реализация технологии построения интегрирующей информационной системы на основе модели данных RDF/RDFS.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | русский |
Дата добавления | 30.04.2018 |
Размер файла | 174,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ИНТЕГРАЦИЯ И ПОИСК РАСПРЕДЕЛЁННЫХ ДАННЫХ НА ОСНОВЕ SEMANTIC WEB ТЕХНОЛОГИЙ
Специальность 05.13.18 - математическое моделирование, численные методы и комплексы программ
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук
- Сысоев Тимофей Михайлович
Москва 2007
Работа выполнена в отделе систем математического обеспечения вычислительного центра им. А. А. Дородницына РАН
Научный руководитель: доктор физико-математических наук, профессор Серебряков Владимир Алексеевич
Официальные оппоненты: член-корреспондент РАН, доктор технических наук, профессор Арлазаров Владимир Львович
кандидат физико-математических наук Босов Алексей Вячеславович
Ведущая организация: Институт прикладной математики им. М.В. Келдыша РАН
Защита состоится 25 мая 2007 года в 9.00 час. на заседании диссертационного совета К212.156.02 в Московском физико-техническом институте (государственном университете) по адресу: 141700, г. Долгопрудный Московской обл., Институтский пер., д. 9, ауд. 903 КПМ
С диссертацией можно ознакомиться в библиотеке МФТИ.
Автореферат разослан « 24» апреля 2007 г.
Ученый секретарь
диссертационного совета
Федько О.С.
Общая характеристика работы
Актуальность темы
Вместе с повсеместным распространением сетевых технологий и Интернет значительно упростился доступ к данным, независимо от их физического местоположения. Это позволяет одновременно получить доступ к большому числу источников данных, связанных между собой каким-либо образом, и, с помощью объединения результатов запросов, получить полезную информацию, которая физически не хранится в одном источнике. Этот процесс автоматизируют системы интеграции данных, то есть такие информационные системы, которые предоставляют пользователю доступ к интегрированному представлению информации, содержащейся во множестве источников данных.
Задача интегрирования данных осложняется тем, что источники информации, как правило, являются автономными - они разрабатываются и поддерживаются независимо от приложений, которые могут их использовать. Архитектура таких источников, протоколы коммуникации и производительность определяются их владельцами. Информация в них может быть представлена в различных моделях данных: от реляционной или объектно-ориентированной до слабоструктурированных файлов (HTML/TXT). Источники работают на различных аппаратных платформах, используют различное программное обеспечение, имеют различные интерфейсы доступа (CGI,RMI,Corba,SOAP).
В последнее время на подходы к интеграции данных большое влияние оказывает инициатива Semantic Web. В частности, в рамках этой инициативы были предложены формат данных (XML), модель данных (RDF) и стандарты описания схем данных (RDFS,OWL), которые позиционируются как средства обмена информацией, данными, и знаниями с учётом их семантики.
Цель работы
Целью работы является разработка моделей и технологий создания информационных систем, предназначенных для поиска и интегрирования данных, содержащихся в распределённых неоднородных информационных источниках, с применением технологий Semantic Web. В работе исследованы и решены следующие задачи:
1. Исследование и сравнительный анализ существующих подходов и моделей поиска данных и интеграции данных распределённых неоднородных информационных систем.
2. Формализация основных операций в распределённой системе (поиск, совместный поиск, обмен).
3. Создание моделей выполнения операций и разработка алгоритмов их реализации.
4. Разработка технологии построения интегрирующей информационной системы на основе модели данных RDF/RDFS.
5. Реализация компонентов информационной системы, соответствующей выбранным моделям, методам и технологиям в виде комплекса программ.
Научная новизна
В диссертационной работе получены следующие новые результаты:
· Разработана схема данных для информации, описывающей и классифицирующей интегрируемые источники данных;
· Произведено формальное описание операций поиска и обмена данными в распределённой информационной системе
· Разработана модель и алгоритмы выполнения указанных операций
Практическая ценность
Практическая ценность данной работы состоит в том, что разработанные модели и алгоритмы позволяют создавать интегрирующие информационные системы, эффективно решающие поставленные перед ними задачи. Предложенные решения были применены на практике в нескольких информационных системах, наиболее масштабной из которой на текущий момент является Единое Научное Информационное Пространство (ЕНИП) - инициатива, направленная на предоставление унифицированного доступа к интегрированной научной информации институтов РАН.
Апробация работы
Основные результаты работы докладывались и обсуждались на следующих научных конференциях и семинарах:
· Научно-практический семинар "Новые технологии в информационном обеспечении науки", Москва, 2003.
· Всероссийская научная конференция "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Санкт-Петербург, 2003; Пущино,2004; Суздаль, 2006
· Всероссийская научная конференция "Научный сервис в сети Интернет", Новороссийск, 2004
· Международный коллоквиум Spring Young Researcher's Colloquium On Database and In-formation Systems - SYRCoDIS, St.-Petersburg, Russia, 2004.
· Международная конференция The 8th World Multi-Conference on Systemics, Cybernetics and Informatics - SCI 2004, Orlando, Florida, 2004.
· Научная конференция МФТИ, Долгопрудный, 2005; Долгопрудный, 2006.
· Международная конференция "Порядковый анализ и смежные вопросы математического моделирования", Владикавказ, 2006.
· Научные семинары систем математического обеспечения
вычислительного центра им. А. А. Дородницына РАН, 2002-2006.
Публикации
По теме диссертации опубликовано 12 работ, в том числе одна - из списка изданий, рекомендованных ВАК.
Структура и объём работы
Диссертация состоит из введения, трёх глав, заключения, списка использованных источников, включающего 85 работ, одного приложения. Работа изложена на 107 страницах.
Краткое содержание работы
информационный система распределенный модель
Введение
Во введении обоснована актуальность темы исследования, описаны решаемые проблемы, рассматриваются общие подходы к интеграции информационных систем. Введение дает характеристику основных проблем и задач, возникающих при этом.
Глава I. Подходы к интеграции данных
В главе 1 приведен обзор существующих методик построения интегрирующих систем, то есть систем, которые предоставляют пользователям интегрированный доступ к данным, хранящимся в различных информационных источниках. Процесс интеграции данных ставит множество проблем, вызванных, в частности, автономностью и разнородностью источников, количественными и качественными требованиями к обработке запросов.
Архитектурно, интегрирующие системы можно разделить на системы с “виртуальной” интеграцией (virtual view), в которых данные для ответа на запросы пользователя берутся из информационных источников непосредственно в процессе выполнения запроса, и системы, в которых интегрированные данные собираются заранее и хранятся централизованно (materialized view). Второй подход обычно применяется в случаях, когда количество информационных источников невелико, и известен класс запросов, которые будет делать пользователь. Так же возможен и гибридный подход, который применяется в первую очередь для улучшения производительности систем с виртуальной интеграцией.
Системы с “виртуальной” интеграцией делятся на федеративные базы данных (federated databases) и системы, основанные на медиаторах (mediated systems). Федеративные базы данных состоят из нескольких полуавтономных баз данных, которые частично разделяют информацию между собой. В свою очередь, системы, основанные на медиаторах, интегрируют разнородные источники данных, среди которых могут быть как базы данных, так и веб-сайты, полуструктурированная информация в файловой системе и т.п. Источники в этом случае остаются полностью автономными. Как правило, такие системы обладают ограниченными возможностями языка запросов (по сравнению, например, с SQL), и интегрированные данные доступны только для чтения.
Исходя из этого, основной интерес для нас представляют системы с виртуальной и гибридной интеграцией с использованием медиаторов. Архитектура такой системы представлена на рисунке 1.
Размещено на http://www.allbest.ru/
Рисунок 1 Схема медиаторной интегрирующей системы
Основными компонентами такой системы являются:
· Медиатор (mediator) - программный компонент, который, с одной стороны, взаимодействует с пользователем интегрирующей системы, и, с другой стороны, с информационными источниками. Медиатор предоставляет единую “точку входа” (программный интерфейс) для запросов пользователей. Он выполняет основные стадии обработки запроса: декомпозицию на запросы к источникам (на основе их описаний), оптимизацию плана выполнения, рассылку адаптерам и комбинирование результатов.
· Адаптер (wrapper) - посредник между медиатором и информационным источником. Задача адаптера - перевести запрос из интегрированной схемы в схему источника, и, затем, результаты запроса перевести обратно в интегрированную схему. Адаптер предназначен для скрытия деталей реализации источника от медиатора.
Одной из основных проблем построения систем с помощью медиаторов является интеграция схем источников: доступ к интегрированным данным должен осуществляться в терминах одной, канонической схемы. Создание такой канонической схемы, как правило, является сложным процессом, включающим в себя несколько стадий:
1. предварительная стадия: выбор схем, которые будут интегрированы, порядок интеграции, сбор дополнительной информации о схеме источников (метаинформации)
2. сравнение схем, с целью поиска конфликтов и корреляций;
3. разрешение конфликтов, которое потенциально может включать в себя изменение схем источников (если есть такая возможность);
4. непосредственно создание интегрированной схемы;
5. спецификация отображений между глобальной схемой и схемами источников.
Следует отметить, что для глобальной схемы разработан ряд метрик, которые позволяют оценить её качество, такие как: “доступность” (в источниках присутствуют все данные, необходимые для интегрированной информации), “информационная вместимость” (information capacity) - доступность в глобальной схеме всей информации, которую можно получить непосредственно в локальном источнике, избыточность (понимание идентичных сущностей), и т.д.
Основная задача интегрирующей системы - обработка пользовательских запросов. По сравнению с традиционным процессом обработки запросов, состоящим из разбора (parsing), оптимизации и выполнения, выполнение распределённых запросов усложняется по следующим причинам:
· для выполнения запроса следует подобрать релевантные источники, т.е. источники, данные которых могут быть использованы в результате;
· источники могут иметь ограниченные возможности в плане выполнения запросов;
· часть данных может дублироваться;
· часть источников по каким-либо причинам может быть недоступна в момент выполнения запроса.
В большой степени на обработку запросов влияет то, каким образом задано соответствие глобальной схемы и схем источников. Для этого применяются следующие подходы:
· GAV (Global as View): отношения (relations) глобальной схемы выражаются через отношения локальных схем - для реляционной модели;
· LAV (Local as View): отношения локальных схем выражаются через отношения глобальных схем - для реляционной модели;
· Подход на основе DL (Description Logic): понятия (concepts) локальных источников информации определяются через понятия глобальной модели. Данный подход похож на LAV, но вместо отношений глобальной схемы используются понятия проблемной области.
При применении GAV перевод запросов из глобальной модели в модели источников осуществляется достаточно просто, так же легко строятся иерархии медиаторов. Однако, при добавлении новых информационных источников возникают сложности: надо исследовать соотношение нового источника и всех имеющихся, и изменить в соответствии с этим отображение. Таких проблем с добавлением нет у LAV - новые правила добавляются к старым, не изменяя их - но перевод запросов из глобальной схемы в локальную является сложной, хотя и достаточно хорошо изученной задачей. LAV позволяет в тех случаях, когда несколько источников содержат дублирующую информацию, получить несколько вариантов исполнения запроса, среди которых затем можно выбрать наиболее подходящий с учётом таких факторов как доступность узлов, их загруженность и т.п. Подход с использованием DL облегчает отображение по сравнению с LAV (понятия локальной и глобальной схемы являются частью предметной области), но в общем случае не позволяет описать произвольные соединения отношений; кроме этого, иногда при добавлении новых источников возникает необходимость в расширении модели предметной области.
Глава II. Интеграция данных с помощью онтологий
В главе 2 представляется подход к интеграции данных информационных систем, основанный на использовании онтологий источников данных. Метод основан на классической модели систем, использующих медиаторы, со следующими особенностями:
· Интегрируемые информационные системы могут быть как автономными, так и разработанными специальным образом для участия в распределённом взаимодействии. Помимо поиска, такие системы поддерживают обмен информацией и метаинформацией, что позволяет осуществлять распределённый поиск более эффективно, по сравнению с классической моделью.
· Каноническая схема данных описывается в модели RDF/RDFS, локальные схемы данных приводятся к той же модели.
· В системе может не быть явно выделенного медиатора: все узлы имеют доступ к метаинформации, описывающей структуру интегрированной информационной системы, и могут выполнять распределённый поиск основываясь на этой информации, общих протоколах, общей модели данных и предложенных алгоритмах. Это позволяет строить не только информационные системы, ориентированную на поиск данных, но также и на совместную работу с информацией (аналогично федеративным базам данных).
Раздел 2.1 посвящен описанию онтологии, характеризующей информационные источники, данные которых подлежат интегрированию. На рисунке 2 изображены основные классы этой онтологии в нотации UML.
Мы выделяем следующие типы источников, в зависимости от степени участия в распределённой среде:
· 0-й уровень: информационный источник не участвует в выполнении запросов, функция поиска не поддерживается. Данные источника периодически реплицируются на другой узел, на котором они индексируются, и становятся доступны для поиска. Данный уровень позволяет с наименьшими затратами подключать источники к распределённой среде, для этого достаточно реализовать программный компонент, который будет с определённой периодичностью выгружать новые данные в RDF формате
· 1-й уровень: информационный источник может участвовать в выполнении запросов, но не предоставляет возможностей записи информации. Данный уровень соответствует обычным информационным системам с поддержкой функции поиска. Требует реализации адаптера, который будет переводить поисковые запросы в формат, понятный данному источнику.
· 2-й уровень: информационный источник, в дополнении к операции поиска, поддерживает процессы репликации данных и метаинформации.
Полная информация обо всех информационных источниках, участвующих в распределённой среде, собирается централизованно, и реплицируется в соответствии с конфигурацией распределённой среды для обеспечения эффективного доступа. В частности, эта информация используется при выполнении поисковых запросов. Кроме того, фрагменты этой информации могут храниться в узлах в целях оптимизации (например, информация о “соседних” узлах).
Размещено на http://www.allbest.ru/
Рисунок 2 Основные свойства и классы, описывающие информационные источники
Раздел 2.2 описывает базовые понятия интегрированной схемы данных (mediated schema). Эти понятия используются для построения схем данных, соответствующих конкретным информационным источникам, и являются основой для семантической интеграции. Схема определяет:
· Ресурс (kernel:Resource). Ресурс можно охарактеризовать как единицу хранения: распределённый поиск рассматривает каждый источник как коллекцию ресурсов. Ресурс хранится в репозитории целиком: все его простые (rdfs:Literal) и составные (kernel:DependentObject) свойства определены в том же репозитории, что и сам ресурс. У ресурса определено текстовое свойство “URI” - глобально-уникальный идентификатор, имя ресурса в системе. Среди свойств ресурса выделяются свойства, доступные для использования в поисковых выражениях.
· Зависимый объект (kernel:DependentObject). Экземпляры данного класса являются составной частью ресурсов (отношение агрегации).
· Связь: свойство, значением которого является ресурс. Связанный ресурс не обязан храниться в том же информационном источнике, в котором определён основной.
Размещено на http://www.allbest.ru/
Рисунок 3 Распределение ресурсов между информационными источниками
Таким образом, требуется, чтобы RDF-тройки были распределены между репозиториями не произвольным образом: тройки, определяющие свойства ресурса или зависимых от него объектов расположены в рамках одного репозитория. Из этого требования следует, что у каждого репозитория достаточно информации, чтобы выполнять поиск ресурсов по значению их свойств (непосредственных или связанных с зависимыми объектами). Если данные представить в виде графа, то границы репозиториев будут проходить по связям типа ресурс-ресурс (рисунок 3).
В разделе 2.3 в рамках дополнительной онтологии описывается дополнительная метаинформация, применяемая для оптимизации поиска и управления процессами репликации в распределённой среде. Такого рода информацию удобно представлять в соответствии с традиционными базовыми понятиями, поскольку это позволяет применять стандартные механизмы для её распространения. Представлены следующие виды метаинформации:
1. Описатель коллекции - вспомогательная информация, позволяющая оценивать степень соответствия информационного источника поисковому запросу. Основу описателя коллекции составляет частотный словарь, в котором содержатся значения и статистические свойства атрибутов, относящихся к ресурсам информационного источника. Такая информация позволяет исключать из процесса совместного поиска узлы, про которые заведомо известно, что они не содержат искомую информацию.
2. Индекс - информация, на основе которой для заданного поискового запроса можно получить список идентификаторов удовлетворяющих этому запросу ресурсов. При наличии индекса какого-либо узла операцию поиска можно выполнять локально, не производя обращений к этому узлу.
3. Управляющая информация - указания для процессов репликации ресурсов в распределённой среде.
Схема управляющей информации определяет следующие сущности:
· канал - направление обмена. Канал определяется узлом-источником и узлом-получателем. Такую сущность удобно выделять отчасти из-за её административной составляющей: канал устанавливает доверительные отношения между узлами.
· группа каналов - каналы с общим источником или получателем объединяются в именованные группы для удобства конфигурирования.
· задание - определяет репликацию. Задание характеризуется источником данных (может осуществляться как репликация собственных данных, так и полученных от других узлов), запросом, фильтрующим данные, предназначенные для репликации, и получателем. Здесь источник и получатель - канал или группа каналов.
На рисунке 4 изображен пример схемы репликации данных, в котором ресурсы реплицируются на все дочерние узлы, и все родительские (но не попадают на соседние). Для такого случая задания будут выглядеть следующим образом (при условии, что дочерние направления объединены в группу каналов “DOWN”, а родительский - в группу “UP”):
Источник |
Запрос |
Назначение |
|
UP |
- |
DOWN |
|
DOWN |
- |
UP |
|
(локальные данные) |
- |
UP, DOWN |
Размещено на http://www.allbest.ru/
Рисунок 4 Пример схемы репликации данных
В разделе 2.4 рассмотрен набор следующих операций распределённой информационной системы:
· Локальный поиск - поиск данных в рамках одного информационного источника. Для операции локального поиска определена семантика языка запросов, соответствующая глобальной RDF модели данных, и предложены различные формы записи выражений этого языка, предназначенные для взаимодействия пользователей с системой и внутрисистемных взаимодействий. Определёна RDSF схема для представления результатов операции локального поиска.
· Совместный поиск - поиск информации в нескольких узлах одновременно с последующей интеграцией результатов. Для операции совместного поиска задаётся запрос такого же вида, как и для локального поиска, вместе с коллекцией узлов, на которые следует разослать данный запрос. Важной особенностью операции совместного поиска является возможность поиска данных с учётом атрибутов связанных с ними объектов, притом, что связанные друг с другом ресурсы могут находиться на разных узлах. При этом допускаются как непосредственные связи, так и связи через произвольное количество промежуточных ресурсов.
· Выгрузка данных - операция, позволяющая получить информацию их узла по ряду заданных критериев. Операция предназначена для поддержки обмена данными между узлами. Информация приводится к универсальному формату, пригодному для пересылки. Одно из основных требований - возможность последовательного обновления данных, то есть получения коллекции данных, изменившихся с момента последнего сеанса выгрузки.
· Загрузка данных - операция загрузки данных из универсального формата в репозиторий узла распределённой системы. Применяется для обмена.
· Индексирование - построение индекса данных информационного источника с учётом их семантики.
· Создание описателя - формирование метаинформации, достаточной для определения степени соответствия информационного источника и поискового запроса.
· Оценка запроса по индексу - результат аналогичен локальному поиску, но операция может выполняться не в узле, в котором идёт поиск данных, а в узле, в котором хранится индекс.
· Оценка запроса по описателю - определение релевантности источника поисковому запросу.
Узлы не обязаны поддерживать все перечисленные операции. Например, для интеграции автономной информационной системы достаточно поддержки операции локального поиска, при этом её выполнение ложится на соответствующий адаптер. Часть операций неосуществима только с помощью адаптеров, и требует программной поддержки в информационной системе.
В разделе 2.5 описаны подходы к реализации вышеуказанных операций, предложены протоколы взаимодействия и соответствующие алгоритмы. Изложение ведётся для источника, данные которого хранятся в реляционной модели, поскольку именно на базе таких источников производилась практическая реализация этих методов.
Для операции совместного поиска предложен алгоритм его реализации и соответствующий протокол взаимодействия с возможностью сохранения состояния, состоящий из элементарных операций:
· элементарный поиск с сохранением результатов как именованной коллекции;
· теоретико-множественные операции над именованными коллекциями (объединение, пересечение, вычитание);
· специальная операция перехода по связям: на основе коллекции ресурсов строится новая коллекция, состоящая из связанных с ним ресурсов по заданному свойству
Особенностью этого протокола является то, что множество узлов, участвующих в поиске, может меняться в результате выполнения операции перехода по связям (уменьшаться или увеличиваться). Показано, что данный алгоритм эффективен в условиях, когда большинство связанных между собой объектов находятся в рамках одного источника (то есть число связей, пересекающих границы источников, относительно невелико).
Для операций выгрузки и загрузки данных представлено описание реализации журнала обмена, предназначенного для поддержки требования последовательного обновления.
Рассмотрена реализация операции индексирования данных:
· описан формат индекса с семантической информацией, основанный на онтологии источника данных, то есть индекса, позволяющего определить факт соотнесения терма с определённым свойством ресурса;
· приведено описание алгоритма поиска ресурсов, соответствующих заданному поисковому запросу;
· описаны применяемые методы ранжирования результатов поискового запроса и учёта словоформ в поиске;
· рассмотрено расширение формата индекса, позволяющее выполнять поиск с учётом ограничений на связанные ресурсы в рамках одного репозитория.
Рассмотрена реализация операций создания описателя и оценки соответствия запроса по описателю: метод построения описателей по индексу и алгоритм, оценивающий релевантность запроса.
Глава III. Применение разработанных моделей и технологий
В разделе 3 описано применение разработанных решений на практике, среди которых наиболее значительной является ЕНИП (Единое Научное Информационное Пространство) РАН. Инициатива по организации Единого Научного Информационного Пространства РАН (ЕНИП РАН) призвана помочь научным коллективам сделать ряд шагов в направлении интеграции разнородных научных информационных и программных ресурсов отдельных научных учреждений, предоставлении пользователям более эффективных средства интеграции и поиска информации, научной коммуникации, сотрудничества и совместной работы. Под единым пространством понимается ни формирование централизованной системы, ни навязывание всем одних и тех же решений, а стремление последовательностью практических шагов, совместными усилиями научных коллективов РАН:
· сформулировать взаимосогласованный набор соглашений, правил и открытых стандартов;
· приготовить совокупность макетов и типовых решений для реализации адаптеров прикладных систем, инфраструктурных служб, поддерживающих разные уровни интероперабельности распределенных гетерогенных данных и приложений;
· создать ряд информационных систем общего назначения, следующих этим соглашениям, использующих эти реализации, допускающих модульную организацию, наращивание функциональных возможностей;
· применить эти результаты для решения соответствующих задач учреждений РАН.
В контексте ЕНИП результаты данной работы используются следующим образом:
1. в типовом решение “Научный институт РАН” реализованы средства поддержки совместной работы (распределённый поиск, репликация данных и метаданных)
2. построена распределённая информационная система, в которую входят как узлы, основанные на предложенном типовом решении, так и автономные узлы.
Рисунок 5 Структура ЕНИП
На рисунке 5 приведена схема ЕНИП по результатам работ 2006 года. Точкой входа для доступа к интегрированной информации является центральный узел, расположенный по адресу http://enip.ras.ru.
Заключение
В заключении приведены основные результаты диссертационной работы.
Основные результаты работы
1. Проведено исследование и сравнительный анализ моделей и подходов к поиску и интеграции данных распределённых информационных систем.
2. Определён и формализован состав операций, связанных со спецификой распределённого поиска и обмена данными.
3. Разработаны модели и соответствующие им алгоритмы выполнения указанных операций; дана оценка их производительности
4. Предложена архитектура информационной системы, предназначенной для поиска и интеграции данных.
5. Разработаны и реализованы компоненты информационной системы, соответствующей выбранным моделям, методам и технологиям в виде комплекса программ для информационной системе “Единое Научное Пространство РАН”
Приложение
В приложении приведена справочная информация, о деталях программной реализации.
Список публикаций по теме диссертации
1. Сысоев Т.М., Бездушный А.А., Бездушный А.Н., Нестеренко А.К. Служба управления содержанием системы ИСИР, основанная на XML технологиях // Современные технологии в информационном обеспечении науки (ред. Н. Е. Калёнов) - М., 2003. C. 160-181.
2. Бездушный А.А., Бездушный А.Н., Нестеренко А.К., Серебряков В.А., Сысоев Т.М. "Архитектура RDFS-системы. Практика использования открытых стандартов и технологий Semantic Web в системе ИСИР” // Труды пятой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" RCDL'2003, Санкт-Петербург, Россия, 2003. Изд-во СпбГУ, 2003, C. 45-60.
3. Нестеренко А.К., Сысоев Т.М., Бездушный А.А., Бездушный А.Н., Серебряков В.А. Интеграция распределенных данных на основе технологий Semantic Web и рабочих процессов // Труды Шестой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Пущино, 29 сентября-1 октября 2004 г. С. 263-271.
4. Bezdushny A.A., Bezdushny A.N., Nesterenko A.K., Serebriakov V.A., Sysoev T.M., "Integrated System of Information Resources of the Russian Academy of Sciences" // The 8th World Multi-Conference on Systemics, Cybernetics and In-formatics - SCI 2004, Orlando, Florida, 2004, P. 462-467.
5. Бездушный А.Н., Кулагин М.В., Серебряков В.А., Бездушный А.А., Нестеренко А.К., Сысоев Т.М. Предложения по наборам метаданных для научных информационных ресурсов // Статья в журнале "Вычислительные Технологии", Том 10, N 7, г. Новосибирск, 2005, С. 29-48.
6. Сысоев Т.М. Служба управления содержанием системы ИСИР, основанная на XML технологиях. // Сборник трудов «Интегрированная система информационных ресурсов: Архитектура, реализация, приложения», ВЦ РАН, Москва 2004, С. 112-133.
7. Сысоев Т.М. Атрибутно-полнотекстовый поиск. // Сборник трудов «Интегрированная система информационных ресурсов: Архитектура, реализация, приложения», ВЦ РАН, Москва 2004, С. 133-139.
8. Sysoev T.M. Indexing and Search Services in Integrated System of Information Resources of the Russian Academy of Sciences // Первый весенний коллоквиум молодых исследователей в области баз данных и информационных систем (SYRCoDIS'2004), Санкт-Петербург, 25-30 мая 2004 г. СПб.: [б. и.], 2004, С. 57-60.
9. Сысоев Т.М. Этапы реализации распределённости в информационной системе «Научный Институт РАН» // Современные проблемы фундаментальных и прикладных наук. Труды XVLIII научной конференции / Моск. физ.-техн. ин-т. М. Долгопрудный, 2005. С. 218-220.
10. Сысоев Т.М. Технологии распределенных систем и информационная поддержка научных исследований. // Сборник трудов международной конференции «Порядковый анализ и смежные вопросы математического моделирования», Владикавказ, июнь 2006, С. 115-118.
11. Сысоев Т.М. Оптимизация распределенного поиска в ЕНИП на основе описателей коллекций // Современные проблемы фундаментальных и прикладных наук. Труды XVLIII научной конференции / Моск. физ.-техн. ин-т. М. Долгопрудный, 2005. С. 247-249.
12. Нестеренко А.К., Сысоев Т.М., Бездушный А.Н., Серебряков В.А. Автоматизация процессов интеграции распределенных информационных ресурсов.// Сборник научных трудов VIII всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". Суздаль: 2006, С. 279-290.
13. Сысоев Т. М., Нестеренко А. К., Серебряков В. А., Бездушный А. А. Реализация системы распределённого поиска в среде ИСИР // Научный сервис в сети Интернет: Труды Всероссийской научной конференции, 20-25 сентября 2004 г. Новороссийск, Изд-во МГУ, М., C. 115-117.
Размещено на Allbest.ru
...Подобные документы
Принципы и критерии построения распределенных баз данных. Ряд свойств, которым по К. Дейту должна удовлетворять распределенная база данных: независимость узлов, прозрачность расположения, обработка распределенных запросов. Типы распределенных баз данных.
реферат [131,5 K], добавлен 18.06.2013Определение, свойства и характеристики распределенных систем баз данных. Основная задача систем управления ими. Архитектура распределения СУБД. Сравнение технологий файлового сервера и "клиент-сервера". Стратегия распределения данных по узлам сети ЭВМ.
курсовая работа [601,3 K], добавлен 24.05.2015Ограничения нормализации, требование атомарности значений атрибута, запрет внутренней структуры. Достоинства и недостатки постреляционной объектной модели. Технологии интеграции распределенных данных на основе XML. Универсальный язык моделирования.
презентация [156,0 K], добавлен 19.08.2013Принципы построения СУБД, их достоинства. Архитектура распределенной информационной системы. Разработка интернет-магазина рынка книг: построение физической модели данных на языке SQL, проектирование схемы базы данных с использованием веб-интерфейса.
курсовая работа [2,3 M], добавлен 01.11.2011Общие сведения о компьютерном математическом моделировании. Принцип построения и функционирования распределенных систем. Технологии объектного связывания данных. Механизм изоляции транзакций и преодоления ситуаций несогласованной обработки данных.
курсовая работа [92,5 K], добавлен 13.12.2014Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Обзор существующих решений на основе открытых данных. Технологии обработки данных и методы их визуализации. Социальные сети для извлечения данных. Ограничение географической локации. Выбор набора и формат хранения открытых данных, архитектура системы.
курсовая работа [129,5 K], добавлен 09.06.2017Тенденция развития систем управления базами данных. Иерархические и сетевые модели СУБД. Основные требования к распределенной базе данных. Обработка распределенных запросов, межоперабельность. Технология тиражирования данных и многозвенная архитектура.
реферат [118,3 K], добавлен 29.11.2010Содержательное описание предметной области. Структурный анализ бизнес-процесса на основе IDEF0-модели. Построение информационно-логической модели данных. Структурная схема на основе IDEF0. Даталогическая модель данных. Реализация информационной системы.
курсовая работа [849,7 K], добавлен 10.07.2014Понятие и особенности технологий распределенных и параллельных систем управления базами данных, их отличительные черты, схожие признаки. Уникальная роль системы каждого типа и их взаимодополняемость при использовании для решения задач управления данными.
курсовая работа [839,2 K], добавлен 24.05.2012Модели данных в управлении базами данных. Концептуальные модели данных. Роль баз данных в информационных системах. Реляционная модель данных. Определение предметной области. Построение модели базы данных для информационной системы "Домашние животные".
курсовая работа [1,9 M], добавлен 19.04.2011Проблемы, связанные с продуктивным распределением и систематизированием больших потоков информации. Основные виды распределенных баз данных, анализ процессов их функционирования. Стратегии распределения данных. Распределение сетевого справочника данных.
курсовая работа [397,5 K], добавлен 09.08.2015Преимущества распределенных система обработки данных. Классификация интегрированных технологий. Модели реализации технологии "клиент-сервер". Мониторы обработки транзакций. Глобальные вычислительные и информационные сети. Виды доступа к глобальным сетям.
презентация [2,1 M], добавлен 20.11.2013Проектирование логической структуры базы данных методом нормальных форм, сущность связь. Сравнительный анализ спроектированной базы данных и базы данных существующих информационных систем. Выбор и обоснование состава технических и программных средств.
курсовая работа [3,0 M], добавлен 22.12.2014Характеристики распределенных систем баз данных, формируемые путем "интеграции" разнородных аппаратных и программных средств. Концепция дифференциального файла для различных приложений. Сравнение разных технологий файлового сервера и "клиент-сервера".
курсовая работа [411,9 K], добавлен 28.05.2015Характеристика категорий современных баз данных. Исследование особенностей централизованных и распределенных баз данных. Классификация систем управления базами данных по видам программ и применению. Управление буферами оперативной памяти и транзакциями.
курсовая работа [45,2 K], добавлен 10.03.2016Понятие информации, автоматизированных информационных систем и банка данных. Общая характеристика описательной модели предметной области, концептуальной модели и реляционной модели данных. Анализ принципов построения и этапы проектирования базы данных.
курсовая работа [1,7 M], добавлен 18.01.2012Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.
контрольная работа [565,6 K], добавлен 02.09.2010Методы построения хранилища данных на основе информационной системы реального коммерческого предприятия. Основные аналитические задачи, для решения которых планируется внедрение хранилищ данных. Загрузка процессоров на серверах. Схемы хранения данных.
контрольная работа [401,0 K], добавлен 31.05.2013Файловая организация баз данных. Взаимодействие администратора баз данных с пользователями. Иерархическая и сетевая даталогические модели системы управления базами данных. Принципиальная организация системы обработки информации на основе БД-технологии.
реферат [762,0 K], добавлен 23.12.2015