Априорная модель данных в реляционных базах

Характеристика организации априорной модели, позволяющей на высоком концептуальном уровне описывать как данные, так и схемы в реляционных базах. Разработка механизмов автоматической детализации модели путем сканирования естественно-языковых текстов.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 16.01.2018
Размер файла 21,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Априорная модель данных в реляционных базах

Курбатов С.С.

Аннотация

Предлагается организация априорной модели, позволяющей на высоком концептуальном уровне описывать как данные, так и схемы в реляционных базах. Отмечается отличие априорной модели от обычных концептуальных описаний данных. В текущем варианте модель ориентирована на описание физических объектов и включает такие понятия как “время”, “расстояние” и т.п. В прикладных целях первоочередным описываемым понятием выбрана “измеряемая величина”. Разработаны механизмы автоматической детализации модели путем сканирования естественно-языковых текстов.

Введение

В работах [1,2] описаны априорные знания о естественном языке (ЕЯ), закладываемые в систему разработчиком (морфологические и синтаксические классы, основы и т.п.) и механизмы автоматического анализа незнакомых системе словоформ путем выдвижения предположений и их проверки с использованием произвольных ЕЯ-текстов. В работе [2] намечена также организация эталонной базы для описания объектов прикладных областей. Идеология организации базы и стиль взаимодействия с ней в основном базируются на классических работах [4,5,6] . При проверке предположений о схеме базы данных используются механизмы, аналогичные описанным в [3].

В данной работе рассматриваются идеологические детали эталонной базы и развивается аналогичный подход автоматического извлечения из ЕЯ-текстов информации, детализирующей априорные знания. При этом ЕЯ-тексты анализируются с использованием морфологии и синтаксиса, описанных в [1,2]. Поскольку в реляционных БД могут храниться весьма разнообразные объекты, в качестве первоочередных выбирались некоторые, обладающие достаточной общностью и/или практической значимостью, в частности: единицы измерения, валюты, сведения о времени, географические сведения и т.п.). Множество таких объектов не фиксировано и его предполагается в дальнейшем расширять.

Эталонная база реализует априорную модель и разрабатывается как стандартная реляционная СУБД. Отметим, что обычное концептуальное описание данных организуется как надстройка над конкретной СУБД и поэтому обладает ограниченной общностью. В отличие от этого априорная модель ориентирована на максимальную общность описания. В схеме априорной модели можно выделить таблицы, определяющие схему модели мира (заполняются разработчиком) и таблицы, реализующие собственно модель мира (в основном должны заполняться путем сканирования ЕЯ-текстов).

Измеряемые величины

Ориентация на прикладные задачи (автоматизированное построение ЕЯ-интерфейса для баз данных и экспертных систем) диктует выбор объектов-концептов, но не определяет общность их представления. В текущей реализации эталонной базы в эскизном варианте разработаны таблицы для представления материальных объектов, их свойств и отношений и более детально разработаны таблицы для представления единиц измерения. Это представление базируется на понятии “измеряемая величина”, а при представлении последней используются наиболее общие понятия: <время>, <расстояние>, <масса>, <сила>, <температура> и т.д.

Опуская ряд технических деталей приведем упрощенный фрагмент таблицы “ априорные измеряемые величины” :

ЯПЗ-описание

ЕЯ-описание

Базовая

единица

Эвристики

“измер”

Аксиома-тика

1

<время>

время

секунда

2

<расстояние>

длина

метр

3

< масса >

масса

грамм

4

< сила >

сила

ньютон

5

<температура >

температура

градус

Фгагмент таблицы “эмпирические измеряемые величины”:

Ссылка на

Измер.вел.

ЯПЗ-описание

ссылки

ЕЯ-описание

Соотношение

с базовой ед.

Размытое

описание

25

1

№ измеряемой

величины = 1

<время>

час

3600

Нет

55

1

№ измеряемой

величины = 1

<время>

утро

Несколько часов

Часть суток

Элементы таблицы “измеряемые величины” (априорные) заносятся разработчиком, элементы таблицы “эмпирические измеряемые величины” формируются автоматически путем сканирования ЕЯ-текстов. При формировании используются эвристики, как общие для любых измеряемых величин, так и специфичные для данной (априорной) величины.

Примеры эвристик:

1) Если есть ЕЯ-контекст “<X> <измеряться в> <Y>”,

То <X> - <измеряемая величина> , а <Y> - <единица измерения>

2) Если есть ЕЯ-контекст “<X> <больше, меньше …> <Y>”

и “<X> <единица измерения>,

То <Y> - <единица измерения>

3) “<Y> <единица измерения> <X> - аналогично 1.

Нахождение ЕЯ-контекстов выполняется в 2 этапа - на первом находятся вхождения ключевой основы (например “измер”), на втором используется упрощеннный морфо-синтаксический анализ для сопоставления синтаксической структуры правила со структурой предложения, содержащего вхождения ключевой основы. Результаты успешного применения эвристики фиксируются в таблице “эмпирические измеряемые величины”, а информация об умозаключении (основания, данные за/против, комментарии) в общей таблице гипотез.

Подчеркнем, что такое представление ориентировано, во-первых, на фундаментальные свойства измеряемых величин, а во-вторых, на механизмы автоматической детализации априорных измеряемых величин путем нахождения фрагментов ЕЯ-фраз, позволяющих выдвинуть эмпирические предположения (пусть неполные, а возможно и ошибочные). Именно эти особенности являются центральным моментом развиваемого подхода. Пример пусть и весьма общего, но стандартного подходе: ввод всех единиц измерения системы СИ, дополненного наиболее распространенными нестандартными единицами и наличие формального интерфейса, позволяющего вводить новые единицы.

В отличие от такого стандартного подхода целью вышеописанного представления является не только фундаментальность и автоматическая детализация, но и общность механизмов выдвижения и верификации предположений на основе произвольных ЕЯ-текстов. Работа с эвристиками в виде ЕЯ-подобных структур для “измеряемых величин“ в значительной степени аналогична работе с такими же эвристиками для предположений о морфологических и синтаксических характеристиках словоформ. При этом структура таблицы гипотез ориентирована на максимальную независимость от содержательной интерпретации предположений (гипотез).

Поле “Ссылка на Измер.вел.” фрагмента таблицы “эмпирические измеряемые величины” является стандартным внешним ключом, ссылающимся на первичный ключ таблицы “ априорные измеряемые величины”. Однако помимо этой стандартной ссылки, которая должна быть интерпретирована программными средствами СУБД, в следующем поле содержится семантическое описание, предназначенное для интерпретации механизмами языка представления знаний. Такое представление ориентировано на тесное взаимодействие программных средств баз данных и языков представления знаний, обеспечение “семантичности” базы данных на уровне нестандартного поиска.

В поле “аксиоматика” содержится ссылка на множества правил, задающих наиболее общие свойства измеряемой величины. Эти правила непосредственно не используются при автоматическом формировании “эмпирических измеряемых величин”, предполагается, что они будут использованы в дальнейшем при семантическом анализе ЕЯ-текстов. Поскольку таблица приведена в упрощенном виде, некоторые поля (в частности определяющие физические/абстрактные свойства величины) опущены. Отметим, что допускается большая степень неопределенности при выдвижении предположений, в частности не требуется обязательного отнесения эмпирической измеряемой величины к априорной и обязательного соотношения с базовой единицей.

Философское отступление

априорная модель реляционный база

Наименование “аксиоматика” следует понимать метафорически, формальность правил обусловлена их программной реализацией, однако эта аксиоматизация задает достаточно грубую модель мира. Априорность такой модели понимается в том смысле, что данные правила не модифицирутся системой в процессе ее работы. Все уточнения модели мира, формируемые системой путем сканирования ЕЯ-текстов, образуют надстройку над базовой (априорной) моделью. Последовательное проведение этого принципа ведет к важным результатам.

Наивная аксиоматика, отражая воприятие мира человеком, не накладывает априорно количественных ограничений на физические процессы. Однако развитие науки выявляет эти ограничения путем исследований и эксперимента. Наиболее яркие примеры дают нам теория относительности, неевклидова геометрия и принцип неопределенности. Абстрактный подход не предполагает органичений на скорость движения материальных тел, однако опыт заставляет ввести постулат о максимально возможной в природе скорости (света). Выводы из такого опровержения существенно уточняют физическую картину мира, заставляя по-новому рассматривать не только массу и размеры объектов, но и такую фундаментальную категорию как время.

Безуспешные (на протяжении многих столетий!) попытки доказать 5-ый постулат Евклида привели в конечном итоге к невозможности доказать его чисто логическими средствами. Оказалось, что геометрия, в которой 5-ый постулат формулируется в противоречии с нашей интуицией (через точку вне данной прямой можно провести более одной прямой, параллельной данной), совершенно равноправна с обычной, евклидовой геометрией. Ответ же на вопрос, какая геометрия справедлива в нашем мире, пока остается открытым, но искать его возможно только опытном путем.

Также как и в случае отсутствия логических ограничений на скорость материальных объектов, при абстрактном подходе допустимо определять скорость и координаты материального объекта с произвольной точностью. Однако опытным путем было установлено и зафиксировано в принципе неопределенности, что произведение точности координат и точности скорости материального объекта превосходит некоторую величину (постоянную Планка). Таким образом при очень большой точности определения скорости, точность определения скорости (импульса) оказывается физически ограниченной.

Таким образом наивная модель мира, отражая непосредственное восприятие действительности человеком, существенно уточняется “надстроечной” моделью в виде физических теорий. Проектируемая в системе модель предполагает такое же соотношение априорной модели и модели, формируемой из “внешнего мира” - мира ЕЯ-текстов.

С чисто прикладной точки важно зрения важно, чтобы объекты, свойства и отношения имели описание их представления в базе данных, т.е. таблиц, полей и значений. Однако помимо такого, важного, но в целом утилитарного описания, важно иметь описание объектов на высоком понятийном уровне. Будем пока говорить в основном о физических объектах. Дискретизация на объекты в физическом мире в первом приближении существенно опирается на различие в физических свойствах и способности изменять положение в пространстве. Условность такой дискретизации обусловлена нашим восприятием мира с помощью органов чувств, если бы мы видели мир на молекулярном уровне, то наша дискретизация на объекты существенно бы изменилась.

Восприятие объекта обусловлено его целостностью, а последняя (с фундаментально-физической точки зрения ) связана с рассмотрением материального объекта - как совокупности притягивающихся и отталкивающихся точек. Силы притяжения и отталкивания изменяются с расстоянием, их равновесие и определяет целостность материального объекта! Фундаментально понятие силы, именно через него определяются притяжение и отталкивание. Поэтому целостность относительна, находящийся внутри человека осколок снаряда не определяет целостность организма, но о штырях, скрепляющих кости при переломах, такое же утверждение спорно.

Относительна например наша дискретизация на твердые, жидкие и газообразные объекты, она неявно предполагает нормальные физические условия, а это вего лишь наша абстракция, с точки зрения природы диапазоны температуры, давления и т.д. равноправны. При некоторой температуре (абсолютный нуль) практически все тела - твердые, а при очень высоких - газообразные.

Свойства объектов привносятся человеком, ибо в конечном счете они важны для его выживания (твердый/мягкий, быстрый/медленный, сильный/слабый и т.). Аналогичное можно сказать и об отношениях (больше/меньше, скреплены, рядом/далеко, справа/слева и т.д.). Аксиоматика этих отношений (транзитивность, симметричность и т.п.) в конечном счете обусловлена физическими причинами, именно они (а не абстракции!) определяют фундаментальные свойства мира.

Иерархии

Фундаментальное описание иерархий в качестве основы рассматривает иерахию “часть-целое”, естественно выделяемую в физическом мире. Аксиоматика этой иерархии должна прежде всего описывать такое свойство как “часть не больше целого”, причем в физическом смысле это означает “размеры части не больше размеров целого” и “масса части не больше массы целого”. Более тонкие свойства могут описывать вхождение веществ в целое и части (или невхождение), перемещение целого и части и т.п. При всей тривиальности этих утверждений (с точки зрения человека), они играют большую роль при выдвижении и проверки предположений об объектах, хранимых в базах данных. Значения полей таблиц задают статистику, позволяющую позволяющую получить значительно больше информации о хранимых в базе объектах, чем это может показаться на первый взгляд.

Описание объектов, свойств и иерархий в качестве обязательной компоненты содержит ссылку на представление объекта в РБД. Т.е. описание иерархии в модели и ее представление в базе. Для больших иерархий целесообразно иметь схемное описание с примерами на нижнем уровне и ссылкой на источник элементов нижнего уровня (таблица БД, тексты информационного характера - словари, справочники, учебники и т.п.).

Средства описания иерархий в эталонной базе включает как системное описание иерархий, так и описание представления иерархий в рабочей СУБД (соответствие, если оно есть, также может быть описано). Системные иерархии формируются автоматически путем выдвижения гипотез и их проверки на произвольных ЕЯ-текстах (в основном на энциклопедии).

Системное описание включает две таблицы: первая задает наименование иерархии, ее уникальный номер и ссылку на таблицу гипотез (сформировавших данную иерархию), вторая определяет собственно иерархию (ссылка на первую таблицу, ссылку “вверх” на “предка”, и т.д.). Описание представления в СУБД включает операторы SELECT для выбора уникального “листа”, для выбора класса по заданному “листу”, для выбора надкласса по заданному классу и возможно SELECT операторы для выбора ЕЯ-наименований “листьев” и классов. Описание системных таблиц также могут быть включены в такое представление.

Наличие вышеприведенных описаний позволяет в первом приближении ввести понятие “материальный объект” с характеристиками типа “физическая локализация”, “временная локализация”, “вхождение в иерархию часть-целое …”, “физические свойства”. Для выделения материального объекта и его характеристик путем сканирования текстов предполагается использовать те же механизмы выдвижения и верификации гипотез, что и для работы с измеряемыми величинами (и для выявления морфо-синтаксических характеристик). В настоящее время ведутся программные эксперименты, позволяющие автоматически выявлять характеристики материального объекта.

Вопрос об автоматическом формировании глобальной иереархии “большое-малое” для материальных объектов типа “метагалактика - галактика - солнечная система - планета Земля - материк - страна - город - улица - дом - квартира - человек - мышь - муравей - инфузория - клетка - ДНК - молекула - атом - электрон - кварк ” с автоматическим же определением диапазона расстояний или такой спектр следует занести заранее также является предметом экспериментов.

Литература

1. С.С. Курбатов. Автоматизированное построение естественно-языкового интерфейса для реляционных баз данных, Новости искусственного интеллекта № 2, М., Анахарсис, 2002, С. 17-21.

2. С.С. Курбатов. Формирование концептуальной модели для реляционных баз данных на основе анализа естественно-языковых текстов, Международный конгресс “Искусственный интеллект в XXI веке”, ICAI' 2002, М., Физматлит, 2002, С.

3. С.С. Курбатов, Э.В. Попов, Автоматическое формирование SQL-программы по структурированному описанию запроса к базе данных на естественном языке, ICAI'2001, т.1, стр. 133-139.

4. Э.В. Попов, Общение с ЭВМ на естественном языке, М., Наука, 1982

5. Мельчук И.А. Опыт теории лингвистических моделей "Смысл-Текст". М.: Наука,1974..

6. Ю. Н. Караулов Лингвистическое конструирование и тезаурус литературного языка, АН СССР.Ин-т языкознания.-М.: Наука, 1981.-364с.

Размещено на Allbest.ru

...

Подобные документы

  • Эволюция концепций баз данных. Требования, которым должна удовлетворять организация базы данных. Модели представления данных. Язык SQL как стандартный язык баз данных. Архитектуры баз данных. Среда Delphi как средство для разработки СУБД.

    дипломная работа [278,9 K], добавлен 26.11.2004

  • Анализ реляционных баз данных и способов манипулирования ими. Основные понятия баз данных, архитектура СУБД, модели данных. Модель сущность-связь, характеристика связей, классификация сущностей, структура первичных и внешних ключей, целостности данных.

    курсовая работа [166,6 K], добавлен 18.07.2012

  • Инфологическая модель предметной области. Схемы простых объектов и их свойства. Построение реляционных отношений на основе инфологической модели базы данных. Сетевая и иерархическая даталогическая модели БД. Структура таблиц, реализованных в СУБД Oracle.

    курсовая работа [1,0 M], добавлен 10.06.2014

  • Основные проблемы проектирования реляционных баз данных "МВД". Инфологическое описание сущностей и атрибутов программного обеспечения. Разработка датологической модели данных и гарантирование ее безопасности и целостности. Реализация запросов на SQL.

    курсовая работа [3,0 M], добавлен 28.06.2011

  • Определение архитектуры реляционных СУБД. Рассмотрение кластеризации как основного способа минимизации числа дисковых операций ввода-вывода данных. Применение индексов для повышения производительности SQL-запросов. Процесс кэширования в базах данных.

    курсовая работа [61,1 K], добавлен 15.07.2012

  • Основные концепции построения реляционных СУБД, базовые принципы проектирования данных. Базы данных: способы представления и модели. Цели построения инфологического моделирования. Разработка структуры программы. Даталогическая модель, разработка процедур.

    курсовая работа [1,7 M], добавлен 11.07.2012

  • Основные понятия реляционной модели данных. Отношение атрибутов внутри модели. Контроль ссылочной целостности (анализ содержимого ключевых полей связанных таблиц). Нормализация отношений реляционной базы данных. Теоретико-множественные операции.

    реферат [69,8 K], добавлен 19.12.2011

  • Язык структурированных запросов SQL (Structured Query Language) и его место в сфере доступа к информации в реляционных базах данных. Структура и основные типы данных языка. Синтаксис и семантика главных операторов SQL, последние стандарты языка.

    реферат [98,7 K], добавлен 29.03.2012

  • Сущность и функциональные особенности баз данных, их классификация и типы, внутренняя структура и элементы. Модели данных, хранящихся в базах: иерархическая, сетевая, реляционная, многомерная, объектно-ориентированная. Виды запросов и типы таблиц.

    дипломная работа [66,7 K], добавлен 06.01.2014

  • Основные принципы проектирования реляционных баз данных и их практическая реализация в MS Access. Концептуальная и логическая модели реляционной базы данных, ее физическое проектирование. Автоматизация процесса взаимодействия с клиентами и поставщиками.

    курсовая работа [2,8 M], добавлен 10.03.2015

  • Основные понятия и классификация систем управления базами данных. Модели организации данных. Проектирование реляционных баз данных. Основные особенности создания и использования баз данных для информационного обеспечения управленческой деятельности.

    курсовая работа [2,0 M], добавлен 20.01.2013

  • Применение Microsoft Access в базах данных. Создание системы управления базами данных, обеспечивающей информационную работу магазина "Автозапчасти" и позволяющей сотрудникам магазина быстро просматривать ассортимент товара, наличие его на складе, цены.

    курсовая работа [2,7 M], добавлен 13.10.2012

  • Дискретная математика; функции и автоматы. Множества и операции над ними. Отношение как базовое понятие в реляционных базах данных. Логические элементы компьютера: триггеры, классификация сумматоров. Элементы теории алгоритмов, двоичное кодирование.

    презентация [270,4 K], добавлен 27.02.2014

  • Сущность и характеристика реляционных баз данных, предъявляемые к ним требования. Имена и виды полей, их свойства. Классификация и структура метаданных. Понятие главной и дочерней таблиц, ссылочной целостности. Типы индексов, порядок сортировки записей.

    курсовая работа [323,4 K], добавлен 09.01.2013

  • Разработка программной системы для поддержки генеалогических деревьев. Модели вариантов использования и анализа системы. Морфологическая и функциональная модели, диаграммы состояний, деятельности и взаимодействия. Хранение сведений в базах данных.

    курсовая работа [535,2 K], добавлен 01.02.2013

  • Основные принципы проектирования реляционных баз данных. Физическая модель нотации IDEF0. Управляющая программа (меню или форма). Формы в клиентском приложении. Разработка информационной системы заказа товаров. Формирование отчетов и запросов программы.

    курсовая работа [1,3 M], добавлен 21.04.2015

  • Построение инфологической концептуальной модели предметной области. Структура базы данных Microsoft Office Access. Формы, запросы и отчеты. Создание форм, запросов и отчетов в базах данных. Схема данных физической и логической сущности в Erwin 4.0.

    курсовая работа [5,1 M], добавлен 13.12.2011

  • Фрагментарная обработка больших объектов в мультимедийных базах данных (прямой доступ к отдельным фрагментам хранимого объекта). Двухуровневое разбиение полей большого размера. Древовидное представление данных. Части объекта, определяемые поддеревом.

    презентация [93,4 K], добавлен 11.10.2013

  • Основные объекты СУБД Microsoft Access. Формирование запросов на выборку. Основные протоколы обмена в компьютерных сетях. Использование и применение архитектуры клиент-сервер или файл-сервер. Основы реляционных БД. Наиболее известные модели данных.

    курсовая работа [1,3 M], добавлен 13.01.2014

  • Понятие семантики; обзор и анализ существующих средств семантического разбора естественно-языковых текстов. Разработка алгоритма работы системы на основе семантического анализа, его реализация на языке программирования; проектирование интерфейса системы.

    дипломная работа [1,7 M], добавлен 18.03.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.