Разработка предметно-ориентированного языка описания структуры и содержания электронных документов

Теоретические аспекты языков описания электронных документов. HTML, SGML, XML форматы. Подход Dublin Core, проект SHOE, онтология DoCO. Разработка предметно-ориентированного языка описания структуры и содержания электронных документов в EDocSACD.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 14.07.2016
Размер файла 2,9 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

1

Оглавление

язык электронный структура

  • Основные обозначения и сокращения
  • Введение
  • Глава 1. Теоретические аспекты языков описания электронных документов
    • 1.1 Понятие «электронный документ»
    • 1.2 Обзор существующих способов описания структуры электронного документа
      • 1.2.1 Документы HTML формата
      • 1.2.2 Документы SGML формата
      • 1.2.3 Документы XML формата
      • 1.2.4 Результаты обзора существующих способов описания структуры электронного документа
    • 1.3 Обзор существующих способов описания документов
      • 1.3.1 Подход Dublin Core
      • 1.3.2 Проект SHOE
      • 1.3.3 Онтология проекта исследовательской группы KWARC
      • 1.3.4 Онтология DoCO
      • 1.3.5 Результаты обзора способов описания документов
    • 1.4 Требования к разрабатываемому предметно-ориентированному языку
    • 1.5 Понятие предметно-ориентированного языка
    • 1.6 Обзор методов и средств разработки предметно-ориентированных языков
  • Глава 2. Разработка предметно-ориентированного языка описания структуры и содержания электронных документов
    • 2.1 Описание элементов электронного документа в EDocSACD
    • 2.2 Описание реквизитов электронного документа в EDocSAC
    • 2.3 Описание видов электронного документа в EDocSACD
    • 2.4 Разработка модели описания структуры и содержания электронного документа
      • 2.4.1 Пример: приказ о зачислении на 1 курс
      • 2.4.2 Пример: письмо-извещение
      • 2.4.3 Пример: техническое задание
    • 2.5 Результаты разработки предметно-ориентированного языка описания структуры и содержания электронных документов
  • Заключение
  • Библиографический список
  • Приложения

Основные обозначения и сокращения

ЭД Электронный документ.

CASE Computer-Aided Software / System Engineering (автоматизированная разработка программного обеспечения).

DC Dublin Core (Дублинское ядро).

DSL Domain Specific Language (предметно-ориентированный язык / язык предметной области).

DSM Domain Specific Modeling (предметно-ориентированное моделирование).

EDocSACD Language Electronic Document Structure and Content Description Language (язык описания структуры и содержания электронных документов).

HTML Hypertext Markup Language (гипертекстовый язык разметки).

PDF Portable Document Format (формат переносимых документов).

SGML Standard Generalized Markup Language (стандартный обобщенный язык разметки).

WWW World-Wide Web (всемирная паутина).

XML Extensible Markup Language (расширенный язык разметки).

Введение

В наше время люди стали все чаще сталкиваться с необходимостью получения из массива исходной информации сведений, которые нужны для решения конкретной проблемы. Согласно исследованиям компании IDC (The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Fare East, December 2012), количество неструктурированной информации, получившей в профессиональной ИТ-среде название Big Data («большие данные»), все стремительнее растет, составляя большую часть (примерно 80%) накопленной в мире информации. В результате роста объемов неструктурированной информации, хранящейся в электронных документах, можно столкнуться с рядом трудностей, наиболее значимыми из которых станут проблемы обработки и аналитики данных.

Для разрешения этого было выбрано использование подхода, основанного на предметно-ориентированном моделировании, а именно предметно-ориентированного языка (Domain Specific Language, DSL) и DSM-платформ для создания DSL описания структуры и содержания электронного документа. Данное решение было принято по причине того, что DSL достаточно просты в применении и понятны пользователям, так как они оперируют терминологией предметной области.

С другой стороны, DSL является достаточно сложным языком для разработки. Если языки общего назначения дают возможность программировать в любой предметной области, то в случае DSL это невозможно. Для каждой конкретной предметной области придется создавать собственный предметно-ориентированный язык.

Объектом исследования являются системы управления электронными документами, их структурой и содержанием. Предметом исследования являются средства описания структуры и содержания электронных документов, а именно предметно-ориентированный язык.

Целью выпускной квалификационной работы является разработка предметно-ориентированного языка описания структуры и содержания электронных документов для снижения трудоемкости обработки неструктурированных данных, а в частности электронных документов.

Для достижения сформулированной цели работы следует ряд задач, поставленных на время выполнения выпускной квалификационной работы:

- сбор, систематизация и обобщение материалов о языках описания как структуры, так и содержания электронных документов;

- сбор и формулировка требований к разрабатываемому предметно-ориентированному языку;

- анализ литературы о предметно-ориентированных языков;

- анализ существующих информационных средств создания предметно-ориентированного языка и выбор инструментального средства для дальнейшей разработки;

- разработка предметно-ориентированного языка описания структуры и содержания электронных документов.

В ходе выполнения данной выпускной квалификационной работы была предпринята попытка объединить наиболее значимые элементы электронного документа, его реквизиты и виды с тем, чтобы получить максимально удобный и полно отображающий предметную область язык описания структуры и содержания электронных документов. Для достижения этого будет использоваться инструментарий MetaEdit+.

В первой главе представлен обзор существующих способов описания структуры и содержания электронных документов, а также раскрыты такие понятия как электронный документ и предметно-ориентированный язык, рассмотрены средства создания предметно-ориентированного языка и обоснован выбор инструментального средства для дальнейшей разработки. Вторая глава посвящена выявлению требований к разрабатываемому языку и непосредственной разработке предметно-ориентированного языка описания структуры и содержания электронных документов.

Глава 1. Теоретические аспекты языков описания электронных документов

Целью данной главы является изучение способов описания электронного документа, его структуры, а также предметно-ориентированных языков и инструментальных средств, используемых для их разработки. Для достижения данной цели следует раскрыть таких понятий как электронный документ и предметно-ориентированный язык. Кроме того необходимо указать какие существуют способы анализа структуры электронных документов на данный момент. На основании рассмотренных способов описания следует определить каким требованиям в дальнейшем должен удовлетворять разрабатываемый язык.

1.1 Понятие «электронный документ»

Первое знакомство с понятием электронного документа состоялось еще в 1970-ых годах (на тот момент в СССР было принято называть его машиночитаемым документом), когда с массовой компьютеризацией и появлением более современных технологий возникла возможность перехода на «непечатные материалы».

Факт наличия в документальной среде документации на новых носителях был официально закреплен в ГОСТ 6.10-84, вышедшем в 1984 году. На тот момент под машиночитаемым документом понимался документ, пригодный для автоматического считывания содержащейся в нем информации [1]. Отличительной особенностью таких документов являлось то, что они должны были быть пригодны для обработки на ЭВМ, или созданы с помощью вычислительной техники, но их реквизиты должны оформляться в установленном порядке. Именно в этот период времени термин «электронный документ» стал зарождаться и рассматривался как документ, обладающий новыми характеристиками.

С того момента и до сих пор вопрос о понятии электронного документа является актуальным, так как специалистам данной предметной области как в научном мире, так и в современном законодательстве еще не удалось прийти к единому универсальному определению данного явления.

На сегодняшний день известен ряд официальных определений электронного документа, закрепленных в современном законодательстве:

- Документ на машинном носителе - «документ, созданный с использованием носителей и способов записи, обеспечивающих обработку его информации электронно-вычислительной машиной» [2].

- Электронный документ - «документ на машиночитаемом носителе, для использования которого необходимы средства вычислительной техники» [3].

- Документ электронный -информационный объект, состоящий из двух частей:

- «реквизитной, содержащей идентифицирующие атрибуты (имя, время и место создания, данные об авторе и т.д.) и электронную цифровую подпись»;

- «содержательной, включающей в себя текстовую, числовую и/или графическую информацию, которая обрабатывается в качестве единого целого» [4].

- Электронный документ - «форма представления документа в виде множества взаимосвязанных реализаций в электронной среде и соответствующих им взаимосвязанных реализаций в цифровой среде» [5].

- Электронный документ - «документ, в котором информация представлена в электронно-цифровой форме» [6, статья 3].

Несмотря на то, что формальное определение электронного документа существует, сущность его не раскрыта, что значительно осложняет нормативное закрепление правил его использования.

Согласно мнениям, полученным в научном мире, также нет единства относительно данного вопроса. Предлагается огромное множество определений понятия электронного документа, данные учеными, например:

- Электронный документ - «совокупность данных в памяти вычислительной, предназначенная для восприятия человеком с помощью соответствующих программных и аппаратных средств» [7].

- Электронный документ - «это документ, носителем которого является электронная среда - магнитный диск, магнитная лента, компакт-диск и т.д.» [8].

- Электронный документ - «документ в электронной форме: закодированное и переданное в информационную систему электронное сообщение, все реквизиты которого заверены и оформлены в соответствии с нормативными требованиями» [9].

- Электронный документ - «зафиксированная на электронном (машинном) носителе информация, которая записывается, сохраняется, передается и представляется в приемлемой для человека форме с помощью технологий, поддерживаемых электронно-вычислительными машинами, и которая содержит реквизиты, позволяющие ее идентифицировать. При этом под электронным (машинным) носителем следует понимать материальный носитель, предназначенный для записи и хранения информации посредством электронно-вычислительной техники» [10].

- Документом является запись информации на материальном носителе,

- «совершенная с помощью любой известной или могущей возникнуть в будущем технологии и в форме, обусловленной правилами оформления и в соответствии с ними»;

- «предназначенная для передачи этой информации во времени и пространстве»;

- «утверждающая, сопутствующая, подтверждающая или отражающая какой-либо факт или событие»;

- «содержащая атрибуты своей аутентичности (подлинности)» [11].

- Электронный документ - «письменный документ, выполненный либо в виде объективной формы записи цифрового машинного кода на материальном носителе, входящем в состав электронных технических средств, либо в виде физического поля различного рода сигналов (электромагнитных, электрических, оптических и акустических), передаваемых по телекоммуникационному каналу связи во времени и пространстве» [12].

По результатам рассмотрения существующих определений понятия электронного документа видно, что не существует единого варианта. В дальнейшем, при работе с понятием «электронный документ», будем опираться на определение, данное Тихоновым В.И. [10], так как оно является наиболее полным и соответствующим действительности. Также, исходя из рассмотренных определений понятий электронного документа, можно выделить основные свойства и требования, которым электронный документ должен удовлетворять, а кроме того его признаки и выполняемые функции.

Функции, выполняемые электронными документами, условно можно поделить на три группы: главные, общие и специальные.

Наиболее обобщенной функцией документа является главная функция, а именно хранение и передача информации во времени или пространстве. Документ создается для обеспечения потребностей общества с помощью размноженной документной информации.

Общие функции, такие как информационная, коммуникативная, кумулятивная, характерны для всех документов, вне зависимости от их типа и вида. Информационная функция - это способность документа удовлетворять потребности общества и информации, то есть служить источником информации. Следующая функция, коммуникативная - это способность документа быть информативным средством передачи, обмена, коммуникации, общения и преемственности. Последней функцией является кумулятивная функция, а именно способность документа накапливать, концентрировать, собирать и упорядочивать информацию с целью ее сохранения для нынешнего и грядущего поколения [13].

Специальные функции, а именно управленческая, образовательная, правовая, общекультурная, мемориальная и другие функции, присущи не всем, а лишь определенным видам и типам документов, где они появляются в большей степени в соответствии с социальными потребностями общества. Управленческая функция выполняется документами, которые созданы для целей управления и в процессе его реализации. Образовательная функция - способность документа служить средством получения и передачи знаний для изучения процессов и явлений природы и общества. Правовая функция - способность документа служить средством доказательства, подтверждения каких-либо фактов. Общекультурная - способность документа содействовать развитию культуры общества, выступать средством закрепления и передачи культурной традиции, усвоения системы ценностей. Мемориальная функция служит «внешней памятью» человека и общества в целом, сохраняя информацию и передавая ее от одного поколения к другому [14].

Для обеспечения выполнения рассмотренных функций в электронном документе выделяют следующие свойства [15]:

- Атрибутивность - наличие в документе информационной (содержание) и материальной (форма, которая служит для закрепления и передачи информации) составляющих.

- Функциональность - предназначенность для передачи информации в пространстве и времени. Способность документа выполнять разнообразные функции позволяет рассматривать его как источник информации и как средство социальной документной коммуникации.

- Структурность - наличие взаимосвязанных элементов и подсистем, обеспечивающих эффективность использования, его целостность и сохранение основных свойств.

К основным признакам электронного документа можно отнести наличие смыслового содержания; стабильную вещественную форму, которая обеспечивает долговременную сохранность документа, возможность многократного использования и перемещения информации в пространстве и во времени; предназначенность для использования в социальной коммуникации для хранения и передачи во времени и пространстве; завершенность сообщения [15].

Помимо всего прочего, при описании электронного документа следует помнить, что документ должен соответствовать ряду требований, таким как понятность, простота, недвусмысленность и последовательность, кроме того, согласно Типовому проекту «Об электронном документе» [16], ЭД должен:

- создаваться, обрабатываться, передаваться и храниться с помощью программных и технических средств;

- иметь структуру, установленную законом, согласно которому структура электронного документа состоит из общей (информация, составляющая содержание документа, и информация об адресате) и особенной (электронная цифровая подпись) частей;

- содержать реквизиты, позволяющие его идентифицировать;

- быть представленным в форме, понятной для восприятия человеком.

1.2 Обзор существующих способов описания структуры электронного документа

Как было сказано ранее, одним из свойств электронного документа является структурность, то есть электронные документы, как и многие другие объекты, должны иметь свою структуру. Под данным понятием «структура электронного документа» принято понимать порядок расположения показателей и данных в документе, а также наличие взаимосвязанных элементов, обеспечивающих целостность и эффективность его использования. Однако не всегда получается так, что данные в документе находятся «в порядке», поэтому электронные документы принято подразделять по степени структурированности на:

- Неструктурированные - текстовые документы, которые или не имеют определенной модели данных, или не организованны определенным способом в соответствии с моделью [17]. К таким документам относятся письма, журнальные статьи, договоры.

- Слабоструктурированные - документы с гибкой формой, для которых определены некоторые правила и форматы, но в самом общем виде (приказы, распоряжения, служебные записки, счета-фактуры).

- Структурированные - электронные документы, использующие методы вложенного кодирования, например разметку, для того, чтобы присвоить всему документу и его частям различные структурные значения в соответствии со схемой [18]. Примерами структурированных документов являются заявления, обращения, жалобы, анкеты.

Основной целью большинства пользователей электронных документов на данный момент является превращение неструктурированных данных, хранящихся в документе, в структурированную информацию. Наиболее яркими примерами средств структурирования данных в документах являются такие форматы электронных документов как HTML, SGML и XML:

- Наиболее развитым является формат гипертекстового языка описания документов Hypertext Markup Language (HTML). Был предназначен для разметки научных документов и их последующего совместного использования сотрудниками разных институтов.

- Стандартный обобщенный язык разметки Standard Generalized Markup Language (SGML). Представляет собой метаязык, то есть средство формального описания прикладных языков разметки, предназначенных для кодирования структурированных документов.

- Формат eXtensible Markup Language (XML) представляет собой свод общих синтаксических правил. Целью создания было обеспечение совместимости при передачи структурированных данных между разными системами обработки информации, особенно при передачи таких данных через Интернет.

Рассмотренные средства структурирования документов непосредственно взаимосвязаны друг с другом, так как первоначально язык HTML был всего лишь одним из приложений универсального стандартизированного языка разметки SGML. Другими словами, HTML - набор предписаний SGML, по которым информация подготавливается для WWW. XML, в свою очередь, также имеет отношение к SGML, а именно является его упрощенным подмножеством (см. рис. 1.1):

Рисунок 1.1. Взаимосвязь языков разметки (SGML, HTML, XML)

Далее, для более полного понимания существующих способов описания структуры электронного документа, необходимо рассмотреть данные форматы подробнее.

1.2.1 Документы HTML формата

Как было сказано ранее, HTML - это стандарт, используемый программами-браузерами службы WWW в сети Internet, благодаря которому можно не только форматировать документы, но и осуществлять связь текста и изображений с документом, расположенным на другом сервере WWW [19].

HTML ориентирован на решение нескольких важных задач, в которых участвуют его различные конструкции и элементы:

- описание структуры документа;

- адресация ресурсов;

- создание гипертекстовых ссылок и управление навигацией в локальных и интернет базах данных;

- реализация интерфейсов с пользователем.

HTML - теговый язык разметки документов, то есть любой документ на данном языке представляет собой набор элементов, причем начало и конец каждого элемента обозначается специальными пометками - тегами. Другими словами, HTML позволяет создавать документы, совместимые с браузерами WWW, путем вставления управляющих кодов (тегов) в ASCII-текст для обозначения заголовков, названий, графических изображений и гипертекстовых связей [19].

Достоинствами данного языка являются простота освоения человеком и реализации инструментальных средств создания и просмотра документов. Кроме того, HTML является первым и единственным для своего времени языком разметки для представления данных web.

Недостатками же формата являются отсутствие развитых средств разметки структуры документов, а также ограниченность набора тегов.

1.2.2 Документы SGML формата

Для современного общества характерен огромный объем информации, представленной в электронном виде в библиотеках, хранилищах данных, базах данных или размещенной в дисковых файлах. Чтобы воспользоваться достижениями информационной революции, нужны средства быстрого доступа к информации, позволяющие объединять взаимосвязанные материалы и обладающие широкими возможностями поиска данных. Именно для этого и был разработан стандарт подготовки ЭД SGML (Standard Generalized Markup Language), представляющий собой набор правил для описания структуры и управления содержанием электронных документов [19].

Данный стандарт является открытым стандартом, которым можно пользоваться бесплатно, но он требует времени на обучение и применения приложений, облегчающих работу с ним и расширяющих его возможности.

Документ в стандарте SGML состоит из трех частей: описание, определение типа (Document Type Definition - DTD) и содержание [19]:

- Описание - это заголовок файла, содержащий информацию о системе, в которой будет использоваться документ.

- Следующая часть - DTD - определение типа документа, что точно отражает структуру создаваемого документа (связь между элементами) и содержит информацию об обработке таких объектов, как графические изображения, звуковая и видеоинформация. При этом основной задачей является определение иерархии элементов документа.

- Третья часть документа - его текстовое содержание, помеченное тегами, точно соответствующими спецификациям, заданным в DTD-определении.

Главным достоинством языка можно считать то, что SGML является мощным метаязыком разметки, позволяющим создавать языки разметки для различных предметных областей, например HTML, MathML, CML другие.

Однако, несмотря на все достоинства SGML, его основным недостатком считается большая сложность по количеству, синтаксису и семантике объектов языка, затрудняя его использование в качестве языка разметки. Вследствие чего появился XML (Extensible Markup Language) - производный язык разметки документов, позволяющий структурировать информацию разного типа, используя для этого произвольный набор инструкций.

1.2.3 Документы XML формата

Как уже было сказано ранее, XML - упрощенное подмножество языка SGML. Он предназначен для хранения структурированных данных (взамен существующих файлов баз данных), для обмена информацией между программами, а также для создания на его основе более специализированных языков разметки (например, XHTML).

XML-документ представляет собой обычный текстовый файл, в котором при помощи специальных маркеров создаются элементы данных, последовательность и вложенность которых определяет структуру документа и его содержание [19]. Другими словами, каждый XML документ содержит один или несколько элементов, границы каждого из которых обозначены либо парой тегов (начальный и конечный), либо тегом пустого элемента, если это пустой элемент. Каждый элемент имеет определенный тип, который идентифицируется по имени и иногда называется «общим идентификатором» этого элемента, а также может иметь набор спецификаций к атрибутам, содержащих его имя и значение.

На рисунке 1.2 наглядно показана схожесть составных частей документа, то есть структура XML не сильно отличается от структуры SGML-документ, так как XML является подмножеством языка SGML, и состоит из трех частей: описание, определение типа и содержание:

Рисунок 1.2. Структура XML-документа

Основным достоинством XML документов является то, что при относительно простом способе создания и обработки (обычный текст может редактироваться любым тестовым процессором и обрабатываться стандартными XML анализаторами), они позволяют создавать структурированную информацию, которая одновременно понятна как человеку, так и компьютеру. Кроме того к достоинствам данного формата можно отнести и строго определенный синтаксис, что позволяет ему оставаться простым, эффективным и непротиворечивым. Также XML широко используется для хранения и обработки документов как online, так и offline.

Однако, синтаксис языка XML избыточен, то есть размер документа существенно больше, чем документы в альтернативных текстовых форматах передачи данных. Избыточность может повлиять на эффективность приложения. Возрастает стоимость хранения, обработки и передачи данных. Более того, существуют другие, обладающие сходными с XML возможностями, текстовые форматы данных, которые обладают более высоким удобством чтения человеком (YAML, JSON, SweetXML).

1.2.4 Результаты обзора существующих способов описания структуры электронного документа

Рассмотрев наиболее известные существующие способы описания структуры электронного документа, такие как SGML, HTML и XML, можно говорить, что растущий интерес к технологии XML, являющейся попыткой вернуться к истокам идеологии SGML, приспособив замыслы его создателей к нуждам современного Интернета, ясно показывает, что www уже созрел для чего-то более мощного, чем современный HTML.

Сравнительный анализ рассмотренных технологий представлен в таблице 1.1:

Таблица 1.1. Сравнительный анализ языков разметки документов

SGML

HTML

XML

Год создания формата

1986

1992

1997

Тип разметки

Строго логическая

Логическая, но теги имеют жестко фиксированные параметры форматирования

Строго логическая, определяется внешними стилевыми спецификациями

Набор тегов языка и атрибутов

Произвольный

Фиксированный

Произвольный

Синтаксис тегов языка

Гибкий

Фиксированный

Фиксированный

Определение типа документа (Document Type Definition)

Обязательно для каждого документа

Одно на все документы

Может быть свое у каждого документа, но может и отсутствовать

Гипертекстовая модель

Отсутствует

Примитивная

Развитая

Совместимость с языками стилевых спецификаций

DSSSL

(язык описания семантики и стиля)

CSS

(каскадные таблицы стилей)

DSSSL-o

Версии и спецификации

Одна стабильная версия с полной и формально строгой спецификацией

Множество версий и диалектов, не все из них достаточно строго документированы

Незаконченная спецификация первой версии языка формально строга и легко расширяема

Трудность освоения

Высокая

Низкая

Средняя

Из таблицы видно, что разметка в SGML логична, синтаксис тегов гибкий, определение типа документа обязательно для каждого документа и трудность освоения высокая. Для формата HTML наоборот: разметка логическая, но теги имеют жестокие фиксированные параметры форматирования, синтаксис тегов фиксированный и трудность усвоения низкая [20].

Таким образом, XML является компромиссом между строго логическим языком SGML и фиксированным языком HTML, не допускающим изменение его структуры. Другими словами, XML сочетает в себе простоту HTML и свободу логической структуры SGML.

1.3 Обзор существующих способов описания документов

Ранее был проведен обзор существующих способов описания структуры документов, однако немаловажным аспектом в рассмотрении электронных документов является его содержание.

Библиотеки - пример организации, которая непосредственно сталкивается с проблемой описания документов. Первые документы в электронных каталогах библиотек имели описание по весьма ограниченному списку полей (примерно 8 - 10). Однако по прошествии времени ситуация стала постепенно меняться.

В библиотеках стали появляться каталоги, где в документах использованы ключевые слова. При проведении сравнительного анализа поисковых возможностей информационно-поисковых языков в Государственной публичной научно-технической библиотеке Сибирского отделения Российской академии наук было установлено, что наиболее высокую точность, а именно 91%, показал поиск по ключевым словам [21]. Тем не менее, данный вид поиска не всегда является узконаправленным и не во всех случаях обеспечивает релевантный поиск. Кроме того вводимые операторами ключевые слова не всегда соответствуют требованиям читателей, то есть достаточно часто можно встретить такие лексические единицы, которые никогда не будут использованы читателем в качестве поискового образа документа.

Аннотации чаще всего являются весьма поверхностными, недостаточно полно описывая содержание аннотируемого документа, что не позволяет читателю точно определить возможность использования данной книги.

В последние же годы данная тема стала набирать обороты, и были предприняты попытки создания новых систем структурирования электронных документов, которые за основу используют так называемые метаданные. Согласно ГОСТ Р ИСО 15489-1 - 2007 «Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования», метаданные - данные, описывающие контекст, содержание, структуру документов и управление документами в течение времени. Управление метаданными - неотъемлемая часть управления документами, которая обеспечивает выполнение множества различных функций и целей [22].

Некоторые исследователи различают следующие 3 группы метаданных:

1. Метаданные, создаваемые web-службами индексирования и поиска (это данные, собираемые программами-роботами на основе использования протокола http и скриптов CGI для автоматического создания записей об онлайновых информационных ресурсах).

2. Метаданные, используемые для описания информационного ресурса (например, форматы Dublin Core и IAFA/WHOIS++ (проект ROADS); записи могут создаваться вручную или автоматически).

3. Метаданные, используемые для задания месторасположения, анализа, оценки, документирования и т.п. информационного ресурса (такие метаданные довольно сложные и очень детализированы, что требует привлечения специалистов для их разработки и сопровождения).

Вторая категория метаданных, в свою очередь, включает в себя перечень некоторых наиболее известных систем метаданных, относящихся к электронному документу, таких как [23]:

- GILS - Глобальная (правительственная) служба поиска информации, обеспечивающая доступ частным лицам и организациям к федеральным информационным ресурсам, через общедоступный каталог этих ресурсов, используя систему метаданных.

- MARC - машиночитаемый каталог, отличающийся детальным составом элементов данных, универсальностью и развитой структурой.

- ЕАД. - кодировка архивных описаний. Набор изначально текстовых метаданных на базе языка разметки SGML, разработанный для нужд архивов и используемых для стандартизации и классификации уникальных архивных материалов, прежде всего рукописей.

- TEI - инициатива по кодированию текстов, разработанная в Центре электронных текстов Вирджинии в 1989 г. как инструмент при процессе оцифровке, который идентифицирует электронный ресурс и его печатный источник посредством метаданных, размещенных внутри самого электронного ресурса.

- IAFA/WHOIS++ - шаблонно-ориентированные метаданные для описания сетевых ресурсов, первоначально использовавшиеся для описания списков электронной почтовой рассылки, а позднее распространенные на другие ресурсы.

- Dublin Core Metadata Set (DC) - формат описания практически любых ресурсов сети Интернет.

Общая схема взаимосвязи рассмотренных систем метаданных, описанных выше, приведена на рисунке 1.3, демонстрируя непосредственное отношение систем:

Рисунок 1.3. Взаимосвязь систем метаданных

Из рисунка видно, что справочники Dublin Core являются источниками многих систем метаданных. Кроме того, элементы DC могут быть использованы в шаблоне описания ресурса (RDF) для описания семантической составляющей информационных ресурсов.

1.3.1 Подход Dublin Core

В настоящее время наиболее распространённой схемой метаданных для описания документа, непосредственно находящегося в сети Интернет, является набор, создаваемый уже в течение нескольких лет международной группой "The Dublin Core initiative". Этот набор называется, соответственно, "Dublin Core Metadata Elements".

Дублинское ядро (Dublin Core) - набор элементов метаданных, предназначенный для описания содержания документов различного типа (публикации, аудиозаписи, видеозаписи). Спецификация этого набора имеет статус официального международного стандарта (ISO:15836-2003). Стандарт разделён на два уровня: простой (неквалифицированный), состоящий из 15 элементов и компетентный (квалифицированный), добавляющий к простому набору квалификаторов, которые уточняют семантику элементов (Приложение A). Особенностью Дублинского ядра является то, что каждый элемент опционален и может повторяться.

Дублинское ядро является мощным инструментом при описании ресурсов различного характера. Его неоспоримым преимуществом является распространённость и гибкость.

Основное преимущество Дублинского ядра заключается в том, что если традиционные методы каталогизации требуют профессиональной подготовки для эффективного использования, Дублинское ядро использовать весьма просто. Однако простота конфликтует с точностью. Первоначальная цель заключалась в создании простого набора элементов метаданных для неподготовленных людей, которые публикуют электронные материалы с описанием своих результатов. Некоторые продолжают придерживаться этого минималистского подхода, они хотели бы видеть простой набор правил, которыми мог бы воспользоваться любой. Другие предпочитают ориентироваться на преимущества более тщательно разработанных правил каталогизации и согласны на увеличение трудоемкости и стоимости. Они указывают на то, что дополнительные структурные элементы позволяют добиться большей точности в метаданных [23].

Однако, несмотря на все достоинства данного подхода, у него есть ряд недостатков. Например, схема метаданных является довольно общей и подходит только для минимального описания ресурсов. Кроме того, стандартизация проведена только на уроне базового набора из 15 элементов, другие аспекты данный подход не описывает. Также DC ориентировано на описание реквизитов документа, т.е. информации, напрямую не относящейся к содержанию документа. Другие аспекты электронного документа невозможно описать [24].

1.3.2 Проект SHOE

Кроме того, для описания контента документа также можно использовать онтологические подходы. Таким образом, другим примером по праву может считаться онтология документов проекта SHOE (Simple HTML Ontology Extensions) [25]. Рассмотренная онтология документов описывает огромное количество видов документов, однако особое внимание уделяется публикациям. Источниками для данной онтологии могут считаться справочники Дублинского ядра и классификатор документов PubMed [26].

Проект SHOE был ориентирован на решение проблемы добавления к web-страницам семантической информации и соотнесения ее с онтологиями соответствующих предметных областей. Предполагалось, что, используя эту информацию, поисковые системы смогут обеспечивать более релевантные ответы на запросы, чем это возможно на базе использования стандартных машин поиска, функционирующих в сети Интернет.

Для поддержки процессов аннотирования в рамках проекта был разработан специальный набор инструментальных средств, основой которых был язык интернет совместимого представления знаний, давший название всему проекту [27].

На рисунке 1.4 представлен фрагмент визуализации онтологии документа:

Рисунок 1.4. Фрагмент Onto-графа онтологии документа проекта SHOE

1.3.3 Онтология проекта исследовательской группы KWARC

Данная онтология представляет проект, ориентированный на разработку формального описания структуры документа (онтология документов в формате CNXML), имеющей непосредственное отношение к их семантике (онтология документов в формате OMDoc (см. рис. 1.5)). Онтологии документов также могут быть использованы для классификации видов документов и их частей.

Для таких форматов документов как CNXML (Connexions Markup Language) онтология документов описывает такие понятия как параграф, раздел, ссылка и прочие. А для математических документов в формате типа OMDoc включены различного рода математические понятия и логические связи между этапами доказательства теорем [28].

Рисунок 1.5. Фрагмент визуализации онтологии документа в формате OMDoc

1.3.4 Онтология DoCO

DoCO, или как принято расшифровывать, Document Components Ontology - онтология, характеризующая составные части библиографического документа. Представляет как структурированную лексику компонентов документа, например блок, раздел, глава, так и риторическую лексику (введение, обсуждение, благодарность, список литературы, рисунки, приложения). Это позволяет данным компонентам и документам, состоящих из них, быть описанными в формате RDF. Однако в настоящее время данная онтология находится в разработке.

1.3.5 Результаты обзора способов описания документов

В результаты проведенного обзора были выявлены существующие решения для описания документов, такие как Dublin Core, SHOE, проект docOnto исследовательской группы KWARC, DoCO. Каждый из рассмотренных проектов имеет достаточное количество преимуществ.

Например, Dublin Core предоставляет возможность описания контента документов различного типа (как публикаций, так и аудио и видеозаписей), являясь достаточно гибким инструментом при описании ресурсов различного характера. Однако оно ориентировано только на описание реквизитов документа, что не позволяет описать другие возможные аспекты электронного документа.

Проект SHOE, разработавший онтологию описания публикаций, ориентирован непосредственно на решение проблем добавления к web-страницам семантической информации и соотнесения ее с онтологиями соответствующих предметных областей. Основным недостатком данного подхода является то, что для полной его реализации необходимо, чтобы все разработчики web-страниц включали в них дополнительную информацию, что является невыполнимой задачей.

Разработанная онтология docOnto исследовательской группы KWARC ориентирована на разработку формального описания структуры и семантики документов, а также механизма семантического индексирования документов и инструментальных средств обработки документов. Но, к сожалению, активные работы по данному направлению приостановлены.

Как видно из проделанного обзора способов описания документа, кроме достоинств каждый из них имеет свои недостатки. Вследствие чего было принято решение использовать подход, основанный на предметно-ориентированном моделировании, использовании предметно-ориентированного языка (Domain Specific Language, DSL) и DSM-платформ, предназначенных для создания DSL, так как он является достаточно простым в применении и понятным для пользователя, оперирующим терминологией предметной области. Разрабатываемый язык будет опираться на преимущества рассмотренных подходов, однако ряд недостатков рассмотренных способов описания документов, которые необходимо учесть.

1.4 Требования к разрабатываемому предметно-ориентированному языку

Принимая во внимание сложность описания структуры и содержания электронных документов крайне важно на начальном этапе определиться, каким требованиям должен удовлетворять разрабатываемый предметно-ориентированный язык. Он должен позволять выполнять описание всех элементов и реквизитов электронного документа, но при этом быть простым и понятным для пользователей, не являющихся экспертами в данной области.

Возможность применения в различных предметных областях может быть обеспечена соблюдением следующих требований:

- Доступность. Это требование обеспечивает возможность построения моделей пользователем, не имеющим глубоких знаний в области моделирования, что подразумевает наличие специализированной лексики.

- Ясность. Под требованием ясности получившейся модели понимается, что модель, с одной стороны, должна обладать достаточной выразительной мощностью, а с другой, не должна быть слишком запутанной и перегруженной.

- Неизбыточность. В языке моделирования не должно быть «лишних» или неоднозначных элементов. Пользователь не должен метаться в выборе между той или иной конструкцией языка.

- Достаточность. Под данным требованием подразумевается то, что набор элементов модели должен полностью удовлетворять потребностям пользователя, чтобы не возникло ситуации, когда пользователю понадобятся дополнительные объекты модели, без которых дальнейшее построение модели невозможно.

- Отчуждаемость. Требование заключается не только в разработке визуальных элементов, но и в создании языка с помощью специального языкового инструментария, который позволит экспортировать созданные модели.

Основываясь на проблемах, выявленных в ходе анализа предметной области, а именно структуры электронного документа, основной список требований можно дополнить следующими аспектами:

- возможность выбора вида документа для дальнейшего описания;

- отображение структурных элементов электронного документа;

- отображение реквизитной части электронного документа;

- осуществление трехуровневого описания структуры электронного документа (1 уровень - элементы, 2 уровень - реквизиты, 3 - виды ЭД);

- возможность добавления неограниченного количества объектов в модель описания.

Соблюдение вышеперечисленных требований позволит более полно отобразить всю информацию о процессе описания структуры электронного документа, не перегружая при этом модель дополнительными элементами.

1.5 Понятие предметно-ориентированного языка

В современном мире достаточно остро стоит вопрос о постоянном росте слабоструктурированных электронных документов. В связи с этим информация, хранящаяся в электронных документах, стала сложно извлекаемой и сложно обрабатываемой. Для разрешения данных проблем было принято решение об использовании подхода, основанного на предметно-ориентированном моделировании, разработке предметно-ориентированного языка описания структуры и содержания электронных документов. В противопоставление традиционных языков программирования, которые нацелены непосредственно на выполнение определенных функций, предметно-ориентированные языки нацелены на создание единой модели предметной области [29].

Существует большое множество вариантов определений предметно-ориентированного языка, но самым распространенным на данный момент является определение Мартина Фаулера, согласно которому предметно-ориентированным языком является «язык программирования с ограниченными выразительными возможностями, ориентированный на некую конкретную предметную область» [30]. Иными словами, понятие предметно-ориентированного языка можно определять как «урезанный язык программирования».

Однако позднее было дано более точное определение: предметно-ориентированный язык - это язык программирования, специализированный для конкретной области применения (в противоположность языку общего назначения, применимому к широкому спектру областей и не учитывающему особенности конкретных сфер знаний). Поскольку в каждой области могут существовать различные понимания одних и тех же терминов, то в связи с этим предметно-ориентированный язык определяет соглашение о значении терминов и является посредником между человеко- и машинно-ориентированным уровнем представления информации.

1.6 Обзор методов и средств разработки предметно-ориентированных языков

В общем случае DSL языки могут быть как текстовыми, так и визуальными. Первые позволяют описывать модель в текстовом виде, а вторые - в графическом. Однако наиболее распространенными являются визуальные DSL, по причине того, что диаграммы обладают большей наглядностью и понятностью не только для программистов, но и для экспертов в предметной области и другим пользователям системы. Такой подход к использованию визуальных DSL принято называть предметно-ориентированное моделирование (Domain Specific Modeling, DSM).

При создании предметно-ориентированного языка целесообразно пользоваться подходящими языковыми инструментариями, или DSM-платформами, предназначенными для их проектирования, редактирования и анализа. Другими слова, DSM-платформа - инструментальное программное обеспечение, служащее для поддержки разработки и сопровождения языков предметной области.

Наиболее существенным достоинством DSM-платформы является то, что такие инструментальные средства облегчают процесс создания языков моделирования, а также существенно упрощают процедуру внесения изменений в уже имеющиеся DSL. Пользователю не придется разбираться в коде языка, он сможет просто изменить описание DSL в DSM-платформе. Кроме того, существует возможность интеграции в одной системе сразу нескольких DSL, так как при задании ограничений на объекты предметной области и описании бизнес-процессов используются совершенно разные языки.

На сегодняшний день известен ряд зарубежных и отечественных систем, предназначенных для разработки графических редакторов предметно-ориентированного языка с возможностью определения собственных графических нотаций. В основе этих систем находятся различные формализмы описания знаний, разнообразные модели понятий и отношений, а также разные методы обработки знаний.

Ниже представлен перечень наиболее развитых на данный момент и наиболее часто встречаемых DSM-платформ:

- MetaEdit+ является инструментальным средством CASE-системы, разработанной компанией MetaCase (Финляндия), предназначенным для создания языка моделирования и генераторов, а также с наличием среды разработки систем с поддержкой возможности использования собственных языков моделирования, генераторов кода и документации [32].

- Microsoft Tools for Domain-Specific Languages (MS DSL Tools) позволяет создавать собственные визуальные языки моделирования, а также строить для них графические редакторы. DSL используется исключительно как составная часть Microsoft VS, вне которой ни DSL, ни редактор использовать нельзя [29].

- Eclipse Graphical Modeling Framework (GMF) предназначена для создания графических средств, то есть для визуальных DSL, интегрируемых непосредственно в среду Eclipse. Архитектура DSL строится на основе шаблона MVC (model - view - controller). Модели разрабатываются при помощи технологии EMF, а для создания уровней представления и контроллера используется технология GEF [29].

- State Machine Designer является исследовательской разработкой по созданию инструментов для описания DSL, созданный на основе DSM-платформы DSL Tools. Данное инструментальное средство было предложено Санкт-Петербургским государственным университетом информационных технологий механики и оптики на кафедре Компьютерных технологий.

- Технология REAL-IT предназначена для быстрой разработки (моделирования и автоматической генерации) приложений, бизнес-логика которых целиком обуславливается схемой данных. В этом случае все целевое приложение является только средством заполнения и редактирования данных.

- Qreal, разрабатываемая на кафедре системного программирования Санкт-Петербургского государственного университета, изначально должна была быть развитием REAL-IT, основывающимся на использовании новой версии языка UML 2.0 и удовлетворяющим требованиям многоплатформенности. Однако в систему были включены элементы метамоделирования, что позволило упростить процесс создания новых редакторов [33].

- UFO-toolkit - DSM-платформа, позволяющая проводить системно-объектный анализ с применением концептуальных классификационных моделей. К преимуществам данного инструментального средства можно отнести возможность взаимосвязанного представления структуры, состава элементов и функций моделируемых систем; имитирования функционирования системы на основе объектной модели; учета семантики предметной области и семантического взаимодействия с инструментарием.

- Meta Programming System разработка компанией JetBrains и используется совместно со средой разработки Java-приложений Intellij-IDEA. Отличительной особенность данной системы является тот факт, что технология Meta Programming System - мощный инструмент для текстового проектирования языка при помощи таких инструментальных средств как язык структуры, язык редактирования, базовый язык и язык шаблонов [29].

Для выбора системы построения предметно-ориентированного языка описания структуры и содержания электронных документов необходимо выполнить сравнительный анализ существующих. Критериями сравнений будут являться:

- динамическое изменение описания метамоделей;

- средства описания метамодели;

- возможность модификации метаязыка;

- создание визуальных DSL;

- создание текстовых DSL;

- средства «ручной» доработки DSL;

- изменение графического редактора для работы с DSL;

- генерация;

- трансформация моделей;

- интеграция нескольких DSL;

- отчуждаемость DSL от DSM-платформы.

Результаты анализа представлены в таблице 1.2, демонстрируя, что каждая из рассмотренных технологий обладает как своими сильными сторонами, так и слабыми по сравнению с другими системами:

Таблица 1.2. Сравнительный анализ технологий создания предметно-ориентированного языка

MetaEdit+

MS Tools,

State Machine Designer

Eclipse

GMF

MPS

REAL-IT

UFO-toolkit

Динамическое изменение создаваемых метамоделей

+

-

-

-

-

-

Средства описания метамодели

GOPRR

UML-диаграммы классов

UML, MetaGME

Языки: структуры, редактора, базовый

Расширение

UML-диаграмм классов

Язык UFO-элементов

Возможность модификации метаязыка

+

-

-

-

-

-

Создание визуальных DSL

+

+

+

-

+

+

Создание текстовых

DSL

-

-

-

+

-

-

Наличие средств «ручной» доработки DSL

-

+

+

+

+

-

Возможность изменения графического редактора для работы с DSL

+

+

+

-

-

-

Генерация

Код, документ-ия

Исходный код

Исходный код

Исходный код

Исходный код

Код,

док-ия

Возможность горизонтальной трансформации моделей

-

-

-

-

-

-

Интеграция нескольких DSL

+

+

+

+

-

-

Отчуждаемость DSL от DSM-платформы

-

-

-

-

-

-

Эти же данные можно представить в более понятном виде, если применить оценочную шкалу (Приложение B). Для удобства было принято решение использовать двухбалльную шкалу: 0 - отсутствие, 1- присутствие критерия.

Очевидно, что каждая из представленных технологий имеет несомненные достоинства. Так, например, MetaEdit+, в отличие от других технологий, позволяет вносить изменения в описание DSL во время работы системы и модифицировать метаязык. Кроме того, данный инструментарий, как и DSL Tools, Eclipse GMF и Meta Programming System, позволяет интегрировать несколько языков в одной системе.

...

Подобные документы

  • Аналитический обзор средств и языков описания интеллектуальных порталов. Устройство и особенности языка технологии OSTIS, результаты ее анализа. Разработка предметно-ориентированного языка проектирования интеллектуальных порталов. Описание пример модели.

    дипломная работа [2,5 M], добавлен 08.11.2015

  • Определение понятия гипертекста. Основные части документа SGML. История создания стандартного языка разметки документов HTML. Отличия синтаксиса XHTML от HTML. RSS - семейство XML-форматов для описания лент новостей. Применение языка разметки KML.

    презентация [4,3 M], добавлен 15.02.2014

  • Основные особенности нормативного и методического обеспечения архивного хранения электронных документов. Общие требования к организации и проведению учета электронных архивных документов. Рассмотрение инновационных методов учета в делопроизводстве.

    курсовая работа [255,8 K], добавлен 31.08.2015

  • Тематический план курса разработки цифрового образовательного ресурса по технологии создания электронных графических документов (электронных книг). Особенности сканирования, программное обеспечение. Основные возможности программы ABBYY Fine Reader.

    дипломная работа [3,7 M], добавлен 07.07.2011

  • Что такое разметка. Язык разметки как набор соглашений о принципах форматирования, которые применяются для кодирования текстовых блоков. Возможности форматов SGML, HTML, XML, история создания, специфика применения, контроль над размещением информации.

    реферат [25,8 K], добавлен 22.03.2010

  • Понятие алгоритма, его свойства и способы описания. Схемы алгоритмических конструкций: линейная, разветвляющаяся, циклическая. Особенности и применение электронных таблиц Excel. Задачи, решаемые с помощью системы Mathcad. История создания языка Pascal.

    курсовая работа [601,9 K], добавлен 20.11.2010

  • Программные средства выполнения, обращения и хранения электронных документов на предприятии. Правовое и методическое обеспечение сохранности информационных ресурсов в организациях Республики Беларусь. Создание электронной регистрационной карточки.

    реферат [25,4 K], добавлен 17.04.2015

  • История разработки узкоспециализированного устройства для чтения электронных документов. Плюсы и минусы электронных книг, их применение в образовании. Подъем рынка электронных книг подъем в связи с появлением экранов с технологией электронной бумаги.

    презентация [601,3 K], добавлен 10.12.2016

  • Технология программных агентов. Форматы метаданных, использующиеся для описания электронных ресурсов. Разработка интеллектуальных агентов. Среда разработки Jadex для построения интеллектуальных агентов. BDI модель интеллектуального агента ресурсов.

    курсовая работа [279,8 K], добавлен 20.02.2011

  • Общая характеристика табличных процессоров. Проведение исследования тем электронных таблиц в 7-9 классах. Главная особенность создания многотабличных документов. Построение диаграмм, их модификация и решение экономических задач графическими методами.

    курсовая работа [2,9 M], добавлен 12.03.2019

  • Библиотека, обладающая крупной распределенной коллекцией документов в электронной форме, доступной через сети передачи данных. Основные задачи электронных библиотек. Цели создания и концепция электронных библиотек. Профильность хранимой информации.

    контрольная работа [26,0 K], добавлен 27.11.2012

  • Особенности способов описания языков программирования. Язык программирования как способ записи программ на ЭВМ в понятной для компьютера форме. Характеристика языка Паскаль, анализ стандартных его функций. Анализ примеров записи арифметических выражений.

    курсовая работа [292,0 K], добавлен 18.03.2013

  • Особенность электронных таблиц Excel, возможности применения формул для описания связи между значениями различных ячеек. Способы ввода данных, формул и их последующего редактирования, типы ссылок на ячейки и диапазоны, особенности работы со ссылками.

    контрольная работа [86,8 K], добавлен 13.03.2019

  • Логическое проектирование реляционной модели данных для службы качества предприятия. Перечень документов, их реквизиты, номер по классификатору, форма их составления. Определение атрибутов электронных документов для их идентификации. Выбор режима доступа.

    курсовая работа [54,8 K], добавлен 13.09.2009

  • Рабочая область окна и структура MS Excel. Применение и возможности электронных таблиц, преимущества использования при решении задач. Ввод и редактирование данных в ячейках, копирование данных, построение диаграмм, профессиональное оформление документов.

    реферат [2,2 M], добавлен 10.06.2010

  • Цели, задачи и компоненты информационной технологии управления. Разработка структуры сайта и программный код работы в HTML–редакторе: создание титульной страницы, документа с фреймами, связь информационных документов с помощью гипертекстовых ссылок.

    курсовая работа [34,3 K], добавлен 11.08.2011

  • Использование объектно-ориентированного программирования - хорошее решение при разработке крупных программных проектов. Объект и класс как основа объектно-ориентированного языка. Понятие объектно-ориентированных языков. Языки и программное окружение.

    контрольная работа [60,1 K], добавлен 17.01.2011

  • Написание сайта с помощью выбранного языка программирования с минимальной интерактивностью. Изучение дополнительных аспектов языка гипертекстовой разметки HTML. Моделирование информационной структуры. Разработка структуры данных, центральный фрейм.

    курсовая работа [1,0 M], добавлен 02.06.2015

  • Меры по обеспечению защиты конфиденциальной информации. Принципы, технические средства и приемы для уничтожения электронных документов, документирование процесса. Изолированная автоматизированная система для работы с конфиденциальной информацией.

    контрольная работа [31,9 K], добавлен 05.01.2016

  • Стадии обработки документов в туристическом агентстве, проектирование базы данных. Реализация программного продукта с помощью объектно-ориентированного языка программирования Borland Delphi 7.0. и системы управления базами данных Microsoft Access 2003.

    дипломная работа [6,5 M], добавлен 22.01.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.