Технология формирования баз данны
Ознакомление с особенностями формирования документографических баз данных. Характеристика технологии создания электронных документов. Исследование преимуществ сканирования и ввода данных с клавиатуры. Анализ понятия языка разметки гипертекстовых страниц.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 29.06.2015 |
Размер файла | 48,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
1. Технология формирования документографических баз данных
Документографические БД содержат описания документов. В зависимости от содержания описания различают документографические БД типов БО (только библиографическое описание документа), БК (библиографическое описание и ключевые слова) и БКР (библиографическое описание, ключевые слова, реферат или аннотация). Появились также полнотекстовые БД, содержащие полные тексты документов, которые являются собственно документальными.
Документографические системы, как правило, строятся по двуконтурной схеме: первый контур содержит документографическую БД и используется для автоматизированного поиска документов, второй контур в случае необходимости обеспечивает выдачу полного текста документа в виде копии первоисточника на бумаге, микрофильме или выводит текст на экран с оптического диска (в некоторых случаях с жесткого магнитного диска большой емкости).
В составе данного класса выделены следующие виды БД:
· по публикуемым научно-техническим документам;
· по публикуемым документам в области общественных наук;
· по патентным документам;
· по отчетам по НИР, ОКР, программным средствам;
· по материалам межотраслевого обмена (научно-техническим достижениям, ППТО, ИЛ, каталожная, выставочная информация и т.п.);
· по стандартам и другой нормативно-технической документации;
· библиографические БД, создаваемые в библиотеках, книгоиздательских и книготорговых организациях;
· реферативные и полнотекстовые БД по общественно-политической информации, создаваемые средствами массовой информации;
· БД законодательной и правовой информации;
· документографические по специальным видам документов;
· БД по архивным документам. Анализ состояния дел с ДБД различных видов в стране показывает, что в настоящее время наибольшее развитие получили ДБД документографического типа, главным образом, по опубликованным документам в области научнотехнической информации, общественных наук, патентным документам, отчетам по НИР, ОКР и другим видам документов, созданные в рамках системы научно-технической информации.
В системе НТИ создан распределенный автоматизированный банк данных (РБнД) общим объемом более 20 млн. записей.
Порядка 30-40% записей относятся к отечественным первоисточникам, остальные - к зарубежным. В рамках РБнД созданы абонентские сети удаленных пользователей, охватывающие все столицы союзных республик и основные областные центры.
Доступ к БД предоставляется частями по жесткому расписанию. Доля одновременно доступных БД составляет 20% общего объема БнД системы НТИ.
РБнД поддержан вторым контуром, обеспечивающим выдачу пользователям исходных текстов документов. Однако функционирование второго контура системы НТИ в настоящее время не соответствует современным требованиям, так как не обеспечивает гарантированного получения копии любого первоисточника в приемлемые сроки.
Не в полной мере соответствует современным требованиям и актуальность записей в РБнД системы НТИ, так как сроки поступления первоисточников в России, обработки их и ввода в БД в совокупности составляют несколько месяцев.
К документографическим БД НТИ тесно примыкают библиографические БД, создаваемые в библиотеках, книгоиздательских и книготорговых организациях.
Функции этих систем совпадают почти полностью, что делает целесообразным их объединение.
Крупным недостатком сложившейся системы следует признать полное отсутствие полнотекстовых БД научно-технической информации, в особенности, полнотекстовых БД стандартов и нормативно-технической документов. Однако широкое распространение полнотекстовых БД общенормативного и нормативно-правового характера радует.
Средствами массовой информации (в основном центральны ми) создан и ведется ряд БнД по общественно-политической информации. Основная проблема БнД средств массовой информации заключается в полном отсутствии координации их создания и ведения, откуда проистекает разнобой в технологии, технических решениях, подходах к отбору и обработке информации.
Документографические БД по специальным видам документов функционируют для документов следующих видов:
1. Картографические документы - в ГБЛ и ГУГК. Эти документографические БД представляют собой, в сущности, обычные библиографические БД. В настоящее время объем совокупного БнД картографических документов незначителен.
2. Чертежно-конструкторские и проектные документы. Документографические БД по документам этого вида существуют на отдальных предприятиях, где они разрабатываются, как правило, самостоятельно с использованием имеющихся программно-аппаратных средств. В результате полученные массивы, как правило, не совместимы между собой. Кроме того, эти массивы создаются в интересах управления деятельностью самого предприятия, и заинтересованность предприятия-генератора в предоставлении доступа к ним внешних потребителей обычно отсутствуют.
По-видимому, в настоящее время вопрос о включении этих документов в систему БД и БнД не стоит.
3. Аудиовизуальные документы. В телекомпаниях существует документографическая БД по аудиовизуальным документам Центрального телевидения, используемая в интересах этих организаций. Теледоступ внешних потребителей к этой БД технически осуществим, но в настоящее время не предусматривается руководством этой организации. Формирование документографического БнД по архивным документам фактически только началось. Основная проблема в этом виде БнД состоит в очень большом объеме данных, подлежащих переработке и вводу в БнД, что потребует больших затрат и длительного времени. Задача облегчается наличием четкой структуры архивных органов и существованием координации этой работы между ними.
В целом можно отметить, что в стране существует несколько отдельных, не связанных между собой систем документографических БнД и отдельных БД этого класса, между которыми не всегда обеспечивается совместимость даже по данным. Планомерное и скоординированное развитие таких систем можно отметить только внутри следующих подсистем: документов научно-технической информации; по общественным наукам; патентных документов; отчетных документов; документов межотраслевого обмена; стандартов и нормативно- технической документов; законодательных документов; архивных документов. Между этими подсистемами координация слаба или отсутствует.
В других подсистемах нет и внутренней координации. Вместе с тем, и в тех подсистемах, которые развиваются планомерно, имеет место совершенно неоправданное дублирование функций, связанное с искусственным разделением информационных потоков по отрасли-источнику на общие документальные потоки и потоки группы отраслей промышленности. Применительно к открытой информации такое разделение излишне (а другая информация не относится к области рассмотрения настоящей концепции).
Сопоставление состояния дел в стране и за рубежом в области документографических БнД позволяет также отметить отсутствие или слабое развитие, неорганизованность и разрозненность в России некоторых видов документографических и документальных БнД, в том числе:
· ДБнД обзорной и прогнозной экономической информации;
· ДБнД по научным статьям с индексами цитирования;
· ДБнД по правительственным документам незаконодательного характера (заявлениям, сообщениям для прессы, выступлениям государственных деятелей и т.п.);
· ДБнД по программному обеспечению;
· ДБнД деловой и коммерческой информации;
· ДБнД по зарегистрированным торговым маркам и другие.
Технология формирования фактографических баз данных
Фактографические БД - базы данных, содержащие информацию, относящуюся непосредственно к предметной области.
Фактографические БД формируются двумя способами:
· на основе накопленных разработчиками больших массивов одно родной информации;
· на основе документальных потоков существующих документографических БД.
К настоящему времени выделились два подхода к созданию фактографических БД. Условно их можно назвать «исследовательским» и «библиотечным».
Наиболее характерная черта «исследовательских» БД - целенаправленный отбор информации для решения заранее сформулированной исследовательской задачи.
При «библиотечном» подходе сбор информации, как правило, непосредственно не связан с ее использованием. БД формируются преимущественно в ходе централизованной работы крупных научных и информационных центров и пополняются новыми данными без изменения уже существующей структуры информационного массива.
Свертывание научной информации, которое связано с функционированием БД, позволяет пользователю в более сжатые сроки и в концентрированном виде получить интересующие его сведения, в большинстве своем прошедшие экспертную проверку на достоверность. Таким образом, разработка и эксплуатация БД в той или иной области науки или техники позволяет значительно увеличить доступную пользователю долю информационных ресурсов и, в конечном итоге, приводит к получению нового знания.
С распространением персональной техники с современным сервисным обеспечением появляется возможность создания локальных баз данных, необходимых для научных исследований. Информация для таких баз заимствуется из обзоров, справочников, отдельных оригинальных работ и других источников, и значительно реже - из банков данных. Однако качество информации, предлагаемой пользователям банками данных, существенно выше, поскольку эта информация проходит экспертный анализ на достаточно высоком уровне - в среде специалистов по данному вопросу, и оперативно обновляется.
Появление значительного числа проблемоориентированных локальных БД в различных областях науки, реализованных, как правило, на ПЭВМ, особенно остро ставит задачу координации работ в области информационного обеспечения научных исследований. За последние годы во многих странах возникли специальные организации, деятельность которых направлена, с одной стороны, на сбор, систематизацию и распространение информации о функционирующих или только проектирующихся БД (объеме и содержании информационного массива и комплексе информационных услуг), а с другой стороны, на стимулирование и финансирование проектов, связанных с созданием БД, совершенствованием их программного и лингвистического обеспечения, а также разработкой единых стандартов при переводе данных в машиночитаемую форму.
При объединении локальных БД в информационную сеть одна из основных задач - обеспечение прямой и надежной связи между банками данных и личными локальными базами данных, оперативное наполнение таких локальных баз информацией из банков данных. Такая связь и поддержка локальных баз данных уже хорошо освоена в США (например, система STN) и Западной Европе. Банки данных, не включенные в сети, имеют возможность оперативно передавать данные по Интернету. В связи с этим необходимо обеспечить организацию современных методов передачи информации банков фактографических данных по сетям. Помимо решения технических проблем это потребует от системной организации банков данных обеспечения возможности формирования передаваемых файлов данных независимо от конкретной СУБД и типа машинной реализации, ведения гибких форматов и соответствующих интерфейсов средств обмена данными в разных форматах.
База данных может быть централизованной (поддерживается одной ЭВМ) или распределенной. Распределенные базы можно разделить на два типа. В одном случае каждый пользователь имеет почти все данные на своей ЭВМ, в другом случае каждый вид данных находится, в каком - то одном месте и центральная ЭВМ поддерживает только каталог всех данных с указанием местонахождения конкретных данных. По-видимому, наиболее перспективной является последняя система организации.
При проектировании в систему, помимо традиционного хранилища информации, могут входить также следующие подсистемы:
· библиотека научных программ для обработки данных (моделирование, вычислительный эксперимент и др.);
· библиотека статистической обработки данных (регрессионный анализ, сглаживание, оценка достоверности, получение значений коэффициентов эмпирических и теоретических зависимостей, графический пакет и т.д.);
· буфер получаемых данных для их предварительного анализа (возможно и архив результатов);
· ряд служебных подсистем, таких, как вводимая коррекция данных, обмен данными между хост-машиной и локальными системами и др.
2. Особенности проектирования фактографических БД
Имя каждой проектируемой ФБД и/или её отдельных подмассивов идентифицируется «Именем неявного объекта» - для иерархической и сетевой структуры БД или «Именем отношения» - для реляционной структуры БД.
Основным структурным элементом ФБД является (в разных терминах) «Тип данных» или «Характеристика». Он состоит из «Наименования характеристики (или типа данных)» и «Значения характеристики (или типа данных)» и реализуется в виде записи в конкретном «Поле 95 данных».
Наименование каждой характеристики в ФБД является уникальным (т.е. неповторяющимся). Под «Полем данных» (ПД) понимается специально выделенная область на носителе данных, в которой записываются однородные сведения, соответствующие каждому структурному элементу ФБД, например, «Наименование изделия», «Стоимость в рублях», «Год изготовления» и т.п.
Каждое поле данных имеет внешнее и внутреннее имя:
· внешнее имя ПД соответствует наименованию типа данных или характеристике.
· внутреннее имя ПД («метка», «идентификатор») - короткий символьный (цифровой, буквенный или буквенно-цифровой) код, присваиваемый каждому ПД.
Поля данных характеризуются:
· длиной, ограниченной количеством символов, разрешенным для записи в этом поле, или неограниченной длиной;
· структурой записи.
Структура записи может быть:
· текстовая (содержит любые буквенно-цифровые символы);
· нормированная (содержание записи контролируется словарями системы);
· форматированная (системой устанавливается определенная последовательность буквенных, цифровых, например для ПД с именем «Дата» может быть принята запись со структурой вида 05.06.02, где первые две цифры обозначают день, вторые - месяц, третьи - год или 05 июня 2002, или буквенно-цифровых символов, например для такого же ПД - 05 июня 2002);
· числовая - выражающая значащую величину.
Поля данных могут также быть:
· элементарными, состоящими из одной однородной записи значения поля для каждого документа;
· групповыми, состоящими из двух и более однородных записей, например, поле «Заказчики» может включать записи наименований нескольких физических или юридических лиц;
· множественными, состоящими из нескольких элементарных или групповых или других множественных полей, а также их сочетаний, например, поля данных «Технические характеристики» и «Банковские реквизиты» могут включать в себя ряда разнородных ПД;
· неповторяющимися в одной записи и повторяющимися. Существуют и другие классификации структур полей данных. Однако в принципе они не противоречат приведенному здесь варианту. В таблице 1 в качестве примера приведен состав типов данных в достаточно популярной в настоящее время СУБД Access.
Таблица 1. Типы данных в СУБД Access
Тип данных |
Описание |
|
Текстовый |
Поля этого типа содержат текст, объем которого не должен превышать 255 символов (длина поля устанавливается с помощью параметра Размер поля). |
|
Поле MEMO |
Содержат текстовые либо текстовые и числовые данные объемом не более 64000 символов (поля этого типа не индексируются). |
|
Числовой |
Поля этого типа содержат числовые значения, диапазон которых определяется параметром Размер поля. |
|
Дата/время |
Поля этого типа содержат значения даты и времени. |
|
Денежный |
В полях этого типа могут храниться числа, содержащие 15 разрядов слева от десятичной точки и 4 разряда справа от нее. |
|
Счетчик |
Поле этого типа содержит число, которое автоматически увеличивается на единицу, когда в таблицу добавляется новая запись. |
|
Логический |
В таких полях сохраняются значения Да или Нет (поля этого типа не индексируются). |
|
Поле объекта OLE |
В поля данного типа помещаются объекты, обработанные OLE-сервером (такие поля не индексируются, их объем не должен превышать 128 Мб). |
|
Гиперссылка |
В полях этого типа хранятся гиперссылки, которые представляют собой путь к файлу на жестком диске либо адрес в сетях Интернет или Интранет. |
Проектирование форматов ФБД предполагает подготовку полного описания состава всех полей данных, обеспечивающих решение тех задач, для которых создаётся данная ФБД.
Одновременно производится определение характера связей между данными («Логической структуры модели данных»). Это означает, что проектирование ФБД должно начинаться с разработки подробного перечня (точнее - структуры) задач, которые должны решаться на основе её использования.
Интеграция ФБД АБИС предполагает исключение одинаковых или близких по характеру содержащихся в них сведений полей различных баз данных, уточнение характеристик ПД с учётом требований решения различных служебных и информационных задач. После выполнения указанной работы определяются требования к СУБД, а также технологии её создания и эксплуатации, включая - определение ответственности за ведение ИБД.
3. Технологии создания электронных документов
Сегодня уже неудивительно, когда читатель (пользователь), приходя в библиотеку и проведя в ней определенное количество времени, не только не пользуется ее фондом, но даже и не делает попытки заказать литературу. Многие свои потребности пользователи удовлетворяют на информационном уровне, т.е. вполне довольствуются библиографической, реферативной, справочной и иной электронной информацией, полученной через Интернет, с помощью CD-ROM или иным способом. Более того, развитие электронного ресурса приводит к тому, что многие библиотеки, не имея средств на комплектование зарубежных изданий, находят возможность организовать доступ своим пользователям к полнотекстовым электронным ресурсам, и эти тенденции набирают силу (электронная научная библиотека РФФИ, электронные издания Института "Открытое общество" - Россия и др. предоставили бесплатный доступ многим библиотекам к нескольким тысячам названий зарубежных журналов). Кроме того, получает все большее распространение электронная доставка документов, которая позволяет пользователям библиотек, не приходя в саму библиотеку, заказать со своего рабочего места (или из дома) электронную копию той или иной статьи, брошюры, фрагмента книги и в считанные мгновения получить ее. При этом нельзя не отметить, что уже во многих библиотеках число удаленных обращений (посещений) к Интернет-сайту библиотеки превосходит число обычных физических посещений.
Все вышеизложенное подтверждает, что старые представления о библиотеке рушатся на глазах. Читатель уже далеко не всегда приходит в библиотеку за документом, он приходит за информацией и/или электронным ресурсом. Библиотека постепенно превращается в центр информационных электронных ресурсов, сохраняя, тем не менее, за собой функции обычной библиотеки по обслуживанию пользователей печатными документами. Эта новая функция современной библиотеки не только наглядно иллюстрирует одну из главных тенденций современной библиотечной деятельности, она также должна учитываться как в планировании развития автоматизированных библиотечно-информационных технологий, так и в целом для пересмотра уже устаревшей концепции традиционной библиотеки.
Технологии создания электронного документа
Во-первых, это технологии аналитико - синтетической обработки информации в АБИС.
Аналитико - синтетическая обработка (АСО) - отдельные процессы, включающие операции или группы операций, связанные с анализом документов или данных но не ведущие к существенному изменению их содержания, структуры и вида. В автоматизированных системах АСО может выполняться как в виде ручных, "человеко-машинных", так и чисто "машинных" (т.е. с использованием только автоматизированных средств) операций. Примерами полностью или частично автоматизированной реализации АСО могут служить операции сортировки, записи/перезаписи, кодирования, декодирования, шифрования/дешифрования, конвертирования и др. Обработка данных - обобщенное наименование разнородных процессов, связанных с данными. Можно отметить некоторые термины, связанные с видами обработки данных:
· Интегрированная обработка данных - принцип организации обработки данных в автоматизированной системе, при котором процессы или операции, ранее выполнявшиеся в различных организациях, подразделениях или участках технологической цепи, объединяются или оптимизируются с целью повышения эффективности системы. Одной из возможных целей "интегрированной обработки данных" является создание интегрированных баз данных.
· Распределенная обработка данных - обработка данных, проводимая в распределенной системе, при которой каждый из технологических или функциональных узлов системы может независимо обрабатывать локальные данные и принимать соответствующие решения. При выполнении отдельных процессов узлы распределенной системы могут обмениваться информацией через каналы связи с целью обработки данных или получения результатов анализа, представляющий для них взаимный.
· Автоматизированная обработка (данных/документов) - обработка (данных или документов), выполняемая автоматически, без участия человека или при ограниченном его участии. Техническими средствами реализации "автоматизированной обработки" могут быть ЭВМ или иные устройства, машины.
· Машинная обработка - выполнение операций над данными с помощью ЭВМ или других устройств обработки данных.
· Предмашинная обработка, подготовка данных для ввода - этап аналитико-синтетической переработки или обработки документов, связанный с формализацией итоговых документов и записью их содержания на рабочий лист.
· Сортировка - автоматическое или ручное распределение документов или данных по каким-либо заданным признакам. Совокупность процессов, связанных с приведением записей в файле в соответствие с последними изменениями в предметной области или полученными новыми сведениями (данными). "Обновление файла" предполагает выполнение следующих операций: просмотр записей, добавление новых записей, стирание (удаления) или исправление (редактирование) существующих записей.
Во-вторых, это технологии оцифровки информации.
К технологиям оцифровки информации относят:
1. Сканирование.
Этот способ особенно удобен для тех, кто готовит мультимедийные приложения на основе уже имеющихся печатных материалов и иллюстраций.
Сканер - это периферийное устройство персонального компьютера, позволяющее вводить в компьютер оригиналы, представленные в виде текстовых документов, рисунков, слайдов, фотографий и так далее. Сканер преобразует подобную информацию в электронную.
На основании обобщенной оценки характеристик сканеров эти устройства можно подразделить на следующие подгруппы:
o Ручные сканеры.
o Страничные (протяжные) сканеры.
o Слайд - сканеры.
o Проекционные сканеры.
o Барабанные сканеры.
2. Ввод данных с клавиатуры.
Ввод данных с клавиатуры - разновидность ручного ввода. Технологическим средством обеспечения клавиатурного ввода является рабочий лист. Ввод текста осуществляется с помощью текстового редактора Word, который входит в пакет программ под общим названием Office, выпущенный корпорацией Microsoft. Он предназначен для работы под управлением операционной системы Windows.
Word - приложение Windows, предназначенное для создания, просмотра, модификации и печати текстовых документов, которое дает возможность выполнять все без исключения традиционные операции над текстом, предусмотренные современными компьютерными технологиями:
o набор и модификация неформатированной алфавитно-цифровой информации;
o форматирование символов с применением множества шрифтов True Type разнообразных начертаний и размеров;
o форматирование страниц (включая колонтитулы и сноски);
o форматирование документа в целом (автоматическое составление оглавления и разнообразные указатели);
o проверка правописания, подбор синонимов и автоматический перенос слов.
В - третьих, это технологии обработки оцифрованных документов.
К технологиям обработки оцифрованных документов относят распознавание символов и их дальнейшее редактирование.
Программные средства оптического распознавания символов - OCR (Optical Character Recognition) предназначены для автоматического ввода в компьютер печатных документов. Чаще всего пользователи применяют на практике систему оптического распознавания текстов FineReader производства ABBYY и систему оптического распознавания символов CuneiForm производства Cognitive Technologies Ltd. Обе системы обладают приблизительно равноценными возможностями и предназначены для распознавания текстов, набранных практически любыми шрифтами (кроме иероглифов и арабских), без предварительного обучения. Особенностью программ является высокая точность распознавания символов и малая чувствительность к дефектам печати.
Программные системы OCR работают следующим образом. Допустим, вы располагаете текстовым бумажным документом со сложной структурой, т.е. помимо текста в документе содержатся таблицы, диаграммы, иллюстрации и т.п. Нужно отредактировать текст средствами текстового процессора. Для решения подобной задачи нужно поместить документ в сканер и создать его электронную копию, представляющую собой графическое изображение документа.
Дальше необходимо преобразовать изображение в текст. Данный этап является очень ответственным, поскольку результатом сканирования является изображение, которое можно сохранить исключительно в файле того или иного графического формата или загрузить для обработки не в текстовый, а в какой-либо графический редактор. Вставить изображение непосредственно в текстовый редактор можно. Вместе с тем для текстовых приложений изображение является неделимым элементом и не может быть идентифицировано. Таким образом, даже если на изображении присутствует текст, средствами текстового редактора его отредактировать невозможно. Поэтому прежде всего необходимо преобразовать изображение символов в текст как таковой, т.е. в последовательность символов, доступную для обработки в текстовых редакторах.
Программные системы FineReader и CuneiForm позволяют решать задачи преобразования изображений в тексты и поставляются в виде комплексов, достаточно мощных для применения в практической деятельности.
Процесс распознавания текста системами OCR состоит в следующем.
Вначале необходимо получить графическое изображение документа, что может быть реализовано двумя путями - сканированием документа либо загрузкой изображения из файла. Программная среда приложений позволяет просматривать изображения в различных масштабах, а также выполнять с ними некоторые преобразования, в частности поворачивать и инвертировать их.
На следующем этапе обработки документов выполняется их разметка. Цель этой операции - указать системе OCR, каким образом текст расположен на изображении.
Результаты автоматической разметки можно корректировать вручную - создавать и удалять блоки текста, перемещать их, задавать их размеры, делить на смежные блоки, делать блоки многоугольными, присоединяя к ним или вырезая из них прямоугольники блоков и т.п. Блокам можно присваивать порядковые номера, что очень удобно, если нужно преобразовать сложно отформатированный текст в простой.
Для текстов, напечатанных расплывчато или на неоднородном фоне, используется адаптивное сканирование, позволяющее за счет некоторого снижения производительности повысить точность определения контуров букв.
При распознавании неконтрастных, бледно напечатанных документов качество распознавания можно улучшить путем регулировки таких параметров, как яркость, контрастность и порог уровня черной и белой точек.
Параметры разметки и распознавания настраиваются для того, чтобы система OCR была способна правильно разбивать текст на блоки и распознавать его. В частности, нужно указать, на каком языке (языках) написан распознаваемый текст.
Для оперативной работы с распознанным текстом в систему OCR интегрирован собственный текстовый редактор, напоминающий встроенное в Windows приложение WordPad. Текстовый редактор способен поддерживать такие основные возможности форматирования текста, как шрифты и начертания, верхние и нижние индексы, таблицы, колонки, рамки, перемещаемые поверх текста. В распознанном тексте определенным фоном выделяются сомнительные слова, причем в текстовом редакторе предусмотрены средства для быстрого поиска сомнительных слов, что существенно упрощает просмотр и правку распознанного текста.
Некоторые версии систем OCR, например ABBYY FineReader Corporate Edition, содержат интегрированные средства для коллективной работы. Для реализации возможности работы в сети на каждом компьютере должна быть установлена отдельная копия программы.
В этом случае может быть организована работа с одним и тем же пакетом на нескольких компьютерах. Сетевые средства системы обладают возможностью отслеживать процесс обработки страниц - кем в данный момент страница открыта, отсканирована, распознана, проверена и т.п. Изменения, производимые со страницей одним пользователем, видны всем, кто работает с этим же пакетом.
Возможностями коллективной работы обладает также система CuneiForm 2000 Master, которая помимо собственно среды CuneiForm 2000 и текстового редактора содержит встроенный программный блок пакетного сканирования и распознавания, а также программные средства для использования сканеров в локальной сети.
В-четвертых, это технологии создания WEB-документов.
Для создания Web - документов чаще используется язык HTML (HyperText Markup Language). Это понятие включает в себя различные способы оформления гипертекстовых документов, дизайн, гипертекстовые редакторы, браузеры и многое другое. Гипертекст как нельзя лучше подходит для включения элементов мультимедиа в традиционные документы. Практически, именно благодаря развитию гипертекста, большинство пользователей получило возможность создавать собственные мультимедийные продукты и распространять их на компакт - дисках. Такие информационные системы, выполненные в виде наборов HTML - страниц, не требуют разработки специальных программных средств, так как все необходимые инструменты для работы с данными стали частью стандартного программного обеспечения большинства персональных компьютеров. При таком подходе от пользователя требуется выполнить только ту работу, которая непосредственно относится к тематике разрабатываемого продукта: подготовить тексты, нарисовать рисунки, создать HTML - страницы и продумать связи между ними.
4. Электронные издания и электронные библиотеки
Вычислительная техника позволяет сохранять и распространять информацию в электронной форме, что играет революционную роль в истории человечества, аналогичную изобретению книгопечатания. Электронная форма позволяет хранить информацию наиболее надежно и компактно, распространять ее оперативнее и шире и, кроме того, предоставляет возможности ее использования, которых не могло быть при иных формах. Основными средствами для реализации этих возможностей являются электронные издания (ЭИ) и электронные библиотеки (ЭБ).
Естественно, что ЭИ и ЭБ для выполнения своих функций фактически должны реализовываться в виде некоторых информационных систем отличительными свойствами которых являются длительное хранение и использование информации, в частности ее распространение. Информационные системы, работающие с динамической информацией, а также накапливающие информацию, но не предполагающие ее распространять (системы архивного типа), не могут быть отнесены к рассматриваемому классу. Таким образом, ЭИ и ЭБ занимают определенное положение среди других информационных систем.
Электронное издание - электронный документ (группа документов), прошедший редакционно-издательскую обработку, предназначенный для распространения в неизменном виде, имеющий выходные сведения.
ЭИ состоит из информации и программного обеспечения, позволяющего визуализировать эту информацию, эффективно использовать её, но не изменять. Таким образом, ЭИ представляет собой информационную систему, в которой нет функций коррекции имеющейся информации (удаления, дополнения и др.). Основное назначение информационной системы ЭИ - максимально точное воспроизведение исходной информации и предоставление пользователю средств решения определенного набора функциональных задач.
ЭИ являются тиражируемыми продуктами и могут распространяться на любых машиночитаемых носителях (компактных оптических дисках, магнитных дискетах и т.п.) или через телекоммуникационные сети.
При этом надо иметь в виду, что распространяется именно информационная система, а не только информация. Если же информация используется с помощью иных программных средств, то может теряться некоторая ее часть, не будут реализовываться все ее свойства, может существенно сократиться спектр пользовательских возможностей.
Область деятельности, связанная с электронными библиотеками, является достаточно новой и поэтому еще не имеет устойчивой терминологии. (Безусловно, не следует отождествлять ее с автоматизацией традиционных библиотечных процессов, хотя провести между ними точную границу вряд ли возможно.)
Существенное развитие работы по электронным библиотекам получили на рубеже 1990-х гг., когда появились адекватные средства вычислительной техники и информационные технологии, обеспечивающие надежное сохранение, оперативную обработку и эффективное использование больших массивов разнородной информации, прежде всего текстовой. Именно в то время в ряде стран стали подготавливаться проекты электронных библиотек. Некоторые из них легли в основу соответствующих национальных и международных программ.
5. Технологии создания web-сайтов автоматизированных библиотечно-информационных систем
Для создания web-сайтов автоматизированных библиотечно-информационных систем чаще всего используют язык разметки гипертекстовых страниц HTML.
Язык разметки гипертекстовых страниц (HTML - Hypertext Markup Language) представляет собой язык, разработанный специально для создания Web-документов. Он определяет синтаксис и размещение специальных инструкций (тегов), которые не выводятся на экран, но указывают браузеру, как отображать содержимое документа. Он также используется для создания ссылок на другие документы, локальные или сетевые, например, находящиеся в сети Интернет.
Стандарт HTML и другие стандарты для Web разработаны под руководством консорциума W3C (World Wide Web Consortium).
На практике на стандарт HTML большое влияние оказывает наличие тегов, предложенных и поддерживаемых наиболее известными браузерами, такими как Microsoft Internet Explorer и Netscape Navigator.
Инструментарий редактирования HTML. Документы HTML являются обычными текстовыми ASCII-файлами. Это означает, что для их создания можно использовать любой текстовый редактор, даже на пример блокнот. Существуют средства редактирования, разработанные специально для написания HTML. Они позволяют экономить время, так как содержат клавиши быстрого доступа для выполнения повторяющихся операций, например, задания начальных установок документов, таблиц или просто применения стилей к тексту.
Авторский инструментарий WYSIWYG. Последние годы характеризуются резким ростом рынка авторских инструментов. HTML-редакторы класса WYSIWYG (What You See Is What You Get - что видишь, то и получишь) имеют графические интерфейсы, которые делают написание HTML больше похожим на программу редактирования текстов или разметки страницы. Первоначальной целью этих программ было освобождение пользователей от тегов HTML, наподобие того, как программы разметки страниц защищают разработчика от набора команд языка PostScript. Сегодня их значимость возросла, так как они повышают эффективность и уровень автоматизации производства документов, обеспечивая в то же время доступ к исходному тексту HTML.
Наиболее популярными в настоящее время WYSIWYG-редакторами являются: Macromedia Dreamweaver, Golive CyberStudio (только для компьютеров Macintosh), Microsoft FrontPage, FileMaker Claris, Home Page, Adobe PageMill. электронный документографический сканирование
Теги HTML. Документ HTML содержит текст (содержимое страницы) и встроенные теги - инструкциями о структуре, внешнем виде и функции содержимого. Документ HTML разделяется на две основные части: заголовок - head и тело - body. Заголовок содержит такие сведения о документе, как его название и методическая информация, описывающая содержимое. В теле находится само содержим документа (то, что выводится в окне браузера).
Каждый тег состоит из имени, за которым может следовать список необязательных атрибутов, все они находятся внутри угловых скобок < >. Содержимое скобок никогда не выводится в окне браузера. Имя тега, как правило, представляет собой аббревиатуру его функции, что облегчает его запоминание. Атрибуты являются свойствами, которые расширяют или уточняют функцию тега. Как правило, имя и атрибуты внутри тега не чувствительны к регистру.
Контейнеры. Большинство тегов являются контейнерами. Это означает, что у них имеется начальный (открывающий или стартовый) и конечный (закрывающий) теги. Текст, находящийся между тегами, будет выполнять содержащиеся в них инструкции.
Конечный тег имеет то же имя, что и начальный, но перед ним стоит слэш (/). Его можно рассматривать как "выключатель" тега. Конечный тег никогда не содержит атрибутов.
В некоторых случаях конечный тег не обязателен, и браузер определяет конец тега из контекста. Чаще всего опускают конечный тег (абзац). Браузеры раньше поддерживали этот тег без соответствующего завершения, поэтому многие авторы Web привыкли использовать краткую форму. Это разрешено не всем тегам, и не все браузеры прощают их отсутствие. Поэтому, если есть сомнения, включите в текст закрывающий тег. Это особенно важно, когда в документе вы используете каскадные таблицы стилей.
Автономные теги. Некоторые теги не имеет завершающих тегов, потому что они используются для размещения отдельных (автономных) элементов на странице.
Атрибуты. Атрибуты добавляются в тег для расширения или модификации его действий. К одному тегу можно добавить несколько атрибутов. Если атрибуты тега следуют после имени тега, они разделяются одним или несколькими пробелами. Порядок следования не важен. Большинство атрибутов имеют значения, которые следуют за знаком равенства (=), находящимся после имени атрибута. Длина значений ограничена 1024 символами. Значения могут быть чувствительны к регистру. Иногда значения должны находиться в кавычках (двойных или одинарных). Правила записи значения следующие:
1. если значение представляет собой одно слово или число и состоит только из букв (a-z), цифр (0-9) и специальных символов (точка или дефис <->), то можно поместить его после знака равенства без кавычек;
2. если значение содержит несколько слов, разделенных запятыми или пробелами, или содержит специальные символы, отличные от точки или дефиса, тогда его необходимо поместить в кавычки. Например, URL требуют кавычек, потому что они содержат символы "://". Также кавычки необходимы при задании значений цветов с использованием формата "#rrggbb".
В теги HTML могут помещаться другие HTML-теги для осуществления воздействия нескольких тегов на один элемент. Это называется вложением, и, что бы правильно его осуществить, начальный и конечный теги вложенного тега должны обязательно находиться между начальным наконечным тегами внешнего тега.
Часто встречающейся ошибкой является перекрытие тегов. Хотя часть браузеров отображают содержимое, отмеченное таким образом, многие не разрешают нарушать правило, поэтому важно размешать теги правильно.
Ниже приводится информация, содержащаяся в документе HTML, включая определенные теги, которая будет игнорироваться при просмотре браузерами. В ее состав входят:
1. разрывы строк. Символы конца строк в документе HTML игнорируются. Текст и элементы будут переноситься до тех пор, пока в потоке текста документа не встретится тег 'р' или 'br'. Разрывы строк выводятся, если текст обозначен как текст с заданным форматом ();
2. символы табуляции и множественные пробелы. Когда браузер встречает в документе HTML символ табуляции и несколько последовательных символов пробела, он выводит только один пробел. Таким образом, если документ содержит: "far, far away", браузер выведет "far, far away". Дополнительные пробелы можно добавить в текстовый поток, используя символ неразрывного пробела (Snbsp;). Кроме того, все пробелы выводятся, если текст является форматированным (находится в тегах );
3. множественные -теги. Последовательность тегов , не прерываемых текстом, всеми браузерами интерпретируется как избыточная. Содержимое будет выводиться так, как если бы был только один тег . Большинство браузеров выведет несколько тегов 'Br' в виде нескольких переходов на новую строку;
4. нераспознаваемые теги. Если браузер не понимает тег или тот был неверно задан, то браузер его просто игнорирует. В зависимости от тега и браузера это может привести к различным результатам. Либо браузер ничего не выведет, или он может отобразить содержимое тега как обычный текст;
5. нераспознаваемые теги. Если браузер не понимает тег или тот был неверно задан, то браузер его просто игнорирует. В зависимости от тега и браузера это может привести к различным результатам. Либо браузер ничего не выведет, или он может отобразить содержимое тега как обычный текст;
6. текст в комментариях. Браузеры не выводят текст между специальными элементами, которые используются для обозначения комментариев. После символов начала комментария и перед символами окончания обязательно должен находиться пробел. В сам комментарий можно помещать практически все. Комментарии нельзя вкладывать. В Microsoft Internet Explorer имеется фирменный тег, обозначающий комментарии. Однако, он не поддерживается другими браузерами.
Каскадные таблицы стилей.
CSS2 (Cascading Style Sheets, Level 2) - самая последняя рекомендация по каскадным таблицам стилей, предоставляет механизмы для улучшенной интерпретации страниц неграфическими и не визуальными устройствами. Усовершенствования включают:
1. механизмы, с помощью которых созданная пользователем таблица стилей может заменить все таблицы стилей более высоких уровней в каскаде. Это дает конечному пользователю возможность полностью управлять отображением. Пользователь получает возможность создавать настраиваемые таблицы стилей для вывода страниц в соответствии со специальными требованиями;
2. специализированная поддержка для загружаемых шрифтов - таким образом уменьшается тенденция помещать текст в графику для улучшения внешнего вида страницы;
3. механизмы позиционирования и выравнивания, которые отделяют содержимое от внешнего представления. Эти таблицы стилей должны исключить некорректное использование тегов HTML для создания особых эффектов отображения. Теги HTML можно использовать для логической структуризации документа, делая его более простым для интерпретации не визуальными посредниками;
4. средства управления для звукового вывода доставленной по Web информации;
5. улучшенные средства навигации, такие как цифровые маркеры, которые можно добавлять в документ в целях ориентации.
6. Представление графики на Web-страницах
На данный момент почти все изображения в Web, представлены в двух форматах: GIF и JPEG.
Разрешение и размер файла изображений. Поскольку изображения Web существуют только на экране дисплея, будет технически правильно измерять их разрешение в пикселах на дюйм (ppi - pixels per inch).
Размер файла. Без сомнения, именно графика сделала Web таким, каким мы его видим сегодня, Но не стоит забывать, что графика увеличивает время, необходимое Web-странице для передачи по сети; большой объем графики означает существенное время загрузки, которое испытывает терпение читателя, особенно если он дозванивается с использованием стандартного модемного соединения.
В этом отношении для Web-дизайнера существует единственное наиболее важное правило: размер файла графического изображения должен быть минимально возможным!
Состав и содержание работ по проектированию информационного обеспечения автоматизированных библиотечно-информационных систем
Процессы внедрения в деятельность библиотек и информационных органов России средств автоматизации приобрели массовый характер и стали необратимыми. Вместе с тем в прошедшее десятилетие в своём подавляющем большинстве они носили случайный ("несистемный") характер, что привело к значительному числу ошибочных решений, исправление которых, к сожалению, также производится не системно без учёта многих факторов, которые определяют успех или неуспех предпринимаемых усилий и затрачиваемых средств.
В соответствии со сложившейся в библиотечной среде России достаточно общей ситуации процессы внедрения в библиотеках и информационных органах или службах автоматизированных систем проводятся в следующей последовательности:
1. Приобретается некоторое число персональных компьютеров (от одного и более). Их конфигурация, количество, стоимость и производители определяются наличием финансовых средств, источниками их поступления и некоторыми, как правило, некомпетентными мотивами руководства библиотеки.
2. Производится выбор (также преимущественно по субъективным мотивам) той или иной версии программного обеспечения (ПО) автоматизированной библиотечно-информационной системы (АБИС).
3. Средства, упомянутые в пп. 1 и 2 устанавливаются на рабочие места сотрудников подразделений библиотеки, преимущественно начиная с отделов/групп обработки и комплектования.
4. Сотрудники без должного обучения включаются в процесс обработки входных документов и комплектования того, что должно называться электронным каталогом библиотеки. При этом организация и технология выполнения работ документально не регламентируется, поэтому качество полученных вторичных документов может быть самым разным, чаще - весьма невысоким.
5. Приобретается более мощный ПК так же достаточно случайной конфигурации, который объявляется "сервером".
6. Создаётся "локальная вычислительная сеть" (ЛВС) библиотеки. Архитектура сети никем не оптимизируется и ориентируется только на имеющиеся в библиотеке технические средства.
7. Продолжается пополнение библиотеки техническими средствами и установкой их на новые рабочие места (условия те же, что указаны в пп. 1-4).
8. Созданная ранее ЛВС обрастает дополнительными соединениями, становится непригодной к работе, заменяется новым способом, указанным в п.6.
9. В связи с необходимостью, ставшей актуальной и/или осознанной в процессе начального этапа эксплуатации программно-технического комплекса АБИС, часть приобретённой ранее техники, а иногда и ПО АБИС заменяется или дополняется другими средствами. В последнем случае наблюдаются такие явления, когда в одной (в том числе сравнительно небольшой) библиотеке одновременно используются две (иногда и более!) разные версии ПО АБИС, 8 (?!) серверов, множество принтеров и т.д.
Следует отметить, что описанная в общем виде ситуация носит достаточно распространённый характер, поскольку принятие решений, которые можно отнести к проектным, преимущественно принимаются и реализуются лицами, не имеющими требуемой для этого соответствующей профессиональной подготовки, и без учёта требований государственных стандартов а также опыта отечественной и международной практики проектирования автоматизированных систем.
7. Стадии и этапы АБИС
Уместно отметить здесь, что под проектированием АБИС понимается детализированная разработка проекта системы, содержащего полный комплект её организационной, конструкторской, технологической и эксплуатационной документации. Проектирование автоматизированных систем (АС) предполагает выполнение ряда стадий и этапов. В России действует система стандартов, определяющих содержание, состав исполнителей и порядок выполнения работ на разных этапах проектирования, а также порядок их приёмки. Одновременно сложилась определённая практика проектирования автоматизированных систем (в том числе и АБИС), которая в основных её положениях не противоречит установленным стандартами нормативам.
Нормативные требования к содержанию стадий и этапов проектирования автоматизированных систем
ГОСТ 34.601-90 [1] распространяется на проектирование АС, предназначенных для обеспечения различных видов деятельности (управление, проектирование, исследование и т.п.), включая их сочетания. Он предусматривает следующие стадии и этапы проектирования:
1. Формирование требований к АС
o Обследование объекта и обоснование необходимости создания АС.
o Формирование требований пользователя к АС.
o Оформление отчёта о выполненной работе и заявки на разработку АС (тактико-технического задания).
2. Разработка концепции АС
o Изучение объекта.
o Проведение необходимых научно-исследовательских работ.
o Разработка вариантов концепции АС и выбор варианта концепции АС, удовлетворяющей пользователя.
o Оформление отчёта о выполненной работе.
3. Разработка технического задания
o Разработка и утверждение технического задания на создание АС.
4. Эскизное проектирование
o Разработка предварительных проектных решений по системе и её частям.
o Разработка документации на АС и её части.
5. Техническое проектирование
o Разработка проектных решений по системе и её частям.
o Разработка документации на АС и её части.
o Разработка и оформление документации на поставку. изделий для комплектования АС и/или технических требований (технических заданий) на их разработку.
o Разработка заданий на проектирование в смежных частях проекта объекта автоматизации.
6. Разработка рабочей документации
o Разработка рабочей документации на систему и её части.
o Разработка или адаптация программ.
7. Ввод в действие
o Подготовка объекта автоматизации к вводу АС в действие.
o Подготовка персонала.
o Комплектация АС поставляемыми изделиями (программными и техническими средствами, программно-техническими комплексами, информационными изделиями).
o Строительно-монтажные работы.
o Пуско-наладочные работы.
o Проведение предварительных испытаний.
o Проведение опытной эксплуатации.
o Проведение приёмочных испытаний.
8. Сопровождение АС
o Выполнение работ в соответствии с гарантийными обязательствами.
o Послегарантийное обслуживание.
В стандарте также указывается:
· стадии и этапы, выполняемые организациями - участницами работ по созданию АС, устанавливаются в договорах и техническом задании на основе настоящего стандарта;
...Подобные документы
Изучение методики и технологий создания гипертекстовых справочных систем - электронных справочников, в которых хорошо реализована система навигации и поиска. Способы создания Web-страниц и применение языка HTML. Технология создания динамических страниц.
презентация [144,4 K], добавлен 01.01.2011Сравнение языка Php с другими языками программирования web-приложений. Язык разметки гипертекстовых страниц Html. Технология Macromedia Flash, её преимущества и недостатки. Этапы создания флеш-сайта, руководство пользователя и листинг программы.
дипломная работа [2,3 M], добавлен 04.10.2013Тематический план курса разработки цифрового образовательного ресурса по технологии создания электронных графических документов (электронных книг). Особенности сканирования, программное обеспечение. Основные возможности программы ABBYY Fine Reader.
дипломная работа [3,7 M], добавлен 07.07.2011Выделение сущностей для создания структуры хранения данных. Выбор технологии ввода данных таксационных описаний. Разработка программного обеспечения для ввода данных таксационных описаний и его реализация. Безопасность геоинформационной системы.
дипломная работа [2,1 M], добавлен 20.07.2012Использование языков программирования, работающих на стороне клиента. Теговые языки логической разметки документов. Скриптовые языки программирования. Работоспособность клиентских технологий. Функциональные интерактивные сайты и сроки их разработки.
лабораторная работа [2,1 M], добавлен 27.04.2009Современные Интернет-технологии, Web-дизайн и браузеры. Язык разметки гипертекстовых страниц HTML. Представление текста и графики на Web-страницах. Правила и этапы создания сайта. Влияние дисплеев на Web-дизайн. Сравнительный анализ HTML-редакторов.
дипломная работа [3,3 M], добавлен 21.06.2013Определение понятия гипертекста. Основные части документа SGML. История создания стандартного языка разметки документов HTML. Отличия синтаксиса XHTML от HTML. RSS - семейство XML-форматов для описания лент новостей. Применение языка разметки KML.
презентация [4,3 M], добавлен 15.02.2014Ознакомление с основами расширяемого языка разметки Extensible Markup Language. Изучение основных правил создания XML-документа. Рассмотрение набора элементов языка, секций CDATA, директив анализатора, комментариев, спецсимволов, текстовых данных.
презентация [400,9 K], добавлен 21.12.2014Анализ существующих технологий создания web-приложений. Разработка сетевой технологии публикации и обработки информации о детях в детском саде №176 "Белочка" с помощью JSP-страниц и сервлетов с использованием JDBC-драйвера для доступа к базе данных.
курсовая работа [3,8 M], добавлен 18.12.2011Что такое базы данных, визуализация информации базы. Структура и свойства простейшей базы данных. Характеристика определений, типов данных, безопасность, специфика формирования баз данных. Подходы к проектированию технического задания. Работа с таблицами.
презентация [4,3 M], добавлен 12.11.2010Знакомство с особенностями создания WEB-страниц с использованием HTML. Общая характеристика основ компьютерного моделирования с применением Powersim и AnyLogic. Анализ способов создания динамических WEB-страниц с использованием JavaScript и PHP.
презентация [801,7 K], добавлен 25.09.2013Разработка программного обеспечения для регистрации удержаний из заработной платы. Характеристика используемой операционной системы и языка программирования. Написание алгоритма и текста программы меню, ввода данных и формирования выходных документов.
курсовая работа [2,1 M], добавлен 20.11.2012Создание информационной системы управления базой данных "Кадровое агентство". Характеристика используемой ЭВМ, ОС, языка программирования. Требования предъявляемые к ПО. Алгоритмы и тексты форм ввода. Описание, алгоритмы формирования выходных документов.
курсовая работа [1,1 M], добавлен 07.01.2013Разработка ввода с клавиатуры и вывода на экран монитора данных с помощью стандартных функций printf и scanf. Ввод количества материальных точек. Работа с линейным списком. Хранение содержимого списка в блоке ячеек памяти с последовательными адресами.
курсовая работа [176,8 K], добавлен 18.01.2016Использование языка гипертекстовой разметки HTML. Преимущества интернет-хостинга Yutex.ru. Структура базы данных информационной системы "Электронная газета". Структура сайта, описание разделов и страниц. Интерфейс и сценарии администраторского блока.
курсовая работа [2,2 M], добавлен 07.07.2015Технология создания базы данных электронных учебников в Microsoft Access на примере библиотеки ГБПОУ "Троицкий Технологический Техникум". Объединение таблиц, заполнение разной информацией для фильтрации по запросам методом связи таблиц между собой.
дипломная работа [1,3 M], добавлен 23.12.2016Особенности создания страниц на языке APS.NET, создание и формы обращение к базам данных. Интерфейс автоматического вывода определнного столбца базы данных в элементы управления. Структура базы данных, принцип работы страниц сайта, настройка приложения.
курсовая работа [387,3 K], добавлен 02.03.2010Принципы работы строительной организации ООО "СтройМонтажПроект", обоснование потребности в сайте. Классификация web-страниц. Языки разметки гипертекстовых документов. Выбор программного средства для разработки. Поэтапное проектирование сайта фирмы.
дипломная работа [1,6 M], добавлен 08.06.2013Ознакомление со структурой, комментариями, переменными и типами данных, константами, перечислениями, преобразованием типов языка программирования высокого уровня С++. Ключевые понятия языка, идентификаторы, ключевые слова, функции, операторы, выражения.
контрольная работа [31,2 K], добавлен 12.12.2009Процедуры и функции языка Pascal для работы с файлами прямого и последовательно доступа. Формат и структура в файлах прямого доступа. Возможность ввода данных с клавиатуры либо из файла. Контроль вводимых данных. Листинг программы и ее экранные формы.
лабораторная работа [48,7 K], добавлен 13.02.2009