Створення системи індексування інтранет-середовища наукової бібліотеки

Поняття та передумови виникнення "самоархівування наукових публікацій" та створення електронних журналів відкритого доступу. Засади технології індексування науково-інформаційних ресурсів інтранет-середовища та розробка методики побудови інтранет-архіву.

Рубрика Журналистика, издательское дело и СМИ
Вид статья
Язык украинский
Дата добавления 10.09.2013
Размер файла 23,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Створення системи індексування інтранет-середовища наукової бібліотеки

Тетяна ШЕРЕПА

В умовах інтенсивного розвитку глобальних комп'ютерних мереж суспільна потреба забезпечення вільного доступу до джерел інформації та знань обумовила появу ініціатив «самоархівування наукових публікацій» та створення електронних журналів відкритого доступу. Бібліотеки є найбільш активними захисниками Open Access, оскільки відкритий доступ до інформації - це один із центральних принципів їхньої діяльності 1. У провідних закордонних країнах розгорнута активна робота з реалізації проектів створення архівів мережевих науково-інформаційних ресурсів та організації їх збереження й використання в стінах бібліотек.

Стратегія самоархівування включає в себе розміщення авторами електронних версій власних наукових публікацій у загальнодоступних архівах електронних документів, у вільному доступі в інтернеті. Самоархівування дозволяє підвищити ефективність використання результатів наукових досліджень завдяки вільному доступу до наукових матеріалів. Публікації, які архівуються, повинні розташовуватися переважно в тематичних або інституційних репозитаріях (архівах). Під «архівом» розуміється сайт, який зберігає джерела наукової інформації у відкритому мережевому доступі 2.

Другою стратегією є журнали відкритого доступу - нове покоління журналів, які беруть на себе зобов'язання про відкритий доступ, не обмежують доступ до матеріалів, які вони публікують, та не беруть плату за їх використання Будапештская инициатива «Открытый доступ» [Электронный ресурс]. - Режим доступа: openaccess/ru/read.shtml. - Загл. с экрана..

«Державною програмою розвитку діяльності Національної бібліотеки України імені В. І. Вернадського на 2005-2010 рр.» (затвердженою Постановою Кабінету Міністрів України від 25 серпня р. № 1085) передбачено завдання збору й архівації наукової суспільно значущої інформації та створення Українського науково-інформаційного порталу з розвинутою системою пошуку.

З метою розширення доступу до наукових матеріалів НБУВ формує архів, який містить колекції наукових інтернет-публікацій, книг та інших документів України та про Україну, який доступний локальним користувачам комп'ютерної мережі НБУВ. На сьогодні існує необхідність у створенні швидкої, гнучкої, інтелектуальної пошукової системи на базі індексування колекцій документів, веб-сторінок або файлів інших форматів для задоволення інформаційних потреб користувачів Копанєва В. О. Архівування науково-інформаційних ресурсів Інтернет: основні концептуальні положення // Бібліотечний вісник. - 2005. - № 2. - С. 14-19.. Програмні засоби системи мають відповідати концепції вільного поширення, забезпечувати інтелектуальний пошук інформації, надавати користувачу типовий веб-орієнтований інтерфейс.

Метою даної статті є визначення теоретичних засад технології індексування науково-інформаційних ресурсів інтранет-середовища та розробки методики побудови довідково-пошукового апарату інтранет-архіву.

Розміщення публікації на веб-сервері автора у вільному доступі не є бажаним для ідеї архівування наукових матеріалів, тому що звичайне веб-середовище не може забезпечити надійної ідентифікації метаданих та організації пошуку за ними, а також не є придатним для довготривалого збереження і гарантії незмінності публікацій. Суттєва перевага відкритих тематичних архівів електронних публікацій полягає в тому, що їх збір та впорядкування здійснюється спеціалістами. Наслідком є забезпечення фільтрації та пошуку даних із вищим рівнем точності, тому що процес індексування таких систем є глибшим за його інтернет-аналог.

З метою уніфікації представлення мережевих ресурсів розроблені єдині принципи їх опису, які базуються на використанні метаданих Дублінського ядра Dublin Core Metadata Initiative / [Electronic resource]. Way of access: URL:. - Title from the screen.. Основною вимогою до репозитарію є підтримка протоколу OAI PMH (Open Archives Initiative Protocol for Metadata Harvesting), який забезпечує можливість збору структурованих мета-даних про об'єкти, розміщених у репозитарії, об'єднання з іншими репозитаріями й організацію пошуку в розподілених репозитаріях відкритого доступу Open Archive Initiative Protocol for Metadata Harvesting (OAI-PMH) [Electronic resource]. - Way of.

Усі нові електронні документи, які підлягають архівуванню, мають пройти процес індексування. Мета процесу індексування в документальних системах аналогічна меті каталогізації у бібліотеках: надати кожній одиниці зберігання деяку множину ідентифікаторів, які б відображали зміст документа. В традиційних бібліотеках у ролі ідентифікаторів змісту виступають відповідні шифри, які визначають предметну класифікацію і місце зберігання документа. З розвитком автоматичної обробки документів звичайний процес каталогізації трансформується в процес індексування, котрий призначений для надання кожному елементу ідентифікаторів, які також називають індексаційними термінами, ключовими словами, дескрипторами. Усі ці терміни відображають зміст документа і керують пошуком, вибираючи ті документи, терміни яких є найбільш схожими з термінами пошукового запиту.

Зважаючи на великі обсяги інтранет-архівів, проведення ручної класифікації та індексації кожного електронного документа не є можливим, тому що як одиницю обліку фонду інтернет-документів (веб-ресурсів) зручно використовувати веб-сайт чи його фрагмент. Процес комплектування фонду полягає в створенні в бібліотеці копій («дзеркал») веб-сайтів. Оскільки інформація на веб-сайті змінюється з часом, бібліотека повинна створювати «дзеркала» того самого сайта періодично.

Автоматичне індексування базується на текстах вихідних документів, або, принаймні, на фрагментах текстів, таких, як заголовки або реферати. Більшість результатів автоматичного індексування не є досконалими, але мають певні переваги перед ручним індексуваннямaccess: URL:. - Title from the screen.: ефективність пошуку щодо видачі релевантних документів, одержаних автоматичними методами є несуттєво меншою, ніж при ручному індексуванні цих документів; однак вартість автоматичного індексування та витрачання часу висококваліфікованого персоналу значно скорочується.

Існує декілька безкоштовних інтранет пошукових систем, які забезпечують задоволення інформаційних запитів інтранет-користувачів. Ці системи розроблено для індексування внутрішніх веб- серверів і/або фрагментів цих серверів та створення потрібних пошукових індексів документів, які розміщені на серверах.

Такі пошукові системи можуть бути згруповані за такими категоріями:

1) технічна функціональність: платформа сервера, веб-сервер, відкритість коду, можливість подальшого розвитку системи та ін.;

2) особливості індексування: формати файлів (HTML, PDF тощо), рівень індексування (запис, файл, директорія), розпізнавання стандартних форматів (MARC та ін.), виділення термінів зі спільним коренем, наявність стоп-словника та ін.;

3) особливості пошуку: підтримка булевих операторів, нечіткий пошук, пошук фраз, використання тезаурусів синонімів та ін.;

4) відображення результатів: формати виводу, ран- жування результатів, підсвітлювання ключових слів у контексті та ін.;

5) ціна, вимоги ліцензії та реєстрації.

Вибір пошукової системи інтранет має також враховувати ознайомлення інформаційних спеціалістів із доступними продуктами і аспектами їх використання, знання технологій інформаційного пошуку, розуміння та досвід роботи зі стандартними практиками і параметрами індексування, що забезпечить точний і ефективний пошук даних на базі різноманітних індексів даних інтранету Indexing and Search Engines for the Web (WISE). Search Engines for Intranets: An overview/ [Electronic resource]. - Way of access: URL:. ernet.in/raja/netlis/wise/search/search.html. - Title from the screen..

З урахуванням вищеназваних вимог для апробації довідково-пошукового апарату інтранет-сере- довища наукової бібліотеки нами було обрано WWWISIS, яка є однією з безкоштовних пошукових систем для бібліографічних та текстових баз даних. WWWISIS підтримує всі функції пакету прикладних програм CDS/ISIS (Computer Documentation System / Integrated System Information Services), що є універсальним інструментарієм для створення автоматизованих систем бібліотек, архівів і музеїв, тобто для обробки структурованих не- числових баз даних UNESCO CDS-ISIS databases [Electronic resource]. -.

Всесвітньо відома програма CDS/ISIS, яка поширюється UNESCO, добре себе зарекомендувала в діяльності бібліотек, де має місце робота з великою кількістю текстової інформації. Порівняно з іншими програмними системами аналогічного призначення CDS/ISIS має такі переваги:

• порівняно невеликий обсяг системи;

• високу швидкодію системи;

• орієнтація на роботу зі стандартними форматами;

• підтримка системою записів змінної довжини;

• широкі можливості в здійсненні пошуку;

• безкоштовне поширення даної системи. CDS/ISIS із рядом спеціальних утиліт і доробок дозволяє отримати сучасне програмно-технологічне середовище для операційних систем UNIX, WINDOWS, що за функціональними можливостями і сервісу користувачів може бути порівняне з сучасними реляційними СУБД типу ORACLE і INFORMIX.

Пошукова система на базі CDS/ISIS підходить як для колекцій, які містять невелику кількість документів, так і для більших колекцій. Використовуючи програму послідовного перегляду документів колекції та застосовуючи відповідні фільтри, можна індексувати файли текстового формату, HTML чи будь якого іншого формату, що може бути кон - вертований у HTML-формат. Використання бази формату CDS/ISIS та CGI-модуля WWWISIS дозволяє здійснювати швидкий повнотекстовий пошук за допомогою веб-орієтованого інтерфейсу.

Головною особливістю CDS/ISIS є автоматичне створення й підтримка файлів швидкого доступу («індексних файлів») до кожної бази даних, що забезпечує максимальну швидкість пошуку навіть за великих обсягів даних. Ці файли називаються словником пошукових термінів і вміщують усі терміни, які можуть бути використані під час пошуку в базі даних Way of access: URL:. - Title from. Структура інвертованого файлу забезпечує його швидку модифікацію при долученні в колекцію нових документів. Можлива побудова словника стоп-слів з орієнтацією на вилучення другорядних частин мови та загальновживаних слів, вилучення яких не вплине на якість пошуку, більше того може його покращити.

Використання пакета прикладних програм CDS/ISIS як основи пошукової системи інтранет- архіву забезпечує її однорідність із пошуковою системою електронних колекцій бібліотек НБУВ, котра містить наступні інформаційно-ресурсні компоненти: електронний каталог НБУВ, загальнодержавну реферативну базу даних, фонд електронних документів із повними текстами. Головною засадою побудови системи архівування науково-інформаційних ресурсів НБУВ є технологія збору та підготовки тематичних складових інтранет-архіву.

В якості інформаційної бази для структури мета- даних архіву обрано стандарт Дублінського ядра метаданих (Dublin Core Metadata), запропонованого Онлайновим комп'ютерним бібліотечним центром OCLC для опису ресурсів інтернету и. Формат Dublin Core влючає 15 елементів для опису електронного ресурсу:

• назва (title);

• автор (creator);

• предметна рубрика (subject);

• анотація (description);

• видавець (publisher);

• співавтор (contributor);

• дата (date);

• формат (format);

• тип (type);

• ідентифікатор (identifier);

• джерело (source);

• мова (language);

• відношення (relation);

• покриття (coverage);

• авторські права (rights).

За правилами Dublin Core кожний із 15 елементів не є обов'язковим і може повторюватися. Опис із використанням Dublin Core інтернет-ресурсів можна, в першому наближенні, розглядати як бібліографічний опис книги чи аналітичний розпис журналу (газети).

Індексування архіву може бути повнотекстовим або лімітованим деяким фільтром, що обирається створювачем архіву. Зважаючи на великі розміри інтранет-архіву, доцільно зберігати в індексній бзі такі частини HTML сторінок: що містить тематичний опис сайта.

За допомогою ISIS_DLL, прикладного програмного інтерфейсу ISIS для операційних систем Windows та Linux, котрий розроблений та вільно поширюється UNESCO ISIS Application Program Interface ISIS_DLL User's Manual Preliminary Version BIREME, Sao Paulo, July 2001 [Electronic resource]. - Way of access: URL:. - Title from the screen., та мови програмування, яка припускає використання ISIS_DLL, можна отримати доступ до попередньо визначеної частини інтранет-архіву і створити записи відповідного формату в індексній базі.

Інформаційні ресурси інтранет-архіву також можливо долучити до системи електронних видань, програмні засоби якої також підтримують формат CDS/ISIS. Система електронних видань є комплексом галузевих серій колекцій документів. Галузеві серії формуються на основі структуризації наявних інформаційних ресурсів бібліотеки шляхом попереднього відбору документів із бібліографічних, реферативних, тематичних і повнотекстових баз даних, їх обробки та впорядкування. Кожна з галузевих серій має розвинений пошуковий апарат, що забезпечує виявлення потрібних документів за елементами їх бібліографічного опису (автор, назва, вихідні дані тощо), а також за текстами документів Шерепа Т. А. Система галузевих серій електронних видань: основні концептуальні положення // Бібліотечний вісник. - 2004. - № 1. - С. 26-29.

Чикаленко Є. Х. Спогади. Уривки з моїх споминів за 1917 р. Коментарі авторські // Зібр. творів: В 7 т. - К.: Рада, 2003. - Т. 1. - С. 239..

На сьогодні система електронних видань НБУВ містить 6 галузевих серій: природничі, технічні, суспільні та гуманітарні, медичні, аграрні науки, бібліотечна справа та науково-інформаційна діяльність. Галузева серія «Бібліотечна справа та науково-інформаційна діяльність» є колекцією документів формату HTML. На етапі створення серія не містила в собі пошукового апарату. Для доопрацювання колекції існувала необхідність у створенні індексної бази формату CDS/ISIS. Така база даних була створена програмно з використанням ISIS_DLL за розглянутою технологією індексування. Лімітування інформації, яка долучалася до індексної бази, виконано за такими дескрипторами: заголовки веб- сторінки (TITLE, H1, H2) та дані мета-тегів (META keywords, META description) відповідно до структури полів Dublin Core: назва (title), предметна рубрика (subject), анотація (description).

До сформованої індексної бази застосовано конфігурацію пошукової системи галузевих серій та веб-доступу на базі пакету прикладних програм CDS/ISIS та CGI-модуля WWWISIS. Таким чином, пошук у розглянутій колекції здійснюється як через веб-сервер, так і на компакт-дисках.

Подальший розвиток інтранет-пошукової системи НБУВ доцільно зорієнтувати в напрямах включення до його складу засобів класифікації й опису інформаційних колекцій документів та веб-сайтів як одиниць зберігання інтранет-архіву, досягнення максимальної ресурсоощадності зберігання електронних колекцій, інтелектуалізації пошукового апарату, семантичного аналізу текстів і творення нових знань.

Висновки

публікація журнал інтранет інформаційний

1. Інтенсивний розвиток глобальних комп'ютерних мереж зумовив появу ініціатив «самоархівування наукових публікацій» та створення електронних журналів відкритого доступу, найактивнішими захисниками яких є бібліотеки. Публікації, які архівуються, повинні розташовуватися переважно в тематичних або інституційних репо- зиторіях (архівах). Звичайне веб-середовище не може забезпечити надійної ідентифікації метаданих та організації пошуку за ними, не є придатним для довготривалого збереження і гарантії незмінності публікацій.

2. Основною вимогою до репозитарію є підтримка протоколу OAI PMH (Open Archives Initiative Protocol for Metadata Harvesting), який забезпечує можливість збору структурованих метаданих про об'єкти, які розміщені у репозитарії, об'єднання з іншими репозитаріями, а також організації пошуку в розподілених репозитаріях відкритого доступу.

3. Суттєвою перевагою інтранет-архівів мережевих публікацій, які створюються в наукових бібліотеках, є здійснення попереднього збору та впорядкування документів спеціалістами. Наслідком є забезпечення фільтрації та пошуку даних із більш високим рівнем точності. Зважаючи на великі обсяги інтранет-архівів, проведення ручної класифікації та індексації кожного електронного документа не є можливим, тому що як одиницю обліку фонду інтернет-документів (веб-ресурсів) зручно використовувати веб-сайт чи його фрагмент. У рамках веб-сайту є необхідність у проведенні автоматичного індексування, надаючи більше значення індексаційним термінам, які є мета- даними або заголовками електронних документів.

4. Головною засадою побудови системи архівування науково-інформаційних ресурсів НБУВ є технологія збору та підготовки тематичних складових інтранет-архіву. Конфігурація пошукової системи інтранет-архіву НБУВ на базі пакету прикладних програм CDS/ISIS із CGI-модулем WWWISIS забезпечує її функціонування, швидкодію, а також однорідність із системою електронних колекцій бібліотек НБУВ.

Обґрунтованість і достовірність викладеної технології підтверджено в процесі створення пошукової системи галузевої серії системи електронних видань «Бібліотечна справа та науково-інформаційна діяльність». Пошук у колекції може здійснюватись як через веб-сервер, так і на компакт-дисках.

Размещено на Allbest.ru

...

Подобные документы

  • Аналіз змісту сучасних зарубіжних бібліотекознавчих журналів. Висвітлення результатів контент-аналізу журналів європейських країн: Великобританії, Нідерландів, Німеччини та Франції. Визначення наукових тенденцій бібліотечної галузі на основі публікацій.

    статья [78,1 K], добавлен 18.12.2017

  • Історія виникнення та розвиток перших європейських газет. Поява професії журналіста та спосіб подачі газетних новин. Нова система обміну інформацією і передумови до створення англійських інформбюро. Становлення перших журналів та використання реклами.

    курсовая работа [338,8 K], добавлен 31.08.2010

  • Теоретичні основи створення журналів для чоловіків, їх історичний аспект і загальна характеристика на прикладі журналу "Playboy". Проблеми дизайну якісних чоловічих журналів; їх роль у формуванні стереотипів, поведінки, звичок і іміджу сучасного чоловіка.

    курсовая работа [44,1 K], добавлен 20.04.2013

  • Науково-популярні журнали та їх типологічні ознаки. Зміст матеріалів соціально-політичних журналів. Літературно-художні журнали, їх жанрово-тематичні особливості. Проблеми типології жіночих та чоловічих журналів. Особливості редагування масових журналів.

    лекция [42,0 K], добавлен 12.05.2014

  • Передумови появи україномовних періодичних видань. Становлення української преси, цензурні утиски щодо українських газет та журналів. Мовні питання на сторінках періодичних видань. Фонди національної бібліотеки: надходження газетних і журнальних видань.

    дипломная работа [106,4 K], добавлен 17.11.2009

  • Основні етапи розвитку української науки про журналістику. Журналістикознавчі засади Івана Франка. Методологія наукової діяльності. Структуроване й неструктуроване спостереження. Технологія наукової роботи. Основні прийоми викладу наукових матеріалів.

    реферат [37,6 K], добавлен 17.11.2009

  • Історія виникнення глянцевих журналів у світі. Ознаки глянцевих журналів. Критерії популярності глянцевих видань. Особливості глянцевих журналів в Україні, їх вплив на читацьку аудиторію. Рекламно-розважальні і культурно-освітні особливості інформації.

    курсовая работа [51,2 K], добавлен 08.02.2013

  • Особливості редагування наукової, науково-популярної, ужиткової літератури. Аспекти наукової літератури та робота над науковим твором. Відповідність матеріалів науково-практичної конференції "Науковий вісник інноваційних технологій" видавничим стандартам.

    курсовая работа [48,0 K], добавлен 05.01.2014

  • Загальна аналітична інформація щодо складу Колекції сільськогосподарських газет ХІХ ст. у фондах Національної наукової сільськогосподарської бібліотеки НААН. Періодичне видання "Земледельческая газета": програма номера, співпраця з науковцями та авторами.

    статья [2,6 M], добавлен 21.09.2017

  • Історія утворення інформаційного простору та тенденції його розвитку. Поняття інформаційного середовища, його складові та їх характеристика. Огляд друкованого та телерадіоінформаційного простору Сумщини, та засобів масової інформації у м. Шостка.

    контрольная работа [2,6 M], добавлен 30.06.2014

  • Створення перших рукописних книг. Правові засади і методичні вади стандартизації у видавничої справи. Використання обкладинки для змістовних повідомлень. Нормативне впорядкування і вдосконалення бібліотечних та інформаційних технологічних процесів.

    курсовая работа [194,8 K], добавлен 12.06.2011

  • Становлення та розвиток історико-наукових серіальних видань в Одесі, їх характеристика. Аналіз проблемно-тематичних пріоритетів публікацій, визначення функцій, виявлення позитивних й негативних рис їх функціонування в контексті ґенези історичної науки.

    статья [43,6 K], добавлен 07.08.2017

  • Роль книговидання як важливої галузі людської діяльності. Передумови виникнення та розвиток друкарства в Україні. Історія створення та діяльність Острозької друкарні. Значення книгодрукування в українській історії, його місце в боротьбі за незалежність.

    контрольная работа [28,6 K], добавлен 28.11.2012

  • Основні етапи розвитку студентської преси, історичний аспект. Типологічні різновиди та функціональні особливості студентської преси. Розробка концепції створення студентського видання факультету. Недоліки та складності організації редакційного процесу.

    курсовая работа [78,2 K], добавлен 17.05.2012

  • Поняття, види і класифікація журналів. Шрифти, які використовуються для складання тексту та заголовків рубрик, особливості ілюстрацій. Способи друкування та види паперу. Розробка журнальної продукції на тему: "Хитрощі та секрети роботи в Photoshop CS".

    дипломная работа [239,7 K], добавлен 13.08.2010

  • Дослідження ролі періодичної преси (газет і журналів) у житті людини і суспільства в цілому. Вивчення історії створення і розвитку першого російського друкованого видання – газети "Ведомости", яка давала не комерційну інформацію, а переважно політичну.

    контрольная работа [22,1 K], добавлен 12.05.2010

  • Поняття, передумови та наслідки створення телебачення. Поява дитячих програм на українському телебаченні. Порівняльний аналіз дитячих програм на українському телебаченні. Позитивні та негативні риси. Відповідальність на дитячому та юнацькому телебаченні.

    курсовая работа [63,2 K], добавлен 08.06.2015

  • Джерела та споживачі екологічної інформації. Діапазон тем природоохоронного спрямування у сучасній пресі. Огляд друкованих видань, які висвітлюють проблеми навколишнього середовища: журнали для масового читача, науково-популярні і вузькоспеціалізовані.

    курсовая работа [73,1 K], добавлен 03.02.2012

  • Сутність довідково-бібліографічного апарату бібліотеки; його особливості та функції. Аналіз сукупності довідкових і бібліографічних видань, бібліотечних каталогів і картотек. Поняття та роль абетково-предметного покажчика. Профіль комплектування ДБА.

    дипломная работа [417,6 K], добавлен 08.07.2014

  • Особливості інформаційних та аналітичних журнальних видань і газет. Аналіз періодичних електронних видань "Сегодня", "Факты и комментарии", "Дзеркало тижня", "Комсомольская правда", "Українська правда". Помилки текстових повідомлень та їх класифікація.

    реферат [32,3 K], добавлен 15.10.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.