Засоби підвищення релевантності пошуку в інформаційних системах наукових бібліотек

Системний аналіз пошукових систем бібліотек і напрями їх удосконалення. Основні засоби підвищення ефективності пошуку в електронних каталогах наукових бібліотек. Основні принципи організації адаптивного інтерфейсу інформаційних систем бібліотек.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык украинский
Дата добавления 28.09.2015
Размер файла 60,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

НАЦІОНАЛЬНА БІБЛІОТЕКА УКРАЇНИ імені В.І. ВЕРНАДСЬКОГО

УДК 025.4.03:027.021

АВТОРЕФЕРАТ

дисертації на здобуття наукового ступеня кандидата технічних наук

Засоби підвищення релевантності пошуку в інформаційних системах наукових бібліотек

Спеціальність 05.13.06 - Автоматизовані системи управління

та прогресивні інформаційні технології

Яковлєва Юлія Вікторівна

Київ -- 2007

Дисертацією є рукопис.

Робота виконана в Національній бібліотеці України імені В.І.Вернадського.

Науковий керівникдоктор технічних наук, професор ХАДЖИНОВ Володимир Віталійович, Інститут проблем реєстрації інформації НАНУ, завідуючий відділом проблемно-орiєнтованих iнформацiйно-обчислювальних систем

Офіційні опоненти:доктор технічних наук, професор ЛІГУМ Юрій Семенович Інститут економіки та менеджмента Національного авіаційного Університету, зав кафедрою міжнародної інформації

кандидат технічних наук, с.н.с., АРТЕМОВ Юрій Іванович Науково-виробнича корпорація "Київський інститут автоматики", зам. начальника департаменту інформатизації

Провідна установаМіжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України, відділ діалогових та навчаючих систем

Захист відбудеться ”1”_березня 2007р. о 13 год. на засіданні спеціалізованої вченої ради Д.26.165.01. по захисту дисертацій на здобуття наукового ступеня доктора (кандидата) технічних наук у Національній бібліотеці України імені В. І. Вернадського за адресою: 03039, Київ, просп. 40-річчя Жовтня, 3.

З дисертацією можна ознайомитися в читальному залі бібліотекознавчої літератури Національної бібліотеки України імені В. І. Вернадського, Київ, просп. 40-річчя Жовтня, 3.

Автореферат розіслано 1 лютого 2007 р.

Вчений секретар

спеціалізованої вченої ради

кандидат економічних наук Чекмарьов А. О.

пошуковий бібліотека каталог інтерфейс

ЗАГАЛЬНА ХАРАКТЕРИСТИКА РОБОТИ

Актуальність теми.

У Законі України "Про національну програму інформатизації" підкреслюється роль бібліотеки у процесі формування нового інформаційного суспільства. Розвиток глобальної інформаційної мережі Internet та збільшення кількості електронних ресурсів висуває нові умови для існування наукових бібліотек як провідників у світовому інформаційному середовищі, що спричиняє необхідність підвищення релевантності пошуку в електронних каталогах та бібліографічних базах даних.

У сучасному бібліотекознавстві вивченням інформаційного пошуку займаються К. В. Бардієр, Н. Й. Дзюба, К. М. Зайцева, Н. І. Гендіна, О. О. Лаврьонова, Г. А. Скарук, Е. Р. Сукіасян, В.А. Широков та ін. Проведений аналіз робіт з розглянутої тематики показує, що поряд з активним впровадженням інформаційних технологій у діяльність бібліотек, розробкою інтелектуальних технологій значеннєвого пошуку, аналізу й автоматичного індексування текстової інформації та розвитком лінгвопроцесорної компоненти лінгвістичного забезпечення актуальною залишається задача підвищення ефективності пошуку. Зокрема, уваги потребують наукові засади створення засобів упорядкування результатів пошуку та адаптивного інтерфейсу користувача.

Таким чином, розробка та дослідження засобів підвищення ефективності пошуку в наукових бібліотеках, зокрема шляхом ранжирування результатів на основі комплексного використання статистичних та бібліометричних оцінок релевантності пошуку й включення засобів адаптивного пошуку є актуальною науковою задачею і має велике практичне значення.

Зв'язок роботи з науковими програмами, планами, темами.

Дисертаційне дослідження є складовою планових НДР Національної бібліотеки України імені В.І.Вернадського “Формування і використання ресурсів електронної бібліотеки” (постанова Бюро Відділення історії, філософії та права НАН України від 6 грудня 2001 р., протокол № 10, п.1) та “Формування ресурсів науково-інформаційного порталу України” (постанова Бюро Відділення історії, філософії та права НАН України від 10 січня 2005 р., протокол № 1).

Мета дослідження полягає в розробці наукових засад створення пошукових систем наукових бібліотек, які забезпечуватимуть інтерактивну взаємодію з користувачем та оцінку релевантності результатів інформаційного пошуку в електронних каталогах, бібліографічних картотеках та реферативних базах даних.

Основні завдання дисертаційного дослідження:

- провести системний аналіз пошукових систем бібліотек і визначити напрями їх удосконалення;

- визначити засоби підвищення ефективності пошуку в електронних каталогах наукових бібліотек;

- розробити методику оцінки релевантності результатів інформаційного пошуку в наукових бібліотеках;

- обґрунтувати принципи організації адаптивного інтерфейсу інформаційних систем бібліотек.

Об'єкт дослідження: пошукові системи наукових бібліотек.

Предмет дослідження: засоби підвищення ефективності пошуку та оцінки релевантності знайдених документів в інформаційно-пошукових системах наукових бібліотек.

Методи дослідження. Основними методами дослідження є системний аналіз предмету дослідження з використанням математичного моделювання та методи теорії прийняття рішень. До реалізації дослідницьких завдань залучалися також методи статистичного й інформаційного аналізів, теорії експертних систем та баз даних.

Ідея дослідження полягає в підвищенні ефективності пошуку на основі організації зворотніх зв'язків в інформаційних системах наукових бібліотек.

Наукова новизна дослідження полягає у тому, що автором:

- запропоновано структурну модель інформаційно-пошукової системи наукової бібліотеки зі зворотним зв'язком на основі репозиторію оперативних даних про результати моніторингу використання бібліотечних ресурсів;

- розроблено засоби підвищення релевантності пошуку, що включають селективний моніторинг використання бібліотечних фондів для виявлення видань підвищеного попиту та аналітичну обробку результатів пошуку;

- розроблено алгоритм ранжирування результатів інформаційного пошуку на основі багатокритеріальної оцінки релевантності знайдених документів, що враховує обіг документів, фактори старіння науково-технічної літератури, дані файлів авторитетних записів;

- обґрунтовано організацію послідовно-паралельної стратегії пошуку, основні принципи якої передбачають послідовне виконання наборів ітерацій пошуку з обробкою множини знайдених документів і ранжируванням отриманих результатів за критеріями, обраними користувачем.

Теоретична значимість дисертаційного дослідження полягає у розробці наукових засад підвищення релевантності пошуку інформаційних систем наукових бібліотек шляхом упорядкування результатів пошуку на основі комплексного використання статистичних і бібліометричних оцінок релевантності.

Практичне значення дослідження полягає в підвищенні ефективності функціонування інформаційно-пошукових систем наукових бібліотек на основі організації зворотного зв'язку, що забезпечує ранжирування видань за їх інформативністю та створення адаптивного інтерфейсу користувача.

Впровадження результатів дослідження. Результати дослідження використано при створенні пошукової системи науково-інформаційного порталу Національної бібліотеки України імені В.І. Вернадського. Зокрема, у пошукову систему електронних каталогів та картотек впроваджено методику ранжирування результатів інформаційного пошуку на основі оцінки релевантності знайдених документів та використано обґрунтовані в даному дослідженні наукові засади організації адаптивного інтерфейсу користувача інформаційно-пошукової системи наукової бібліотеки.

Особистий внесок здобувача. Основні результати дослідження, подані до захисту, отримано самостійно. У праці, опублікованій в співпраці з науковим керівником професором Хаджиновим В.В., автору належить розробка методики багатокритеріальної оцінки релевантності знайдених документів.

Апробація результатів дисертації. Основні положення та результати дослідження представлені, повідомлені й одержали схвалення у доповідях на міжнародних наукових конференціях “Бібліотечно-інформаційні ресурси наукової бібліотеки: формування та використання” (Київ, 12-15 жовтня 1999 р.), “Науково-технічні бібліотеки в єдиному інформаційному просторі України” (Київ, 13-16 червня 2000 р.), “Бібліотеки -- центри науково-інформаційних ресурсів ХХІ століття” (Київ, 9-13 жовтня 2000 р.), "Професійний імідж бібліотекаря інформаційного суспільства" (м. Київ, 8--10 жовтня 2002 р.), "Інноваційна діяльність -- стратегічний напрям розвитку наукових бібліотек" (м. Київ, 7-9 жовтня 2003 р.), "Бібліотеки та інформаційні центри в системі наукового супроводу суспільних реформ" (м. Київ, 12-14 жовтня 2004 р.), "Інтелектуальні інформаційні технології у бібліотечній справі" (Київ, 11-12 жовтня 2005 р.), "Роль бібліотек у формуванні єдиного науково-інформаційного простору України" (Київ, 10-11 жовтня 2006 р.), а також на міжнародних науково-практичних конференціях “Документознавство. Бібліотекознавство. Інформаційна діяльність: проблеми науки, освіти, практики” (м. Київ, 25-26 травня 2004 р., 17-19 травня 2005 р. та 16-18 травня 2006 р.).

Публікації. Основний зміст дисертації викладено в 10 публікаціях автора, п'ять з яких - у виданнях, рекомендованих Вищою атестаційною комісією України для публікації матеріалів дисертаційних робіт, 3 доповіді у збірниках праць міжнародних науково-практичних конференцій.

Структура дисертації. Дослідження складається зі вступу, трьох розділів основного змісту, висновків та списку використаної літератури зі 129 найменувань (Акт впровадження додається). Обсяг дисертації без списку використаної літератури - 152 сторінки, загальний обсяг роботи (з бібліографією) - 162 сторінки.

ОСНОВНИЙ ЗМІСТ РОБОТИ

У вступі обґрунтовано актуальність обраної теми, визначено об'єкт, предмет, мету, методологічні засади та основні завдання дослідження. Викладено наукову новизну та практичне значення отриманих результатів.

У першому розділі на основі дослідження інформаційно-пошукових систем (ІПС) доведено, що при розробці ІПС, які мають на меті повне й оперативне задоволення зростаючих потреб користувача бібліотеки, необхідно базуватись на позитивних рисах пошукового апарату бібліотек, відпрацьованого впродовж століть, і враховувати тенденції сучасних інтелектуальних інформаційних технологій.

Обґрунтовано, що традиційний довідково-бібліографічгий аппарат, який включає системи каталогів і картотек та довідково-бібліографічні фонди, незважаючи на недоліки, є більш інтелектуальною ІПС, ніж пошукові системи існуючих електронних каталогів. Багатоаспектне відображення бібліотечного фонду в електронному каталозі дає можливість проводити оперативний пошук інформації за будь-яким елементом БД, у тому числі і за тими, що не можуть бути використані при пошуці в традиційних каталогах, наприклад, за індексом ISBN, ISSN, роком видання і будь-якою комбінацією ознак з урахуванням словоформ. Це є незаперечною перевагою, але аналіз можливостей традиційного пошуку показує, що наявність таких елементів, як розвинуті методики систематизації та предметизації, довідково-відсилковий апарат, можливість використання допоміжних баз знань, зворотній зв'язок в системах організації бібліотечного обслуговування та функціонування довідково-бібліотечного обслуговування забезпечують якісніше задоволення інформаційних потреб користувачів бібліотек. Крім основної інформаційно-пошукової функції, традиційний пошуковий апарат виконує також пізнавально-педагогічну функцію, допомагає читачеві систематизувати, структурувати свої знання, а у разі необхідності правильно скоригувати інформаційний запит і навіть інформаційну потребу, що забезпечує ефективніший пошук.

Однак, попри безперечні переваги у справі тематичного впорядкування електронних інформаційних ресурсів, класифікаційні схеми вирішують далеко не всі проблеми змістового розкриття накопичених знань і мають чимало недоліків. Тому поряд з традиційним способом тематичного подання знань для формування повноцінного лінгвістичного забезпечення сучасної інформаційної служби бажано було б застосовувати комплекс додаткових лінгвістичних засобів більш об'єктивного та розширеного подання змісту електронних документів на основі досягнень комп'ютерної лінгвістики та методів адаптації пошуку.

Відзначено, що фізична форма носія, на відміну від повноти індексування і специфічності мови індексування, не впливає на повноту і точність пошуку в ІПС. Отже, ситуація, коли автоматизований пошук не забезпечує таку ж ефективність, як і традиційний пошуковий апарат, є неприпустимою.

У другому розділі визначено концепцію підвищення ефективності пошуку ІПС, що передбачає як розвиток традиційних засобів лінгвістичного забезпечення, так і використання в них методів та засобів організації зворотного зв'язку в системах на основі використання статистичних даних для оцінки релевантності результатів пошуку.

Головна мета удосконалення ІПС - інтелектуалізація інформаційного пошуку, тобто можливість вироблення рішення і рекомендації на рівні експерта. Таким чином, стосовно ІПС можна сформулювати наступні напрями інтелектуалізації:

розвиток комплексу лінгвістичних засобів, що призначені забезпечувати роботу з інформаційною системою на рівні розкриття змісту знань;

розробка засобів надбання, запам'ятовування і цілеспрямованого перетворення знань у процесі навчання на досвіді й адаптації до різноманітних обставин, тобто впровадження методів адаптивного пошуку, що дозволять ІПС змінювати свої функціональні можливості або інтерфейс залежно від змінюваного в часі набору вимог користувачів;

організація адаптивного користувацького інтерфейсу, що дозволить використати всі можливості ІПС і забезпечити якісне задоволення інформаційної потреби користувача ІПС бібліотек.

Одним з основних засобів інтелектуалізації інформаційних технологій є лінгвістичне забезпечення, яке визначається як незамінний інструмент тематичного впорядкування масивів інформації, аналітичного опрацювання знань, підтримки виробництва інформаційних продуктів і послуг. Комплекс лінгвістичних засобів повинен включати:

засоби представлення даних (структури і формати подання лінгвістичних та бібліографічних БД; елементи пошукових образів електронних документів);

семантичні (тематично-орієнтовані) засоби (класифікаційні схеми та інформаційні мови, а саме: тезауруси, рубрикатори, класифікатори, мови предметних рубрик; засоби комп'ютерної лінгвістики семантичного опрацювання текстової інформації, зокрема автоматична класифікація та реферування електронних документів, інформаційно-пошукові машини, машинний переклад);

діалогові засоби (мови запитів і команд, формати видачі даних і документів);

засоби підтримки лінгвістичного забезпечення (лінгвістичні бази авторитетних даних, лінгвістичні та лексикографічні процесори, довідкові інформаційні ресурси, у тому числі електронні енциклопедичні та лексикографічні ресурси, лінгвістичні служби).

Актуальною є задача розробки якісної пошукової системи, що при використанні добре розроблених класифікаційних чи вербальних засобів гарантувала б високу точність, повноту й оперативність пошуку у сполученні з різноманітними можливостями складання запиту.

З аналізу, проведеного у першому розділі даного дослідження, очевидно, що класифікаційні схеми з погляду тематичного представлення знань мають ряд переваг. Однак, класифікаційні схеми вирішують далеко не всі проблеми змістового розкриття накопичених знань і мають чимало недоліків. Тому поряд з традиційним способом тематичного подання знань доцільно розвивати комплекс додаткових лінгвістичних засобів із застосуванням інструментарію адаптивного пошуку.

На нашу думку, доцільним є дослідження і використання методу адаптації пошуку на основі модифікації запиту, зокрема такого, який передбачає організацію зворотного зв'язку в системах на основі використання статистичних даних для оцінки релевантності результатів пошуку. Необхідною умовою реалізації такого апарату є, по-перше, забезпечення механізму відстеження і аналізу результатів пошуку, по-друге, використання технології ранжирування результатів пошуку за релевантністю знайдених документів.

Перший з наведених аспектів передбачає забезпечення механізму відстеження і аналізу результатів пошуку, тобто статистичний аналіз запитів користувачів. Зворотним зв'язком від користувача при цьому є непряма оцінка релевантності знайдених документів, що базується на відборі користувачем документів для автоматичного замовлення або для збереження в підмножину чи файл (у випадку часткової автоматизації бібліотечних процесів).

Другий аспект потребує збору і оцінки статистичних даних про використання знайдених документів. Варто наголосити важливість аналітичного етапу. Збір статистики як такий не є виміром, і лише оцінка важливості і релевантності знайденого документа дозволить реалізувати алгоритм ранжирування, підвищуючи якість функціонування ІПС.

З цієї точки зору унікальні можливості випробовування нових методик і швидкого реагування на зовнішні впливи мають онлайнові інформаційно-пошукові системи, оскільки необмежена повнота пошуку не стримує спроб збільшення релевантності за рахунок підвищення його точності і використання інших технологій.

Пошукові засоби Інтернет активно використовують алгоритми ранжирування результатів пошуку, оскільки дослідження показують, що в середньому користувач переглядає перші 20-30 документів із запропонованих. Зазначимо, що Інтернет завдяки своїй поширеності і оперативності розповсюдження інформації перейняв, певним чином, найцінніші традиційні технології і тим самим підтвердив їх значимість. Так, відомий у бібліотекознавстві метод контент-аналізу, який є одним із методів якісно-кількісного вивчення змісту текстів, послугував аналогом методу пошуку веб-сторінок на основі аналізу метаданих, розміщених у заголовку HTML-документів (мета-теги). Так само знайшли застосування методи пошуку за ключовими словами, створення індексних словників, використання класифікаційних схем, тематичних рубрикаторів тощо. Це дає нам можливість стверджувати, що спеціалісти з інформаційних технологій аналогічно оцінили важливість методів визначення значимості документів для ранжирування результатів пошуку в ІПС. В інформаційно-пошукових системах бібліотек таку оцінку можна проводити на основі запропонованої нами методики аналізу використання бібліотечних ресурсів.

У другому розділі показано також, що важливим засобом підвищення ефективності пошуку в ІПС є розробка ергономічного користувацького інтерфейсу, який дозволить використати всі можливості пошукової системи. У зв'язку з активним поширенням мережевих технологій, окрему увагу приділено проектуванню адаптивних користувацьких інтерфейсів веб-орієнтованих ІПС.

Отже, наведені нами методи підвищення ефективності пошуку дозволять реалізувати двосторонній зв'язок між ІПС і системою моніторингу (СМ) використання бібліотечних ресурсів, зокрема ІПС використовуватиме дані системи моніторингу бібліотечних фондів для ранжирування результатів пошуку, а СМ буде враховувати дані системи відстеження і аналізу запитів користувачів як додаткову інформацію про попит на певні видання. Такий зворотний зв'язок є досить логічним, оскільки на етапі часткової автоматизації бібліотек запити до локальних і онлайнових ІПС бібліотек виявляються єдиними електронними документами на шляху вимог і їхній аналіз підвищить ефективність моніторингу бібліотечних фондів.

Такі зв'язки між ІПС і СМ дозволять, по-перше, покращити якість пошуку в ІПС бібліотек шляхом впровадження засобів адаптивного пошуку, і, по-друге, підвищити ефективність системи моніторингу використання фондів, спрямованої на надання рекомендацій для прийняття обґрунтованих управлінських рішень щодо оптимізації топології зберігання фондів та коригування політики комплектування літературою бібліотек.

Таким чином, запропоновані у другому розділі напрями підвищення релевантності пошуку базуються на твердженні, що існуючі напрями розвитку ІПС є недостатніми, оскільки сьогодні розвиток ІПС наукових бібліотек спрямовано на впровадження технологій значеннєвого пошуку, автоматичного індексування текстової інформації, розвиток лінгвопроцесорної компоненти лінгвістичного забезпечення і не передбачає оцінки релевантності результатів пошуку.

Пошуковий апарат наукових бібліотек повинен базуватися на проведенні в інформаційних масивах комплексних інформетричних досліджень і спиратись на систему взаємопов'язаних інформаційних потоків між підсистемами автоматизованої бібліотечно-інформаційної системи.

У третьому розділі розроблено наукові засади створення засобів підвищення релевантності пошуку інформаційно-пошукових систем наукових бібліотек.

Алгоритм ранжирування результатів інформаційного пошуку для багатокритеріальної оцінки релевантності знайдених документів враховує оперативні дані про результати моніторингу використання бібліотечних фондів, фактори старіння науково-технічної літератури, дані файлів авторитетних записів.

Вибір критеріїв запропоновано з погляду на засади теорій бібліометрії та інформетрії.

Показано, що фактори старіння літератури однозначно пов'язані з інтенсивністю її використання, і вік документа можна використовувати як критерій ранжирування. Похибкою округлення, викликаною методичними помилками техніки вимірювання, можна знехтувати. Тоді вік обчислюється як різниця між поточним роком і роком публікації певного видання. Значимість використання даного критерію для ранжирування можливо підвищити, якщо для нормування числових значень критерію використовувати одну з функцій, що апроксимують закономірності старіння. Аналіз публікацій, присвячених теорії старіння науково-технічної літератури, дозволяє зробити висновок, що для апроксимації закономірностей старіння найчастіше використовуються від'ємні експоненціальні та показникові функції.

На нашу думку, для використання інформації з авторитетних файлів у ранжируванні результатів пошуку ІПС потрібно, щоб бази авторитетних даних містили також певну якісну оцінку значущості автора. Запропоновано деякі перспективи розвитку цього напрямку. По-перше, результатом автоматизованого семантичного аналізу авторитетних записів може стати ранжирування (бальна оцінка) індивідуального або колективного автора. Так, для наукових бібліотек академічне видання буде мати найвищу оцінку, вузівське - дещо нижчу і так далі. По-друге, таке оцінювання могли б проводити фахівці на етапі комплектування або створення авторитетного файлу.

Відзначено, що дані про використання літератури у бібліотеці можуть стати дуже цінним критерієм ранжирування у пошуковій системі. Такі дані, хоч і мають суб'єктивний характер, відображають значущість певного видання або автора. У період впровадження інформаційних технологій цінність інформації про використання літератури тільки підвищується, а питання одержання такої інформації все ще залишається актуальним. Бібліотеки, що ввели повний цикл автоматизованого обслуговування читачів, отримують повні і багатоаспектні дані про використання бібліотечних ресурсів автоматично.

На жаль, в Україні повністю автоматизоване обслуговування читачів наукових бібліотек є віддаленою перспективою. З огляду на це, для ранжирування результатів пошуку в ІПС бібліотек доцільно використовувати результати запропонованої нами методики селективного моніторингу використання бібліотечних фондів для виявлення видань підвищеного попиту, сутність якої полягає у вибірковому аналізі відповідей книгосховища про незадоволені запити користувачів бібліотеки.

Показано, що наявність відмовлень на видання підвищеного попиту обумовлено закономірністю концентрації і розсіювання інформації. Розподіл обігу документів у бібліотечному фонді має вигляд:

,

де - параметр, який характеризує нерівномірність обігу документів у нормованому діапазоні і являє собою відношення інтенсивності використання видань даного бібліотечного фонду, що запитуються найбільше і найменше. З аналізу, проведеного у роботі, очевидно, що обмежена кількість документів, питома вага яких не перевищує декількох відсотків загального обсягу фонду, задовольняє велику частину читацьких вимог (навіть 1 % фонду при вельми широких припущеннях відносно діапазону можливих змін значення параметра забезпечує задоволення 35% - 60 % запитів читачів). Такі видання доцільно наблизити до зони обслуговування.

Розроблена нами методика селективного моніторингу інформаційного потоку відповідей книгосховища дає змогу підготувати рекомендації для прийняття обґрунтованих управлінських рішень з оптимізації топології зберігання фондів та коригування політики комплектування бібліотек.

Недоліком використання запропонованої методики є певна похибка, викликана вибірковістю моніторингу, але цей недолік виправданий тим, що моніторинг усього інформаційного потоку потребує дуже великих трудовитрат. Аналіз даних моніторингу дозволить сформувати репозиторій оперативних даних про використання бібліотечних фондів, який однозначно пов'язаний з електронним каталогом бібліотеки. На основі таких даних можна проранжирувати множину видань, отриману в результаті пошуку згідно з реальним попитом на конкретне видання.

Оскільки запропонована методика моніторингу використання бібліотечних ресурсів базується на аналізі відповідей книгосховища, то з метою коректного використання даних моніторингу для ранжирування результатів пошуку, як і в інших задачах, доцільно проводити аналіз отриманих даних для “згладжування” сплесків попиту, викликаних тимчасовими причинами, наприклад, збільшення попиту на учбову літературу в період сесії.

Числовими значеннями даного критерію є кількість вимог (відповідей книгосховища) на видання за певний період аналізування даних, наприклад, за останній рік. Використання цього критерію сумісно з наведеними вище дає змогу підвищити релевантність пошуку в інформаційно-пошукових системах бібліотек шляхом ранжирування його результатів.

Для нормалізації значень з метою використання наведених критеріїв в задачі багатокритеріальної оцінки числові значення діляться на деякі нормуючі дільники, за які беруть максимальні (мінімальні) значення критеріїв, що досягаються в області припустимих рішень. Для тих критеріїв, в яких оптимальне значення варіанту визначається мінімальним числовим значенням критерію (вік видання і значущість автора), нормалізоване значення критерію Сi визначається за формулою:

, ,

де n - кількість елементів множини результатів, отриманих на першому етапі роботи ІПС, і - відповідно мінімальне і максимальне значення критеріїв якості припустимої множини.

Для тих критеріїв, в яких оптимальне значення варіанту визначається максимальним числовим значенням критерію (дані про попит на видання в бібліотеці), нормалізоване значення визначається за тією ж формулою, але має протилежний знак:

.

Потрібно відзначити, що в проблемі критеріального упорядкування альтернатив найтонше місце - це визначення вагових коефіцієнтів критеріїв. Теоретично, якісний аналіз важливості критеріїв може бути проведено різними шляхами. Один з найбільш доступних та змістовно обґрунтованих - застосування методів експертних оцінок.

Таким чином, запропонований нами алгоритм ранжирування результатів (Рис.1) інформаційного пошуку містить такі кроки:

1. Формування множини варіантів, які підлягають аналізу (результати тематичного пошуку або пошуку за ключовими словами).

2. Формування множини критеріїв, за якими оцінюються варіанти (критерії оцінки або визначені заздалегідь і однакові для всіх користувачів в усіх сесіях пошуку, або обираються користувачем ІПС за допомогою ітеративного інтерфейсу в процесі пошуку).

3. Нормалізація числових значень критеріїв.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Рис.1. Алгоритм багатокритеріальної оцінки релевантності документів

4. Визначення вагових коефіцієнтів критеріїв, для чого можливі два варіанти:

- для кожного критерію вагові коефіцієнти є постійними для певної комбінації критеріїв і визначаються заздалегідь за допомогою методу експертних оцінок;

- важливість кожного критерію визначається безпосередньо користувачем для кожної сесії пошуку.

5. Визначення значення інтегрального критерію.

6. Упорядкування множини варіантів за інтегральним критерієм. У випадку, коли значення інтегрального критерію співпаде для різних варіантів, упорядкування проводиться за алфавітом.

Cкладність досліджуваного алгоритму полягає в тому, що важливість критеріїв має дуже суб'єктивний характер. Кожен користувач повинен мати можливість ранжирувати результати пошуку за будь-якою комбінацією критеріїв. Тобто, у випадку використання такої технології, кількість критеріїв та їх важливість будуть визначатися динамічно.

Таку можливість запропоновано надавати за допомогою адаптивного інтерфейсу з використанням паралельно-послідовної стратегії пошуку. Основні принципи цієї стратегії передбачають послідовне виконання певним чином згрупованих кроків пошуку з метою поступового уточнення запиту користувача (звуження пошуку від тематичного до пошуку за ключовими словами) та можливість використання всіх наявних засобів лінгвістичного забезпечення і ранжирування результатів пошуку за одним або декількома критеріями, обраними користувачем.

Побудова адаптивного користувацького інтерфейсу пошукової системи бібліотек потребує виконання систематизованого переліку ергономічних вимог. Науковий підхід до виконання цих вимог передбачає інтеграцію задач ергономічного проектування в загальний процес розробки пошукових систем бібліотек.

Відзначено, що з метою організації зворотного зв'язку в онлайнових бібліотечних пошукових системах доцільно використовувати механізм відстеження і аналізу результатів пошуку, оскільки на етапі часткової автоматизації бібліотек запити до локальних й онлайнових ІПС виявляються єдиними електронними документами на шляху вимог а їх аналіз підвищить ефективність моніторингу бібліотечних фондів.

Реалізація методики використання даних аналізу результатів пошуку в системі моніторингу потребує впровадження механізму відстеження дій користувача ІПС. Якщо у бібліотеці функціонує автоматизоване онлайнове замовлення літератури, то відстеження замовлень, а також книговидачі, проводиться автоматично і є функцією автоматизованої бібліотечно-інформаційної системи, а на етапі часткової автоматизації бібліотек онлайнові пошукові системи реалізують тільки функцію пошуку документів. Тому єдиним способом відстежити дії користувача є надання можливості відбору конкретних документів у підмножину та її подальшого корегування і збереження. Така функція, по-перше, надасть можливість підвищити релевантність пошуку шляхом надання рекомендації у випадку надходження близьких за темою запитів, по-друге, дані про видання, відібрані у підмножину, певним чином відображають попит на літературу і можуть використовуватись у бібліотечній системі моніторингу.

Враховуючи викладене, розроблено модель ІПС бібліотеки, до складу якої, крім документальних баз даних, інструментарію для обробки даних та лінгвістичних засобів, включено також засоби адаптації пошуку для реалізації зворотного зв'язку на основі аналітичної обробки бази даних результатів пошуку та репозиторію оперативних даних системи моніторингу використання бібліотечних ресурсів (Рис.2).

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Тут РОД - репозиторій оперативних даних, БДМ - база даних моніторингу, БДП - база даних результатів пошуку. Сервер аналітичної обробки даних моніторингу може надавати оперативні дані як для вироблення рекомендацій щодо прийняття управлінських рішень з організації бібліотечних фондів, так і для обробки даних в ІПС, а саме - для ранжирування результатів інформаційного пошуку на основі запропонованого нами алгоритму багатокритеріальної оцінки релевантності знайдених документів. Крім того, з'являється можливість організації зворотного зв'язку на основі використання в системі моніторингу інформації, отриманої в результаті аналізу результатів пошуку. Запропонована модель ІПС дозволить реалізувати взаємозв'язок між інформаційними потоками у бібліотеці і завдяки цьому - підвищити ефективність функціонування інформаційно-пошукових систем наукових бібліотек.

ОСНОВНІ РЕЗУЛЬТАТИ ТА ВИСНОВКИ

Дисертація є завершеним самостійним науковим дослідженням, що забезпечує нове вирішення актуального наукового завдання підвищення релевантності пошуку в інформаційних системах наукових бібліотек шляхом упорядкування результатів пошуку на основі комплексного використання статистичних і бібліометричних оцінок релевантності.

Основними результатами даного дослідження є:

1. Обґрунтовано напрями підвищення ефективності пошуку в інформаційно-пошукових системах наукових бібліотек, які передбачають ранжирування результатів пошуку на основі використання різнопланових статистичних даних для оцінки релевантності документів і розробку адаптивного інтерфейсу користувача.

2. Розроблено засоби підвищення релевантності пошуку, що базуються на реалізації зворотного зв'язку на основі репозиторію оперативних даних системи моніторингу використання бібліотечних ресурсів та аналітичної обробки бази даних результатів пошуку.

3. Розроблено методику моніторингу використання бібліотечних фондів, яка передбачає консолідацію даних селективного моніторингу відповідей книгосховища та моніторингу пошукових запитів користувачів інформаційно-пошукових систем.

4. Запропоновано методику багатокритеріальної оцінки релевантності знайдених документів, що враховує старіння науково-технічної літератури, значущість автора (індивідуального або колективного) на основі даних файлів авторитетних записів та статистичні оперативні дані про обіг літератури у бібліотеці.

5. Обґрунтовано організацію послідовно-паралельної стратегії пошуку, основні принципи якої передбачають послідовне виконання наборів ітерацій пошуку з обробкою множини знайдених документів і ранжируванням отриманих результатів за критеріями, обраними користувачем.

6. Основні результати дослідження використано при створенні онлайнової інформаційно-пошукової системи науково-інформаційного порталу Національної бібліотеки України ім. В.І. Вернадського.

Таким чином, цілі нашого дослідження були досягнуті і поставлені задачі вирішено.

На основі проведених досліджень і отриманих результатів можна зробити висновки:

1. Для досягнення якісно нового результату функціонування інформаційно-пошукових систем наукових бібліотек вважаємо за необхідне розвиток та впровадження нової парадигми інформаційного пошуку, що передбачає розробку засобів підвищення релевантності на основі проведення в документних масивах поряд з бібліометричними й інформетричних та наукометричних досліджень.

2. З розвитком обсягів впровадження комп'ютерних технологій в бібліотечну діяльність принципово важливою стає організація інформаційних зв'язків між усіма автоматизованими бібліотечними процесами не лише в межах однієї бібліотеки, а й у рамках бібліотечних об'єднань.

ОСНОВНИЙ ЗМІСТ ДИСЕРТАЦІЇ ВИКЛАДЕНО В ТАКИХ ПУБЛІКАЦІЯХ АВТОРА

1. Яковлєва Ю. В. Модель обігу фондів на основі закону Бредфорда // Реєстрація, зберігання і обробка даних. -- К., 2001. -- № 4. - C. 37-43.

2. Яковлєва Ю. В. Селективний моніторинг використання бібліотечних ресурсів // Реєстрація, зберігання і обробка даних. -- К., 2002. -- № 1. - C. 89-96.

3. Яковлєва Ю. В. Методика ранжирування результатів пошуку в інформаційно-пошукових системах бібліотек // Реєстрація, зберігання і обробка даних. -- К., 2004. -- Т. 6, № 3. -- С. 66-73.

4. Яковлєва Ю. В. Оцінка інформативності документів у пошукових системах наукових бібліотек // Науково-технічна інформація. -- К., 2004. - № 4. - С. 52-54

5. Хаджинов В.В., Яковлєва Ю.В Адаптивний пошук як напрям розвитку інформаційно-пошукових систем наукових бібліотек // Реєстрація, зберігання і обробка даних. -- К., 2006. -- № 2. - С.53-60.

6. Архипчук Ю.В. Алгоритми моніторингу інформаційних потоків в системі бібліотечного обслуговування // Наук. пр. НБУВ. -- Вип. 8. -- К.: НБУВ, 2002. -- С. 298-303.

7. Яковлєва Ю. В. Оцінка інформативності документів як напрям інтелектуалізації пошукових систем наукових бібліотек // Бібліотечний вісник. -- К., 2005. -- № 1. -- С. 25-28.

8. Яковлєва Ю. В. Ранжирування результатів пошуку в інформаційно-пошукових системах бібліотек // Документознавство. Бібліотекознавство. Інформаційна діяльність: Проблеми науки, освіти, практики: Зб. матеріалів міжнар. наук.-практ. конф., Київ, 25-26 трав. 2004 р. -- К., 2004. -- С. 115-117.

9. Яковлєва Ю. В. Принципи організації інтерфейсу інформаційно-пошукової системи наукової бібліотеки // Документознавство. Бібліотекознавство. Інформаційна діяльність: Проблеми науки, освіти, практики: Зб. матеріалів міжнар. наук.-практ. конф., Київ, 17-19 трав. 2005 р. -- К., 2005. -- С. 131-132.

10. Яковлєва Ю. В. Розвиток методів адаптації пошуку в інформаційних системах наукових бібліотек // Документознавство. Бібліотекознавство. Інформаційна діяльність: Проблеми науки, освіти, практики: Зб. матеріалів міжнар. наук.-практ. конф., Київ, 16-18 трав. 2006 р. -- К., 2006. -- С. 142-143.

АНОТАЦІЯ

Яковлєва Ю. В. "Засоби підвищення релевантності пошуку в інформаційних системах наукових бібліотек" -- Рукопис.

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 - “Автоматизовані системи управління та прогресивні інформаційні технології”. Національна бібліотека України імені В.І. Вернадського. -- Київ, 2007.

У дисертаційній роботі досліджено інформаційно-пошукові системи бібліотек і визначено напрями підвищення їх ефективності. Обґрунтовано наукові засади підвищення релевантності пошуку на основі організації зворотних зв'язків в інформаційних системах наукових бібліотек. Розроблено модель інформаційно-пошукової системи бібліотеки, до складу якої включено засоби підвищення релевантності пошуку. Запропоновано алгоритм ранжирування результатів інформаційного пошуку на базі багатокритеріальної оцінки релевантності знайдених документів. Розроблено методику моніторингу використання бібліотечних фондів, яка передбачає консолідацію даних селективного моніторингу відповідей книгосховища та моніторингу пошукових запитів користувачів інформаційно-пошукових систем. Обгрунтовано принципи організації адаптивного інтерфейсу інформаційних систем бібліотек.

Ключові слова: інформаційно-пошукові системи, автоматизація бібліотечних процесів, електронні каталоги.

АННОТАЦИЯ

Яковлева Ю. В. Средства повышения релевантности поиска в информационных системах научных библиотек -- Рукопись.

Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.06 -- “Автоматизированные системы управления и прогрессивные информационные технологии”. Национальная библиотека Украины имени В.И. Вернадского.- Киев, 2007.

Актуальность темы диссертационного исследования обусловлена увеличением объемов электронных информационных ресурсов в научных библиотеках, что служит причиной необходимости повышения релевантности поиска в электронных каталогах и библиографических базах данных.

Основными результатами диссертационной работы являются научные основы повышения релевантности поиска в информационно-поисковых системах научных библиотек.

В диссертационной работе исследованы информационно-поисковые системы библиотек и определены направления повышения их эффективности. Обосновано, что при разработке поисковых систем научных библиотек, основной целью которых является полное и оперативное удовлетворение возрастающих потребностей пользователя библиотеки, необходимо базироваться на положительных чертах традиционного поискового аппарата библиотек и развивать средства повышения релевантности информационного поиска.

Обоснованы научные основы повышения релевантности поиска на основе организации обратных связей в информационных системах научных библиотек. Разработана модель информационно-поисковой системы библиотеки, в состав которой включены средства повышения релевантности поиска, базирующиеся на системе реализации обратной связи на основе аналитической обработки базы данных результатов поиска и репозитория оперативных данных системы мониторинга использования библиотечных ресурсов.

Предложен алгоритм ранжирования результатов информационного поиска на базе многокритериальной оценки релевантности найденных документов, который учитывает старение научно-технической литературы, значимость автора (индивидуального или коллективного) на основе данных файлов авторитетных записей и статистические оперативные данные об обращении литературы в библиотеке.

Разработана методика мониторинга использования библиотечных фондов, которая предусматривает консолидацию данных селективного мониторинга ответов книгохранилища и мониторинга поисковых запросов пользователей информационно-поисковых систем. Предложена методика селективного мониторинга ответов книгохранилища для выявления изданий повышенного спроса путем выборочного анализа неудовлетворенных запросов.

Обоснована организация последовательно-параллельной стратегии поиска, основные принципы которой предусматривают последовательное выполнение наборов итераций поиска с обработкой множества найденных документов и ранжированием полученных результатов за критериями, избранными пользователем.

Практическое значение исследования состоит в повышении эффективности функционирования информационно-поисковых систем научных библиотек на основе организации обратной связи, обеспечивающей ранжирование изданий по их релевантности и создание адаптивного интерфейса пользователя.

Основные результаты исследования использованы при создании онлайновой информационно-поисковой системы научно-информационного портала Национальной библиотеки Украины имени В.И. Вернадского.

По теме диссертации опубликовано 10 научных работ.

Ключевые слова: информационно-поисковые системы, автоматизация библиотечных процессов, электронные каталоги.

ABSTRACT

Yakovleva Y. V. Means of increase of relevance of search in information systems of scientific libraries - the Manuscript. -- Manuscript.

The dissertation on competition of a scientific degree of Cand.Tech.Sci. on a speciality 05.13.06 the automated control systems and progressive information technologies. The Vernadsky National Library of Ukraine (VNLU). -- Kyiv, 2007.

In dissertation information retrieval systems of libraries are investigated and directions of increase of their efficiency are determined. Scientific bases of increase relevance search are proved on the basis of the organization of feedbacks in information systems of scientific libraries. The model of library information retrieval system with means of increase search relevance is developed. The algorithm of information search results ranging on base многокритериальной ratings documents relevance is offered. The technique of monitoring of use of library funds which provides consolidation of the data of book-depository answers selective monitoring and monitoring of information retrieval systems users searches is developed. It is proved principles of the organization of the adaptive interface of libraries information systems.

Keywords: information retrieval systems, automation of library processes, electronic catalogues.

Підписано до друку 26.01.2007.Формат 60х90/16. Умов. друк. арк. 1,12.

Папір офсетний. Друк офсетний. Наклад 100 прим. Зам. № 24.

Друкарня НБУВ. 03039, Київ-39, просп. 40-річчя Жовтня, 3.

Размещено на Allbest.ru

...

Подобные документы

  • Сучасний стан автоматизації бібліотек різних статусів. Основні шляхи інтеграції інформаційних технологій в систему шкільних бібліотек. Проблеми створення комп'ютеризованих читальних залів. Етапи впровадження довідково-інформаційного обслуговування.

    курсовая работа [52,7 K], добавлен 15.03.2011

  • Аналіз властивостей безкоштовних пошукових та поштових серверів Інтернету. Огляд методики ранжирування результатів пошуку в інформаційно-пошукових системах бібліотек. Вивчення можливостей пошукової системи "Мета", пошуку по реєстру українських сайтів.

    курсовая работа [142,9 K], добавлен 17.11.2011

  • Створення баз даних за допомогою стандартних бібліотек Java та клієнт-серверних програм. Основні стандартні класи і методи бібліотек SQL та swing, бібліотек, що дозволяють опрацьовувати дані СУБД та навчитись концепціям програмування мовою Java.

    лабораторная работа [215,3 K], добавлен 04.10.2011

  • Дослідження можливостей пошуку в Google за тематикою. Використання можливості розширеного тематичного пошуку для підвищення релевантності пошуку за встановленим завданням. Розширений пошук зображень. Особливості пошуку щодо країн та наукових знань.

    контрольная работа [4,6 M], добавлен 03.02.2014

  • Проблема порушення авторських прав в Інтернеті. Системи та сервіси пошуку плагіату. Захист електронних видань від плагіату в Інтернеті. Алгоритми аналізу, подання і порівняння текстової інформації. Вибір методу пошуку текстових документів з запозиченнями.

    магистерская работа [1,0 M], добавлен 14.06.2013

  • Технологія пошуку інформації в мережі Інтернет. Можливості спеціальних служб, індексів. Інформаційні ресурси у каталогах. Системи мета-пошуку, пошуку в конференціях Usenet, пошуку людей. Знаходження інформації із застосуванням серверів глобального пошуку.

    реферат [38,8 K], добавлен 20.05.2011

  • Використання автоматичних систем інформаційного пошуку для зменшення "інформаційного перевантаження". Методи організації пошуку: атрибутивний, повнотекстовий і вибірка видань. Тематичні каталоги та пошукові машини. Системи Yandex, Rambler та Google.

    реферат [333,0 K], добавлен 18.05.2011

  • Особливості редактора принципових схем системи Protel 99. Основні недоліки та переваги системи. Проблема правильного виведення схем на друк. Розробка та редагування бібліотек елементів принципових схем. Перегляд існуючої бібліотеки та створення нової.

    контрольная работа [902,1 K], добавлен 20.06.2010

  • Принципи та особливості роботи пошукових роботів. Аналіз відмінностей каталогів від пошукових систем. Шляхи та параметри оцінювання обсягів індексації сучасних пошукових систем. Загальні рекомендації щодо додавання сайту до пошукової системи чи каталогу.

    реферат [101,3 K], добавлен 18.11.2010

  • Склад і зміст робіт на стадії впровадження інформаційних систем. Технологія проектування систем за CASE-методом. Порівняльні характеристики інформаційних систем в менеджменті та СППР. Створення бази моделей. Визначення інформаційних систем управління.

    реферат [44,5 K], добавлен 09.03.2009

  • Засоби візуального моделювання об'єктно-орієнтованих інформаційних систем. Принципи прикладного системного аналізу. Принцип ієрархічної побудови моделей складних систем. Основні вимоги до системи. Розробка моделі програмної системи засобами UML.

    курсовая работа [546,6 K], добавлен 28.02.2012

  • Оцінювання та засоби підвищення надійності інформаційних технологій протягом усього життєвого циклу програмного забезпечення на основі негомогенного пуасонівського процесу та обчислення її параметрів, з урахуванням сучасних тенденцій тестування.

    автореферат [52,0 K], добавлен 10.12.2010

  • Критерії процесу та вибір альтернативного рішення. Методи організації інформаційних систем. Інформаційні технології. Історія розвитку персональних компьютерів, компьютерних мереж та їх зв’язок з розвитком інформаційних систем управління економікою.

    контрольная работа [36,5 K], добавлен 27.10.2008

  • Стан і перспективи розвитку інформаційних систем керування бізнесом. Архітектура корпоративних інформаційний систем (КІС). Інструментальні засоби їх розробки і підтримки. Методи створення автоматизованих інформаційних систем. Система управління ЕRP.

    лекция [1,5 M], добавлен 23.03.2010

  • Тенденції розвитку інформаційних технологій, зростання складності інформаційних систем, створюваних у різних галузях. Засоби, що реалізують CASE-технологію створення і супроводу інформаційних систем. Автоматизація розробки програмного забезпечення.

    реферат [21,5 K], добавлен 21.03.2011

  • Сутність інформаційних технологій та їх основні компоненти. Роль глобальної мережі Інтернет у функціонуванні підприємства туристичної галузі, значення інформаційно-пошукових систем. Основні принципи та етапи роботи програми Microsoft Office PowerPoint.

    курсовая работа [1,7 M], добавлен 09.12.2011

  • Вплив інформаційних потреб користувачів на організацію інформаційного обслуговування. Бібліотечно-інформаційний сервіс: сучасний стан, можливості вдосконалення. Ресурси Інтернет і трансформація системи інформаційного обслуговування у Сарненській ЦСПШБ.

    дипломная работа [57,0 K], добавлен 21.12.2010

  • Розробка програми на мові програмування С++ в середовищі Borland C++ Builder, яка надає можливість відкривати певну програму в певний час або через певний час. Проектування блок-схеми та інтерфейсу користувача. Підключення бібліотек, опис змінних.

    дипломная работа [90,0 K], добавлен 21.01.2013

  • Поняття методології проектування інформаційних систем та життєвого циклу їх програмного забезпечення. Основні, допоміжні та організаційні процеси структури життєвого циклу. Планування та організації робіт по розробці і супроводу програмного забезпечення.

    контрольная работа [19,0 K], добавлен 01.02.2010

  • Загальна структура автоматизованої інформаційної системи, особливості її технічного, програмного, правового та економічного забезпечення. Характеристика апаратної платформи сучасних інформаційних систем. Основні компоненти архітектури "клієнт-сервер".

    контрольная работа [19,8 K], добавлен 22.08.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.