Информационный поиск

Функционирование простейшей документальной информационно-поисковой системы. Ограничивающие возможности содержательного поиска информации, координатное индексирование данных. Схема цитирования, социтирования и библиографического сочетания документов.

Рубрика Программирование, компьютеры и кибернетика
Вид лекция
Язык русский
Дата добавления 28.09.2018
Размер файла 1,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http: //www. allbest. ru/

1. Информационный поиск

1.1 Предыстория и сущность

"Знание бывает двух видов. Мы знаем предмет по существу, или же мы знаем, где можно найти информацию о нем". В этой простой мысли давно известного высказывания английского писателя XVIII в. Сэмюэля Джонсона содержится главный признак, по которому деятельность информационная отделяется от научно-исследовательской. В ходе научного исследования возникает новое знание, а в сфере информации происходит отчуждение этого знания от его творцов и превращение в общее достояние. Однако простота этого разграничения мнимая, потому что в науке грань, отделяющая информационную деятельность от исследовательской, непостоянна. Развитие информационной технологии все время сдвигает эту грань, поскольку информационной деятельности становятся подвластны все более сложные процессы переработки знаний. То, что вчера еще делали сами исследователи, сегодня оказывается целесообразным передать информационным работникам.

Эти соображения, уже высказанные в лекции об информационной деятельности, уместно повторить, начиная разговор об информационном поиске, поскольку он является основным процессом этой деятельности и на протяжении нескольких десятилетий - центральной проблемой информатики. Новая информационная технология меняет подход к этой извечной проблеме и во многом определяет сегодня развитие информационных систем. Но информационный поиск как процесс и проблема известен с давних пор (наиболее ранние из дошедших до нас информационно-поисковых систем насчитывают тысячелетий) и продолжает волновать ученых и специалистов_практиков.

Само понятие информационного поиска появилось только в середине нашего века. Оно объединило такие, казалось бы, разные виды деятельности, как составление библиотечных каталогов и библиографических указателей, организация библиотек и справочно-информационного обслуживания, архивное дело, создание словарей, справочников, энциклопедий, вспомогательных указателей к монографиям и сборникам.

В основе этого понятия лежит представление о том, что поиск необходимой информации в любом собрании документов практически невозможен путем прочтения или даже беглого просмотра текстов всех документов данного собрания. Поэтому уже с незапамятных времен для поиска информации применяют ряд логических процедур, которые в совокупности и составляют процесс информационного поиска. Прочтение полного текста документа заменили просмотром заглавий, аннотаций, рефератов. Однако и эта процедура в многотысячных собраниях документов оказалась слишком трудоемкой. Документы пришлось систематизировать по содержанию, которое условно стали обозначать индексами, т. е. буквами и/или цифрами. Систематизация по разделам наук (классам) - один из самых первых способов раскрытия содержания научно-технических документов, моделирующий работу человеческого сознания и восходящий к глубокой древности.

По мере увеличения количества письменных и печатных документов и объема наших знаний о мире их классификация усложнялась. Эти классификации получили название иерархических. Многотомные схемы классификации конца прошлого - начала нашего века насчитывали десятки тысяч классов, подклассов, отдельных рубрик. Специалистам смежных областей знания и особенно массовому читателю библиотек стало трудно ориентироваться в схемах классификации и определять в их иерархии место той рубрики, по которой необходимо получать информацию.

Да и сами рубрики, строго ориентированные на узкие разделы наук, подвергающихся непрерывному процессу дифференциации, перестали удовлетворять специалистов-практиков, которым нужна была все более комплексная, предметная информация. Это привело к созданию в 70-х годах XIX в. предметной или точнее алфавитно-предметной классификации. На долгие годы она стала господствующей при составлении энциклопедий, вспомогательных указателей к трудам, систематически излагающим проблему или раздел науки, а в США, где она была создана, при организации каталогов.

Стремительный рост объемов литературы значительно усложнил также задачу идентификации каждого произведения печати. Библиотеки первыми столкнулись с необходимостью создать инструмент, при помощи которого можно было бы быстро и надежно устанавливать наличие определенного произведения в их фондах. Таким инструментом стал в XIX в. авторский, именной указатель (алфавитный каталог, по библиотечной терминологии), который однозначно идентифицировал произведение по именам лиц, принимавших участие в его создании или же связанных с его содержанием. Таким образом, до середины ХХ в. возможности содержательного поиска информации по справочникам или документов, содержащих нужную информацию, в библиотеках ограничивались тремя способами: систематическим, предметным и алфавитным.

Традиционной технологией реализации этих способов были списки, перечни книг и статей, содержавших необходимую информацию. С 70-х годов XIX в. эти сведения стали записываться на дискретных носителях - библиотечных карточках из плотного картона формата 75х125 мм (размер сложенной пополам американской почтовой карточки). Следует отдать должное этой традиционной технологии. Она успешно обеспечивала культурный прогресс на протяжении целого столетия вплоть до нынешнего этапа научно-технической революции, позволила накапливать и использовать многомиллионные собрания документов, обслуживать тематические потребности ученых и специалистов в необходимой им информации. На ней и сегодня еще в значительной степени зиждется деятельность всей мировой библиотечной системы - этого краеугольного камня человеческой культуры, важными составными частями которой является наука и техника.

Однако недостаточность, ограниченность этой технологии стала все более остро ощущаться уже в первой четверти ХХ в. В науке первыми почувствовали это химики из-за быстрого роста числа синтезируемых ими веществ. В настоящее время каждые три года появляется свыше миллиона таких веществ. Обычные методы оповещения - библиографические указатели, библиотечные каталоги, справочники типа «Гмелина» для неорганической химии и «Бельштейна» для органической - начали значительно отставать по времени от успехов исследователей и перестали охватывать их результаты в полном объеме. Революции в физике и электронике, характеризующие середину нашего столетия, усугубили трудности информационной коммуникации.

1.2 Процедуры и понятия

Научное сообщество осознало необходимость организационного оформления информационной деятельности, которая в течение нескольких десятилетий подспудно созревала в недрах науки и техники. Большая наука индустриального типа, пришедшая на смену "малой" науке университетского типа, выдвинула задачу создания систем научно-технической информации. Именно в это время, в конце 40-х - начале 50-х годов были сформулированы понятия информационного поиска, информационно-поисковой системы, информационно-поискового языка, была выдвинута задача механизации, а затем и автоматизации информационного поиска. Не случайно именно в это время В. Буш писал о необходимости новых форм справочных материалов, которые учитывали бы ассоциативные связи и были пригодны для механизации.

К этому времени стало ясно, что информационный поиск - это совокупность логических процедур, в результате которых в ответ на информационный запрос выдается либо необходимая информация, либо документы, в которых она может содержаться, либо библиографические адреса этих документов. В первом случае поиск получил название фактографического, во - втором документального, в третьем - библиографического. Эти процедуры сводятся к следующему.

Каждый вновь появляющийся документ подвергается анализу, в результате которого определяется его смысловое содержание. Этот анализ осуществляется интеллектом человека, возможность его формализации остается пока неясной. У автора документа и различных его читателей может быть разное представление о содержании документа. Затем это абстрактное представление о содержании (считается, что оно должно совпадать с авторским) выражается на некотором информационно-поисковом языке, т. е. синтезируется в виде библиографического описания и индекса.

Индекс образуется путем мысленного сопоставления основного смыслового содержания с потенциальными запросами потребителей информации. Эти запросы как бы зафиксированы в схемах классификации и обозначены индексами. Сама процедура выражения основного смыслового содержания документов и информационных запросов на информационно-поисковом языке получила название индексирования и составляет существенную часть аналитико-синтетической обработки документов. Информационный поиск, таким образом, заключается в замене содержательного прочтения полного текста документов формальным сличением (сравнением на соответствие) их поисковых образов с запросами на языке индексов.

Понятно, что такая замена значительно упрощает и убыстряет нахождение нужной информации, делает возможной автоматизацию процедуры сравнения. Но за это приходится платить неполнотой и неточностью поиска. Описанные выше логические процедуры допускают субъективизм осуществляющих их лиц, а используемые информационно_поисковые языки несовершенны и неспособны адекватно передавать содержание документов и смысл запросов. Следовательно, информационные потери и шум - неизбежные условия информационного поиска. Когда говорят, что поиск осуществлен со 100 %-ной полнотой, имеют в виду, что информационного поиска не производилось, а был осуществлен полный перебор всех текстов (современная технология в некоторых случаях предоставляет такую возможность).

Информационный поиск реализуется при помощи информационно-поисковой системы, которая в абстрактном виде должна состоять из информационно-поискового языка, правил перевода на этот язык и критерия смыслового соответствия, определяющего объем выдачи документов или информации (критерий выдачи). Конкретная система включает также средства реализации (перечень, картотека, механический селектор, компьютер), информационный массив и обслуживающий персонал.

Функционирование простейшей документальной информационно-поисковой системы можно проследить по ее блок-схеме на рис.. В системе имеется два входа (для документов и запросов) и один выход (для выдачи документов по запросам). На входах имеются преобразователи для индексирования документов и запросов. Поисковые образы документов вместе с адресами их хранения (номерами) направляются в активное запоминающее устройство (ЗУакт), а сами документы - в пассивное (ЗУпас). Индексы каждого запроса сравниваются с индексами всех документов в решающем устройстве (РУ), которое в случае их соответствия (полного или предусмотренного критерием выдачи) дает в хранилище (ЗУпас) команду на выдачу документа. Это хранилище составляет как бы второй контур системы (сами документы), которого нет у библиографических (одноконтурных) систем.

Рис. 1 Блок-схема информационно-поисковой системы

Даже названия элементов на блок-схеме говорят о возможности автоматизации информационно-поисковой системы. Однако блок-схема верно обрисовывает работу любой системы, включая и наиболее традиционные. Это легко видеть на примере библиотеки. Преобразователи на входах соответствуют отделам обработки и справочно-библиографическому, ЗУакт - каталогам, ЗУпас - фондам. Нет в библиотеке только РУ - оно моделируется интеллектом читателя, который (хотя часто он и не осознает этого) вырабатывает собственный критерий выдачи и собственную стратегию поиска.

Не случайно именно эта интеллектуальная часть функционирования информационно-поисковой системы представила наибольшие трудности для автоматизации, именно она больше всего сдерживала развитие этих систем. Камнем преткновения явились, прежде всего, традиционные информационно-поисковые языки, ограничивающие возможности содержательного поиска информации. Расхожее мнение о том, что эти языки трудно поддаются автоматизации, неверно. Но они рассчитаны на ручную реализацию, и поэтому использование их в компьютерах удорожает поиск, ограничивает число пользователей и не дает никаких выигрышей, т. е. не снимает ограничений, присущих этим языкам.

А ограничения эти стали особенно ощутимыми на нынешнем этапе научно-технической революции. Прежде всего, традиционная технология поиска рассчитана на стабильный, медленно меняющийся состав запросов. В схемах классификации и перечнях предметных рубрик уже заранее как бы скоординированы все понятия, по которым можно извлекать информацию из документов и затем производить по ним поиск (такие языки поэтому и получили название предкоординатных). Это приводит к тому, что при возникновении новой проблемы или направления исследований, по которым имеется полученная прежде информация, система не обеспечивает ее поиска. Ведь эта тематика раньше не была сформулирована и не нашла места в схемах классификации и списках предметных рубрик, а значит и индексирование по ней не производилось.

Другими словами, традиционная технология поиска не позволяет искать информацию по любому, заранее не предвиденному сочетанию признаков. При этом, как уже говорилось, субъективизм индексатора при извлечении основного содержания документа увеличивает информационный шум и потери, предопределенные характером традиционных поисковых языков. Нельзя не отметить также, что основанные на них системы ручного поиска, даже фактографические, не предназначены для манипулирования полученными из них данными. Они не имеют логического аппарата для содержательной переработки этих данных. Подобная задача всегда решалась самими потребителями без помощи информационных систем.

1.3 Координатное индексирование

Новая технология пришла в информационный поиск в виде метода координатного индексирования, разработанного в США в 50-е годы математическим логиком М. Таубе и работником службы химической информации К. Муэрсом. Этот метод основан на предположении, что основное смысловое содержание любого документа и информационного запроса можно выразить при помощи набора терминов, по большей части содержащихся в самом индексируемом документе. Эти термины получили название ключевых слов. Если, к примеру, нужно заиндексировать документ, в котором говорится о защите от коррозии лопаток газовых турбин, то совокупность терминов "турбина", "газ", "лопатки", "коррозия", "защита" и будет служить поисковым образом документа. Эти ключевые слова образуют для данного документа как бы координатную сетку, по которой в дальнейшем ведется информационный поиск по соответствующему запросу.

Преимущества данного метода очевидны. Прежде всего, информационные работники и потребители информации освобождаются от жестких рамок классификационных схем и перечней предметных рубрик. Индексирование новых документов ведется без оглядки на отраженные в них потенциальные и часто уже устаревшие запросы специалистов. С другой стороны, индексирование освобождается от субъективизма - ключевые слова выбираются формально. Эту работу, в принципе, можно поручить автомату. Во многих современных информационно-поисковых системах оператор вводит в машину библиографические данные документа, его реферат (аннотацию, резюме), а иногда и наиболее информативные части текста (например, первый и последний абзацы статьи, содержащие наибольшее число терминов, относящихся к ее содержанию). При помощи "запретительного" списка служебных и общезначимых слов, введенных в компьютер, осуществляется автоматический отбор ключевых слов, которые программно приводятся к нормальному виду (единственное число именительного падежа существительных и прилагательных, инфинитив глаголов). Это существенный шаг к автоматизации ввода информации в информационно-поисковую систему.

При поиске необходимой информации специалист может формулировать свой запрос в виде цепочки терминов, на пересечении которых и окажется большинство документов, содержащих необходимую информацию. При этом потребитель может произвольно менять стратегию поиска в зависимости от оценки его промежуточных результатов. Если документов по запросу мало или нет в системе, можно снять из запроса какие-либо ключевые слова (в приведенном выше примере "газ" и "защита"). Тогда система выдаст документы более широкого содержания о коррозии лопаток турбин, в которых все же может содержаться нужная информация. В случае, если документов по запросу слишком много, можно добавить ключевые слова, ограничивающие поиск, например, определенным классом турбин или же конкретными методами защиты их лопаток от коррозии. В этом уже заключен важный элемент возможности диалога с системой при помощи слов естественного языка.

Основные достоинства этого принципиально нового подхода к раскрытию содержания документов и поиску информации заключаются в том, что он позволяет находить информацию по любому, заранее не предвиденному сочетанию признаков. Кроме того, при появлении совершенно новых направлений исследований можно вести поиск во всем массиве документов, ранее заиндексированных по этому методу. Традиционные методы таких возможностей не предоставляли.

Было бы несправедливо умолчать о том, что достоинства нового метода приходится оплачивать преодолением дополнительных трудностей. Прежде всего, поиск с использованием естественного языка ограничивает его рамками знакомых пользователю языков. Чтобы расширить этот круг, приходится прибегать к словарям. Затем, каждый естественный язык отличается богатством своего словарного состава - слова, одинаковые по написанию, могут иметь разный смысл (многозначность, омонимия), а одно и то же понятие может выражаться разными терминами (синонимия). Запросив информацию о косах, вы получите сведения не только о сельскохозяйственных орудиях, но и о географических объектах, а может быть и о прическах. Желая получить документы о транзисторах, следует помнить, что они могут также называться полупроводниками.

Термины находятся в сложных взаимоотношениях между собой, выражают более узкие или более широкие понятия, могут быть связанными по сходству, по контрасту или по другим ассоциациям. Чтобы иметь возможность учитывать это при поиске, приходится составлять на каждом языке специальные понятийные справочники (тезаурусы). В них для каждого понятия (класса условной эквивалентности) выбирается один термин - дескриптор, а для остальных слов указывается их связь с дескриптором. Тезаурусы иногда называют дескрипторными словарями, а сам поиск с их использованием дескрипторным. Кроме словарей для поиска по ключевым словам и дескрипторам часто создают специальную грамматику, Необходимость в ней вызывается возникновением ложной координации терминов, ошибочным их сочетанием. В ответ на запрос "трубы" х "медь" х "свинец" х "покрытие" можно получить не только необходимую информацию о покрытии медных труб свинцом, но и о покрытии свинцовых труб медью.

Курьеза ради, следует упомянуть, что метод координатного индексирования для поиска информации, явившийся принципиальным шагом к новой информационной технологии, на самом деле новшеством не был. В 1915 г. он был реализован на перфокартах американским орнитологом Т. Тейлором при составлении определителя птиц, а у Б. Виккери возникло предположение, что шумерские врачи еще в III тысячелетии до н. э. пользовались диагностическими устройствами, работавшими по этому принципу. На глиняных клинописных плитках записывались симптомы болезней, а под каждым из них - названия болезней, при которых эти симптомы встречаются. Совокупность симптомов составляла координатную сетку, а совпадающие для всех симптомов названия болезней - наиболее вероятные недуги больного.

Из этого понятно, что информационно-поисковые системы, основанные на принципе координатного индексирования, могут быть реализованы простейшими средствами ручного обращения. Система "унитерм-карт" самого М. Таубе представляла собой особым образом организованную картотеку, позволявшую легко сличать номера документов, чтобы выявить совпадающие номера для заданных терминов ("унитермов"). Первые информационно-поисковые системы такого типа часто создавались на просветных перфокартах. Однако подлинный размах создание координатных, по большей части дескрипторных систем получило, когда они стали использовать компьютеры второго поколения. В 60_е -70-е годы на базе крупнейших в мире реферативных служб были созданы мощные автоматизированные информационные системы, которые предназначались для ускорения выпуска информационных изданий и расширения спектра информационных услуг, а затем стали основными генераторами документальных баз данных на магнитных лентах.

1.4 Цитирование, библиографическое сочетание, социтирование

Принцип цитирования был использован Институтом научной информации США, основанным в 1958 г. Ю. Гарфилдом, для создания принципиально нового вида информационного обслуживания. При поиске информации он взял в качестве индексов библиографические ссылки в документах. В выпускаемых им указателях цитированной литературы, называемых также "индексами цитирования", эти ссылки располагаются по алфавиту фамилий авторов цитированных работ с указанием сведений о документах, в которых они упоминаются. Произведения, использованные при написании статьи, составляют как бы координатную сетку для ее поиска. Если статья написана по совсем новой проблеме, не нашедшей рубрики в классификации наук, с еще не устоявшейся и малоизвестной терминологией, найти ее в потоке мировой литературы другими методами очень трудно. Указатель цитированной литературы можно представить себе как многоуровневую систему библиографических описаний документов, находящихся в обратной связи друг с другом.

Указатели цитированной литературы позволяют искать информацию по совершенно новым межотраслевым или комплексным проблемам под фамилиями пионеров и наиболее известных специалистов каждой из таких проблем. Например, для поиска литературы по цитированию достаточно знать фамилию Ю. Гарфилда, так как почти в каждой работе по этой проблеме есть упоминание о нем и его статьях. Фамилии авторов найденных работ могут в свою очередь служить входами в указатель, и за 1-5 таких итераций (последовательных поисков) все сведения об отраженной в указателе литературе по проблеме оказываются найденными.

Индексы цитирования предоставляют уникальную возможность проследить за всеми случаями применения какой-либо идеи или метода, за их критикой и обсуждением, оценить информационный вклад того или иного ученого или научной школы, степень и динамику популярности их работ. Известны случаи, когда по этим указателям предсказывали нобелевских лауреатов. Институт научной информации США выпускает указатели цитированной литературы по точным, естественным и прикладным наукам (с 1964 г.), по общественным наукам (с 1969 г.), по искусству и гуманитарным наукам (с 1976 г.), для чего просматривается около 6 тыс. научных журналов и ежегодно до 1,5 тыс. названий книг. Большинство указателей распространяется не только в обычном (бумажном), но и в машиночитаемом виде (на магнитной ленте, дискетах, оптических дисках). Нужно ли говорить о том, что осуществление принципа, положенного в основу этих изданий, стало возможным лишь благодаря компьютерам. Ведь речь идет о ежегодном библиографировании почти 10 млн ссылок.

В двух статьях E и F, например, (см. рис. 10) имеются библиографические ссылки, которые устанавливают прямую библиографическую связь между ними (цитирующими документами) и статьями A, B, C и D, которые в них упоминаются (цитируемыми документами). В указателе цитированной литературы эти ссылки, по алфавиту которых упорядочивается его массив ("цитации" по терминологии Г. Я. Узилевского, которому принадлежит данный пример), обозначают цитируемые документы, а под ними располагаются "библиограммы", т. е. описания цитирующих документов.

Рис. 2 Схема цитирования, социтирования и библиографического сочетания документов

Понимание потенциальных возможностей комплексирования документов по признаку общих ссылок и стремление максимально использовать накопленный массив в машиночитаемой форме повели к поискам новых путей применения метода цитирования. Еще в 1963 г. М. Кесслер в Массачусетском технологическом институте предложил считать связанными по смыслу документы, авторы которых ссылаются на одни и те же работы, а числом совпадающих ссылок измерять степень такой связанности. Этот метод, который он назвал библиографическим сочетанием документов, долгое время не имел широкого практического применения, но в 1968 г. Ю. Гарфилд использовал его для создания ретроспективной поисковой системы на компакт_дисках.

По-другому подошли к этой проблеме сотрудник Института научной информации США Г. Смолл и тогдашняя аспирантка ВИНИТИ И. В. Маршакова. Они одновременно и независимо друг от друга в 1972 г. предложили считать связанными по смыслу и тематике работы, на которые совместно ссылаются авторы нескольких документов. Этот метод, чаще всего называемый социтированием, имеет другую коммуникационную основу. В каждой исследовательской области имеется некоторый набор важных работ, отражающих познавательную основу этой области. Данные работы цитируются многими исследователями и поэтому принадлежат к числу высоко цитируемых. Больше того, они часто цитируются вместе, образуя таким образом социтирование. Другими словами, социтированием принято называть одновременное упоминание любых двух или большего числа публикаций в какой-либо последующей.

Для лучшего представления разницы в этих методах выше приведена схема, на которой E и F являются цитирующими документами текущего года, а A, B, C и D - цитируемыми документами более ранних годов. Сплошными стрелками показаны связи по цитированию, т. е. E цитирует A, B и C, а F цитирует B, C и D. Тогда между цитирующими работами E и F образуется библиографическое сочетание, а между цитируемыми работами B и C - социтирование (обозначено пунктиром). Для простоты и наглядности степень связанности на схеме минимальная, хотя на практике она значительно больше (т. е. для признания библиографического сочетания между двумя работами или кластера социтирования в каждом отдельном случае устанавливается определенный минимальный порог, который тем выше, чем интенсивнее цитирование).

Между характером этих методов установления связи и областью их применения имеется существенная разница. Библиографическое сочетание - это однократно произошедший факт, поскольку E и F были однажды опубликованы со своими ссылками, и с ними в дальнейшем ничего уже произойти не может. Именно поэтому данный метод применяется для ретроспективного поиска документов, связанных между собой единством тематики, исследовавшейся их авторами.

Совсем по-другому обстоит дело с социтированием, так как связь между цитируемыми B и C может сохраняться (увеличиваться или уменьшаться) в последующие годы в зависимости от того, насколько часто они будут попарно цитироваться в новых работах. Частое социтирование указывает на их концептуальную близость, поскольку они используются как единый комплекс. Между этими работами как бы возникают невидимые связи, которые после наглядного их выражения образуют смысловые сгустки (кластеры). Совокупность таких кластеров ключевых работ, отражающих исследовательские области, представляют собой как бы карту определенной научной области, а совокупность карт - атлас науки на данный момент.

При регулярном выпуске подобных атласов (выходили атласы по биологии, биохимии, геологии, математике, вычислительной технике) появляется возможность регулярно следить за динамикой развития научных дисциплин, школ, направлений, коллективов, а, следовательно, и целенаправленно воздействовать на это развитие, т. е. управлять им. Методы библиографического сочетания и кластеризации социтирования моделируют содержательные отношения между документами, используя практику цитирования, сложившуюся при публикации научных работ. Но это не единственный возможный подход к установлению таких связей между документами, заложенных в их библиографических элементах и фрагментах текстов. В следующей лекции об информационных системах вы познакомитесь с методом логико-смыслового моделирования, а теперь мы перейдем к более традиционным видам информационно-поисковых языков.

цитирование координатный индексирование поисковой

1.5 Иерархические и фасетные классификации

Было бы неверно думать, что будущее только за цитированием, за информационно-поисковыми языками координатного индексирования, которые вытеснят традиционные языки. В этом случае, как и во всей системе коммуникации, действует закон развития, по которому новые средства не заменяют полностью прежних, а лишь перераспределяют функции между ними. Это в полной мере относится и к такому древнему средству информационной технологии, как иерархические классификации, наиболее распространенной представительницей которых выступает Универсальная десятичная классификация (УДК). Создание УДК явилось переломным моментом в развитии ИПЯ: она завершила тысячелетнюю историю линейных классификаций перечислительного типа и открыла пути к построению фасетных классификаций.

Библиотечные классификации - самый ранний из известных нам типов ИПЯ. Если проследить за их развитием от классификации вавилонских библиотек вплоть до библиотечных классификаций второй половины XIX в., становится ясно, что принципы их построения почти не изменялись. Следуя за наиболее известными системами классификации наук, библиотечные классификации строились на основе иерархического "древа знаний" с выделением специальных разделов и подразделов для систематизации особых видов книг. До нас дошло очень немного сведений о классификациях, применявшихся в древних библиотеках. Вероятно, в античные времена такие классификации были разработаны достаточно детально. Об этом можно судить по обширности библиотек, высокому уровню классификации наук того времени, а также по некоторым косвенным свидетельствам, содержащимся в литературных памятниках.

На классификации средневековья известное влияние оказала распространенная в то время система "семи свободных искусств". Она состояла из двух комплексов наук, изучавшихся в тогдашней школе: "тривиума" (грамматики, диалектики и риторики) и "квадривиума" (арифметики, геометрии, музыки и астрономии). К концу XV в. в университетских библиотеках начали применять группировку книг по содержанию в соответствии с существовавшими в большинстве университетов четырьмя факультетами: философским, медицинским, юридическим и богословским. Это послужило толчком к возникновению так называемых факультетских систем классификации, пользовавшихся популярностью на протяжении столетий вплоть до XIX в. Они оказали влияние на выдающиеся для своего времени классификации швейцарского ученого и библиографа К. Геснера (1548) и немецкого философа Г. Лейбница (1700).

Дальнейшее развитие библиотечно-библиографических классификаций проходило под воздействием идей английского философа Ф. Бэкона (1561-1626). Созданная им в начале XVII в. классификация наук группировала знания в соответствии с идеалистической традицией по "способностям человеческого духа". "Память" определяла возникновение истории, "воображение" - поэзии, "разум" - философии, или собственно науки. При всей условности такого деления классификация Ф. Бэкона включала новые отрасли знания и представляла собой значительное событие для науки того времени.

В XIX в. библиотечно-библиографические классификации стали широко разрабатываться в России. Большой интерес представляет схема ученого-натуралиста П. Г. Демидова, составленная им для каталога личной библиотеки. В этой схеме наиболее детализированными были разделы естественных наук и технологии. Заслуживает внимания схема, опубликованная в 1809 г. А. Н. Олениным и предназначенная для императорской СПб Публичной библиотеки, а также оригинальная схема К. Ф. Рейса, предложенная им для библиотеки Московского университета в 1826 г. и основанная на дихотомическом принципе деления. Самостоятельную схему классификации, в основу которой было положено условное деление наук "по потребностям человека", создал для библиотеки Казанского университета К. К.Фойгт в 1843 г.

Одной из лучших в первой половине XIX в. заслуженно считается классификация выдающегося русского натуралиста К. Э. Бэра, которую он разработал для иностранного отделения библиотеки Академии наук в Санкт-Петербурге в 1841 г. В этой классификации была предпринята одна из первых попыток расположить науки в последовательности, отражающей историю развития мира: науки о неорганической природе, науки об органической природе, науки о человеке и обществе.

В библиотеках Западной Европы в этот период особенно широко применялись схемы классификации Ж. Ш. Брюне (1810) и А. Э. Шлейермахера (1847). Первая из них представляла собой одну из поздних разновидностей так называемой французской системы, которая в течение почти двух столетий использовалась в библиографии и книготорговле Франции. Вторая, особенно популярная в библиотеках немецких университетов, была создана на основе старой "факультетской системы". Эти классификации создавались для расположения книг на полках и для систематизации их описаний в каталогах и указателях. Такое их назначение обусловило необходимость линейной последовательности их рубрик и строгого подчинения между классами и подклассами, всегда связанными в этих классификациях родовидовыми отношениями. Одна из наиболее сильных сторон этих языков заключается в том, что классификация по родовидовым признакам всегда служила важным инструментом познания и привычным методом определения понятий.

Иерархические классификации обеспечивают высокую эффективность информационного поиска по широким тематическим запросам, сформулированным в определенном аспекте, который был предусмотрен заранее, при составлении схемы и при индексировании по ней документов. Для реализации подобного поиска наиболее оптимальным техническим средством служит просто перечень (каталог). Эти особенности объясняют прочное положение иерархических классификаций как единственного на протяжении тысячелетий средства поиска документов по их содержанию. Лишь во второй половине XIX в. появилась необходимость в другом типе языка, который упрощал бы для массового читателя разыскание нужных ему рубрик и облегчал бы введение в систему новых понятий без коренной ее перестройки. Таким языком стала алфавитно-предметная классификация, теорию которой в 70-80-х годах прошлого века разработал Ч. Э. Кеттер.

Крупнейшим достижением в области систематизации явилось создание в 1876 г. видным американским библиотечным деятелем М. Дьюи "десятичной классификации". Сам он видел свою основную заслугу в том, что применил в своей схеме децимальную индексацию: "Дело шло о достижении абсолютной простоты путем использования самых простых и известных символов, арабских цифр в виде десятичных дробей в качестве индексов классификации всех человеческих знаний в печатных произведениях". Однако теперь, по прошествии столетия, значение созданного М. Дьюи нам представляется в другом. Он теоретически обосновал и практически внедрил стандартизацию типовых делений (литературной формы, вида издания и т. п.) в различных разделах схемы и частично лингвистических, этнических и географических делений, использовав прием факультативного превращения в постоянные подразделения окончаний индексов разделов "Филологии" и "Истории".

Другой его важной заслугой было введение в систему алфавитно-предметного указателя, который позволил разыскивать книги по любому предмету независимо от его места в схеме. Идея такого вспомогательного указателя, правда, не была новостью, такие указатели уже применялись в энциклопедиях XIII в., в изданиях эпохи Возрождения, у К. Геснера, в таблицах А. Э. Шлейермахера. Однако только теперь подобные указатели стали неотъемлемой частью классификационных таблиц и систематических каталогов библиотек. Таким образом, впервые была предпринята попытка избавиться от жесткости линейной схемы иерархической классификации и расширить число входов в ее схему. Однако этот шаг был еще очень робким, и принцип проводился не очень последовательно.

Эта непоследовательность была преодолена в "брюссельском варианте" десятичной классификации, которая получила широкое распространение после 1905-1907 гг. как "Универсальная десятичная классификация". Ее создатели выдающиеся бельгийские документалисты П. Отле и А. Лафонтен использовали преимущества десятичной системы, индексация которой понятна людям, говорящим на разных языках, и развили заложенные в ней возможности более гибкого использования иерархической классификации. Идею стандартизации делений схемы они довели до логического конца, создав вспомогательные таблицы типовых делений - общих и специальных (аналитических) определителей. Общие определители (языка, формы документа, места, времени, народности, точки зрения) используются во всех отделах схемы с одним и тем же значением. Специальные определители предназначены для использования только в нескольких отделах одной отрасли знания для их деления по одним и тем же признакам.

Важным достижением УДК явилось также введение принципа комбинации индексов, разработка приемов их присоединения, распространения, отношения и объединения (синтеза), кроме того, было предусмотрено использование индексов подразделений одного раздела в других и введение параллельных (альтернативных) делений для отражения классифицируемых объектов в разных аспектах. Таким образом, на смену прежним "перечислительным" схемам с заранее установленными рубриками и готовыми индексами пришла подвижная схема, в которой нужные рубрики могут создаваться в процессе классификации путем сочетания индексов с определителями или соединения их друг с другом.

К основным достоинствам УДК как иерархической классификации относятся следующие ее характерные черты:

- универсальность, заключающаяся в охвате всех отраслей знания,

- логическая ступенчатая индексация, позволяющая неограниченно делить подклассы без нарушения основной структуры классификации,

- международная применимость благодаря использованию только цифровых десятичных индексов, всем понятных и легко запоминаемых,

- развитая система определителей и комбинационного построения индексов, обеспечивающих относительную гибкость при отражении достаточно узких и сложных понятий,

- устойчивый и четко организованный международный механизм поддержания классификации на уровне новых достижений науки.

В качестве недостатков УДК часто называют ее естественные ограничения, присущие всем иерархическим классификациям. Они не могут удовлетворительно отражать процессы интеграции и взаимопроникновения наук, и в них трудно находить место для направлений и понятий, возникающих на стыке наук. Далеко не все явления в природе и понятия в науке можно связать родовидовыми отношениями. Это особенно ярко проявляется в технике, медицине, в других прикладных, а также в комплексных дисциплинах, таких, например, как кибернетика, информатика, семиотика. Эта ограниченность УДК, в которой отдельные науки жестко разделены в соответствии с формальными логическими правилами, противоречит тенденции синтетического развития науки. Нельзя сказать, чтобы это были недостатки, скорее это внутренние свойства иерархических классификаций, обеспечивающие их эффективность в условиях широкого тематического поиска.

Следующий шаг в развитии комбинационного принципа в классификации был сделан выдающимся индийским библиотековедом Ш. Р. Ранганатаном в созданной им в 1933 г. "Классификации с двоеточием", которая явилась родоначальницей фасетных классификаций. Об их функциях английский информатик Б. Виккери писал: "Потребители хотят иметь возможность отыскать документ, посвященный сложной специальной теме, не только тогда, когда именно она является непосредственным объектом поиска, но также тогда, когда поиск ведется по любому термину или группе терминов, входящих в сложное понятие. Для удовлетворения этих требований необходимо, чтобы не только понятия могли входить в неограниченное количество сочетаний, но также, чтобы в структуре системы были отражены родовые связи понятий и связи между разделами".

Фасетная классификация вместо единого ряда делений в каждом основном классе имеет несколько "фасетов", соответствующих аспектам классифицируемого понятия или предмета. Все существенные термины данного класса распределяются по фасетам и образуют их "фокусы". При индексировании документов их содержание выражается цепочкой фокусов, последовательность которых определяется специальной "фасетной формулой". Примером построения индексов по системе Ш. Ранганатана могут служить следующие фасеты и фокусы из области медицины:

ФАСЕТЫ

Органы тела

Проблемы медицины

Уход и лечение

1 Органы в целом

1 Общие проблемы

1 Питание

2 Органы пищеварения

2 Морфология

2 Этиология

23 Пищевод

3 Физиология

3 Диагностика

24 Желудок

4 Болезни

4 Лечение

25 Кишечник

42 Инфекционные

3 Кровеносная система

421 Туберкулез

4 Органы дыхания

45 Легкие

В этой схеме индекс документа по диагностике инфекционных заболеваний кишечника - 25:42:3, по лечению туберкулеза легких - 45:421:4.

Преимущества этого вида классификаций в том, что они облегчают многоаспектное индексирование документов, позволяя собирать в одном месте все аспекты рассмотрения какого-либо предмета или темы, они легче поддаются изменениям при введении новых понятий, допускают большую глубину индексирования при более коротких индексах. Их применение особенно эффективно при поиске в небольших по объему узкоспециализированных собраниях документов. Видный английский информатик Д. Фоскетт так обосновал достоинства фасетных классификаций: "От схемы не требуется более, чтобы она указывала "место" для каждого документа, включая любой термин или набор терминов в явном виде в классификационные таблицы по каждой предметной области. Эти схемы могут задать набор правил, или рабочих процедур, с помощью которых такие контексты можно, по мере надобности, формулировать на основе тех же самых схем".

1.7 Рубрикаторы информационных изданий

На большинстве европейских языков рубрикатором называли переписчика рукописей, который в скрипториях средневековья и Возрождения размечал красной краской первые буквы смысловых фрагментов текста, получивших название рубрик. Это название сохранилось и до наших дней, хотя в нынешних произведениях печати рубрики отмечаются абзацными отступами или отделяются друг от друга пробелами. В журналистике рубриками принято также называть постоянные разделы в журналах и газетах, а в библиотековедении - структурные подразделения систематического и предметного каталогов.

В 50-е годы в информатике рубрикаторами стали называть перечни рубрик реферативных журналов и других информационных изданий. В данном случае рубрика выступает как содержательный фрагмент такого издания и состоит из индекса и заголовка раздела, а также библиографических записей (с аннотациями или рефератами) произведений печати, которые по своему содержанию относятся к данной рубрике. По мере роста числа и увеличения объемов реферативных журналов их рубрикация стала усложняться. Появилась необходимость в создании такого перечня рубрик, который отвечал бы определенным требованиям и мог бы служить средством систематизации библиографических записей вместе с рефератами. Поскольку библиотечно-библиографические классификации оказались непригодными для этого, реферативные службы стали создавать собственные рубрикаторы.

Рубрикатор - это особым образом организованный перечень рубрик иерархической классификации, предназначенный для отражения сведений о текущих публикациях в информационных изданиях или системах информационного обслуживания. К его характерным особенностям относятся сравнительно небольшая глубина индексации, ориентированность на межотраслевые, междисциплинарные, комплексные проблемы, простота и линейность структуры, достаточная гибкость, частая и безболезненная изменяемость формулировки рубрик. Любой рубрикатор создается под влиянием двух противоречивых факторов, отражает два взаимосвязанных, но разных информационных потока: документального и запросов потребителей. Первый оказывает преимущественное влияние на структуру рубрикатора, второй - на формулировку заголовков рубрик, причем изменение структуры документального потока несколько отстает от быстро меняющегося характера информационных запросов.

Возникает вопрос, почему же все-таки для создания рубрикаторов не использовались существующие классификации? Можно указать на несколько обстоятельств, которые ведут к серьезным различиям в схемах иерархических классификаций, используемых для библиотечных каталогов и для построения рубрикаторов. Первые, рассчитанные, в первую очередь, на систематические каталоги и картотеки библиотек, отражают структуру универсального потока документов: книг, брошюр, периодических и продолжающихся изданий. Рубрикаторы реферативных журналов ориентированы преимущественно на журнальные статьи и другие публикации из научной периодики, которые имеют другую содержательную структуру, более дробную и гибкую. В реферативных журналах подчас приходится открывать рубрики для таких вопросов, которые в библиотечном каталоге могут стать необходимыми лишь через десять лет.

Систематические каталоги библиотек ориентированы на дисциплинарную структуру, т. е. на выделение основных классов в соответствии с научной классификацией. В рубрикаторе наряду с дисциплинарными характеристиками необходимо учитывать комплексные междисциплинарные проблемы и отрасли народного хозяйства. Это нарушает строгую логику иерархической классификации, но придает рубрикатору особую гибкость. Библиотечная классификация предназначена для ретроспективного поиска, для накопления записей за много лет, это требует сложной структуры, ее стабильности, устойчивости, медлительности в изменениях. Для рубрикатора частые изменения являются правилом, формулировка заголовков рубрик, публикуемых в каждом номере издания, играет сравнительно большую роль, а форма индексов, выполняющих служебную роль, менее значима. Рубрикатор легко обозрим, имеет небольшую глубину и простой служебный аппарат (систему ссылок и вспомогательных делений, способы сочетания рубрик).

По рубрикаторам классифицируются самые мощные потоки научных публикаций - во всем мире ежегодно не менее 5 млн несовпадающих документов (из них только в ВИНИТИ около 1 млн). Если ориентировочное число публикуемых ежегодно научных документов принять близким к 10 млн, то половина из них систематизируется по различным рубрикаторам. Это на порядок больше, чем приходится на долю классификаций, применяемых ежегодно для описания входных потоков всеми библиотеками мира. Поэтому рубрикаторы приобрели большое значение в научно-информационной деятельности. Во многих информационных центрах избирательное распространение информации, сигнальная информация и даже справочно-библиографическое обслуживание осуществляются при помощи рубрикаторов. Чтобы они могли справиться с такими несвойственными им функциями, приходится оснащать их различными вспомогательными средствами, которые приближают их к библиотечным классификациям, но затрудняют их использование по прямому назначению. Как и во всех подобных случаях, здесь приходится прибегать к разного рода компромиссам, но это неизбежно там, где мы не пользуемся новой информационной технологией.

1.8 Разные типы информационно-поисковых языков

Информатика, заявившая о себе в середине нашего века, принесла с собой не только новую и получившую распространение терминологию ("дескрипторы", "тезаурусы", "индексирование") и не только удовлетворила нашу обычную потребность в противопоставлении нового традиционному. Новым, действительно новым, оказался более широкий подход к явлениям и принципам. Понятие, например, информационно-поискового языка (ИПЯ) позволило рассматривать предметизацию, систематизацию, книгоописание, координатное индексирование как процессы, использующие искусственные языки, семантическую силу которых можно измерять по сравнению с возможностями естественного языка. Понятие информационно-поисковой системы (ИПС), как уже говорилось, объединило многие предметы, которые прежде рассматривались изолированно, например, библиотечные фонды и каталоги, различного вида самостоятельные и вспомогательные указатели, справочники, энциклопедии, автоматизированные поисковые системы. Это дало возможность выявить общие принципы их построения, найти общие критерии их эффективности и другие общие параметры.

Мы установили, что дескрипторные информационно-поисковые системы открыли принципиально новую возможность поиска необходимых документов и содержащейся в них информации по любому сочетанию заранее не предвиденных признаков. Однако за реализацию этой возможности приходится платить не только интеллектуальными потерями, но и материальными ресурсами. Эти системы приходится ориентировать на дорогостоящие компьютеры и программы, что предполагает более трудоемкий ввод информации и более строгие ограничения на число одновременных пользователей. Вполне естественно в такой ситуации попытаться сочетать уже имеющиеся поисковые средства со вновь создаваемыми. Отсюда вытекает и желание найти общие черты в этих разных системах и лежащих в их основе ИПЯ: языке предметных рубрик и дескрипторном языке, что обычно сочетается с поисками путей их совместимости.

Всегда можно найти такую удаленную позицию, такое основание деления, при которых эти языки попадут в один общий класс. В ряду искусственных языков они принадлежат к классу информационных, в ряду информационных - к подклассу информационно-поисковых. В них используются в качестве индексов слова естественного языка. При построениии этих языков применяются внешне схожие приемы: перечень предметных заголовков и словарная часть тезауруса упорядочиваются в алфавите слов. Тем не менее, учитывая эти общие и сходные черты, нельзя забывать и о принципиальных различиях данных языков. Основной словарный состав языка предметных рубрик это имена сложных классов, построенных до индексирования документов, поскольку этот язык принадлежит к типу предкоординируемых. Дескрипторный же язык является посткоординируемым, т. е. строится из имен простых классов, которые образуют необходимые понятия при их пересечении (логическом умножении) в момент индексирования и/или поиска документов.

...

Подобные документы

  • Оценка качества поисковых систем. Индексирование по ключевым словам. Внутренние представления запросов и документов на информационно-поисковом языке. Способы улучшения поиска при помощи тезаурусов и онтологий. Ранжированный поиск (vector-space model).

    лекция [31,5 K], добавлен 19.10.2013

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.

    презентация [59,2 K], добавлен 14.10.2013

  • Информационный поиск: векторная модель (vector-space model). Ранжирование документов по мере их соответствия запросу. Традиционные методы оценки эффективности поиска. Концептуальное индексирование. Разрешение многозначности. Board: значения и иерархия.

    презентация [95,2 K], добавлен 01.09.2013

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Удовлетворение информационной потребности как цель поиска информации. Виды информационных ресурсов. Понятие документа в информационном поиске. Схема информационного поиска, этапы его представления. Характеристика качества поиска, его базовые положения.

    презентация [1,2 M], добавлен 06.01.2014

  • Информационно-поисковый тезаурус, его определение и цель разработки. Организация быстрого и эффективного поиска документальной информации. Использование, структура, построение, сфера применения и перспективы развития информационно-поисковых тезаурусов.

    контрольная работа [17,6 K], добавлен 01.08.2009

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

    курсовая работа [4,0 M], добавлен 10.05.2015

  • Информационная революция, которую сейчас переживает общество. Проведение структурного анализа документов. Поиск аналоговой информации в системных областях. Поиск информации через сеть интернет. Виды поисковых ресурсов: каталоги и поисковые роботы.

    курсовая работа [58,6 K], добавлен 16.12.2012

  • Виды документальных информационных систем. Системы на основе индексирования и семантически-навигационные системы документационного обеспечения управленческой деятельности. Элементы информационно-поискового языка. Координатное индексирование текста.

    презентация [56,5 K], добавлен 14.10.2013

  • Рост количества информации в мире, его увеличение в сети Интернет в геометрической прогрессии. Количество сайтов, зарегистрированных в поисковой системе Яндекс. Особенности эффективного поиска информации в сети Интернет. Схема информационных потоков.

    презентация [52,6 K], добавлен 27.08.2013

  • Интернет и его возможности. Распространенный и недорогой способ подключения к интернет. Схема передачи информации по протоколу TCP/IP. Характеристики адресов разного класса. Поисковые системы, способы поиска и скачивания информации в глобальной сети.

    курсовая работа [245,6 K], добавлен 25.09.2013

  • Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.

    презентация [1,9 M], добавлен 15.09.2011

  • Разработка web-приложения для оперирования данными с помощью базы данных и web-браузера в качестве клиента пользователя. Основные преимущества языка программирования Java. Осуществление редактирования, добавления информации и поиска по архивам данных.

    дипломная работа [2,1 M], добавлен 30.09.2016

  • Возможности программы DBDesigner. Проектирование и реализация информационно-поисковой системы с помощью CASE-средства DBDesigner в среде Intranet. Этапы проектирования базы данных, установление соединения с базой данных на сервере, синхронизация.

    лабораторная работа [1,5 M], добавлен 18.08.2009

  • Приемы поиска информации в Интернете. Поиск по известному адресу, конструирование адреса пользователем. Специальные информационно-поисковые системы: классификационные (рубрикаторы) и словарные. Поиск информационных ресурсов по различным направлениям.

    реферат [27,1 K], добавлен 03.04.2010

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

  • Обзор понятия и принципов функционирования электронной почты - средства обмена информацией, подготовленной в электронном виде, между людьми, имеющими доступ к компьютерной сети. Информационно-поисковые системы. Параметры эффективности поиска информации.

    презентация [677,8 K], добавлен 12.12.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.