Интегральная система информационного обеспечения научных исследований в области математических наук: концепция создания и перспективы развития

Классификация информационных ресурсов, баз и банков научных данных. Обоснование и создание интегрального проблемно-ориентированного информационного поля и системы взаимодействия пользователей с этим полем на примере математических и других точных наук.

Рубрика Программирование, компьютеры и кибернетика
Вид автореферат
Язык русский
Дата добавления 16.02.2018
Размер файла 1,2 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Имея с УДК общее происхождение и единую систему основных классов, ДКД ограничивается сравнительно неглубоким их членением и не предлагает широкого комбинирования кодов классов при индексировании. Все это упрощает пользование классификацией и повышает однозначность индексирования элементов знания. К сожалению, ДКД совсем не применялась в России, и ее использование с учетом специфики потребностей нашей страны невозможно в силу закрытости системы ведения ДКД.

Классификация Библиотеки конгресса США.

Наряду с ДКД в США и некоторых других странах пользуется популярностью другая национальная классификация США - Классификация Библиотеки конгресса (КБК). Эта система ориентирована исключительно на отражение фонда именно Библиотеки конгресса США и характеризуется принципиальной консервативностью структуры, связанной с естественной консервативностью исторически накапливаемого библиотечного фонда. Консервативность классификации приводит во многих случаях к произвольным классификационным решениям и затрудняет поиск в системе информации по актуальным научным проблемам. Нет оснований рассматривать КБК в качестве перспективной классификации для использования в России.

Классификация Ранганатана.

Современная теория библиотечных классификаций была заложена индийским математиком Ш. Ранганатаном, который разработал универсальную фасетную систему классифицирования “Классификация с двоеточием” (1933 г.). В настоящее время “Классификация с двоеточием” Ранганатана (КДР) представляет собой развитую, методически выдержанную систему универсального охвата, способную удовлетворить потребности тематической систематизации источников знания, в частности - информационных ресурсов по точным наукам. Таблицы КДР были изданы на разных языках, включая русский. Однако в России эта классификация не применяется. В других странах (главным образом в Индии) она применяется также в незначительном числе организаций.

Классификация Блисса.

У теоретиков классификации знаний большим авторитетом пользуется также классификация, разработка которой начата библиографом Блиссом. В настоящее время Библиотечная классификация Блисса (БКБ) разрабатывается группой исследователей, которые на единых методических основаниях развивают различные области знания. К сожалению, до сих пор не изданы полные таблицы БКБ и нет опыта ее практического использования.

Классификация Индекса научного цитирования.

Среди мировых классификаций знаний следует также упомянуть системы, разработанные не для целей информационного обслуживания, а для наукометрических и издательских целей. Большую популярность имеет классификация, применяемая в американском Институте научной информации (ISI, Филадельфия, Пенсильвания) на основе анализа базы данных о цитировании публикаций 65 стран. Классификация Института научной информации (КИНИ) представляет собой не столько классификацию знаний, сколько систему упорядочения данных о науковедческих исследованиях. Она включает всего 140 классов в естественно-технической и 70 классов в общественной области знания. Эти классы образуют неглубокую иерархическую структуру с 2-3 уровнями подклассов. Каждый из классов соответствует довольно обширной научной сфере, внутри которой могут сочетаться вопросы точных наук с аспектами эмпирического и умозрительного знания. Таким образом, описание тематики информационного ресурса по КИНИ может использоваться для тематически широкого обзора фонда информации.

Классификация Организации экономического содействия и развития.

Наукометрическая классификация Организации экономического содействия и развития (ОЭСР) выделяет 6 основных полей исследований. Ныне действующий вариант классификации делит эти поля на 20 рубрик второго (нижнего) уровня, среди которых только три рубрики отражают проблемы фундаментальных наук:

1.1 Математика и компьютерные науки - Mathematics and computer sciences

1.2 Физические науки - Physical sciences.

Для повышения значимости данная классификация должна быть углублена еще на один уровень. Для математических наук такими рубриками третьего уровня могут быть следующие:

1.1 Математика и компьютерные науки - Mathematics and computer sciences

1.1.1 Чистая и прикладная математика

1.1.2 Статистика и теория вероятностей

1.1.3 Компьютерные и информационные науки.

Классификация информационных ресурсов, баз и банков научных данных.

В последнее время все большее значение приобретают классификационные системы, используемые электронными источниками научных знаний. Некоторые из них используют библиотечные классификации. Так, в мировой сети библиотек OCLC, в рамках которой предоставляется доступ к участвующим в сети банкам данных библиотек, используются национальные американские классификации - Классификация Библиотеки конгресса и Десятичная классификация Дьюи, поскольку эта сеть развилась на основе корпоративного объединения библиотек США. Другие базы научных текстов разрабатывают новые собственные классификации, приспособленные к задачам именно данной системы, лишенные бремени докомпьютерной традиции и лучше отражающие состояние современного знания. К числу таких классификаций относится Государственный рубрикатор научно-технической информации, о котором пойдет речь ниже. Другие примеры включают рубрикации национальных систем научно-технической информации Pascal, JICST и INSPEC, которые являются ведущими реферативными источниками в области точных, естественных и технических наук. Третий вид научных баз данных, возникших на основе хранения текстов журнальных публикаций в электронном виде, использует для систематизации данных рубрикации исходных научных журналов. Таким примером является классификация Американского математического общества (American Mathematics.Subject Classification - AMSC). Каталог математических ресурсов, доступных через Интернет, создан в нашей стране в виде веб-портала Mathtree под руководством академика Ю. П. Ершова. Упорядочение ресурсов по тематике также ведется в этом каталоге согласно AMSC.

Особенности этих классификаций описываются в следующих разделах.

Рубрикации национальных информационных ресурсов.

Рубрикатор системы PASCAL.

Система PASCAL (Programme Applique a la Selection et a la Compilation Automatiques de la Litterature) создана в Центре научной и технической информации Национального центра научных исследований Франции для подготовки РЖ “Bulletin signaletique” и создания БД на его основе. В БД преимущественно отражаются: европейская литература (около 60%) по математике; физике; химии; технологии в различных областях науки и техники; наукам о Земле, включая геофизику и астрономию; наукам о живом и медицине, включая биологические аспекты психологии.

Классификационная схема БД PASCAL представляет собой иерархическую предметную классификацию, в которой систематизированы главным образом два направления:

точные науки и технология, имеющие код первого уровня - 001;

биология и медицина, имеющие код первого уровня - 002.

Наполнение рубрик классов 001 и 002 примерно одинаково. Из класса 001 половина занята математикой, информатикой и физикой. С учетом высокотехнологичной техники точные знания занимают примерно треть классификации. Математический раздел содержит 112 рубрик.

Нотация кодов буквенно-цифровая: NNN.A.NN.A.NN.A…, где N - цифра, A - буква. В классификационной схеме БД PASCAL ряд кодов имеют отсылки к другим кодам используемой системы классификации, что значительно увеличивает полноту информации и раскрывает междисциплинарный характер отдельных тематических направлений. Классификатор предоставляется в свободном доступе через Интернет.

Рубрикатор системы JICST.

Информационный центр по науке и технике Японии (Japan Information Center for Science and Technology - JICST) начал издание РЖ в 1957 г., а с 1985 г. генерируется политематическая БД по естественным наукам, технике и медицине. Часть этой БД JICST-Eplus (по научно-технической литературе Японии) на японском языке предоставляется пользователям в переводе на английский язык через STN International. Индексирование отраженных в БД публикаций проводится одновременно по двум классификационным схемам: по УДК и по национальному иерархическому классификатору.

Рубрикатор JICST имеет шестиуровневый буквенно-цифровой код: A1A2N1N2N3N4N5A3, где A - буква, N - цифра. 24 класса первого уровня JICST определяют ее тематическую направленность: физика; ядерная техника и технология; химия, химическая технология и химическая промышленность; биология, сельское хозяйство и медицина; науки о Земле и космосе; материаловедение; металлургия; машиностроение, электронная и электротехническая промышленность; строительство; приборы и методы измерения, техника связи и вычислительная техника; экономика промышленности.

Рубрикатор системы INSPEC.

БД и РЖ INSPEC (Information Service for Physics, Electronics and Computing) содержат информацию о публикациях в области физики, электроники, электротехники, вычислительной техники, информационным технологиям и некоторым разделам машиностроения. Основатели - Институт инженеров-электриков (Institute of Electrical Engineers) и Физическое общество в Лондоне (The Physical Society). INSPEC состоит из четырех РЖ: Physics Abstracts, Electrical Engineering and Electronics Abstracts, Computer and Control Abstracts и Automation Abstracts. Систематический иерархический рубрикатор БД INSPEC включает четыре раздела: A - Физика, B - Электротехника и электроника, C - Компьютеры и автоматика, D - Информатика и E - Технология и оборудование. Каждый раздел при необходимости развивается на глубину до 6 уровней, включая первый уровень, совпадающий с индексом раздела. Нотация кодов буквенно-цифровая: A.NNNN.A, где N - цифра, A - буква. Рубрикатор содержит алфавитно-предметный указатель. Рубрикационная схема периодически актуализируется, достаточно быстро отражая новые научные направления и изменяющиеся интересы потребителей. В качестве примера можно привести введение в рубрикатор уже в 1992 г. разделов по нанотехнологии, включая тематическое направление, связанное с фуллеренами, открытыми в 1990 г., и введение с 2004 г. 120 новых кодов для систематизации информации в новом разделе INSPEC-E.

Несмотря на то, что в рубрикаторе INSPEC отсутствует специальный раздел, по «чистой математике», из общего числа рубрик около 80% посвящено проблемам точных наук.

Классификация американского математического общества.

AMSC (American Mathematical Subject Classification; ныне действует версия 2000 г.) представляет собой трехуровневую буквенно-цифровую иерархию. Общий вид кода рубрики - FFLTT, где FF - двузначный цифровой номер рубрики первого уровня, L - латинская буква, обозначающая рубрику второго уровня, TT - двузначный цифровой номер рубрики третьего уровня. На первом уровне выделено 63 класса, расположенных примерно в логическом порядке от фундаментальных математических дисциплин (математическая логика и основания математики) до статистики, вычислительных методов, приложений и преподавания математики. Всего рубрикатор содержит около 5800 рубрик, что делает его самой подробной международной классификацией в области математики (против 2200 рубрик в Рубрикаторе ВИНИТИ, 1500 классов в УДК, 180 в ГРНТИ или 120 в PASCAL). На этой основе AMSC может использоваться как эталон для сопоставления содержания рубрик других рубрикаторов. Однако здесь отсутствуют рубрики других точных наук, которые представлены только применяемыми там математическими методами.

Национальные российские классификаторы информации.

Российская Библиотечно-библиографическая классификация.

В отечественной практике наряду с УДК применяется и другая универсальная система индексирования - «большая» Библиотечно-библиографическая классификация (ББК). Эта система во многом подобна УДК с ее достоинствами и недостатками. Она также охватывает весь универсум знания, допускает комбинирование классов при индексировании и имеет глубокую иерархию классов. Техническим недостатком ББК является то, что она известна в трех независимых модификациях: в виде полного издания для научных библиотек, вышедшего в 60-х годах, сравнительно недавно вышедшего краткого варианта для массовых библиотек и среднего издания в 8 томах, три выпуска которого вышли к настоящему времени. Выпущено также руководство по применению классификации.

ББК применяется в РГБ и, главным образом, в системе массовых библиотек, но почти не известна в области информации о точных науках. К достоинствам ББК следует отнести факт ее принятия как основного классификационного средства в электронной библиотеке РГБ «ОРЕЛ».

Государственный рубрикатор НТИ (ГРНТИ).

В соответствии с целью своего создания ГРНТИ, являясь универсальной иерархической классификацией областей знания, предназначен для описания тематики информационных потоков и массивов в различных процессах научно-информационной деятельности при решении следующих задач:

определение тематического охвата информационных служб, систем, баз и банков данных;

формирование информационных массивов с целью информационного обмена;

систематизация материала в информационных изданиях;

тематическое индексирование и поиск документов в фондах;

адресация запросов в информационных сетях.

Совместимость с другими классификационными системами обеспечивается разработкой перекодировочных таблиц, которые позволяют совместить использование нескольких классификаций для сходных целей. Большое значение имеет наличие таблицы соответствия рубрик ГРНТИ классам УДК. Это позволяет осуществить связь массивов, проиндексированных по ГРНТИ, с мировым фондом информации. Разрабатывались также перекодировочные таблицы между ГРНТИ и Международной патентной классификацией. Методика таких разработок проверена и может быть использована на новом этапе развития.

Особенностями ГРНТИ как классификационной системы являются: универсальный охват научных и технических знаний, сравнительно неглубокая иерархия (3 уровня), децимальный принцип деления классов (позволяющий иметь в сети классов резервные места для развития системы), согласованность структуры классов со структурой управления народным хозяйством и системой образования. Применение Рубрикатора ГАСНТИ было нормировано рядом документов и государственным стандартом ГОСТ 7.49-84 . В настоящее время идет работа над национальной российской версией стандарта (ГОСТ Р 7.0.49), который поддерживает состав ГРНТИ в соответствии с современной практикой. Для развития структуры ГРНТИ отраслевые информационные органы, а также заинтересованные предприятия и организации разрабатывают на более глубоких уровнях локальные рубрикаторы по отдельным отраслям и проблемам; в государственном реестре зарегистрировано свыше 200 локальных рубрикаторов. Только в ВИНИТИ используются 25 локальных рубрикаторов по естественным, техническим и экономическим отраслям знания, имеющих глубину до 9 уровня. Рубрикаторы ВИНИТИ в настоящее время стали фактически общим стандартом для поиска в базах данных (раздел 27 - Математика, раздел 28 - Кибернетика, раздел 30 - Механика и т.д.).

Основа точных наук - математика - представлена в ГРНТИ 150 рубриками. Существенным моментом здесь является то, что в этом разделе достигнуто полное соответствие структуры ГРНТИ и УДК: классы этих систем на определенном уровне совпадают по номенклатуре, наименованиям и содержанию. Это соответствие открывает возможность прямого включения отечественной информации по математике, систематизированной по ГРНТИ, в мировое научное информационное пространство.

Классификационная система ВИНИТИ.

В настоящее время роль ВИНИТИ в лингвистическом обеспечении индексирования и поиска научно-технической информации характеризуется сосредоточением здесь управляющих функций относительно основных средств тематической классификации и информационного поиска, применяемых в нашей стране для межсистемного и международного обмена сведениями о научных разработках и технологических решениях.

С 2000 г. ВИНИТИ является членом международного Консорциума УДК и входит в управляющий совет этой организации, которая теперь обладает авторскими правами и несет интеллектуальную ответственность за развитие и использование Универсальной десятичной классификации. ВИНИТИ имеет исключительное правом формировать официальный текст таблиц УДК на русском языке и распространять их потребителям независимо от государственной принадлежности.

После того как большинство отраслевых центров НТИ прекратили свою деятельность, локальный Рубрикатор ВИНИТИ стал фактически межотраслевым стандартом, поскольку на него ориентируются многочисленные пользователи информационных услуг ВИНИТИ из всех областей науки, отраслей экономики, сфер образования и т.п.

Рубрикатор ВИНИТИ.

В настоящее время информационная продукция ВИНИТИ систематизируется с помощью Рубрикатора ВИНИТИ (РВИНИТИ), в развитии которого автор принимала и принимает активное участие. Он представляет собой совокупность 30 отдельных рубрикаторов отраслей знания (РОЗ). Каждый из РОЗ является выборкой рубрик Государственного рубрикатора НТИ (ГРНТИ) с их дальнейшим развитием (в случаях необходимости) на глубину до 9-го уровня.

Классификация знаний должна прямо отражаться в классификациях программ преподавания этих знаний. На высшем уровне образовательного процесса находится Номенклатура специальностей ученых Высшей аттестационной комиссии (НВАК). Фактически эта номенклатура содержит две сопряженных классификации наук. В основе лежит дисциплинарная классификация наук по их предметному содержанию, объекту изучения и преподавания. Эта классификация нормативно закреплена Общесоюзным классификатором специальностей высшей научной квалификации (ОКСВНК), который представляет собой трехуровневую иерархическую классификационную систему с децимальным принципом деления классов наподобие ГРНТИ.

Как уже отмечалось, разработаны сопоставительные таблицы НВАК и ГРНТИ , позволяющие соотнести специализацию ученых с системой научно-технической информации и облегчающие подбор как научных данных для подготовки специалистов высшего уровня, так и подбор специалистов соответствующей квалификации для решения проблем, возникающих в конкретных сферах знания. Через ГРНТИ, связанный с международной классификаций знаний УДК, номенклатура ВАК сопрягается со всемирным репертуаром научных сведений. ОКСВНК включает перекодировочную таблицу от специальностей российских ученых к Международной стандартной системе классификации образования (МСКО). Разработка аналогичных сопоставительных таблиц для номенклатур направлений и специальностей образования вузовского и среднего уровня позволит включить все классы образовательных специальностей в единую систему упорядоченного знания на основе ГРНТИ. Сравнительную характеристику некоторых описанных выше классификационных систем можно наглядно представить в виде Таблицы 1.

Таблица 1. Сравнительная характеристика классификационных систем

Характеристический признак

Системы классификации знания

УДК

ДКД

ББК

ГРНТИ

КДР

БКБ

КИНИ

ОСЭР

НВАК

КБК

Универсальность охвата знаний

+

+

+

+

+

-

+

+

+

+

Сфера применения в России

НТБ

-

Массовые библиотеки, РГБ

АСНТИ

-

-

Науко- Метрия

Экономика

ВАК

-

Простота и однозначность

-

+

-

+

-

-

+

+

+

-

Возможность корректировки

+

-

+

+

-

-

-

-

+

-

Достаточность детализации

+

-

+

-

+

+

-

-

-

+

Возможность дальнейшей детализации

+

-

+

+

-

-

-

-

-

-

Территория распространения

Везде

США

Россия

СНГ

-

-

Везде

Везде

Россия

США

Сопоставима с...

ДКД, ГРНТИ, НВАК

УДК

-

УДК,НВАК

-

-

-

-

ГРНТИ

-

Примечание: УДК - Универсальная десятичная классификация, ДКД - Десятичная классификация Дьюи, ББК - российская Библиотечно-библиографическая классификация, ГРНТИ - Государственный рубрикатор научно-технической информации, КДР - «Классификация с двоеточием» Ш. Ранганатана, БКБ - Библиотечная классификация Блисса, КИНИ - классификация Института научной информации (США), ОСЭР - классификация Организации социально-экономического развития (OECD), НВАК - номенклатура специальностей ученых (ВАК), КБК - Классификация Библиотеки Конгресса США

Краткая характеристика классификационных систем и схем свидетельствует об огромных масштабах информационного поля, в котором осуществляется поиск необходимых для пользователя данных. Основная идея автора заключается не в том, чтобы построить единую классификационную систему знаний, а в том, чтобы определить пути возможного сопряжения разделов действующих классификаций разного уровня. Для этого необходимы максимальная гармонизация применяемых терминов, использование и развитие действующих поисковых механизмов: тезаурусов, терминологических словарей, предметных указателей, сопоставительных таблиц, дескрипторных списков, метаданных, идентификационных кодов и поисковых образов. В разных классификационных системах эти механизмы разработаны с неодинаковой степенью детализации.

В третьей главе рассматриваются основы построения и функционирования информационной системы ВИНИТИ. В понимании автора под такой системой следует подразумевать всю совокупность информационных ресурсов в традиционном (печатном) и электронном виде и механизмы управления ими в целях эффективного сопровождения научных исследований. Значительная часть работы посвящена политематическому банку данных ВИНИТИ (БнД ВИНИТИ), состояние и перспективы развития которого подробно рассмотрены в [10].

Важными составляющими элементами информационной системы ВИНИТИ являются традиционные (печатные) и электронные архивы первоисточников, их рефераты, а также процедуры информационного обмена с отечественными и зарубежными пользователями. Политематический БнД ВИНИТИ создавался в течение длительного времени (более 25 лет) и сегодня является одним из крупнейших в мире политематическим (преимущественно реферативным) банком данных, содержащим около 30 млн. документов. Характерной его особенностью является постоянное совершенствование механизмов функционирования. Банк данных ВИНИТИ включает двадцать девять тематических фрагментов (баз данных) по различным областям знаний.

Ниже приводятся сведения об использовании в политематичеcком банке данных ВИНИТИ информационных ресурсов тематического фрагмента «Математика» в тематических фрагментах других точных наук (рис. 1).

Рис.1. Использование в политематическом банке данных ВИНИТИ информационных ресурсов тематического фрагмента «Математика» в тематических фрагментах других точных наук

Самое общее представление об информационных потоках и информационных ресурсах ВИНИТИ дает рис. 2.

Рис. 2. Информационные потоки и ресурсы ВИНИТИ

Современная структура БнД ВИНИТИ представляет собой совокупность нескольких подсистем, функционирующих на различных программно-аппаратных платформах. Среди основных подсистем следует выделить следующие: ведение архива БД, ведение банка данных, обеспеченияе онлайн доступа, административного контроля и управления.

Подсистема ведения архива предназначена для обеспечения хранения исходных массивов и функционирует на базе специально разработанного комплекса программ (СПД), позволяющего реализовать задачи преобразования форматов данных (физических и логических), редактирование заданных элементов данных, перекодирование, реструктуризацию тематического состава БД. Обобщенная архитектура СПД приведена на рис. 3.

Рис.3. Обобщенная архитектура системы преобразования данных

Подсистема ведения банка данных функционирует на основе программных комплексов СПД и «Сокол» (разработка ВИНИТИ) и СУБД «My SQL». Комплекс «Сокол» обеспечивает загрузку БД в ИПС: формирование структур данных, необходимых для работы ИПС (словаря, хит-листов, массивов документов), поиск по запросам, позволяющий использовать более двадцати признаков, входящих в описание документа (автор, заглавие, источник, ключевые слова и словосочетания, реферат, рубрики, страна, год, язык издания и т.д.), поиск по словарю, выполняющему функцию многоаспектного указателя (авторского, предметного, источников, индексов международной патентной классификации, номеров патентных документов, депонированных рукописей и т.д.), использование словаря при построении и корректировке запросов, сохранение запросов с последующим многократным использованием их для поиска, экспорт результатов поиска в файлы различных форматов. Программный комплекс «Сокол» имеет развитую систему помощи пользователю, включающую информацию о тематическом составе информационных ресурсов ВИНИТИ, режимах работы с пошаговыми инструкциями и рекомендации по обработке найденных документов. Общая архитектура комплекса «Сокол» представлена на рис. 4.

Рис. 4. Обобщенная архитектура ИПС «Сокол»

Подсистема административного контроля и управления обеспечивает ведение учета данных о пользователях, автоматическую регистрацию действий пользователей (биллинг), установку лимитов на использование видов и объемов информации БнД и генерацию отчетов о работе. БнД.

Подсистема on-line доступа входит в распределенную систему локальной вычислительной сети (ЛВС) ВИНИТИ и интегрирована с мировой информационной инфраструктурой. Наиболее важные структурные части БнД реализованы на базе хост-ЭВМ SUN, а остальные распределены по сети для обеспечения эффективности реализации различных функций БнД .

При разработке системы такого рода, как БнД ВИНИТИ, было необходимо предусмотреть ряд характеристик, обеспечивающих жизнеспособность и эффективность системы, в т.ч.:

расширяемость, т.е. возможность переноса как системы, так и данных на другие программно-аппаратные платформы без сколько-нибудь существенных затрат на перенос данных;

возможность настройки на работу с различными формами мульти-и гипермедиа данных;

эффективная работа в гетерогенных средах;

обеспечение работы с самыми современными средствами универсального доступа к данным, как WWW-броузеры, CASE-средства разработки и т.п.;

наращиваемость, т.е. возможность расширять объемы доступных данных без уменьшения пропускной способности системы.

Для достижения этих характеристик была принята стратегия, смысл которой заключается в развитии системы по нескольким направлениям.

Основное направление - это создание распределенной системы обработки баз данных, их хранения и доступа в гетерогенной сетевой среде. В этой системе предусмотрено разделение ее функций по различным вычислительным комплексам, объединенным в единую многопротокольную сеть. Разделение функций диктуется неоднородностью как данных, так и способов доступа к ним, поскольку эффективность обработки различных типов гипермедиа сильно зависит от того, в какой вычислительной среде идет работа с ними. Скажем, стоимость и эффективность работы с графическими данными невысокой сложности (а именно такими являются большинство рисунков в базах данных) оптимальна в среде Windows NT. В то же время при работе с потоковыми аудио- и видеоданными большую эффективность показывают вычислительные комплексы, построенные на базе ОС UNIX. После разделения функций следующим шагом являлось построение схемы единообразного доступа к данным. В настоящее время (и, вероятно, в ближайшие несколько лет) в качестве общепризнанной схемы такого доступа будут Internet- и Intranet-технологии, поскольку именно они обладают достаточным запасом расширяемости форматов и слабо зависят от вычислительных платформ. Сейчас все реальные вызовы данных, адресованные главному WWW-серверу ВИНИТИ, переадресуются через специальные программные фильтры на несколько серверов мощных вычислительных комплексов. Это сделано как для равномерного распределения нагрузки, так и для обеспечения эффективности доступа к различным типам данных.

При этом базовые программные средства легко переносятся с Unix-ориентированных ЭВМ на мощные NT-серверы. К числу этих средств относятся комплексы СПД и «Сокол», НТТР-серверы и СУБД «MySQL».

Информационные ресурсы БнД ВИНИТИ формируются за счет базы данных ВИНИТИ, одним из тематических фрагментов которой и является создаваемая БД «Математика».

Каждый тематический фрагмент БД обновляется ежемесячно за счет новых поступлений литературы. В состав обрабатываемой в ВИНИТИ литературы входят статьи из сериальных изданий (они составляют для различных выпусков от 46% до 91%) и изданий книжного типа (от 3% до 27%); описания изобретений к авторским свидетельствам (45-90%), заявкам и патентам (от 0% до 36%); депонированные работы (от 0% до 1%); диссертации (от 0,2% до 0,6%) и др. Усредненные данные для всей БД ВИНИТИ и БД «Математика» за 2006 г. приведены в таблице 2.

Таблица 2

Виды документов в БД ВИНИТИ и БД «Математика» (2006 г.)

Виды документов

Количество документов в БД ВИНИТИ

Количество документов в БД «Математика»

Статьи в сериальных изданиях

490955

(76.9%)

19418

(78.3%)

Статьи в книгах, сборниках

61673

(9.7%)

4192

(16.9%)

Книги, сборники

11524

(1.8%)

691

(2.8%)

Диссертационные работы (диссертации, авторефераты)

12207

(1.9%)

372

(1.5%)

Депонированные научные работы (монографии, сборники)

1393

(0.2%)

129

(0.5%)

Нормативные документы

382

(0.06%)

1

Отдельные выпуски журналов

120

-

Статьи в сборниках депонированных научных работ

108

(0.02%)

1

Проспекты

12

1

Картографические издания

4

-

Суммарный поток документов

638560

24805

По основным языкам отражаемых первоисточников документы в различных выпусках БД распределяются следующим образом: английский язык: до 80%, русский язык: до 70%, немецкий язык: до 35%, китайский язык: до 16%, французский язык: до 5%, японский язык: до 2%.

Специфика РЖ «Математика» не позволяла создавать БД в используемых на начальном этапе генерации форматах СДФ и МЕКОФ из-за необходимости приведения в рефератах (а иногда и в заглавиях) сложных математических формул, описание которых в указанных форматах не было предусмотрено. РЖ «Математика» набирался на линотипах и печатался, соответственно, по технологии высокой печати. Только в конце 1994 г. набор РЖ «Математика» начал осуществляться на ПК с использованием русифицированного издательского пакета LaTeX, а тиражирование - способом офсетной печати.

Кроме того, уже в 2001 г. стало ясно, что формирование БД «Математика» должно определяться новыми направлениями развития информационной системы ВИНИТИ (новыми представлениями об информационных ресурсах БД, выходами на различные классификационные системы, широкое использование данных из смежных областей знаний и др.). Таким образом встала задача создания более качественной БД, результаты чего послужат импульсом для качественного изменения других баз данных.

Благодаря выполненным в 2001-2003 гг. работам по приведению выпусков БД «Математика» в соответствие с требованиями НТП 10 «Представление элементов данных во внутрисистемном формате ВИНИТИ» была обеспечена возможность генерации текущих математических выпусков БД и создана их ретроспектива с 1997 г. Тематический фрагмент БД, соответствующий 93-му отдельному выпуску РЖ «Вычислительные науки», генерировался в формате ISO по общим правилам. Тематический фрагмент «Математика», включающий все выпуски сводного тома РЖ «Математика», генерировался в формате ISO с элементами TeX.

Для обеспечения возможности представления сложносимвольных данных в режиме он-лайн потребовалось внесение значительных изменений в комплексы СПД и «Сокол». В результате тематический фрагмент «Математика» стал доступен в режиме он-лайн, позволяя использовать как обычный браузер, так и Тех-Explorer.

Автор полагает, что развивающаяся навигационная система должна опираться прежде всего на идеологию сочетания научных и технологических элементов различных классификационных систем и схем, применяемых в России и за рубежом.

В нашем представлении этому положению удовлетворяют международная система УДК и национальные системы сопряженных с ней рубрикаторов по конкретным областям знаний. Работы в этом направлении ведутся ВИНИТИ в рамках государственных и отраслевых программ «Электронная Россия» и «Разработка фундаментальных основ создания научной распределенной информационно-вычислительной среды». Автор принимала участие в соответствующих фрагментах этих исследований совместно с учеными Отделения математических наук РАН (ОМН РАН) и Отделения информационных технологий и вычислительных систем РАН (ОИТВС РАН).

Опираясь на анализ состояния и перспектив развития информационной системы ВИНИТИ, автор предлагает пути решения конкретных задач на примере создания и развития БД ВИНИТИ «Математика».

В четвертой главе рассматриваются вопросы создания и развития многофункциональной информационной системы «Математика» в составе политематического БнД ВИНИТИ. К основным концептуальным положениям, развиваемым автором в данной работе, относится необходимость создания интегральных информационных полей в области математики и других точных наук.

Как отмечалось выше, цель работы заключается в теоретическом обосновании и создании практических механизмов формирования пользователями проблемно-ориентированных интегральных информационных полей, обеспечивающих переход на качественно новый, более высокий уровень информационного сопровождения научных исследований. Для этого в диссертационной работе решаются следующие проблемы:

- расширение зоны поиска релевантной информации и одновременно с этим существенное сокращение излишней информации, что ведет в итоге к ускорению темпов научных исследований;

- разработка интегральной классификационной системы (рубрикатора), обеспечивающей единообразие толкования научных понятий и терминов и позволяющей вести поиск необходимой информации в отечественных и зарубежных источниках;

- разработка механизмов, обеспечивающих быстрый и точный адресный поиск релевантной информации.

Решение поставленных задач в основном определяет подходы к предлагаемой автором системы навигации. Перечисленные выше задачи предлагается решить на примере БД «Математика». Конкретные шаги в этом направлении связаны с созданием перспективной архитектуры, развитием классификационной системы и, в первую очередь, рубрикатора по математическим наукам и специальных механизмов для повышения адресности поиска и упорядочения информационных полей. Эти поля могут формироваться под конкретные задачи отдельного пользователя, проекта, программы научных исследований и разработок.

Следует отметить, что важнейшим информационным ресурсом БД «Математика» является реферативный журнал (РЖ) «Математика», который в течение многих лет создавался и продолжает создаваться трудами сотен ученых и специалистов, в том числе математиками школ МГУ им. М.В. Ломоносова, МИАН им. В.А. Стеклова, МФТИ, математических институтов РАН и других. Среди ученых, координировавших работу по изданию РЖ «Математика», нельзя не отметить вклад академиков Никольского С.М., Гамкрелидзе Р.В., Журавлева Ю.И., членов-корреспондентов Жижченко А.Б., Кудрявцева Л.Д. и др., профессоров Голода Е.С., Остиану Н.М., Михалева А.В. и многих других.

Для научного обоснования архитектуры БД «Математика», лежащей в основе создаваемой информационной системы «Математика», автором был выполнен анализ структур соответствующих баз данных в России и за рубежом и имеющихся в распоряжении ВИНИТИ тысяч запросов со стороны пользователей РЖ и указанных баз данных. После проведения необходимых обобщений автором предложена новая архитектура БД «Математика». В основе ее построения лежит создание необходимых сегментов, обладающих вертикальной и горизонтальной зональностью (рис. 5).

Рис. 5. Обобщенная архитектура информационной системы ВИНИТИ «Математика»

Информационное наполнение сегмента «Документальные базы данных» составляет более двух миллионов документов. Этот сегмент пополняется систематически, и объем годового пополнения составляет более 35 тыс. документов. В данном сегменте завершается работа по созданию ретроспективного фонда начиная с 1996 г. Общий суммарный поток публикаций, отраженных в БД «Математика» и БД «Вычислительные науки», характеризуется данными таблицы 3.

Таблица 3. Общий суммарный поток публикаций, отраженный в БД “Математика” и “Вычислительные науки” за период 1997-2006 гг.

Наименование БД

1997г.

1998г.

1999г.

2000г.

2001г.

2002г.

2003г.

2004г.

2005г.

2006 г.

Математика

22810

22455

21277

22401

21870

23943

26584

27232

25641

24805

Вычислительные науки

7992

8151

8443

8475

8005

8402

8726

8723

8580

8427

Суммарный массив в БД “Математика” и “Вычислительные науки

30802

30606

29720

30876

29875

32345

35310

35955

34221

33232

В ВИНИТИ реферируется математическая литература, издающаяся в 64 странах мира на 36 языках. Наибольшее количество документов публикуется на английском языке - 59%, около 32% - на русском языке, около 5% - на китайском, 1,7% - на французском, остальные языки суммарно составляют менее 2,5%.

Одной из существенных задач разделения информационного потока по содержанию является дальнейшая детализация применяемого рубрикатора и других поисковых признаков. Классификационные схемы, загруженные в БД “Математика”, представлены Рубрикатором ВИНИТИ и связанным с ним регистром информационных продуктов, Государственным рубрикатором научно-технической информации России - ГРНТИ, таблицами УДК, перечнями номенклатуры научных специальностей ВАК, Приоритетными направлениями фундаментальных исследований РАН, Критическими технологиями для РФ.

Все классификационные системы сводятся в единую структуру, которая поддерживается СУБД “MySQL”. В 2004 г. совокупность классификационных схем была пополнена новым объектом - Mathematics Subject Classification, рубрики которого оснащены ссылками на классификационные схемы, используемые в ВИНИТИ.

В этом же году была проведена работа по формализации установления связей между вершинами дерева УДК с другими классификационными схемами. Полученные результаты по сопряжению отечественных и зарубежных классификационных систем могут быть использованы для работы пользователей с отечественными и зарубежными информационными центрами.

Одним из существенных вопросов сопоставления различных классификационных схем является неодинаковая глубина их разработки. Так, если ГРНТИ имеет 3 уровня подчинения, рубрикаторы ВИНИТИ - 4-6, а рубрикатор “Математика” - 5-7 уровней, то многие современные классификационные схемы развития фундаментальных и точных наук требуют глубину разработки - 8-10 уровней. Ниже приводится фрагмент установления связей между некоторыми разделами рубрикатора ВИНИТИ “Математика” (РБШ) и Mathematics Subject Classification (MSC).

1. Рубрики РБШ и MSC тождественны (271+.33 Интегральные уравнения - 45XX Integral equations).

2. Рубрики РБШ и MSC почти тождественны (непустое глубокое пересечение, рубрики пересекаются, но ни одна из них не содержит другую) (271.31.15 Общая теория дифференциальных уравнений с частными производными - 35Аxx + 35Bxx + 35Cxx + 35Dxx General theory + Qualitative properties of solutions + representation of solutions + Generalized solutions of partial differential equations).

3. По существу, рубрика РБШ шире рубрики MSC (271.39 Функциональный анализ - 46XX + 47XX + 43XX Functional analysis + Operator theory + Abstract harmonic analysis)

4. Рубрика РБШ шире рубрики MSC; рубрика MSC более детальна (271.37.17.15 Общая теория систем управления и управляемость (математическая теория) - 35Аxx + 93Bxx + 93Cxx + 93Dxx General + Controllability, observability, and system structure + Control systems, guided systems + Stability.

В таблице 4 приводится фрагмент интегрального рубрикатора “Математика” (раздел “Линейная алгебра”), объединяющего классификационные системы УДК, ГРНТИ, ВИНИТИ, НВАК и MSC.

Таблица 4. Фрагмент интегрального рубрикатора “Математика” (раздел “Линейная алгебра”)

Код номенклатуры специальностей научных работников (ВАК России)

Код и название рубрики ГРНТИ

Рубрикационные шифры и название рубрики (Рубрикатор ВИНИТИ)

Код и название рубрики универсальной десятичной классификации (УДК)

Приоритетное направление фундаментальных исследований РАН (ПНФИ РАН)

Английский перевод названия рубрики рубрикатора ВИНИТИ (РВИНИТИ)

Код рубрики MSC

Название рубрики MSC

01.01.06

Математическая логика, алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.249

Линейная алгебра

512.64

Линейная алгебра

Алгебра

Linear algebra

15-xx

Linear and multilinear algebra; matrix theory

01.01.06

Математическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.01

Общие вопрсы

512.64.0

Общие вопросы

Алгебра

General

problems

15-00,

15-01,

15-02,

15-03,

15-04,

15-06

General reference works,

Instructional exposition, Research exposition,

Historical,

Explicit machine computation and

programs,

Proceedings, conferences, collections, ets

01.01.06

Математическая логика, алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.05

Монографии

512.64-028.11

Монографии

Алгебра

Monographs

15-02

Research exposition (mono-graphs, survey articles)

01.01.06

Математическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.01.09 Вопросы истории линейной алгебры

512.64:94

Вопросы истории линейной алгебры

Алгебра

Historical questions

15-03

01-xx

Historical

History and biography

01.01.06

Математическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.01.11

Обзоры

512.64 (048.

8)

Обзоры

Алгебра

Survey

Articles

15-02

Research exposition (monographs, survey articles)

01.01.06

Математическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.01.13

Конференции по линейной алгебре

512.64:

061.3

Конферен-ции по линейной алгебре

Алгебра

Conferences

15-06

Proceedings, conferences, collections, ets

01.01.06

Математическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.

01.33

Учебная и методичес-кая литература по линейной алгебре

512.64(07)

Учебная и методичес-кая литература по линейной алгебре

Алгебра

Textbooks,

tutorial

papers

15-01

Instructional exposition (textbooks, tutorial papers,

etc.)

01.01.06

Математическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.17

Векторные (линейные пространс-тва)

512.642

Векторные (линейные пространс-тва)

Алгебра

Vector linear spaces

15A03

Vector spaces, linear dependence, rank

01.01.06

Математическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.17.17

Векторные прстранства над телами

512.642.2

Векторные прстранства над телами

Алгебра

Vector spaces over skew fields

15A03

Vector spaces, linear dependence, rank

01.01.06

Математическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.19

Теория матриц

512.643

Теория матриц

Алгебра

Theory of matrices

15-xx

Linear and multilinear algebra; matrix theory

01.01.06

Матемтическая логика,

алгебра и теория чисел

27.17.29

Линейная алгебра

271.17.29.19.02

Общие проблемы теории матриц

512.643.1

Общие проблемы теории матриц

Алгебра

General problems of matrices theory

15-xx

Linear and multilinear algebra; matrix theory

Современная версия рубрикатора БД “Математика” подготовлена под руководством автора в 2005-2007 гг. Полный текст некоторых его разделов приводится в приложении к основному тексту работы.

Получение пользователем большого объема информации требует приведения полученных данных в сопоставимый вид для формирования интегрального проблемно-ориентированного информационного поля. Решить эту часть проблемы автор предлагает методом комплексного использования систематического, лингвистического и методического обеспечения поисковых систем на примере БД “Математика”.

Современная система указателей в БД “Математика” включает: авторский, библиографический, предметный и систематический указатели, указатель материалов научных форумов, трудов научных учреждений, персоналий, сериальных изданий. Эта система указателей ежегодно развивается при непосредственном участии автора. Каждая из перечисленных систем имеет свою методологию формирования и развития. В целом основа их построения базируется на многолетнем опыте издания РЖ и формирования в ВИНИТИ политематического информационного фонда. Важнейшим методическим моментом является определение взаимосвязей различных указателей как между собой, так и с рубрикатором ВИНИТИ и УДК. В большинстве случаев это делается с помощью таблиц соответствий кодов?, индексов и ссылок. Основные задачи разработки системы указателей связаны с необходимостью их соответствия постоянному развитию математической науки и появлению новых направлений.

Особое значение приобретает использование системы указателей при истолковании запросов пользователей и поиске соответствующих ответов в системе информационных ресурсов. Для этих целей в информационной системе ВИНИТИ и, в частности, информационной системе “Математика”, создан программно-технологический комплекс, который определяет последовательность включения в поиск системы рубрикаций и указателей. Например, для соответствия разделов математических наук рубрикаторов ГРНТИ, ВИНИТИ и РФФИ могут возникать варианты: полное соответствие, частичный охват, включение, пересечение, изъятие, ограничение, приблизительное совпадение, сильное рассогласование, диапазон, сокращения, объединение, лакуны. Для каждого из указанных вариантов разработан порядок действий, определяющий вид дополнительной информации и ее источник. Для целей поиска этой информации существуют сопоставительные таблицы и дополнительные поисковые возможности системы указателей. В итоге поиск информации в БД “Математика” начинается с выбора одного из фрагментов и составления поискового предписания, для которых установлены определенные правила, после чего дается команда ввода. Специфика поиска заключается в том, что, как правило, терминология запроса не имеет узконаправленного характера и включает много междисциплинарных терминов, а полный ответ на запрос пользователя может потребовать поиска информации в базах данных других отраслей знаний. В целом такая навигационная система начала действовать и продолжает развиваться в информационной системе “Математика”.

Не останавливаясь на особенностях создания и развития системы перечисленных указателей, отметим существование в БД ”Математика” системы кумулятивных указателей (авторско-библиографический, систематическо-предметный) и указателя ошибочных построений (неточности, допущенные в ранее опубликованных работах). При этом виды исправлений маркируются специальными терминами.

Сегменты “Обслуживающие базы данных” и “Справочные базы данных” находятся в стадии разработки: определены источники поступления данных в эти сегменты и начата загрузка соответствующей информации.

На основе проведенных автором исследований и, в частности, предложенных путей развития навигационной системы стало возможным реализовать прямое сопоставление содержательной части математических рубрикаторов (классификационных “деревьев”) ВИНИТИ и “Mathematics Subject Classification”. На рис. 6 представлена структура классификационного «дерева» MSC, на рис. 7 - экранная форма для редактирования связей вершин в классификационном «дереве» MSC, на рис. 8 - экранная форма для установления связи рубрики MSC с рубриками классификационной схемы ВИНИТИ «Математика».

Рис. 6 Структура классификационного «дерева» MSC

Рис. 7. Экранная форма для редактирования связей вершин в «дереве» MSC

Рис. 8. Экранная форма для установления связи рубрики MSC с рубриками рубрикатора ВИНИТИ

В итоге проведенных работ к настоящему времени создан действующий БнД ВИНИТИ «Математика», в составе которого имеется ресурсный, навигационный и программно-технологический комплексы. Ресурсный комплекс содержит документальные и справочные базы данных. Документальные базы данных представлены следующей совокупностью тематических фрагментов: реферативным, полнотекстовым «Итоги науки и техники. Серия «Математика»; библиографическим «Депонированные рукописи»; справочные базы данных - «Персоналии»; «Научные форумы»; «Информационные центры» и др.

Навигационный комплекс дополнен интегральным рубрикатором «Математика», классификационными схемами РФФИ (НФИ РАН), номенклатурой научных специальностей ВАК (НВАК), MSC, впервые разработанными элементами лингвистического обеспечения и новыми версиями различных указателей.

Программно-технологический комплекс в настоящее время опирается на взаимодействие с действующими СПД (рис. 3) и ИПС «Сокол» (рис 4.)

Автору представляется необходимым отметить, что хотя некоторые фрагменты информационной системы «Математика» продолжают развиваться, архитектура и методология ее создания достаточно полно обоснованы, а сама БД «Математика», являющаяся ядерной частью указанной системы, уже функционирует.

В пятой главе излагаются основные направления и перспективы дальнейшего развития ИС «Математика» в составе политематического БнД ВИНИТИ. Автор отдает себе отчет в том, что выполненный анализ использования научных электронных ресурсов является лишь составной частью дальнейших исследований. Последующие разработки в представлении автора рекомендуется проводить в следующих направлениях:

А. В области классификационных и навигационных систем по математическим и другим точным наукам:

- дальнейшее развитие идеологии сопряжения разноуровневых классификационных систем;

- дальнейшее развитие элементов навигационных систем (тезаурусы, многоязычные терминологические словари, построение разветвленной системы указателей);

Б. В области развития политематического банка данных ВИНИТИ, имея в виду прямую связь последнего с ИС “Математика”:

- разработка предложений по реструктуризации БнД ВИНИТИ (особенно в части взаимодействия тематических фрагментов из разных научных областей);

- модернизация ИПС “Сокол”;

- создание унифицированного интерфейса пользователя с мощным динамическим контентом;

- развитие сетевых средств доступа и взаимодействия с другими информационными ресурсами;

- перевод наиболее используемой части научного архива и фондов в электронную форму;

- разработка новых форм обслуживания и создание новых информационных продуктов.

В. В области развития ИС “Математика”:

- развитие представлений о систематическом пополнении ресурсного комплекса;

- разработка новой версии ИПС “Сокол” с учетом необходимых дополнений в навигационном и программно-технологическом комплексах;

- обоснование поэтапного создания единой информационной сети по математическим и другим точным наукам, в первую очередь для ученых и специалистов России.

Эта работа требует совместных усилий ученых Отделений математических наук и информационных технологий и вычислительных систем РАН.

Кроме того автор полагает необходимым приступить к научным разработкам второго этапа создания интегрального информационного поля. Под вторым этапом таких исследований понимается приведение в сопоставимый вид условий и факторов, влияющих на моделирование возможных результатов решения конкретных аналитических и прикладных задач, стоящих перед пользователями.

Автор считает также важным привести фрагменты действующей БД «Математика», представленной на современном сайте ВИНИТИ (рис. 9-10).

Рис 9. Фрагмент результатов тематического запроса («группа Ли») в БД ВИНИТИ «Математика»

Рис. 10. Фрагмент результатов тематического запроса («уравнение теплопроводности») в БД ВИНИТИ «Математика»

Заключение

Как уже отмечалось, цель работы состояла в обосновании и создании интегрального проблемно-ориентированного информационного поля и системы взаимодействия пользователей с этим полем на примере математических и других точных наук. Как показано в работе, создание такого поля позволяет с одной стороны существенно уменьшить наличие «информационного шума» в ответах на запросы пользователей и, с другой стороны, значительно расширить зону адресного поиска релевантной информации.

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.