Структурно-тематический анализ документальных информационных ресурсов
Рассмотрение эволюции методов структурно-тематического анализа документальных информационных ресурсов. Разработка подхода к динамической структуризации информационного пространства на основе анализа семантических отношений между терминами индексирования.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 06.05.2018 |
Размер файла | 24,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Российский экономический университет им. Г.В. Плеханова
СТРУКТУРНО-ТЕМАТИЧЕСКИЙ АНАЛИЗ ДОКУМЕНТАЛЬНЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ
Козлова И. В.
Доцент, кандидат технических наук
Аннотация
документальный информационный ресурс тематический
Рассматривается эволюция методов структурно-тематического анализа документальных информационных ресурсов. Предлагается подход к динамической структуризации информационного пространства на основе анализа семантических отношений между терминами индексирования информационных ресурсов.
Ключевые слова: информационные ресурсы, структурно-тематический анализ, семантический анализ, статистические методы.
Annotation
STRUCTURAL ANALYSIS OF DOCUMENTARY SUBJECT OF INFORMATION RESOURCES
The evolution of the methods of structural and thematic analysis of documentary information resources is considered. The approach to structuring a dynamic information environment based on the analysis of semantic relationships between terms of indexing information resources is offered.
Keywords: information resources, structural and thematic analysis, semantic analysis, statistical methods.
Основная часть
От оперативности анализа, компактности представления информации без потери при этом основного содержания во многом зависит эффективность работы аппарата управления по принятию решений о дальнейших направлениях деятельности в той или иной тематической области. Научно-обоснованному принятию решений предшествует выяснение структуры современной науки и ее составляющих, характеристика существующих и выявление нарождающихся научных направлений. Структура переднего края науки поддается анализу, в том числе и формальными методами.
Информационный анализ основывается на системных свойствах документального информационного потока (ДИП), являющегося «информационной моделью» определенной тематической области. Поскольку анализ полного документального потока по определенному направлению трудно осуществим, с достаточной степенью точности можно использовать ту его часть, которая формируется в базах данных международных информационных ресурсов.
Известные в настоящее время методы анализа информации могут быть классифицированы по двум признакам:
· по виду данных, которые используются для анализа;
· по целям проводимого анализа.
По виду данных, используемых для анализа, можно выделить методы анализа:
· реферативных и библиографических баз данных;
· баз данных о цитировании.
По целям анализа информации существующие методы делятся на:
· методы количественной оценки документального информационного потока (ДИП);
· методы структурно-тематического анализа научно-технической информации.
Метод анализа совместного цитирования публикаций предложен в 1973 году И.В. Маршаковой и H. Small, B. Griffith (США). Сущность метода состоит в том, что научные направления идентифицируются с помощью определения групп статей, которые часто цитируются совместно в некоторой последовательности публикаций по данному направлению. В [2] предcтавлен подход, основанный на формальном анализе мирового потока публикаций с целью построения «карт науки». «Карта науки» - графическое изображение основных направлений исследований, выделяемых в данной области науки и их взаимосвязей. Реализация данного подхода предполагает выделение высокоцитируемых статей из анализируемого документального информационного потока и получение системы связанных между собой кластеров ключевых статей по данной проблеме. Каждый такой кластер моделирует отдельную исследовательскую область, описание которой задается с помощью совокупности терминов, выбираемых из заглавий ключевых статей.
Предлагаемый формальный подход требует неформального выбора и анализа информационной базы для исследований. В качестве наиболее эффективной основы для его реализации используется Web of Science (ISI), США.
Метод социтирования публикаций для определения структуры той или иной области научных исследований, формирования групп тематически связанных журналов, получения оценок научного вклада отдельных ученых и научной деятельности отдельных организаций и стран основывается на использовании документальных баз данных и современных программных средств анализа БД. В МЦНТИ разработаны алгоритмические и программные средства, обеспечивающие машинную обработку БД SCI [1]. Программные средства позволяют осуществлять:
· группирование документов по их совместной цитируемости на основе послойной группировки с тем, чтобы при необходимости проанализировать связи как высокоцитируемых, так и низкоцитируемых источников;
· определение тематики выделенных кластеров.
Метод анализа совместной встречаемости терминов в научно-технических документах для целей определения структуры предметных областей разработан совместно Courtial J.- P., Callon M. и Turner W. во Франции [3]. Метод совместной встречаемости опирается на два теоретических положения, открытых в области социологии науки. Во-первых, было установлено, что существуют так называемые «проблемные сети» - ряд связанных между собой проблем, когда решение одной из них прямо или косвенно зависит от решения другой. Анализ совместной встречаемости терминов позволяет отразить изменения, происходящие в таких проблемных группировках, а также их временную стабилизацию.
Во-вторых, тематика статьи может рассматриваться как ограниченный набор «макротерминов», характеризующих проблемную сеть, которым могут быть поставлены в соответствие множества ключевых слов (КС), используемых при индексировании.
Проблемная сеть интерпретируется как граф, в вершинах которого стоят ключевые слова, связанные дугами, обозначающими совместную встречаемость. Выделяются два вида графов:
- тематический граф, куда входят наиболее частотные термины; их взаимосвязь определяется с помощью коэффициента включения I:
I=fij/fi, (1)
где fi - частота встречаемости i - ого ключевого слова,
fij - частота совместной встречаемости этих двух ключевых слов;
- локальные графы, построенные на терминах, для которых коэффициент включения оказался ниже порогового значения; взаимосвязь этих КС определяется с помощью показателя близости Р:
P = (fij/fi)/( fi /N), (2)
где N - общее количество статей в массиве.
Построение локальных графов характерно для ситуации, когда имеется связь i-j и j-k. Это означает, что термины i и j связаны в одной группе статей, j и k - в другой. Такого рода «локальные графы» отражают изолированные проблемы и существующие между ними взаимоотношения.
Анализ проблемных сетей на основе полученных графов позволяют сделать вывод о том, что в рассматриваемой тематической области имеется некоторая достаточно общая структура, которая характеризуется относительной близостью связанных элементов, изолированностью не связанных, и отражается в совместной встречаемости ключевых слов, используемых при индексировании документов. Этот метод базируется на анализе, как правило, небольших массивов документов - порядка нескольких сотен наиболее значимых с точки зрения экспертов статей, касающихся достаточно «узких» проблемных областей. При этом изучается взаимное расположение и окружение основных понятий исследуемой области, как в определенные моменты времени, так и в динамике.
Дальнейшим развитием исследований по использованию совместной встречаемости ключевых слов в наукометрических целях является метод кластерного анализа библиографических элементов документальных баз данных, разработанный в МЦНТИ [1].
Методы кластерного анализа используются для разбиения изучаемого множества объектов на основании сходства или различия между ними на отдельные группы наиболее сходных объектов, называемые кластерами. В основе методологии кластерного анализа лежат следующие принципы:
- определение единой меры сходства (различия), учитывающей ряд признаков объектов;
- чисто количественное решение вопроса о группировке объектов в кластеры.
В качестве объектов кластерного анализа библиографических данных выступает множество терминов индексирования, характеризующиеся множеством признаков - номеров документов БД, заиндексированных этими терминами. Существование ассоциативных связей между терминами позволяет устанавливать взаимосвязи между отдельными публикациями и даже научными направлениями. Мерой сходства между двумя терминами индексирования является косинусная мера сходства Дж. Сэлтона, основанная на векторном представлении термина, заданного своими координатами. Объектом кластеризации является квадратная матрица сходства размером М х М, где М - количество терминов индексирования в БД. Образование кластеров осуществляется на основе выбора пороговых значений коэффициентов сходства; критерием группирования является превышение величины коэффициента сходства внутри группы заданного порогового значения.
Структура полученных групп может рассматриваться как «дескрипторная карта науки», позволяющая увидеть структуру проблемных областей науки и их отдельных направлений. Изменения в структуре кластеров соответствуют изменениям в структуре исследовательских областей.
Следует отметить, что использование методов кластерного анализа имеет следующие ограничения:
· очень трудоемким является процесс идентификации кластеров, отсутствует методика анализа результатов иерархической кластеризации;
· статистическая природа связей между терминами в БД обусловливает случайный характер связей внутри кластеров;
· применение иерархических процедур кластеризации терминов не дает возможности получения иерархии терминов в традиционном ее понимании, т.к. основывается на анализе только статистических связей между терминами и не учитывает семантических отношений.
Семантические отношения между терминами индексирования отражают объективно существующие связи и отношения между объектами предметной области.
В ряде работ делались попытки количественной оценки основных парадигматических отношений между терминами индексирования, зафиксированных в информационно-поисковом тезаурусе (ИПТ) системы, представляющем собой пару <Tj,RTj>, где Tj - множество терминов БД, а RTj - множество бинарных отношений, заданных на Tj х Tj. Обычно RTj = {<род>, <вид>, <ас>}, где <род>, <вид> соответствуют родо-видовым отношениям, а <ас> - ассоциативным (часть - целое, причина - следствие и т.д.). Известны попытки численно оценить словарный состав ИПТ: количественные оценки родо-видовых отношений учитывали лишь количество ребер в компонентах связности исходного графа зависимостей.
Семантическая функция близости, учитывающая расстояние между терминами ti и tj и ширину основания деления терминов, входящих в путь Wij, основывается на использовании ИПТ системы наравне со статистическими закономерностями распределения терминов. Данная семантическая функция позволяет установить релевантность документов, заиндексированных терминами, отношения между которыми зафиксированы в ИПТ, а также оценить связи между документами при формировании файлов с кластерной организацией.
На практике чаще всего в тезаурусе зафиксировано лишь некоторое подмножество терминов БД Tj ? T, определяющих понятия предметной области, и ограниченное подмножество отношений между ними RTj ? R.
В целях преодоления рассмотренных ограничений в [2] предлагается подход, основанный на представлении ПОД в виде семантической сети, узлами которой являются термины индексирования, а дуги - семантическими отношениями между ними. Рассмотрение всех ПОД, входящих в БД, учет всех терминов и отношений между ними позволит построить семантическую сеть всей предметной области, моделью которой является данная БД.
Кроме того, хранение и использование семантических отношений между терминами индексирования при проведении поиска в БД, позволит обрабатывать запросы следующего вида:
- каковы основные направления заданной области исследований;
- какие виды устройств (например, роботов), в каких отраслях народного хозяйства используются;
- какие методы исследований применяются в данной области и т.д.
Такие запросы возникают у исследователей и организаторов НИР при анализе состояния области исследований, научной проблемы. Для анализа семантических отношений между терминами индексирования документальных баз данных необходимо решить следующие задачи:
· выявить основные классы семантических отношений в БД на основе анализа отношений пар терминов в ПОД;
· статистически выделить классы отношений;
· определить функцию принадлежности пары терминов к определенному классу отношений.
В результате решения этих задач появится возможность, с одной стороны, при построении дескрипторных карт науки выделять группы терминов по типу семантических отношений: объект - его части, объект - области его применения и т.д.:
Ci = Rj(t1,t2,…,tn), (3)
где Rj - семантическое отношение j -го типа,
а с другой - повысить функциональную эффективность АИПС при обработке запросов вышеуказанного типа на основе хранения выделенных семантических отношений между терминами в БД, что в настоящее время практически не используется.
Литература
1. Батурин А.В., Молотков Л.И. Опыт автоматизированной обработки базы данных Science Citation Index в наукометрических целях // Проблемы информационных систем / МЦНТИ, М., 1983, № 2, с. 54-67.
2. Козлова И.В. О подходах к созданию карт науки // Международный научно-исследовательский журнал. № 10 (41). Ч.2. 2015. С. 76-78. DOI18454/IRJ.2015.41.192.
3. Сallon M., Courtial J., Turner W.A., Bauin S. From translation to problematic networks: an introduction to co-word analysis// Social Sci. Inf. 1983. 22(2). p. 191 - 235.
Размещено на Allbest.ru
...Подобные документы
Виды документальных информационных систем. Системы на основе индексирования и семантически-навигационные системы документационного обеспечения управленческой деятельности. Элементы информационно-поискового языка. Координатное индексирование текста.
презентация [56,5 K], добавлен 14.10.2013Исследование проблем формирования и использования информационных ресурсов как совокупности сведений, получаемых в процессе практической деятельности людей. Состав и свойства информационных ресурсов. Государственная политика в сфере защиты информации.
реферат [23,7 K], добавлен 31.01.2011Новые виды субъектов рынка информационных ресурсов. Становление и развитие рынка в России: государственные, некоммерческие, коммерческие информационные службы. Влияние Интернета на российский рынок информационных услуг. Сферы информационного рынка.
реферат [55,5 K], добавлен 01.12.2007Методологические основы оценки качества информационных ресурсов. Анализ принципов методологии, используемых при решении задач ОКФИС. Логика организации, ее теоретический базис, нормы и правила. Методы и средства моделирования информационных систем.
контрольная работа [66,7 K], добавлен 23.01.2011Факторы угрозы безопасности информационного пространства. Государственно-правовое обеспечение безопасности информационного пространства. Методы обеспечения безопасности информационного пространства. Развитие информационных технологий.
реферат [16,7 K], добавлен 10.05.2007Условия эффективности, формы и типы использования информационных ресурсов в процессе подготовки социального педагога. Методика и анализ исследования функций и значения ресурсов сети Интернет в современном педагогическом процессе подготовки студентов.
дипломная работа [171,1 K], добавлен 16.12.2015Характеристика основных секторов рынка информационных услуг. Участники информационного рынка: сектор деловой информации, информации для специалистов, массовой и потребительской информации. Правовое регулирование на рынке информационных услуг.
реферат [122,9 K], добавлен 01.12.2007Исследование компьютерно-опосредованной коммуникации. Анализ структурно-семантических, семиотических и функциональных особенностей графических мемов и их систематизация. Сравнительный анализ поликодовых откликов на примере Интернет-ресурсов Пикабу и 9GAG.
дипломная работа [2,4 M], добавлен 02.03.2017Анализ существующих информационных ресурсов. Выбор программного обеспечения для создания информационного ресурса. Создание электронного ресурса для пансионата "Солнечный". Проверка работоспособности сайта: установленных модулей, ссылок и материалов.
дипломная работа [11,0 M], добавлен 16.08.2016Анализ тенденций развития информационных технологий. Назначение и цели применения систем автоматизированного проектирования на основе системного подхода. Методы обеспечения автоматизации выполнения проектных работ на примере ЗАО "ПКП "Теплый дом".
курсовая работа [210,0 K], добавлен 11.09.2010Основные характеристики информационного пространства. Требования к составу и оценке качественных характеристик экономической информации. Определение степени взаимосвязи и меры организованности совокупности элементов информационного пространства.
практическая работа [207,5 K], добавлен 22.06.2010Понятие вычислительных систем, их классификация по различным признакам. Модели параллельных вычислений PGAS и APGAS. Разработка программного продукта для анализа информационных обменов в параллельных программах на языке IBM X10. Расчёт его себестоимости.
дипломная работа [1,6 M], добавлен 10.06.2013Основные черты современных информационных технологий. Цель применения информационных технологий - снижение трудоемкости использования информационных ресурсов. Использованные программные средства для разработки информационной системы для продажи книг.
курсовая работа [1,2 M], добавлен 27.06.2014Методология структурного анализа и проектирования информационных систем. Базовый стандарт процессов жизненного цикла программного обеспечения. Цели и принципы формирования профилей информационных систем. Разработка идеальной модели бизнес-процессов.
презентация [152,1 K], добавлен 07.12.2013Структурно-информационный анализ методов моделирования динамических систем. Математическое моделирование. Численные методы решения систем дифференциальных уравнений. Разработка структуры програмного комплекса для анализа динамики механических систем.
дипломная работа [1,1 M], добавлен 14.05.2010Разработка среды структурно-визуального программирования с возможностью решения пользовательских задач в операционной системе по средствам использования готовых компонент. Организация упрощенного проектирования на основе алгоритмических примитивов.
дипломная работа [2,3 M], добавлен 12.04.2012Понятие информационных технологий, история их становления. Цели развития и функционирования информационных технологий, характеристика применяемых средств и методов. Место информационного и программного продукта в системе информационного кругооборота.
реферат [318,9 K], добавлен 20.05.2014Технические возможности средств вычислительной техники. Понятие "информационная система" в Web. Обеспечение переносимости приложений и информационных ресурсов между различными программно–аппаратными платформами. Тенденции в развитии технологий Web.
курсовая работа [163,9 K], добавлен 25.05.2009Изучение общих понятий теории систем и системного анализа. Методика построения объектных репозиториев открытых информационных систем. Принципы восприятия визуальной информации. Средства визуального моделирования рабочих процессов по интеграции данных.
курсовая работа [195,1 K], добавлен 04.06.2015Права граждан на защиту конфиденциальной информации и интеллектуальной собственности. Комплекс физических, аппаратных, программных и документальных средств, предназначенных для сбора и хранения информации. Массивы документов в информационных системах.
презентация [57,3 K], добавлен 24.06.2017