Теория информации и информационные системы
Основные понятия и структура информационных систем, требования к эффективности и надежности их функционирования. Основные этапы технологии разработки. Процесс функционирования документальных баз данных. Система управления информационными потоками.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курс лекций |
Язык | русский |
Дата добавления | 23.11.2018 |
Размер файла | 1,8 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
* квантификаторы (всеобщности, существования и т.д.).
Семантические языки составляют языково-манипуляционную основу информационно-поисковых каталогов, тезаурусов и семантически-навигационных (гипертекстовых) ИПС, описывая своими средствами собственно сами каталоги, тезаурусы, семантические сети и выражая смысловое содержание документов и запросов.
В заключение общей характеристики документальных ИПС приведем основные показатели эффективности их функционирования. Такими показателями являются полнота и точность информационного поиска.
Полнота информационного поиска R определяется отношением числа найденных пертинентных документов А к общему числу пертинентных документов С, имеющихся в системе или в исследуемой совокупности документов:
R=A/C
Точность информационного поиска Р определяется отношением числа найденных пертинентных документов А к общему числу документов L, выданных на запрос пользователя:
P=A/L
Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума к, соответственно, определяется отношением числа нерелевантных документов (L-A), выданных в ответе пользователю к общему числу документов L, выданных на запрос пользователя:
K=L-A/L
В идеале полнота информационного поиска и точность информационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90%.
Как уже отмечалось, информационно-поисковые каталоги основаны на классификации сведений по определенной предметной области и исторически были первыми системами информационного поиска документов в библиотечном и архивном деле, возникнув еще в средние века по сложившейся тогда схеме разделения наук и искусств.
2.2 Классификационные системы поиска документов
Первоначальные подходы к классификации тематики (предмета) документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание (предметы) документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.
Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством предметов (рубрик), отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору (каталогу) определяются коды интересующих абонента предметов (рубрик) и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Для удобства поиска и отбора по каждому документу формируется специальная карточка, на которую наносится информация о кодах предметных рубрик документа, а также, как правило, об авторе, названии и др. библиографических данных документа, его физическом местонахождении, и реферат, который уже на естественном языке в сжатом виде отражает содержание документа. Поиск и отбор документов непосредственно осуществляется по отбору карточек с необходимыми индексными кодами для последующего извлечения из хранилища собственно самих документов.
Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.
При систематизированной классификации список предметных рубрик строится, как иерархическая структура, в виде перевернутого дерева. Вся предметная область ИПС разбивается наряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик по принципу «Род-Вид».
Таким образом, при систематизированной классификации используются уже некоторые семантические основы предметной области, выражаемые в родовидовых отношениях основных категорий, понятий и классов. указании более общих рубрик, к которым относятся отмеченные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска. Так, документ из предыдущего примера с описанием патента по технологии закалки с отпуском на основе иерархической классификации может быть проиндексирован только рубрикой «Закалка с отпуском», обозначение которой включает указание на автоматическое отнесение содержания документа и к более широкой рубрике «Закалка» и к еще более широкой рубрике «Термическая обработка». Перечислительный и иерархический подходы к классификации впоследствии воплотились в широко используемых в библиотечной практике алфавитно-предметных каталогах, наиболее распространенным из которых в настоящее время является универсальная десятичная классификация (УДК). В основе УДК лежит классификационная схема, дополненная правилами образования сложных рубрик, а также специальными определителями, служащими для более детального описания документов (определители формы и характера документа, определители времени и т.д.). При этом систематизированная классификация позволяет строить сам каталог (картотеку документов) в структурно-иерархическом виде, что существенно упрощает выражение пользователем своих информационных потребностей, и, тем самым, ускоряет и повышает точность поиска.
Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все темы, по которым существуют или могут существовать документы. Выход из таких ситуаций путем добавления к классификатору новых рубрик (классов, предметов) не может эффективно решить проблему, так как требует в таких случаях переиндексирования всего ранее накопленного документального фонда, что чаще всего нереально по техническим и технологическим аспектам.
Принцип организации классификационного индексирования документов, преодолевающего в определенной степени такие ограничения перечислительной и иерархической классификации, был предложен в 30-х годах выдающимся индийским библиотековедом и математиком Ш.Р. Ранганатаном, развит впоследствии в работах английской группы по исследованию классификаций (Classification Research Group) и получил название аналитико-сиитетической или иначе фасетной классификации. Идея фасетной классификации состоит в том, что вся предметная область сведений разбивается наряд исходных групп рубрик (фасет) по организационно-технологическому или семантическому принципу, отражающему специфику предметной области.
Фасеты выступают в роли «кирпичиков», из которых можно сложить (сконструировать) любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу. Так, к примеру, предметная область документов по производству технологического оборудования разбивается на четыре фасета» - «Конфигурации», «Материалы», «Типы разрушений» и «Напряжения и нагрузки». На основе соединения подрубрик фасет «конструируются» любая конкретная и узкая тематика.
Основное достоинство фасетной классификации заключается в возможности ограниченным небольшим перечнем фасетных рубрик отразить (сконструировать) огромное количество узких специализированных рубрик и, тем самым, наиболее точно и полно проиндексировать содержание документов.
Специфической проблемой фасетной классификации является влияние на эффективность поиска документов порядка следования обозначений рубрик фасет. Психологические особенности поиска таковы, что пользователь в первую очередь сосредоточивает внимание на обозначениях тех подрубрик, которые стоят первыми в цепном списке сконструированной формулы, и если интересующие его в первую очередь сведения отражаются рубрикой, стоящей не на первом месте, то он может «с ходу» отвергнуть всю формулу. Для преодоления этого недостатка используется так называемая пермутация, при которой для документа приводится список всех возможных вариантов написания сконструированной фасетной формулы на основе циклической перестановки.
Однако такой подход не всегда полностью решает проблему, так как комбинаций по перестановкам может быть очень много.
Сильной стороной фасетной классификации является более глубокое, чем при иерархической классификации, использование семантики. Фасеты, как уже отмечалось, отражают определенные семантические основы предметной области ИПС, содержащие помимо родо-видовых и некоторые прочие семантические, в частности ролевые, отношения.
2.3 Координация понятий в классификационных системах
Еще одним аспектом развития систем классификации и поиска документов является координация понятий (классов, рубрик), выражающаяся в использовании различных операций над совокупностью понятий при индексировании документов или при поиске документов. При этом выделяют два направления-использование только логических операций (объединение, пересечение, дополнение, включение) и использование определенной грамматики понятий, классов, рубрик в рамках определенного семантического языка.
Рассмотрим содержание простейших логических операций в отношении классификационных понятий. Под классом (понятием) будем понимать совокупность (множество) документов, проиндексированных кодом соответствующего класса. Объединением классов X и Y называется множество документов X И Y, которые проиндексированы кодом класса X или кодом класса Y или одновременно кодами обоих классов. Пересечением классовой Y называется множество документов X с Y, одновременно проиндексированных классом Х или классом Y. Дополнением класса X классом называется множество документов, не проиндексированных кодом класса X. В формальной логике операция объединения может выражаться терминами «логическая сумма», дизъюнкция или «операция ИЛИ», операция пересечения терминами «логическое произведение», конъюнкция, или «операция И», операция дополнения терминами «логическое отрицание» или операция «НЕ».
Еще одной важной операцией является операция включения. Класс Y является включением класса Y -> X, когда любой документ, проиндексированный классом X, является одновременно документом, проиндексированным классом Y.
Логические операции над понятиями предоставляют возможности отображения при индексировании документов и формировании запросов более сложных и многоаспектных понятий. При этом использование дополнительных операций объединения (ИЛИ) и отрицания (НЕ) обеспечивает построение более сложных, чем при чисто фасетной классификации, комбинаций рубрик, классов и понятий. Кроме того, операция включения дает возможность так называемого цепного представления и описания иерархических структур каталогов, формализуя систематизированный аспект классификаторов.
Предкоординация понятий предусматривает использование операций над классами при индексировании документов. Иначе говоря, индекс документа представляет собой конструкцию из исходных понятий (классов) классификатора, построенную на основе логических операций. В системах на основе посткоординации понятий логические операции над классами осуществляются при поиске документов, т.е. в процессе формирования поискового образа запроса. Технология и механизм поиска при этом включают предварительный отбор всех документов с индексами классов (рубрик), входящих в логическую конструкцию запроса, с последующим осуществлением собственно логических операций над отобранными совокупностями (множествами) документов.
2.4 Информационно-поисковые тезаурусы
Особую роль в развитии информационно-поисковых систем сыграли работы Мортимера Тауба, разработавшего в 1951 году систему унитермов. В системе Тауба содержание документа индексируется совокупностью терминов в виде однословных обозначений - унитермов. Например, документ по теории информационного поиска может быть проиндексирован двумя унитермами - «Информационный», «Поиск». В качестве унитермов чаще всего выступают элементы словаря ключевых терминов по определенной предметной области.
В системе Тауба первоначально не предполагалось какой-либо связи или отношений между унитермами и, следовательно, ее можно отнести к чисто дескрипторным системам. Вместе с тем сразу же проявились и такие специфические проблемы дескрипторных систем, как ложная координация понятий. Явление ложной координации заключается в такой координации понятий (классов, терминов), которые хотя по отдельности и присутствуют в содержании документа, но комбинируются по смыслу с другими понятиями (терминами, классами). Так, например, в содержании документа, в котором речь идет об информационном обеспечении поисковых бригад при ликвидации чрезвычайных происшествий и последствий стихийных бедствий, также присутствуют в числе прочих унитермы - «Информационный» и «Поиск», и, следовательно, он совершенно неправильно может быть выдан на запрос по теории информационного поиска.
Другой проблемой в системах на основе унитермов являются синонимичность и омонимичность» некоторых терминов, что приводит к неоднозначности индексирования документов. Для преодоления ложной координации и других проблем стали вводить составные термины, указатели связи и ролей терминов («род - вид», «средство действия» и т.п.), заново открывая в некотором смысле предметную иерархическую рубрикацию со связями, и внося тем самым в чисто дсскрипторную систему элементы семантики. Так появилось отдельное направление информационно-поисковых систем, получившее название тезаурусов.
Тезаурус (с греч. «хранилище», «запас», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов18.
В более общем плане в тезаурусе выделяют классификационную схему и алфавитный перечень дескрипторов-ключевых слов. Классификационная схема определяет систематизацию дескрипторов по уровням иерархии исходя из «родо-видовых» или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов.
Внешним отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т.д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т.д., но не определены и нет самих ключевых терминов, им соответствующих.
Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности и автоматизации индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поисковых тезаурусов ПОД представлен набором дескрипторов (ключевых терминов). Однако в процессе индексирования документов учитываются семантические (родо-видовые, ролевые, синонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию ПОД и повышает эффективность поиска документов (по точности, полноте и шуму).
Разработка тезаурусов и их внедрение в информационно-поисковые системы интенсивно осуществлялись в 60-е и 70-е годы. При этом в соответствии с тематическим профилем выделились многоотраслевые, отраслевые и узкотематические тезаурусы. Первым многоотраслевым тезаурусом за рубежом явился «Тезаурус технических и научных терминов», вышедший в декабре 1967 г. в США. В 1972 г. под редакцией Ю.И. Шемакина был разработан первый отечественный многоотраслевой «Тезаурус научно-технических терминов». В семидесятые годы тезаурусы были разработаны практически для всех отраслей деятельности, а также создано большое количество узкотематических специализированных тезаурусов.
Еще одной особенностью тезаурусов является применяемая на практике возможность расширения словарной базы новыми ключевыми терминами, появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане различают базовые и рабочие тезаурусы. Базовые тезаурусы выступают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезаурусы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появления в документах новых или специфичных терминов (так называемые профессионализм, иногда жаргонные термины и т.д.). В результате возникает еще один специфический компонент эксплуатации соответствующих ИПС, называемый ведением тезауруса.
2.5 Автоматизация индексирования документов
Важным в практическом плане аспектом информационно-поисковых систем являются технологии, принципы и механизмы индексирования документов применительно к той или иной классификационной схеме.
Развитие теории информационного поиска документов, создание первых механизированных информационно-поисковых систем поначалу не предполагали какой-либо автоматизации (механизации) индексирования документов. Индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области ИПС, которые могли осуществлять многоаспектный и глубокий анализ смыслового содержания документа и относить его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. Такой подход обусловливал высокие накладные расходы на создание и ведение документальных информационно-поисковых систем, так как требовал наличия в организационном штате высококвалифицированных специалистов-индексаторов. Кроме того, в процесс индексирования при этом вносился человеческий фактор (субъективность поисковых образов одного документа, проиндексированного разными специалистами и т.п.).
Поэтому в теории информационного поиска в 50-х-бО-х годах выделилось отдельное направление исследований, связанное с вопросами автоматизации индексирования документов. Идеи и начало этих исследований были инициированы появлением уже упоминавшейся системы унитермов Тауба. Индексирование документов набором однословных дескрипторов-терминов (унитермов), имеющихся в тексте документа, позволило снизить профессиональные требования к индексаторам и, фигурально выражаясь, механистицировать процесс индексирования.
С применением и все более широким использованием вычислительной техники в информационно-поисковых документальных системах эти подходы трансформировались в задачи и технологии автоматического, т.е. без участия специалистов, индексирования документов.
Последний результат активизировал в дальнейшем внимание к более простым и менее дорогим дескрипторным системам с неконтролируемой или слабоконтролируемой лексикой (унитермы, полнотекстовые системы), в которых на основе посткоординации при обработке запросов удается достичь вполне приемлемых показателей полноты и точности поиска. Этими же обстоятельствами был обусловлен импульс исследованиям технологий автоматического индексирования и уже на новом уровне возродилась идея полной механизации (точнее, уже автоматизации) индексирования документов.
Сформировалось два, хотя и близких, но различных по содержанию подхода автоматическому индексированию. Первый подход основан на использовании словаря ключевых слов (терминов) и применяется в системах на основе информационно-поисковых тезаурусов. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа каждого ключевого термина. На этой основе строится и поддерживается индекс системы, собственно и реализующий поисковое пространство документов.
Применяется два типа образования индекса - прямой и инвертированный.
Инвертированный тип индекса строится по обратной схеме - «Термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей только в транспонированной форме. Прямой тип индекса строится по схеме «Документ - термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью N x M (N - количество документов, М - количество ключевых терминов).
На основе автоматического индексирования документов по ключевым терминам могут решаться также и задачи автоматической классификации документов, т.е. автоматического отнесения документов к тем или иным классификационным рубрикам. Такие задачи особенно актуализировались в связи с интенсивным развитием в 90-х годах глобальных информационных сетей, появлением «электронной» периодики, книг и огромных массивов прочей неструктурированной текстовой информации в компьютерной форме. Автоматическое распознавание в больших объемах текстовой информации документов по определенной тематике позволяет существенно снизить затраты на предварительный отбор информации из внешних источников для пополнения базы документов ИПС по соответствующей предметной области. Принцип решения таких задач аналогичен решению задач информационного оповещения. Для конкретного класса документов (рубрики) строится поисковый образ, который в системах на основе индексирования по ключевым терминам может быть представлен набором определенных терминов или их сочетаний. Поисковые образы документов из внешних источников сравниваются по определенному критерию с поисковым образом рубрики, и на этой основе принимается решение о внесении документов в базу, т.е. об отнесении содержания документа к предметной области ИПС.
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования «на учет», т.е. в индекс заносится информация обо всех словах текста документа (отсюда, как уже отмечалось, и название «полнотекстовые»).
2.6 Полнотекстовые информационно-поисковые системы
Процессы массовой компьютеризации и информатизации деятельности предприятий, организаций в конце 80-х и в 90-х годах привели к накоплению огромных массивов неструктурированной текстовой компьютерной информации, с одной стороны, и доступности (всеобщей распространенности и персональности) вычислительной техники, с другой стороны. Возникла потребность в программном инструментарии, который бы обеспечивал эффективный поиск нужных текстовых данных.
Семантические подходы к автоматизации такого рода задач (информационно-поисковые каталоги, фасетные и тезаурусные системы) не могли быть в полной мере использованы в массовой персональной автоматизации, т.е. на рабочем месте отдельного пользователя или для небольшой рабочей группы, так как требовали серьезной предварительной проработки соответствующей предметной области22. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении, получении и агрегировании текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий необходимых документов.
В результате на рынке программных продуктов в конце 80-х годов появились полнотекстовые ИПС и программные средства их создания, называемые иногда полнотекстовыми СУБД.
2.7 Информационно-технологическая структура полнотекстовых ИПС
Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа. Их информационно-технологическая структура включает следующие элементы:
* хранилище (базу) документов;
* глобальный словарь системы;
* индекс документов инвертированного типа;
* интерфейс ввода (постановки на учет) документов в систему;
* механизм (машину) индексирования;
* интерфейс запросов пользователя;
* механизм поиска документов (поисковую машину);
* механизм извлечения (доставки) найденных документов.
Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла (файлов) с текстами документов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения документов. Для компактного хранения документов они могут быть сжаты архиваторами.
Другой вариант не предусматривает создания локально сосредоточенного хранилища документов, а ограничивается лишь массивом адресов расположения документов в соответствующей компьютерной информационной инфраструктуре (структура дисков и каталогов отдельного компьютера или локальной информационной сети, информационная инфраструктура глобальной информационной сети). Файлы текстовых документов распределены и размещаются в тех узлах и элементах информационной инфраструктуры, которые соответствуют технологии создания и обработки документов (документообороту). Вместе с тем все они учтены в полнотекстовой ИПС.
Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы. Глобальные словари могут быть статическими и динамическими.
Статические словари не зависят от содержания документов, вошедших в хранилище, а определены изначально в системе. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответствующего языка (русского, английского, немецкого и т.д.).
Динамические словари определяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах. Такой подход более экономичен и обеспечивает некоторую настройку словарной базы на предметную область документов.
Элементы глобального словаря выступают в качестве дескрипторов ИПЯ системы. Поступающие через интерфейс ввода / вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых МПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря. В результате на «учет» в системе ставятся все слова текста документа, откуда, повторимся, происходит и название - «полнотекстовые ИПС».
Важной особенностью, оказывающей существенное влияние на эффективность полнотекстовых ИПС, является наличие либо отсутствие морфологического разбора при индексировании документов и запросов. Морфологический разбор позволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы, т.е. одни и те же слова, отличающиеся в тексте различными окончаниями, приставками и суффиксами (водный, водного, водноиндексированы по содержанию и зафиксированы по месторасположению) для эффективного поиска и доступа к ним. Такой подход более логичен с точки зрения технологий документооборота или распределенного характера систем (например, система WWW сети Интернет), но недостатком имеет необходимость постоянного отслеживания и учета возможных перемещений документов.
Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы. Глобальные словари могут быть статическими и динамическими. Статические словари не зависят от содержания документов, вошедших в хранилище, а определены изначально в системе. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответствующего языка (русского, английского, немецкого).
- Динамические словари определяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах. Такой подход более экономичен и обеспечивает некоторую настройку словарной базы на предметную область
Элементы глобального словаря выступают в качестве дескрипторов ИПЯ системы. Поступающие через интерфейс ввода / вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полно-текстовых МПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря.
На практике применяются также и другие подходы, расширяющие возможности двоичной (ортогональной и ортонормированной) пространственно-векторной модели. Такие подходы базируются на вероятностно-статистической модели. При этом можно выделить две разновидности вероятностно-статистического подхода:
* придание весовых коэффициентов словоформам (терминам) глобального словаря вне контекста конкретного документа;
* придание весовых коэффициентов компонентам векторов ПОД по итогам индексирования конкретного документа (с учетом контекста конкретного документа).
Первый подход основан па анализе итогов индексирования совокупности документов, уже вошедших в базу (хранилище) ИПС. Совокупность словоформ (терминов), обязательно присутствующих в любом документе базы, считается наиболее адекватно отражающей тематику предметной области ИПС, и соответствующие словоформы (термины предметной области) получают наибольший вес, наибольшую значимость в словаре системы, по которому производится индексирование документов. В качестве числовых характеристик весов значимости терминов используются те или иные статистические параметры, такие, например, как относительная или абсолютная частота вхождения термина в документы базы системы. Разновидностью такого подхода является учет количества вхождений в- в совокупность документов базы тех или иных словоформ или терминов.
Более сложные варианты развития первого подходи основываются на технологиях «обучения» и настаивания ИПС на конкретные предметные области. Традиционный способ обучения основывается на использовании обучающей выборки документов. Такая выборка формируется либо на основе отбора текстов экспертами в конкретной предметной области, либо путем использования документов по соответствующим рубрикам каталогов библиотек и т.п. Далее осуществляется исследование обучающей выборки на предмет статистических показателей вхождений в документы выборки тех или иных словоформ или терминов. Результатом обучения является «окрашенность» (различные весовые коэффициенты словоформ) словаря системы.
Другой подход основывается на апостериорном выделении в поисковом пространстве «сгущений» векторов ПОД и последующем анализе совокупности и количественных данных вхождения в такие группы документов тех или иных словоформ (терминов). Предполагается, что такие группы соответствуют особенностям тематики конкретной предметной области, и словоформы, в них входящие, получают наибольшие весовые коэффициенты на основе тех или иных статистических параметров. Еще одним вариантом является учет дискриминируемости (различимости) термина. Если при внесении в текст одного из двух близких по векторам ПОД документов какого-либо термина происходит резкое «расщепление» этих векторов, то такой термин считается более информативным и значимым, и его коэффициент важности, соответственно, должен быть выше.
При втором подходе к реализации вероятностно-статистической модели различия в весах значимости словоформ или терминов проявляются по результатам индексирования конкретного документа. В простейшем варианте анализируется, сколько раз тот или иной термин входит в данный документ. Словоформам или терминам, имеющим наибольшее количество вхождений, присваиваются более высокие веса в векторе ПОД. В векторах запросов (ПОЗ) все словоформы или термины считаются равнозначными, но их различные веса в векторах ПОД обеспечивают большую релевантность тех документов, где соответствующие словоформы или термины встречаются наиболее часто.
Отдельной ветвью развития второго подхода является использование обратной, интерактивной связи с пользователем. В этом случае информационно-поисковая система стремится настроиться не столько на определенную предметную область, сколько на специфические особенности тематики информационных потребностей конкретного пользователя. В общем виде для каждого пользователя ИПС создает свое поисковое пространство с индивидуальным окрашиванием компонентов векторов ПОД. Такое индивидуальное окрашивание производится путем запрашивать системой у пользователя его оценки релевантности выданных па каждый текущий запрос документов. Уточнив у пользователя, какие на его взгляд документы наиболее релевантны, система анализирует особенности и статистические параметры вхождения тех или иных словоформ (терминов) в эти наиболее релевантные документы, переопределяет и уточняет их весовые коэффициенты. Тем самым в последующих запросах более адекватно и глубже учитываются информационные потребности конкретного пользователя.
Существуют и другие разновидности вероятностно-статистических подходов к расширению пространственно-векторной модели поиска документов, но, к сожалению, из-за отсутствия в документации на коммерческие ИПС соответствующей информации по деталям механизмов поиска и релевантности документов оценить и проанализировать их эффективность довольно затруднительно.
В целом же информационно-поисковые полнотекстовые системы являются одним из наиболее интенсивно развивающихся направлений документальных информационных систем, существенно продвигая теорию и практику информационного поиска документов и развивая методы анализа и автоматизированной обработки текстовой неструктурированной информации.
2.8 Гипертекстовые информационно-поисковые системы
Анализ организации работы различных аналитических служб и отдельно взятого аналитика показывает, что основой их информационного обеспечения в традиционных «бумажных» технологиях являются различные тематические подборки, папки с текстовыми документами (служебные документы, копии статей из специальной периодики, выписки из книг, газетные вырезки и т.п.), систематизированные по расположению на основе какого-либо критерия (в алфавитном порядке по названиям, хронологически по дате документов, ранжированием по важности или по иным критериям). Причем документы в таких папках-подборках, как правило, снабжаются еще специальными пометками и взаимными отсылками по каким-либо смысловым ассоциациям. Отталкиваясь от какого-либо одного, релевантного документа, аналитик по отсылкам отбирает из подборки и все, ассоциированные по данному смысловому содержанию, документы. Процесс отбора документов по ссылкам в определенной степени напоминает навигацию по географическим картам, чем и определяется название соответствующего подхода к организации документального поиска.
В отличие от информационно-поисковых систем на основе индексирования документов, семантически-навигационные системы изначально возникли и развивались как чисто компьютерные системы и прошли пока еще короткий, но уже достаточно богатый период развития.
Считается, что первым идеи ассоциативно-навигационного подхода к анализу текстовой информации выдвинул в 1945 году советник президента Рузвельта по науке Ваннсвар Буш. В своей статье «Как мы могли бы мыслить», где он излагал проект создания технической (точнее, фотомеханической) системы, обеспечивающей «ассоциативное» связывание текстов, В. Буш писал: «Работа человеческой мысли построена на принципе ассоциаций. Анализируя какое-либо понятие или элемент, она непременно стремится поставить ему в соответствие какой-нибудь другой знакомый образ, подсказываемый ассоциацией мыслей, и это соответствие устанавливается благодаря трудноуловимой паутине связей, формируемых клетками человеческого мозга»25. Идеи В. Буша, как это иногда бывает, намного опередили свое время, и потребовался более чем 20-летний период накопления опыта работы с компьютерной информацией, пока в 70-х годах не были предприняты первые попытки практической реализации систем с ассоциативным связыванием текстов, выразившиеся в технике так называемого гипертекста.
Гипертекст в узком смысле представляет co6oй обычный текст, содержащий ссылки на другие связанные по смыслу фрагменты того же текста (документа) или па другие тексты (па внешние документы). При этом ссылки для пользователя - читателя; в тексте имеют вид выделенных слов или словосочетаний, обладающих какой-либо смысловой связью с текстом того фрагмента или другого текста, куда «направляет» ссылка (так называемая гиперссылка.-
Период взрывной интенсификации применения технологий гипертекста связан с бурным развитием и распространением в конце 80-х - начале 90-х годов глобальных информационных систем, и, в частности, сети Интернет. Идеи гипертекста как принципа ассоциативного связывания в распределенную информационную среду документов на территориально удаленных компьютерах были использованы группой специалистов под руководством Теодора Нельсона, который в 1988 г. представил проект гипертекстовой системы Xanadu, финансировавшийся впоследствии основателем известной компании Autodesk Джоном Уокером, который в то время пророчески предвещал всеобъемлющее развитие и распространение гипертекстовых технологий. В 1989 г. в Лаборатории физики элементарных частиц европейского центра ядерных исследований (ЦЕРН) под руководством Тима Бернерса-Ли стартовал проект создания гипертекстовой системы обмена научными данными в сети Интернет, получивший впоследствии название «Всемирной паутины» - World-Wide Web (WWW). В 90-х годах паутина WWW стала одним из наиболее бурно развивающихся сегментов сети Интернет, создав немыслимую ранее глобальную гипертекстовую информационную инфраструктуру.
2.9 Структура, принципы построения и использования гипертекстовых ИПС
В структуре гипертекстовой ИПС можно выделить несколько функциональных подсистем. Основными из них являются:
* подсистема отображения документов и гиперссылок;
* подсистема навигации по связям (гиперссылкам);
* подсистема формирования связей (гиперссылок);
* и собственно сама гипертекстовая база (хранилище) документов.
Навигация по гиперссылкам формирует для пользователя определенный сюжетно-тематический поток по цепочке ассоциации. Нетривиальной проблемой, как и при навигации в банках фактографических систем с сетевой моделью организации данных, является способ отображения и визуализации цепочек «пройденных» документов. Так как такие цепочки документов могут быть неопределенно длинными, то открытие и отображение каждого следующего по проходу документа в дополнительном окне приводят к Однако гипертекстовые сети документов, как будет рассмотрено ниже, являются не иерархическими, а гетерогенными. В гетерогенных сетях могут существовать как одноуровневые и межуровневые связи, так и обратные связи (отсылки), что вырождает само понятие иерархии в таких сетях. Наглядно такие структуры можно представить в виде неограниченной совокупности объемно переплетенной паутины узлов, хотя в отдельных сегментах таких структур могут в определенной степени сохраняться иерархические отношения. Отсюда, видимо, и родилось соответствующее название для распределенной гипертекстовой среды сети Интернет. «Блуждание» по подобным «лабиринтам» может образовывать столь запутанные «следы», что их визуально-наглядное отображение весьма затруднительно.
Вместе с тем визуализация информационного поиска документов является чрезвычайно актуальной задачей, так как может предоставлять пользователям дополнительные аспекты анализа информации при аналитических исследованиях. Определенные методологические подходы к решению таких задач могут быть найдены на основе анализа семантической природы гетерогенных сетей гипертекстовых документов.
и наслоению окон с документами на экране компьютера. При этом документ, на который указывает гипсрссылка из другого документа, может помимо непосредственной ассоциации включать и совершенно иной содержательный контекст, что быстро «уводит» пользователя от основной темы и дезориентирует его. Поэтому в большинстве систем используется только одно окно для отображения документов, а при переходе по гиперссылке к связанному документу происходит «выталкивание» предыдущего документа в специальный неотображасмый стек для пройденных документов. Дополнительно обеспечивается свободная навигация по сформированной таким образом цепочке документов (по пройденному пути) по принципу «Вперед-Назад», что позволяет пользователю путем возвращений назад или перемещений вперед лучше анализировать сюжетно-тематический поток ассоциаций.
Способ формирования и отображения цепочки пройденных документов по линейному принципу «Вперед-Назад» не всегда адекватно позволяет представить схему сюжетно-тема-тического потока документов из-за наличия возможных ветвлений в таких цепочках.
Подсистема отображения документов и гиперссылок (гипертекста) базируется на принципах отображения документов в текстовых редакторах (страницы, поля, абзацы, шрифт, скроллинг и т.д.) с дополнительными приемами внешнего отображения в тексте гиперссылок. Как уже отмечалось, стандартным способом отображения гиперссылок является выделение в тексте специальным фоном, цветом или шрифтом ключевых слов, имеющих определенную смысловую связь с тем фрагментом или документом, на который указывает ссылка. В развитых гипертекстовых системах, как, например, в системе WWW, в гипертексте могут отображаться также графика (рисунки, диаграммы), звуковые и даже видеоанимационные элементы, что в совокупности создает мультимедийную технологию работы с информацией. В этом случае в качестве гиперссылок могут также выступать и специальные изображения, значки, иконки, что дает возможность использования для отображения связей различных графических ассоциаций. В остальном подсистема отображения гипертекста напоминает обычный текстовый редактор, допуская стандартные операции просмотра (скроллинг, масштаб) и обработки текста (копирование, контекстный поиск и т.д.).
Подсистема навигации по связям реализует специальный интерфейс перехода по гиперссылкам. Если гиперссылка указывает на другой фрагмент того же документа, то подсистема навигации обеспечивает скроллинг (прокрутку) отображения текста к соответствующему фрагменту. Если гиперссылка указывает на внешний документ, то стандартным приемом для систем, реализованных в оконно-графических операционных средах (MS Windows), является открытие в новом окне соответствующего документа.
Для осуществления навигации в гипертекстовом документе для каждой гиперссылки хранится адрес расположения соответствующего документа или фрагмента.
При наличии только иерархических связей между пройденными документами отработанным приемом отображения структуры ассоциативной цепочки пройденных документов может быть способ отображения файловой структуры информационных ресурсов компьютера, используемый в программах типа «Проводник».
2.10 Модель организации данных в гипертекстовых ИПС
К сожалению, несмотря на интенсивное развитие и всеобщее распространение в последнее десятилетие гипертекстовых технологий, к настоящему времени еще не проработана полностью формализованная модель организации гипертекстовых данных, которая бы обеспечивала формализованные процедуры синтеза (разработки, проектирования) и анализа (использования) гипертекстовых ИПС. Причина этого заключается, как и в целом для всех типов документальных систем, в пока непреодолимых сложностях в формализованном описании смысла текстов на естественном языке.
Тем не менее, в научной литературе имеется ряд работ, посвященных формальным моделям гипертекстовых структур26. Среди них можно выделить теорию паттернов, разработанную американским математиком У. Гренандером и развитую впоследствии для гипертекста Л.В. Шуткиным, тензорную модель А.В. Нестерова и подход логико-смыслового моделирования, представленный в работах М.М. Субботина, а также ряд других подходов.
Первые два подхода основываются на формализации отдельных текстов специальными математическими конструкциями. В теории паттернов текст рассматривается как сложноор-ганизованная совокупность отдельных тем, каждая из которых может выражаться фрагментом текста с минимальным размером в виде одной строки. Для описания гипертекста в теории паттернов вводятся также специальные объекты - кнопки (аналог гиперссылки) и связи с идентификаторами и дополнительными параметрами (тип, направленность и т.д.). В результате размеченный гипертекст можно описывать теми или иными паттерновыми конфигурациями. Вместе с тем теория паттернов не содержит средств синтеза обычного текста в гипертекст.
Тензорный подход основывается на идеологии ранее рассматривающейся фасетной классификации, которая позволяет формализовано описать смысловую структуру текста в виде тензора, а гипертекстовую структуру в виде ансамбля тензоров. Таким образом, сильной стороной тензорного подхода является возможность создания формализованных процедур анализа исходных текстов для создания гипертекстовых структур.
Наиболее развитым в практическом плане является подход, основанный на логико-смысловом моделировании человеческого мышления, позволяющий на основе семантической близости текстовых фрагментов связывать их в цельный осмысленный текст - семантическую сеть. Математическим аппаратом для описания структуры гипертекста выступает теория графов. Критерием для связывания текстов или их фрагментов в семантическую сеть является возможность установления между ними логических связок типа «есть», «является условием», «является причиной» и т.д. Построение на основе анализа текста таких связываний образует формализованные «высказывания», комбинируя которые можно получать определенные выводы или, как говорят, новые знания, или подтверждать истинность (доказывать) составных высказываний. В наиболее развитом виде такой подход реализуется в так называемых базах знаний, составляющих основу особой ветви информационных систем, называемых экспертными системами.
Таким образом, при логико-смысловом моделировании структура гипертекста представляет (точнее, должна представлять) систему семантических связей между когнитивными элементами (понятиями, высказываниями) определенной предметной области. В результате сильной стороной такого подхода является возможность автоматизации создания (разметки) гипертекстовых структур на основе распознавания и соотнесения документов или их фрагментов к тем или иным узлам семантической сети.
Если вернуться к структуре гипертекстовой ИПС (рис. 6.12), то се центральным элементом является гипертекстовая база документов. По принципу формирования и управления гипертекстовыми базами их можно разделить на открытые (физически распределенные, или децентрализованные) и замкнутые (локально сосредоточенные).
В замкнутых базах гипертекстовые документы находятся в едином локально-сосредоточенном и централизованно управляемом хранилище (файле или группе файлов со специальным форматом). Такое хранилище образует замкнутую семантическую сеть документов, гипертекстовые связи которых не выходят за пределы хранилища. Соответственно внесение в базу новых документов или удаление документов производится непосредственно в месте расположения такой локальной базы.
В открытых базах гипертекстовые документы не образуют единое локально размещенное хранилище, а располагаются автономно в любых элементах (узлах) информационной среды. При этом информационная среда может ограничиваться файловой структурой одного компьютера (диски, каталоги, подкаталоги), локальной или глобальной информационной сетью. В открытых базах семантическая гипертекстовая сеть документов не управляется из одного центра (узла), а совместно строится и поддерживается всеми пользователями, работающими в узлах информационной среды (сети). Несмотря на полную децентрализацию создания и функционирования, при определенных соглашениях (протоколах) об установлении и поддержании связей-гиперссылок, такие открытые семантические структуры тем не менее представляют единый развивающийся по определенным закономерностям организм.
В настоящее время техника гиперссылок, применяемая в гипертекстовых системах, предполагает лишь однонаправленные связи, позволяющие осуществлять навигацию только в прямом направлении. «Вернуться» обратно в исходный документ можно только по запомненной цепочке пройденных документов, т.е. по схеме «Вперед-Назад». При этом прямой переход по гиперссылке осуществляется из определенного места, точнее контекста исходного документа, а возврат осуществляется обратно в документ в целом, т.е. фактически в его начало, что может разрывать контекст (сюжетно-тематический поток) анализа информации. В ранних гипертекстовых системах (проект Xanadu) предполагался двунаправленный характер гиперссылок, но практическая реализация такого подхода существенно усложняет протоколы навигации, так как требует более детального координатного адресования объектов и субъектов гиперссылок, идентифицирования пользователей и поддержания устойчивости документов (в смысле координатной структуры).
В результате организации данных в гипертекстовых базах описывается ориентированными невзвешенными графами с петлями и циклами. По определению граф G представляет структуру, состоящую из множества вершин и множества ребер их соединяющих. По ребрам осуществляется движение, переход от одной вершины к другой. Ориентированные ребра, по которым переход возможен только в одном направлении, называются дугами. Применительно к структуре гипертекстовой базы вершины графа соответствуют документам, а дуги гиперссылкам. Невзвешенность означает равнозначность любых дуг по переходу, или, иначе говоря, одинаковую «стоимость» перехода по любой гиперссылке. Петлей называется дуга, начальная и конечная вершины которой совпадают, т.е. применительно к гипертексту внутренняя гиперссылка на другой фрагмент того же документа. Путем (или ориентированным маршрутом) называется последовательность дуг, в которой конечная вершина любой дуги, кроме последней, является начальной вершиной следующей дуги. В невзвешенном графе, когда стоимость (вес) всех дуг одинакова, длиной пути является число дуг, входящих в путь. Путь ар av…, ut называется замкнутым, если в нем начальная вершина первой дуги а, совпадает с конечной вершиной последней дуги а(. Если в замкнутом пути любая вершина графа используется не более одного раза (за исключением начальной и конечной, которые совпадают), то такой замкнутый путь называется циклом.
...Подобные документы
Предмет и основные понятия информационных систем. Базовые стандарты корпоративных информационных систем. Характеристика входящих и исходящих потоков информации. Основные понятия искусственного интеллекта. Обеспечение безопасности информационных систем.
курс лекций [295,6 K], добавлен 11.11.2014Роль структуры управления в информационной системе. Примеры информационных систем. Структура и классификация информационных систем. Информационные технологии. Этапы развития информационных технологий. Виды информационных технологий.
курсовая работа [578,4 K], добавлен 17.06.2003Классификация автоматизированных информационных систем. Классические примеры систем класса А, B и С. Основные задачи и функции информационных систем (подсистем). Информационные технологии для управления предприятием: понятие, компоненты и их назначение.
контрольная работа [22,9 K], добавлен 30.11.2010Этапы проектирования информационных систем. Корпоративные информационные системы, тенденции их развития. Требования к организации базы данных. Основные концепции реляционных баз данных. Выбор системы проектирования. Логическая структура приложения.
дипломная работа [2,2 M], добавлен 20.12.2012Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.
лекция [15,5 K], добавлен 19.08.2013Основные характеристики и принцип новой информационной технологии. Соотношение информационных технологий и информационных систем. Назначение и характеристика процесса накопления данных, состав моделей. Виды базовых информационных технологий, их структура.
курс лекций [410,5 K], добавлен 28.05.2010Автоматизированное рабочие место экономиста-пользователя, его назначение и характеристика. Организация информационных систем. Особенности документальных форм ввода и вывода информации при компьютерной обработке. Роль системы управления базы данных.
шпаргалка [79,5 K], добавлен 29.11.2013Информационные системы и технологии в экономике: основные понятия и определения. Составляющие информационных технологий, их классификация. Особенности систем ведения картотек, обработки текстовой информации, машинной графики, электронной почты и связи.
реферат [14,7 K], добавлен 06.10.2011Понятие и структура, общие требования к информационной системе, этапы разработки и предъявляемые требования. Особенности работы системы управления базами данных, технологии и принцип работы. Разработка, преобразование ER-диаграммы в реляционную модель.
курсовая работа [383,8 K], добавлен 26.03.2015Задачи информационных потоков в логистике. Виды и принципы построения, структура и элементы информационных логистических систем, основные требования к ним. Рекомендации по созданию, внедрению и режиму работы информационных систем в сфере логистики.
реферат [25,9 K], добавлен 14.01.2011Определение понятия "система". История развития и особенности современных информационных систем. Основные этапы развития автоматизированной информационной системы. Использование отечественных и международных стандартов в области информационных систем.
презентация [843,9 K], добавлен 14.10.2013Понятие, классификация, этапы развития и значение информационных систем. Информационно–логическая модель, алгоритм функционирования и потенциальный экономический эффект информационной системы по планированию себестоимости продукции растениеводства.
курсовая работа [682,2 K], добавлен 08.12.2010Эволюция технического обеспечения. Основные требования, применение и характеристики современных технических средств автоматизированных информационных систем. Комплексные технологии обработки и хранения информации. Создание базы данных учета и продажи.
курсовая работа [127,1 K], добавлен 01.12.2010Сущность понятия "информационная система", история и направления развития, признаки классификации; процессы. Принципы функционирования и жизненный цикл ИС. Основные виды обеспечения, структура банка и хранилищ данных, пользователи, области применения.
курсовая работа [93,9 K], добавлен 12.01.2012Классификация информационных систем и технологий в организационном управлении. Методы и организация создания ИС и ИТ. Состав, структура, внутримашинного информационного обеспечения. Информационные технологии и процедуры обработки экономической информации.
контрольная работа [28,9 K], добавлен 25.07.2012Свойства и классификация информации. Угрозы, безопасность информационных систем и модели системы безопасности. Основные задачи и программное обеспечение маркетингового анализа. Состав библиотеки типовых журналов и справочников. Основные понятия Grid.
шпаргалка [690,0 K], добавлен 22.04.2010Классификация информации по разным признакам. Этапы развития информационных систем. Информационные технологии и системы управления. Уровни процесса управления. Методы структурного проектирования. Методология функционального моделирования IDEF0.
курсовая работа [5,2 M], добавлен 20.04.2011Общее понятие и признаки классификации информационных систем. Типы архитектур построения информационных систем. Основные компоненты и свойства базы данных. Основные отличия файловых систем и систем баз данных. Архитектура клиент-сервер и ее пользователи.
презентация [203,1 K], добавлен 22.01.2016Характеристика информационных технологий (ИТ) управления бюджетом муниципального образования. Основные цели и задачи реализации федеральной целевой программы "Электронная Россия 2002-2010 гг.". Этапы развития информационных систем управления в России.
контрольная работа [53,5 K], добавлен 19.05.2010Определение базы данных и банков данных. Компоненты банка данных. Основные требования к технологии интегрированного хранения и обработки данных. Система управления и модели организации доступа к базам данных. Разработка приложений и администрирование.
презентация [17,1 K], добавлен 19.08.2013