Информационный поиск
Функционирование простейшей документальной информационно-поисковой системы. Ограничивающие возможности содержательного поиска информации, координатное индексирование данных. Схема цитирования, социтирования и библиографического сочетания документов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | лекция |
Язык | русский |
Дата добавления | 28.09.2018 |
Размер файла | 1,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Для того, например, чтобы индексировать статью о производстве и экспорте вычислительных и пишущих машин в США, Японии и Великобритании достаточно дескрипторов производство, экспорт, компьютер, пишущая машина и названий трех этих стран. Тогда при любой комбинации признаков при запросе (а таких комбинаций может быть 1х2хЗх4х5х6х7=5040, т. е. число перестановок из семи признаков) этот документ будет найден. Если же пользоваться языком предметных заголовков, то в зависимости от их заранее составленного перечня потребуется значительное число готовых рубрик. Оно, конечно, меньше указанного выше, но ровно настолько будет больше потерь при поиске.
Координатное индексирование в том и состоит, что для характеристики содержания документа или запроса перечисляются такие ключевые слова или дескрипторы, пересечение (логическое умножение) которых выражает основное смысловое содержание (главную тему, предмет) этого документа или запроса, тогда как в предметизации для данной цели используются заранее сформулированные заголовки и подзаголовки.
При индексировании, т. е. выражении основного смыслового содержания документа в терминах ИПЯ, процессы информационного анализа и синтеза совершаются в два этапа. Первый этап является общим для всех языков. Содержание документа анализируется как с позиций того, какие идеи и факты заложены в него автором, так и с позиций научных и практических интересов большинства его потенциальных читателей. (Если не иметь в виду узкоспециальных интересов, то обе точки зрения чаще всего совпадают). Результаты этого анализа синтезируются в виде субъективного представления индексатора об основном содержании документа.
Второй этап зависит от языка индексирования. Если это предкоординированный алфавитно-предметный язык, то свое представление о содержании документа индексатор сверяет с потенциальными запросами читателей, отраженными в перечне предметных заголовков. Для посткоординируемого дескрипторного языка аналогичному анализу подвергается тезаурус (не связанный непосредственно с потенциальными запросами потребителей) и сам текст индексируемого документа. Синтез в данном случае выражается в выборе соответствующих предметных заголовков или дескрипторов (ключевых слов).
Другими словами, при всей внешней схожести процедур индексирования посредством этих разных типов ИПЯ, характер их использования различен. В одном случае мы пользуемся готовыми продуктами в виде заголовков и подзаголовков, обозначающих класс документов определенного содержания. В другом случае это лишь исходный материал, дескрипторы и ключевые слова, при перемножении которых образуется класс, соответствующий данному содержанию. Вот почему перечень предметных заголовков и словарная часть тезауруса, при всей их внешней схожести, при том, что определенная часть слов в них может совпадать, на самом деле являются совершенно отличными друг от друга списками, слова для которых отбираются на основе разных критериев и играют различную роль.
Разные типы ИПЯ имеют свои достоинства и ограничения, которые делают их особо пригодными для решения разных поисковых задач. Возможности дескрипторного языка эффективно реализуются при узко тематическом поиске по произвольной комбинации признаков. Широкий тематический поиск по традиционным отраслям знаний и поиск по конкретным предметам, дисциплинам и их разделам в фондах документов за многие годы и в условиях одновременного обращения к ним большого числа читателей по-прежнему хорошо обеспечиваются библиотечными каталогами, основанными на иерархических и алфавитно-предметных классификациях. Выпуск информационных изданий требует разработки специальных рубрикаторов с небольшим числом уровней иерархии и подвижной, быстро меняющейся рубрикацией.
1.9 Базы и банки данных
С самого начала в теории информационного поиска предполагалась возможность построения не только информационно-поисковых, но и информационно-логических систем, которые осуществляли бы автоматическую переработку информации, а также извлечение из научных текстов неявно содержавшейся в ней информации. Эту идею много лет назад высказал один из пионеров этой теории в нашей стране В. А. Успенский. В то время такая возможность связывалась с дальнейшим совершенствованием электронной вычислительной техники, главным образом, с увеличением емкости оперативной памяти компьютеров и их быстродействием, что было вполне понятно. Но подобный ход мысли характерен и в наше время для специалистов в области вычислительной техники. Недаром девизом пятого поколения вычислительных машин служил переход от переработки данных и информации к переработке знаний.
Информатики же давно поняли, что переработка знаний связана не только и даже не столько с совершенствованием компьютеров, сколько с организацией самих этих знаний. В этой сфере до последнего времени господствовали представления, связанные с традиционной структурой научного знания, которое фиксируется в статьях и монографиях и отражается в библиографических бюллетенях и реферативных журналах. Но задача заключается в том, чтобы понять внутреннюю структуру знаний, взаимосвязь данных, фактов, гипотез и теорий.
За последние десятилетия значительное развитие получили исследования в области неклассических логик, баз данных и баз знаний, формализованного представления содержания текстов. Они опираются на достижения математической логики, логической семантики, структурной лингвистики и ряда других фундаментальных и прикладных дисциплин, Результаты этих теоретических исследований находят все большее применение в автоматизации информационных процессов и построении информационных систем различных типов, которые рассматриваются как средство переработки данных и знаний.
В среде информационных работников стало привычным говорить о базах и банках данных (БД и БнД). Само по себе это свидетельствует о том, что профессионалы эффективно используют компьютеры в информационной деятельности. Хуже то, что смысл и значение этих терминов, пришедших из области программирования, понимаются недостаточно глубоко. Это напоминает библиотекарей, которые с появлением теории информационного поиска стали называть каталоги информационно-поисковыми системами, что, в общем-то, верно, но ничего не изменило в традиционной организации каталогов. Так и теперь информационные издания (бюллетени сигнальной информации, реферативные журналы) на магнитной ленте или дискете любят называть базами данных, что тоже не совсем неправильно, но не отражает принципиального смысла этого понятия.
Понятие базы (или банка) данных возникло в конце 60-х гг. в связи с необходимостью освободить программы от данных, которыми они оперируют, сделать их независимыми. До этих пор данные организовывались под нужды каждой конкретной программы, что создавало массу неудобств и затруднений, особенно при изменении данных или самих программ. "База данных это реализованная средствами вычислительной техники специальная система для хранения данных о некотором фрагменте действительности. Главные идеи, лежащие в основе такой системы, - это объединение в одном месте данных, нужных для решения многих задач (может быть, даже тех, которые еще не начинали программироваться) и обеспечение независимости данных от их обработки". В процессе развития этого понятия базой данных стала называться и сама совокупность данных, организованных по определенным правилам их описания, хранения и манипулирования ими независимо от прикладных программ.
Появление баз и банков данных оказалось существенным шагом, приблизившим возможность автоматического решения многих интеллектуальных задач. Некоторые специалисты даже сравнивают это достижение с изобретением книгопечатания. Информационные работники со временем стали различать термины "база" и "банк" данных, которые первоначально употреблялись как синонимы. Теперь они понимают под банком данных систему программных, языковых, организационных и технических средств, предназначенных для централизованного накопления и коллективного использования данных, а также сами данные, хранимые в виде баз данных. Существует и более ограниченное понимание БнД как одних только программных средств: баз данных, их справочника, системы управления ими (СУБД) и библиотеки запросов и прикладных программ.
Для автоматизированных информационных систем создание банков и баз данных открывает возможность осуществлять информационный поиск не только документов, но и заключенных в них фрагментов - идей и фактов, а также манипулировать ими. Появляется реальная перспектива обогащать собственные наблюдения и результаты исследований ученых всем мировым опытом науки, содержащимся в научно-технической литературе. Значительная часть трудоемкой работы по извлечению и упорядочиванию имеющихся в документах данных, производимая прежде каждым исследователем, в принципе может быть переложена на информационную систему. В концепции банка данных реализуется давняя мечта информационных работников о создании не только автоматизированной информационно-поисковой системы, но и информационно-логической системы, позволяющей осуществлять анализ и синтез научной информации.
Ученый-исследователь и экспериментатор, инженер-разработчик и проектировщик получают возможность оперировать большим, чем до сих пор количеством данных, быстро меняя их организацию. Это можно проиллюстрировать на примере научной работы врачей. Целенаправленное наблюдение и лечение больных, страдающих определенным недугом, получает отражение в историях их болезни. Обычно несколько десятков историй болезни, сопоставленных с данными нескольких десятков литературных источников, служат материалом для написания статьи, и, в конечном счете, кандидатской диссертации. На эту работу уходят годы труда. Несколько сотен историй болезни и литературных источников могут привести к созданию монографии и докторской диссертации, на что приходилось затрачивать значительную часть жизни.
Непосредственный доступ к банку данных позволяет выполнить существенную часть этой работы значительно быстрее. Банк данных облегчает перестройку всевозможных сведений, приведение их к необходимому единообразию, получение статистической информации, поиск зависимостей между параллельными рядами данных. Другими словами, работа с базами данных на компьютере в оперативном режиме устраняет противопоставление поиска информации ее творческой переработке, стирает грань между ними. Происходит как бы диалектический возврат к слиянию этих процессов в деятельности ученого на новом витке развития по спирали.
Было бы неверно думать, что информационные системы уже сегодня готовы к повсеместному переходу на описанный режим работы, хотя и в нашей стране и особенно за рубежом создаются и функционируют автоматизированные системы такого рода. Прежде всего, теория и практика баз и банков данных еще очень молоды и быстро развиваются. Даже наиболее распространенная реляционная ее модель, имеющая ряд преимуществ перед иерархической и сетевой организацией банков данных, как математическая структура реальной действительности далека от совершенства. Именно поэтому разрабатываемые в математической логике модели информационных систем пользуются в информатике таким вниманием. Многообразные задачи, поставленные перед новыми типами информационных систем, называемых теперь интеллектуальными, требуют адекватных средств реализации.
Список литературы
1. Абросимова, М.А. Информационные технологии в государственном и муниципальном управлении: Учебное пособие / М.А. Абросимова. - М.: КноРус, 2013. - 248 c.
2. Акперов, И.Г. Информационные технологии в менеджменте: Учебник / И.Г. Акперов, А.В. Сметанин, И.А. Коноплева. - М.: НИЦ ИНФРА-М, 2013. - 400 c.
3. Атьков, О.Ю. Персональная телемедицина. Телемедицинские и информационные технологии реабилитации и управления здоровьем / О.Ю. Атьков, Ю.Ю. Кудряшов. - М.: Практика, 2015. - 248 c.
4. Афонин, П.Н. Информационные таможенные технологии: Учебник / П.Н. Афонин. - СПб.: Троицкий мост, 2012. - 352 c.
5. Балдин, К.В. Информационные технологии в менеджменте: Учеб. для студ. учреждений высш. проф. образования / К.В. Балдин. - М.: ИЦ Академия, 2012. - 288 c.
6. Барский, А.В. Параллельные информационные технологии: Учебное пособие / А.В. Барский. - М.: Бином, 2013. - 503 c.
7. Бартенев, В.А. Современные и перспективные информационные ГНСС-технологии в задачах высокоточной навигации / В.А. Бартенев, М.Н. Красильщиков. - М.: Физматлит, 2014. - 192 c.
8. Вдовин, В.М. Информационные технологии в налогообложении: Учебное пособие / В.М. Вдовин, Л.Е. Суркова, А.В. Смирнова. - М.: Дашков и К, 2012. - 208 c.
9. Вдовин, В.М. Информационные технологии в налогообложении: Практикум / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2012. - 248 c.
10. Вдовин, В.М. Информационные технологии в финансово-банковской сфере: Практикум / В.М. Вдовин. - М.: Дашков и К, 2012. - 248 c.
11. Вдовин, В.М. Информационные технологии в налогообложении: Практикум / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2014. - 248 c.
12. Вдовин, В.М. Информационные технологии в финансово-банковской сфере: Учебное пособие / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2016. - 304 c.
13. Вдовин, В.М. Информационные технологии в финансово-банковской сфере: Учебное пособие / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2013. - 304 c.
14. Вдовин, В.М. Информационные технологии в финансово-банковской сфере: Практикум / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2012. - 248 c.
15. Вдовин, В.М. Информационные технологии в финансово-банковской сфере.Учебное пособие / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2012. - 304 c.
Размещено на Allbest.ru
...Подобные документы
Оценка качества поисковых систем. Индексирование по ключевым словам. Внутренние представления запросов и документов на информационно-поисковом языке. Способы улучшения поиска при помощи тезаурусов и онтологий. Ранжированный поиск (vector-space model).
лекция [31,5 K], добавлен 19.10.2013Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.
дипломная работа [942,1 K], добавлен 19.05.2011Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.
презентация [59,2 K], добавлен 14.10.2013Информационный поиск: векторная модель (vector-space model). Ранжирование документов по мере их соответствия запросу. Традиционные методы оценки эффективности поиска. Концептуальное индексирование. Разрешение многозначности. Board: значения и иерархия.
презентация [95,2 K], добавлен 01.09.2013Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.
дипломная работа [1,3 M], добавлен 16.06.2015Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.
курсовая работа [101,1 K], добавлен 01.06.2012Удовлетворение информационной потребности как цель поиска информации. Виды информационных ресурсов. Понятие документа в информационном поиске. Схема информационного поиска, этапы его представления. Характеристика качества поиска, его базовые положения.
презентация [1,2 M], добавлен 06.01.2014Информационно-поисковый тезаурус, его определение и цель разработки. Организация быстрого и эффективного поиска документальной информации. Использование, структура, построение, сфера применения и перспективы развития информационно-поисковых тезаурусов.
контрольная работа [17,6 K], добавлен 01.08.2009Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.
курсовая работа [70,2 K], добавлен 10.06.2014Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.
курсовая работа [4,0 M], добавлен 10.05.2015Информационная революция, которую сейчас переживает общество. Проведение структурного анализа документов. Поиск аналоговой информации в системных областях. Поиск информации через сеть интернет. Виды поисковых ресурсов: каталоги и поисковые роботы.
курсовая работа [58,6 K], добавлен 16.12.2012Виды документальных информационных систем. Системы на основе индексирования и семантически-навигационные системы документационного обеспечения управленческой деятельности. Элементы информационно-поискового языка. Координатное индексирование текста.
презентация [56,5 K], добавлен 14.10.2013Рост количества информации в мире, его увеличение в сети Интернет в геометрической прогрессии. Количество сайтов, зарегистрированных в поисковой системе Яндекс. Особенности эффективного поиска информации в сети Интернет. Схема информационных потоков.
презентация [52,6 K], добавлен 27.08.2013Интернет и его возможности. Распространенный и недорогой способ подключения к интернет. Схема передачи информации по протоколу TCP/IP. Характеристики адресов разного класса. Поисковые системы, способы поиска и скачивания информации в глобальной сети.
курсовая работа [245,6 K], добавлен 25.09.2013Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.
презентация [1,9 M], добавлен 15.09.2011Разработка web-приложения для оперирования данными с помощью базы данных и web-браузера в качестве клиента пользователя. Основные преимущества языка программирования Java. Осуществление редактирования, добавления информации и поиска по архивам данных.
дипломная работа [2,1 M], добавлен 30.09.2016Возможности программы DBDesigner. Проектирование и реализация информационно-поисковой системы с помощью CASE-средства DBDesigner в среде Intranet. Этапы проектирования базы данных, установление соединения с базой данных на сервере, синхронизация.
лабораторная работа [1,5 M], добавлен 18.08.2009Приемы поиска информации в Интернете. Поиск по известному адресу, конструирование адреса пользователем. Специальные информационно-поисковые системы: классификационные (рубрикаторы) и словарные. Поиск информационных ресурсов по различным направлениям.
реферат [27,1 K], добавлен 03.04.2010Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.
курсовая работа [77,2 K], добавлен 06.02.2014Обзор понятия и принципов функционирования электронной почты - средства обмена информацией, подготовленной в электронном виде, между людьми, имеющими доступ к компьютерной сети. Информационно-поисковые системы. Параметры эффективности поиска информации.
презентация [677,8 K], добавлен 12.12.2012