Принципиальная схема ДИПС
Общая характеристика документальных поисково-информационных систем (ДИПС), их структура и назначение. Порядок обработки входящей информации и обратная связь с пользователем. Модификация представления запроса и документов. Оценка качества результата.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 24.05.2013 |
Размер файла | 38,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Общие сведения
Главное назначение ДИПС -- обработка запросов. Главная процедура -- поиск (отыскание документа, содержащего ответ на запрос). При этом, в результате получается несколько документов. Запросы, как правило, формулируются на естественном языке (информационные запросы). Неправильно сформулированный запрос может не отражать информационные потребности пользователя. Понятие пертинентность отражает смысловое соответствие документа информационным потребностям пользователя. Релевантность -- соответствие содержания документа информационному запросу в том виде, как он сформулирован.
Для автоматического поиска запросы представляются в виде информационного предписания поискового предписания (ПП), а документы в виде поискового образа документа (ПОД).
Для записи ПП и ПОД применяется информационный поисковый язык. При поиске определяется соответствие ПП и ПОД, на основе которого принимается решение о выдаче документа, т.е. признания его релевантным. При этом набор правил, по которому принимается решение, называется критерием смыслового соответствия (КСС).
Критерий может задаваться явно или неявно. КСС строится на основе формальной релевантности. Фактическую релевантность и пертинентность документов определяет пользователь.
Структура ДИПС
В ДИПС входят 4 подсистемы:
1. Ввод и регистрация;
2. Обработка;
3. Хранение;
4. Поиск.
1. Подсистема ввода решает следующие вопросы:
· создание электронных копий (сканирование, распознавание, ввод с клавиатуры);
· подключение к каналам доставки электронных документов (электронная почта и т.д.);
· преобразование форматов электронных документов;
· присваивание электронным документам уникальных идентификаторов;
· синхронизация имен.
2. Подсистема обработки формирует для каждого документа поисковый образ, который необходим для дальнейшего поиска. Образец хранится в индексе (индекс-таблице). Индекс- это таблица, в строках которой стоят IDдокумента, а в столбцах -- информационные признаки, на основе которых строится данный образ документа. Данные, как правило, бинарные. Поскольку таблицы сильно разряжены, то для их хранения обычно используют свертку. Запрос пользователя в системе преобразуется в поисковое предписание (ПП) и передается в систему поиска.
3. Подсистема хранения содержит исходные документы без изменения. При этом для хранения используют средства сжатия документов и быстрого поиска. Обычно используют доступ по индексу, системы архивации. В подсистему хранения подаются идентификаторы релевантных документов, и она осуществляет их выдачу.
4. Подсистема поиска осуществляет поиск в индексе тех документов, ПОД которых удовлетворяют ПП, с точки зрения КСС.
Обработка входящей информации в ДИПС
Так как документы поступают в систему в текстовом виде, то они должны быть преобразованы в ИПЯ. В случае применения классификационных языков применяется рубрицирование, в случае дескрипторных языков -- индексирование. При этом в случае применения дескриптивных языков без грамматики и без контроля по словарю говорят о полнотекстовом индексировании.
Подготовка текста проходит в два этапа:
· анализ семантики системы, анализ объектов и связей;
· выражение этих связей на ИПЯ, приписывание объектами соответствующих выражений.
Анализ семантики обычно сводится к лингвистическому анализу, который заключается в нормализации слов и словосочетаний. Нормализированное слово называется термином.
При морфологическом анализе, как правило, отсекается все, кроме основы. Достаточно для анализа трех последовательных букв окончания.
Автоматическое индексирование осуществляется для отдельных и составных терминов. При этом, для генерации фраз применяется эвристический алгоритм. Выделяются группы взаимосвязанных слов. Для выделения групп применяется кластерный анализ. После этого определяется частота вхождения групп в документ. Если она высокая, то термины считаются связанными. Автоматическое индексирование заканчивается присвоением терминам весовых коэффициентов на основе статистических характеристик.
Обратная связь с пользователем ДИПС
В ДИПС нет четкого представления документов и запросов пользователей, поэтому пользователь постепенно уточняет запросы методом итераций. Обратная связь позволяет оценивать релевантность документов, найденных по первоначальному запросу. В векторной модели множество документов считается релевантным, если оно образует положительную обратную связь, и нерелевантным -- если отрицательную.
Есть два подхода к использованию обратных связей:
· модификация запроса -- влияет на текущий запрос, но не влияет на другие запросы;
· модификация представления документа -- влияет на эффективность поиска в последовательных запросах.
Модификация представления запроса
Существует 3 способа повышения эффективности поиска:
· Корректировка весов терминов. Для этого складывают вектор запроса и векторы документов с положительной обратной связью и вычитают векторы с отрицательной обратной связью. Переформулированный запрос должен возвращать данные релевантные документы. Этот процесс повторяется до удовлетворения запроса пользователей. При этом положительная обратная связь более содержательная, чем отрицательная.
· Расширение запроса добавлением новых терминов, которые выбираются из документов с положительной обратной связью. После этого сортируются термины на основе весов, и к запросу добавляется заданное число терминов из начала списка.
· В случае, когда документы с положительной обратной связью связаны неоднозначно, тогда первые два метода работают плохо. Документы разбивают на кластеры.
Модификация представлений документов
Она предусматривает настройку векторов документов на основе обратной связи. Вектора документов, попавших в выборку, корректируют так, чтобы приблизить их к вектору запроса. Веса нерелевантных документов отдаляют их от запроса. Опасность такого подхода заключается в том, что оценка релевантности пользователем субъективна, т.е. под каждого пользователя -- своя корректировка. В этом случае прямая корректировка не производится, а накапливается статистика результатов обратной связи.
Оценка качества ДИПС
документальный поисковый информационный запрос
В любой ДИПС присутствуют два типа ошибок:
1. Пропуск цели, т.е. невыдача релевантных документов;
2. Шум -- выдача нерелевантных документов.
Весь массив документов можно разбить на 4 группы:
Документы |
Выданные |
Не выданные |
|
Релевантные |
A(a) |
C(c) |
|
Нерелевантные |
B(b) |
D(d) |
Существуют следующие показатели эффективности ДИПС:
1. Коэффициент полноты -- доля выданных релевантных документов среди всех релевантных документов:
2. Коэффициент точности -- доля выданных релевантных документов ко всем выданным:
3. Коэффициент шума -- доля выданных нерелевантных документов ко всем выданным:
4. Коэффициент осадки -- доля выданных нерелевантных документов ко всем нерелевантным:
5. Коэффициент специфичности -- доля не выданных нерелевантных ко всем нерелевантным:
Обычно коэффициенты измеряются в процентах. При этом замечена следующая закономерность -- попытка улучшения одного из коэффициентов, например p, приводит к уменьшению n, т.е. справедлива следующая зависимость:
Другие показатели ДИПС:
· быстродействие;
· пропускная способность -- количество введенных запросов к ответам за промежуток времени;
· производительность -- количество пользователей в единицу времени;
· надежность;
· разнообразие запросов.
Размещено на Allbest.ru
...Подобные документы
Повышение эффективности (снижение времени, увеличение релевантности документов) поиска данных в больших массивах неструктурированной текстовой информации с помощью поисково-информационных и поисково-справочных машин. Классификация сайтов. Языки запроса.
дипломная работа [523,2 K], добавлен 07.07.2015Термины "логический" и "физический" как отражение различия аспектов представления данных. Методы доступа к записям в файлах. Структура систем управления базами данных. Отличительные особенности обработки данных, характерные для файловых систем и СУБД.
лекция [169,7 K], добавлен 19.08.2013Методы уточнения поискового запроса, расширение запроса с помощью тезауруса. Ключевые концепции для обратной связи по релевантности, вычисление центроидов. Алгоритм Rocchio, положительные или отрицательные сдвиги обратной связи, допущение и оценка.
презентация [1,4 M], добавлен 06.01.2014Автоматизированное рабочие место экономиста-пользователя, его назначение и характеристика. Организация информационных систем. Особенности документальных форм ввода и вывода информации при компьютерной обработке. Роль системы управления базы данных.
шпаргалка [79,5 K], добавлен 29.11.2013Определение назначения и характеристика видов систем защиты информации. Описание структур систем по защите накапливаемой, обрабатываемой и хранимой информации, предупреждение и обнаружение угроз. Государственное регулирование защиты информационных сетей.
реферат [43,6 K], добавлен 22.05.2013Структура организации на примере ТОО "Ali-Abdi", назначение ее отделов. Информационные потоки и документооборот, способы хранения и обработки информации. Виды информационных систем. Формирование конструкторской документации на основе трехмерной модели.
отчет по практике [2,3 M], добавлен 03.12.2013Возможности защиты информации с помощью информационных систем "Парус" и "Лагуна". Модульный принцип организации системы "Парус". Использование единой базы данных. Назначение системы "Лагуна" и ее структура. Требования и рекомендации к защите информации.
реферат [192,1 K], добавлен 27.09.2012Права граждан на защиту конфиденциальной информации и интеллектуальной собственности. Комплекс физических, аппаратных, программных и документальных средств, предназначенных для сбора и хранения информации. Массивы документов в информационных системах.
презентация [57,3 K], добавлен 24.06.2017Сущность информации, ее структура и основные компоненты, классификация и разновидности. Методика и назначение обработки и кодирования информации, понятие и виды кодов. Анализ и классификация, использование автоматизированных информационных систем.
реферат [22,9 K], добавлен 29.09.2009Общая характеристика и организационная структура предприятия, техническое и программное обеспечение, изучение бизнес-модели. Цели и назначение автоматизированного варианта создания SQL-запроса, анализ эффективности его работы, инструкция пользователя.
отчет по практике [775,5 K], добавлен 23.04.2015Использование в микропроцессорных системах цифрового способа представления информации. Помехоустойчивость устройств. Принципиальная схема на микроконтроллере для управления роботом. Устройство и принцип действия робота. Области действия фотодатчиков.
курсовая работа [693,7 K], добавлен 31.01.2015Понятие и назначение носителя информации, его разновидности и характерные особенности, возможности применения. Аппаратура систем обработки информации в технике и управлении. Виды информации в зависимости от формы ее представления, ее свойства и значение.
контрольная работа [263,6 K], добавлен 08.03.2010Задача накопления, обработки и распространения информации. Характеристика систем управления. Схема комплекса средств автоматизации. Функционирование АСУ комплекса средств автоматизации. Требования, предъявляемые к АРМ РД. Структура базы данных.
реферат [29,1 K], добавлен 12.06.2009Организация грузоперевозок в предприятии ЗАО "Паллада-Торг". Особенности управления перевозками: организационная структура и функции Отдела информационных систем; оценка уровня автоматизации и информатизации процесса обработки и передачи информации.
отчет по практике [155,0 K], добавлен 20.07.2012Понятие и структура информационных систем, их классификация и типы, особенности применения в сфере медицины, назначение и возможности. Автоматизированные системы ведения истории болезни, оздоровительных мероприятий. Технические средства обработки данных.
дипломная работа [2,0 M], добавлен 03.07.2015Осмысление и переработка информационных данных, которые используются для решения управленческих задач. Общая схема информационной системы, ввод данных, их обработка, хранение и распределение полученной информации. Характеристики информационных систем.
контрольная работа [59,8 K], добавлен 03.10.2010Анализ показателей оценки эффективности информационных систем и технологий. Расчет трудовых и стоимостных показателей и показателей достоверности информации, разработка программы для ускорения методов обработки данных. Интерфейс и листинг приложения.
дипломная работа [1,2 M], добавлен 14.01.2012Факторы угроз сохранности информации в информационных системах. Требования к защите информационных систем. Классификация схем защиты информационных систем. Анализ сохранности информационных систем. Комплексная защита информации в ЭВМ.
курсовая работа [30,8 K], добавлен 04.12.2003Причины появления информационных систем. Назначение электронных вычислительных машин: числовые расчеты, обработка, хранение и передача информации. Созданиеи первого жесткого магнитного диска - винчестера. Разработка локальной сети для передачи информации.
презентация [339,2 K], добавлен 06.01.2014Общая характеристика информационных систем, предназначенных для передачи, преобразования и хранения информации. Изучение форм представления детерминированных сигналов. Энтропия сложных сообщений. Рассмотрение основных элементов вычислительных машин.
лекция [1,5 M], добавлен 13.04.2014