Общая функциональная структура информационно-поисковых систем и критерий смыслового соответствия

Исторические предпосылки развития поисковых систем, анализ их современного состояния и дальнейшие перспективы. Классификация и типы, структура и компоненты, характеристики. Информационно-поисковые языки internet. Критерий смыслового соответствия.

Рубрика Программирование, компьютеры и кибернетика
Вид контрольная работа
Язык русский
Дата добавления 25.02.2019
Размер файла 86,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

2

Размещено на http://www.allbest.ru/

Общая функциональная структура информационно-поисковых систем и критерий смыслового соответствия

Введение

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развития глобальной информационной компьютерной сети.

Проблема поиска и сбора информации - одна из важнейших проблем информационно поисковых систем. Конечно, нельзя сравнивать в этом отношении, скажем, средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: заголовок, автор, место издания. Проблема поиска информации приобрела новый характер в 20-м столетии, с началом развития века информационных технологий. Теперь она заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей. Проблема поиска информации значительно усложняется при использовании виртуальных источников. Здесь используется технология онлайновых каталогов, в результате применения которой пользователь имеет возможность выполнять поиск в каталогах сразу нескольких библиотек, чем, на самом деле, еще больше усложняет себе задачу, но, с другой стороны, увеличивает шансы решить ее.

На современном этапе все информационное пространство, в котором мы живем, все больше погружается в Internet. Internet становится основной формой существования информации, не отменив традиционных, такие как журналы, радио, телевидение, телефон, всевозможные справочные службы.

1. Исторические предпосылки развития поисковых систем

поисковый информационный internet

Обратимся к истории возникновения сети Internet, которая была создана в связи с возникшей необходимостью совместного использования информационных ресурсов, распределенных между различными компьютерными системами. Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для обмена данными между хост-компьютерами.

Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере увеличения пользователей и хосткомпьютеров прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.

Для удовлетворения таких потребностей сначала были созданы поисковая система Archie, решающая задачу локализации ресурсов на FTP-сервере, и система Gopher, упрощающая доступ к различным сетевым ресурсам. Затем были разработаны сетевые информационные системы WWW и WAIS, предлагающие абсолютно новые методы получения информации. Принципы работы этих систем позволяют легко ориентироваться в огромном количестве информационных ресурсов без необходимости предоставления механизмов работы самой сети Internet. Такой подход позволяет говорить уже не просто о ресурсах взаимосвязанных компьютерных систем, а об особых информационных пространствах сети.

Система Archie представляет собой комплекс программных средств, работающих со специальными базами данных. В этих базах данных содержится постоянно пополняющаяся информация о файлах, к которым можно получить доступ через сервис FTP. Пользуясь услугами системы Archie, можно осуществить поиск файла по шаблону его имени. При этом пользователь получит список файлов с точным указанием места их хранения в сети, а также с информацией о типе, времени создания и размере файлов. Доступ к информационно-поисковой системе Archie может осуществляться различными путями, начиная от запросов по электронной почте и с помощью сервиса Telnet и заканчивая использованием графических Archie-клиентов.

Система Gopher была разработана для упрощения процесса локализации FTP-ресурсов Internet и для более удобного представления сведений о содержании хранящихся на FTP-серверах файлов. Система Gopher дает возможность в удобной форме (в виде меню) представлять пользователям об имеющихся файлах и их содержании. Меню Gopher-серверов могут содержать ссылки на другие Gopher и FTP-серверы. Таким образом, пользователь получает возможность «путешествовать» по Internet, не обращая внимания на местонахождение интересующих его ресурсов, и получать доступ к этим ресурсам.

Система Veronica используется для поиска информации в Gopherпространстве по заголовкам пунктов меню. После ввода ключевого слова, система Veronica выясняет, встречается ли оно в меню на каком-либо Gopher-сервере, и в качестве результатов поиска выдает список заголовков пунктов меню, содержащих ключевое слово. Поскольку система Veronica не является автономной поисковой программой, а тесно связана с системой Gopher, она обладает тем же, что и система Gopher, недостатком: далеко не всегда по заголовку можно сказать, что собой представляет тот или иной информационный ресурс. Достоинства системы заключается в том, что нет необходимости узнавать, где расположена найденная информация, достаточно выбрать требуемую запись из списка.

2. Информационно-поисковая система

Поиск - в информационном смысле: стремление найти что-либо, действие ищущего направленное на получение нового или утерянного, новых данных, знаний, закономерностей. Поиском так же называется один из способов обучения, обеспечение полезных знаний о природе, языке, обществе. Подразумевается получение знаний через самостоятельные мыслительные действия для решения задач.

Система - множество взаимосвязанных объектов и ресурсов организованных процессом системогенеза в единое целое и возможно противопоставимое среде.

Система в системном анализе - совокупность существующих и связей между ними, выделенных из среды на определенное время, с определенной целью.

Информационная система - организованная совокупность программно-технических и других вспомогательных средств, технологических процессов, функционально-определенных групп работников, обеспечивающая сбор, представление и накопление информационных ресурсов в определенной предметной области, поиск и выдача сведений необходимых для удовлетворения определенных потребностей.

Информационно-поисковая система - упорядоченная совокупность документов и информационных технологий предназначенных для хранения и поиска информации, текстов или данных.

Для того чтобы было с чем сравнивать необходимо некоторое количество непертинентных (соответствующих запросу) документов. Они называются «шум». Слишком большой шум затрудняет выделение пертинентных документов, малый не дает уверенности в том, что документы пертинентны.

Когда документов много используется информационно-поисковая система (ИПС).

В этом случае информационная потребность должна быть выражена средствами, которые понимает конкретная информационная система (поисковая). Иными словами, должен быть сформулирован запрос. Запрос может редко выразить информационную потребность, однако многие ИПС по разным причинам не могут определить, соответствует тот или иной документ запросу. Степень соответствия запросу называется релевантностью.

Релевантный документ может оказаться непертинентным.

Особенности информационно-поисковой система:

Поисковые процессы представлены четырьмя стадиями:

1. Формулировка (До начала поиска)

2. действие (начался поиск)

3. обзор результатов

4. усовершенствование

3. Интеллектуальные информационно-поисковые системы

Структура интеллектуальной системы

С развитием компьютерных технологий менялся смысл, вкладываемый в понятие информационной системы. Современная информационная система - это набор информационных технологий, направленных на поддержку жизненного цикла информации и включающего три основных процесса: обработку данных, управление информацией и управление знаниями. В условиях резкого увеличения объемов информации переход к работе со знаниями на основе искусственного интеллекта является, по всей вероятности, единственной альтернативой информационного общества.

Согласно определению Д.А. Поспелова, «Система называется интеллектуальной, если в ней реализованы следующие основные функции:

1. накапливать знания об окружающем систему мире, классифицировать и оценивать их с точки зрения прагматической полезности и непротиворечивости, инициировать процессы получения новых знаний, осуществлять соотнесение новых знаний с ранее хранимыми;

2. пополнять поступившие знания с помощью логического вывода, отражающего закономерности в окружающем систему мире в накопленных ею ранее знаниях, получать обобщенные знания на основе более частных знаний и логически планировать свою деятельность;

3. общаться с человеком на языке, максимально приближенном к естественному человеческому языку;

4. получать информацию от каналов, аналогичных тем, которые использует человек при восприятии окружающего мира;

5. уметь формировать для себя или по просьбе человека (пользователя) объяснение собственной деятельности;

6. оказывать пользователю помощь за счет тех знаний, которые хранятся в памяти, и тех логических средств рассуждений, которые присущи системе».

Перечисленные функции можно назвать функциями представления и обработки знаний, рассуждения и общения. Наряду с обязательными компонентами, в зависимости от решаемых задач и области применения в конкретной системе эти функции могут быть реализованы в различной степени, что определяет индивидуальность архитектуры.

База знаний представляет собой совокупность сред, хранящих знания различных типов. Рассмотрим кратко их назначение:

1. База фактов (данных) хранит конкретные данные, а база правил - элементарные выражения, называемые в теории искусственного интеллекта продукциями.

2. База процедур содержит прикладные программы, с помощью которых выполняются все необходимые преобразования и вычисления.

3. База закономерностей включает различные сведения, относящиеся к особенностям той среды, в которой действует система.

4. База метазнаний (база знаний о себе) содержит описание самой системы и способов ее функционирования: сведения о том, как внутри системы представляются единицы информации различного типа, как взаимодействуют различные компоненты системы, как было получено решение задачи.

5. База целей содержит целевые структуры, называемые сценариями, позволяющие организовать процессы движения от исходных фактов, правил, процедур к достижению той цели, которая поступила в систему от пользователя либо была сформулирована самой системой в процессе ее деятельности в проблемной среде.

Управление всеми базами, входящими в базу знаний, и организацию их взаимодействия осуществляет система управления базами знаний. С ее же помощью реализуются связи баз знаний с внешней средой. Таким образом, машина базы знаний осуществляет первую функцию интеллектуальной системы.

Выполнение второй функции обеспечивает часть интеллектуальной системы, называемая решателем и состоящая из ряда блоков, которые управляются системой управления решателя. Часть из блоков реализует логический вывод.

Блок дедуктивного вывода осуществляет в решателе дедуктивные рассуждения, с помощью которых из закономерностей из базы знаний, фактов из базы фактов и правил из базы правил выводятся новые факты. Кроме этого, данный блок реализует эвристические процедуры поиска решений задач как поиск путей решения задачи по сценариям при заданной конечной цели. Для реализации рассуждений, которые не носят дедуктивного характера, то есть для поиска по аналогии, по прецеденту и так далее, используются блоки индуктивного и правдоподобного выводов.

Блок планирования применяется в задачах планирования решений совместно с блоком дедуктивного вывода.

Назначение блока функциональных преобразований состоит в решении задач расчетно-логического и алгоритмического типов.

Рисунок 1. Общая структура интеллектуальной системы

Третья функция - функция общения - реализуется как с помощью компоненты естественно-языкового интерфейса, так и с помощью рецепторов и эффекторов, которые осуществляют так называемое невербальное общение и используются в интеллектуальных роботах.

Разновидности интеллектуальных систем

В зависимости от набора компонентов, реализующих рассмотренные функции, можно выделить следующие основные разновидности интеллектуальных систем:

1. интеллектуальные информационно-поисковые системы;

2. экспертные системы (ЭС);

3. расчетно-логические системы;

4. гибридные экспертные системы.

Интеллектуальные информационно-поисковые системы являются системами взаимодействия с проблемно-ориентированными (фактографическими) базами данных на естественном, точнее ограниченном как грамматически, так и лексически (профессиональной лексикой) естественном языке (языке деловой прозы). Для них характерно использование (помимо базы знаний, реализующей семантическую модель представления знаний о проблемной области) лингвистического процессора.

Экспертные системы являются одним из бурно развивающихся классов интеллектуальных систем. Данные системы в первую очередь стали создаваться в математически слабоформализованных областях науки и техники, таких как медицина, геология, биология и другие. Для них характерна аккумуляция в системе знаний и правил рассуждений опытных специалистов в данной предметной области, а также наличие специальной системы объяснений.

Расчетно-логические системы позволяют решать управленческие и проектные задачи по их постановкам (описаниям) и исходным данным вне зависимости от сложности математических моделей этих задач. При этом конечному пользователю предоставляется возможность контролировать в режиме диалога все стадии вычислительного процесса. В общем случае, по описанию проблемы на языке предметной области обеспечивается автоматическое построение математической модели и автоматический синтез рабочих программ при формулировке функциональных задач из данной предметной области. Эти свойства реализуются благодаря наличию базы знаний в виде функциональной семантической сети и компонентов дедуктивного вывода и планирования.

В последнее время в специальный класс выделяются гибридные экспертные системы. Указанные системы должны вобрать в себя лучшие черты как экспертных, так и расчетно-логических и информационно-поисковых систем.

Разработки в области гибридных экспертных систем находятся на начальном этапе.

Наиболее значительные успехи в настоящее время достигнуты в таком классе интеллектуальных систем, как экспертные системы.

Важное место в теории искусственного интеллекта (ИИ) занимает проблема представления знаний. В настоящее время выделяют следующие основные типы моделей представления знаний:

1. семантические сети, в том числе функциональные;

2. фреймы и сети фреймов;

3. продукционные модели.

Семантические сети определяют то, как граф общего вида, в котором можно выделить множество вершин и ребер. Каждая вершина графа представляет некоторое понятие, а дуга - отношение между парой понятий. Метка и направление дуги конкретизируют семантику. Метки вершин семантической нагрузки не несут, а используются как справочная информация.

Различные разновидности семантических сетей обладают различной семантической мощностью, следовательно, можно описать одну и ту же предметную область более компактно или громоздко.

Фреймом называют структуру данных для представления и описания стереотипных объектов, событий или ситуаций. Фреймовая модель представления знаний состоит из двух частей:

1. набора фреймов, составляющих библиотеку внутри представляемых знаний;

2. механизмов их преобразования, связывания и так далее Существует два типа фреймов:

1. образец (прототип) - интенсиональное описание некоторого множества экземпляров;

2. экземпляр (пример) - экстенсиональное представление фрейм-образца.

В общем виде фрейм может быть представлен следующим кортежем:

<ИФ, (ИС, ЗС, ПП),…, (ИС, ЗС, ПП)>,

где ИФ - имя фрейма; ИС - имя слота; ЗС - значение слота; ПП - имя

присоединенной процедуры (необязательный параметр).

Слоты - это некоторые незаполненные подструктуры фрейма, заполнение которых приводит к тому, что данный фрейм ставится в соответствие некоторой ситуации, явлению или объекту.

В качестве данных фрейм может содержать обращения к процедурам (так называемые присоединенные процедуры). Выделяют два вида процедур: процедуры-демоны и процедуры-слуги. Процедуры-демоны активизируются при каждой попытке добавления или удаления данных из слота. Процедуры-слуги активизируются только при выполнении условий, определенных пользователем при создании фрейма.

Продукционные модели - это набор правил вида «условия-действие», где условиями являются утверждения о содержимом базы данных, а действия представляют собой процедуры, которые могут изменять содержимое базы данных.

Формально продукция определяется следующим образом:

(i); Q; P; С; QA В; N,

где (i) - имя продукции (правила); Q - сфера применения правила; Р - предусловие (например, приоритетность); С - предикат (отношение); А -> В-ядро; N - постусловия (изменения, вносимые в систему правил).

Практически продукции строятся по схеме «ЕСЛИ» (причина или, иначе, посылка), «ТО» (следствие или, иначе, цель правила).

Полученные в результате срабатывания продукций новые знания могут использоваться в следующих целях:

1. понимание и интерпретация фактов и правил с применением

продукций, фреймов, семантических цепей;

2. решение задач с помощью моделирования;

3. идентификация источника данных, причин несовпадений новых знаний со старыми, получение метазнаний;

4. составление вопросов к системе;

5. усвоение новых знаний, устранение противоречий, систематизация избыточных данных.

Процесс рассмотрения компьютером набора правил (выполнение программы) называют консультацией. Ее наиболее удобная для пользователя форма - дружественный диалог с компьютером. Интерфейс может быть в форме меню, на языке команд и на естественном языке.

Диалог может быть построен на системе вопросов, задаваемых пользователем, компьютером, или фактов - данных, хранящихся в базе данных. Возможен смешанный вариант, когда в базе данных недостаточно фактов.

При прямом поиске пользователь может задавать две группы вопросов, на которые компьютер дает объяснения:

1. как получено решение. При этом компьютер должен выдать на экран трассу в виде ссылок на использованные правила;

2. почему компьютер задал какой-то вопрос. При этом на экран выдается своеобразная трасса, которую компьютер хотел бы использовать для вывода после получения ответа на задаваемый вопрос. Вопрос почему может быть задан как в процессе консультации, так и после выполнения программы.

Специфичен алгоритм поиска, реализуемый логическими языками: он является фактически последовательным перебором по дереву сверху вниз - слева направо.

4. Характеристики информационно-поисковых систем

Опишем основные характеристики поисковых систем:

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска подробные пояснения по странице результатов поиска, например, у «Яндекса» можно посмотреть по ссылке.

Функции информационно-поисковой системы.

Информационно-поисковая система - система, выполняющая функции:

1. хранения больших объемов информации;

2. быстрого поиска требуемой информации;

3. добавления, удаления и изменения хранимой информации;

4. вывода информации в удобном для человека виде.

Различают:

1. автоматизированные (coputerised);

2. библиографические (reference);

3. диалоговые (online);

4. документальные и фактографические информационно-поисковые системы.

5. Информационно-поисковые языки internet

При описании и классификации информационно-поисковых систем ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми пользуются в Сети.

Lycos

Как и большинство систем, Lycos дает возможность использовать простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке. Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о числе документов на каждое слово, а уже позже и список ссылок на формально релевантные документы. В списке напротив каждого документа указывается его мера близости запросу, число слов из запроса, которые попали в документ и оценочная мера близости, которая может быть больше или меньше формально вычисленной. На апрель 1996 года в Lycos не был реализован булевый поиск, такие планы были анонсированы. Последнее предложение подразумевает только то, что нельзя вводить эти операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Последнее относится к расширенной форме запроса, который предназначен для использования искушенными пользователями системы, которые уже научились пользоваться этим механизмом.

Таким образом мы видим, что Lycos относится к системе с языком запросов типа «Like this», но предполагается его расширения и на другие способы организации поисковых предписаний.

AltaVista

Наиболее интересным с точки зрения информационно-поискового языка в AltaVista является возможность расширенного поиска. Здесь стоит сразу выделить, что в отличии от многих систем AltaVista поддерживает одноместный оператор NOT. Кроме этого есть еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой словарь этих фраз. Кроме всего прочего, при поиске в АltaVista можно задать имя поля где должно встретиться слово. Это может быть гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но сказано, что ранжирование применяется как при простом поиске, так и при расширенном запросе.

Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo

Данная система появилась в сети одной из первых, и поэтому говорить будем о сегодняшнем состоянии Yahoo, а не о состоянии годовой давности. В настоящее время Yahoo сотрудничает со многими производителями средств информационного поиска и на различных ее серверах используется различное программное обеспечение. На мой взгляд, это самая незатейливая информационная служба, которая сосредоточилась на информации о Web как таковой. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел и они соединяются либо AND, либо OR. При выдаче не выдается степени соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что информация в базе данных Yahoo точно есть. Ранжирование производится по числу терминов запроса в документе.

Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText

Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Все описания больше напоминают рекламу, чем реальное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов поиска сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска.

OpenText можно было бы отнести без сомнения к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

InfoSeek

Система InfoSeek обладает довольно развитым информационно-поисковым языком, который позволяет не просто указывать какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» - термин обязан быть в документе, «-» - термин обязан отсутствовать в документе. Кроме этого InfoSeek позволяет проводит то, что называется контекстным поиском. Это значит, что используя специальную форму запроса можно потребовать последовательной совместной встречаемости слов. Кроме этого можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Есть возможность и указания ключевых фраз. Ключевая фраза от последовательной встречаемости отличается тем, что фраза всегда ищется как единое целое, а при последовательной встречаемости слова могут стоять рядом, но в произвольном порядке. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса в документе, за вычетом общих слов. Все эти факторы используются как вложенные процедуры.

Подводя краткое резюме можно сказать, что InfoSeek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS

WAIS является одной из наиболее изощренных поисковых систем Internet. В отличии от многих поисковых машин, ИПЯ системы позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечение терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии «Британика» на Internet.

Применение языков на практике

Рассмотрим теперь небольшой сравнительный пример использования описанных выше поисковых машин. В качестве запроса использовалась фраза: «Best on the Web»

Подразумевалось, что следует найти документ, связанный с конкурсами «Лучший на Сети». Понятно, что уже в самом запросе есть определенная некорректность, но тем интереснее посмотреть, как с ней справились различные системы. Эта фраза задавалась в качестве набора слов и при этом получались следующие результаты.

AltaVista - после нормализации лексики от запроса осталось только Best. Естественно, что при этом качество поиска было отвратительным. Однако, использование поиска по фразе как по единому целому, поставило требуемый документ на первое место в списке найденных.

Lycos - здесь отсеялись «on the» и документ был указан только в конце списка. Поиск по фразе улучшения результатов не дал.

InfoSeek - при расширенном поиске нужный документ был найден третьим в списке из десяти документов. Уточнение поиска привело только к миграции документа вглубь списка.

OpenText - документ занимает пятую строчку в списке из десяти документов. Как и в случае с InfoSeek уточнение запроса результатов не дало.

Yahoo - документ попал в список найденных и занял третье место (ошибка в запросе: вместо «on the» следовало указывать «of the»). Но здесь следует заметить, что основное место хранения этого документа база данных Yahoo, то есть запрос точно совпадает с тематикой базы данных.

Критерий смыслового соответствия

Критерий смыслового соответствия (КСС), или критерий выдачи, позволяет решать вопрос о выдаче или не выдаче того или иного документа, то есть является основой алгоритма поиска.

Существуют следующие виды КСС:

1. КСС «на полное вхождение», или «на вхождение».

Условием выдачи документов является полное вхождение ПОЗ в ПОД. Иными словами, документ выдается, если множество дескрипторов, образующее ПОЗ (Мпоз), полностью входит (рисунок 2) в множество дескрипторов, содержащихся в ПОД (МПОЛ), или совпадает с Мпод, т.е. Мпоз М Мпод

Рисунок 2. Критерий «на полное вхождение»

2. КСС «на частичное вхождение».

ПОЗ входит в ПОД частично (пересечение ПОД и ПОЗ). Документ выдается, если ПОД и ПОЗ совпадают частично, т.е. если часть дескрипторов, содержащихся в Мпод, совпадает с дескрипторами, входящими в Мпоз (рисунок 3): Мпоз З Мпод.

Рисунок 3. Критерий «на частичное вхождение»

3. КСС с учетом текстуальных и базисных отношений.

Различие с предыдущим заключается в том, что сравнение дескрипторов ПОЗ и ПОД должно осуществляться с точностью до совпадения текстуальных отношений, в которые их прообразы вступают соответственно в запросе и документе.

4. КСС с учетом весовых коэффициентов информативных слов или дескрипторов.

Каждому информативному слову в запросе приписывается весовой коэффициент (WI). Весовые коэффициенты в ПОЗ определяются пользователем и нормируются. Сумма всех весовых коэффициентов в запросе должна быть константой (УWI= const). Выдача эшелонируется в зависимости от суммы весовых коэффициентов слов запроса, совпавших со словами, употребляемыми в документе. Количество эшелонов выдачи, а также соответствующие каждому из них суммы весовых коэффициентов (порог) определяются разработчиком системы в процессе ее отладки.

5. КСС с учетом синтаксических отношений.

Вводятся правила грамматики и сопоставляются синтагмы, формируемые из дескрипторов (или ключевых слов) с помощью введенных правил.

При появлении сети Internet проблема поиска становилась более актуальной. Internet - всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете хранится очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых систем.

Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты - новое направление, лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ, следует также иметь в виду, что в сети наряду с давно действующими серверами возникают новые.

Список используемых источников

1. Вагин, В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах / В.Н. Вагин, Е.Ю. Головина, А.А. Загорянская. - Москва: СПб. [и др.]: Питер, 2015. - 282 c.

2. Вламис Бизнес-путь: Yahoo! Секреты самой популярной в мире интернет-компании / Вламис, Смит Энтони;, Боб. - М.: Крылов, 2015. - 256 c.

3. Трояновский, В.М. Информационно-управляющие системы и прикладная теория случайных процессов; М.: Гелиос АРВ - Москва, 2013. - 304 c.

4. Ланкастер, Ф. Информационно-поисковые системы: характеристики, испытание и оценка / Ф. Ланкастер. - М.: Мир, 2015. - 308 c.

5. Фрейен, Бен HTML5 и CSS3. Разработка сайтов для любых браузеров и устройств / Бен Фрейен. - М.: Питер, 2014. - 304 c

Размещено на Allbest.ru

...

Подобные документы

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.

    реферат [30,0 K], добавлен 07.05.2011

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.

    реферат [28,4 K], добавлен 14.01.2010

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.

    курсовая работа [66,3 K], добавлен 20.12.2008

  • Информационно-поисковый тезаурус, его определение и цель разработки. Организация быстрого и эффективного поиска документальной информации. Использование, структура, построение, сфера применения и перспективы развития информационно-поисковых тезаурусов.

    контрольная работа [17,6 K], добавлен 01.08.2009

  • Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.

    презентация [59,2 K], добавлен 14.10.2013

  • Контекстная реклама как основная статья дохода поисковых систем-лидеров. Понятие цены клика. Формирование цены на основе частот запросов (на примере поисковой системы Рамблер). Основные поисковые системы на российском рынке, перспективы их развития.

    творческая работа [373,4 K], добавлен 07.04.2009

  • История поисковых систем. Классификация информационных систем по степени автоматизации. Три основных способа поиска информации в Интернете. Отличие поисковых систем от каталогов. Назначение и типы информационных систем государственных учреждений.

    курсовая работа [368,5 K], добавлен 13.05.2015

  • Методика использования информационных образовательных технологий. Логическая структура базы данных (БД) и информационно-поисковые функции. Программная реализация БД, представлений таблиц и информационно-поисковых функций. Состав программного обеспечения.

    курсовая работа [2,1 M], добавлен 16.05.2013

  • Поисковые системы. Описание и сравнение сервисов поисковых систем, предоставляемых пользователям. Сравнительный анализ интерфейсов. Риски использования поисковых систем. Блокировка вирусных сайтов. Загруженность главной страницы новостями и рекламой.

    презентация [198,3 K], добавлен 17.01.2014

  • Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.

    презентация [775,3 K], добавлен 10.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.