Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Web-страницы и поисковые системы

Web-страницы и поисковые системы

Общие понятия о Web-странице. Компьютерная и символьная формы адреса сайта. Составляющие контента, размещенные на Web-странице. Поисковые системы: состав, функции, принцип работы. Понятие поискового запроса на примере поисковой системы "Яндекс".

Рубрика	Программирование, компьютеры и кибернетика
Вид	реферат
Язык	русский
Дата добавления	21.12.2017
Размер файла	39,0 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Глобальная компьютерная сеть Internet развивается стремительно. Internet уже стал полноценным источником разнообразной полезной информации для любой категории пользователей, которым пользуется большинство современных людей.

Специалисты считают, что совсем скоро большинство людей будут использовать его ежедневно. Телевидение и радиоприемники не будут заменены компьютерами, но уже есть модели, имеющие мощный процессор, большую память и фактически сами ставшие в некотором отношении компьютерами.

В наше время любой человек, владеющий компьютером, может "скачать" с его помощью статьи, иллюстрации, видео- или аудиоинформацию по любой интересующей его теме. Он может получить эту информацию тогда, когда он этого пожелает. Системы искусственного интеллекта - параллельный машинный перевод, а также идентификация и распознавание голоса практически сломали последние национальные и языковые барьеры и сделали возможным свободный транснациональный обмен информацией.

1. Web-страницы

Все то, что мы видим на экране браузера, «путешествуя» по Интернету, называется WEB страницей. На WEB странице может размещаться самое разнообразное содержание (или же контент): текст, картинки, видеофильмы, звучащая музыка или интересная онлайн игра.

У любой WEB страницы есть адрес. По этому адресу страницу можно отыскать в Интернете. Адрес страницы отображается в адресной строке браузера. Например, у WEB страницы, которую Вы сейчас читаете, адрес такой: http://www.topauthor.ru/CHto_takoe_WEB_stranitsa_9153.html

Проверьте, она должна высвечиваться в адресной странице Вашего браузера.

Сейчас многие вводят в адресную строку ключевое слово или целую фразу. Раньше программа-браузер в этом случае генерировала ошибку. Нет такого адреса, страница не найдена! Сейчас браузер обрабатывает эту ошибку следующим образом: обращается к поисковой системе (Google, Yandex или другой) с запросом, состоящим из введенного в адресную строку слова или фразы. Таким образом, поисковая система пытается подтолкнуть пользователя к правильному ответу на его вопрос и отыскать в Сети необходимую WEB страницу, где введенные пользователем слова встречаются чаще всего. Попробуйте написать в поисковой строке вопрос, поставленный в заглавие этой статьи, и Вы получите целый список ссылок, где содержатся ответы на этот вопрос. Вполне возможно, что в этом списке Вы отыщете и данную статью.

Но вернемся к адресу WEB страницы. Этот адрес читается слева направо и состоит из нескольких частей. Первая часть адреса для WEB страниц всегда будет http:// или https://. Эти буквы - обозначение протокола, с помощью которого WEB страницы передаются по Сети. Протокол этот называется протоколом передачи гипертекста (HyperText Transfer Protocol -- HTTP). WEB страницы - это типичный гипертекст, то есть текст со ссылками на другие текстовые и мультимедийные материалы. Следовательно, для передачи WEB страниц всегда используют протокол HTTP.

Если WEB страница - это как бы страница книги, размещенная в Интернете, то самой книгой можно считать Интернет-сайт, который объединяет несколько WEB страниц, связанных между собой Интернет-ссылками. Так же, как и WEB страница, Интернет-сайт тоже имеет адрес. Адрес интернет-сайта является частью адреса WEB страницы и находится между символами // и первым символом /.

Адрес сайта имеет две формы: цифровую - для компьютера и символьную - для того, чтобы этот адрес воспринимали люди. Одну форму представления несложно перевести в другую. Это делает специальная система доменных имен (Domain Name System - DNS), обслуживающая Интернет.

У адреса сайта, записанного в символьной форме, есть несколько составляющих, разделенных точками, среди них - название сайта (topauthor) и название национального домена, к которому принадлежит сайт (ru, что означает Россия). За символом / следует имя WEB страницы, которое по существу является адресом страницы на сайте.

Система адресации не заканчивается на уровне страницы. Все составляющие контента (файлы изображений, музыки и видеоролики) также имеют адреса. Такие адреса иначе называются единообразными локаторами ресурса (Uniform Resource Locator -- URL). Так, например, адрес логотипа «Топавтора» такой: http://www.topauthor.ru/public/images/logo.png

О том, что эта составляющая контента - картинка, говорят три буквы, png, следующие за точкой в конце адреса. Название картинки располагается между символом / и точкой. Данная картинка называется logo и размещена на сайте www.topauthor.ru в одной из файловых директорий, /public/images/. Если ввести вышеуказанный адрес URL в адресную строку браузера, то на экране появится изображение логотипа сайта «Топавтор».

Что при этом произошло? Программа-браузер по адресу отыскала на сайте www.topauthor.ru место хранения картинки, скопировала этот файл на локальный компьютер пользователя (иногда говорят «скачала») и продемонстрировала на экране браузера соответствующую картинку, которая теперь хранится не где-то в Интернетовском поднебесье, а под рукой, на локальном компьютере.

На самом деле, составляющие контента, размещенные на WEB странице, не должны обязательно храниться на том же сайте. Например, для размещения на WEB странице картины «Опять двойка» можно дать ссылку на файл, находящийся на другом сайте, например, на сайте Википедии в статье «Опять двойка» или же на сайте Третьяковской галереи, где эта картина выставлена. Результат будет одинаковый. В обоих случаях картинка появится на WEB странице.

Сама WEB страница представляет собой текст, написанный на специальном языке гипертекстовой разметки (HyperText Markup Language -- HTML). Этот текст можно увидеть, если дать браузеру команду продемонстрировать источник WEB страницы (View page source). Язык HTML позволяет однозначно описать размещение на WEB странице всех составляющих контента. Например, типы и размеры шрифтов, которые используются при печати текстов, размеры картинок и их положение относительно текста.

Любой Интернет-сайт размещается на сервере. Сервер - это компьютер, управляемый специальной программой. Сервер обслуживает все запросы, направляемые к сайту. Благодаря работе сервера происходит обмен информацией между сайтом и браузером. Браузер размещен и работает на компьютере пользователя, подсоединенном к Интернету. Компьютер пользователя называют еще локальным компьютером. Процесс обмена информацией между сервером и локальным компьютером начинается в ответ на запрос браузера с локального компьютера. Этот процесс во многом напоминает радиопередачу, где радиопередатчиком является сервер, а радиоприемником - браузер.

На локальный компьютер передается текст, написанный на языке HTML. Можно считать, что на локальный компьютер передан фотоальбом с пустыми местами, оставленными для картинок, музыки, видеоклипов и программ. В этих местах пока находятся только URL адреса всех мультимедийных составляющих контента. Браузер «проходит» по всем этим адресам и копирует с них на локальный компьютер файлы изображений, музыки или видеоролики. Затем все эти файлы размещаются на экране, как это было намечено программистом, разрабатывавшим WEB страницу. Браузер справляется с этим за несколько секунд, а дальше - дело пользователя: читай, слушай музыку, просматривай видеоролики.

2. Поисковые системы: состав, функции, принцип работы

сайт поисковый запрос

Поисковые системы уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас - это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов в поисковых системах. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, - директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…

Понятие и функции поисковой системы

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это - «Яндекс», «Рамблер», «Апорт».

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»).

Первоочередная задача любой поисковой системы - доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

*Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

*Точность

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

*Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

*Скорость поиска

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

* Наглядность

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска. Дробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/?idH1937.

Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные международные поисковые системы - Google, Yahoo и MSN, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb - базу Yahoo.

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Состав и принципы работы поисковой системы

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

* Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

* Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.

* В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

* Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.

* Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) - страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

Запрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной машине первого уровня - frontend (1.1 - 1.3, на рис. машине 1.3). Frontend, в свою очередь, отправляет запрос дальше, на один из восьми proxy-серверов, также выбирая наиболее свободный сервер (2.1 - 2.8, на рис. машине 2.2). Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 - 3.2, на рис. машине 3.1) и по базе Тор 100 (4.1 - 4.2, на рис. машине 4.1). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, - backends (5.1.х - 5.7.х, на рис. машинам 5.1.2, 5.2.11, 5.3.1 и т.д.) Та же информация отправляется на машины с "быстрой базой" (6.1 - 6.2).

На текущий момент в поиск включено 77 backend'ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend'ах первой группы (5.1.1 - 5.1.11 на рис), оранжевый сектор - на backend'ах второй группы (5.2.1 - 5.2.11) и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend'ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.

После того, как запрос обработан на backend'ах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин "быстрой базы". Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend'ах. Так, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. На proxy-сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте. Полученные результаты отдаются на frontend.

Помимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю.

Что умеет Яndex.

Программные продукты серии Яndex (Языковый index) - набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка.

Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов, сетевой "паук".

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами как в локальной, так и в глобальной сети (технологии Intranet и Internet), а также может быть подключен как модуль к другим системам.

1. Индексация

Создаваемый индекс составляет около 1/3 объема текста (без картинок, tag'ов и пр.), при этом записывается подробный адрес слова - с точностью до позиции в тексте, что потом позволяет искать с учетом близости. В базу входят нормализованные формы слов текста, сами документы не хранятся.

Морфологический анализ слов текста происходит одновременно с индексацией, что дает возможность снятия омонимии.

Скорость индексации - не менее 2 Мб/минуту. Написан свой робот для обхода Web'а. Организация изменения индекса (полное либо частичное обновление, слияние). Идет индексирование, по всем словам, стоп-слова определяются статистически.

2. Поиск

Язык запросов: скобки; логическое И (в пределах одного абзаца); логическое ИЛИ; оператор И НЕ (в пределах одного абзаца); близость - расстояние в словах.

Список выданных документов упорядочивается по релевантности - по количеству найденных слов. В каждом документе выделяются (подсвечиваются) найденные слова.

3. Работа с языком

Для интеллектуализации поиска используется словарь на 90 тыс. слов. При индексации происходит нормализация, то есть слово ставится в свою исходную форму (для существительных - именительный падеж единственного числа, для глаголов - неопределенная форма и т.д.) и в таком виде учитывается в базе. Алгоритм морфологического разбора умеет корректно обрабатывать и слова, не найденные в словаре. Морфология работает для русского и английского языка. Также индексируются числа.

Результаты поиска

На странице результатов поиска Яндекса есть тексты, поясняющие результаты поиска, и ссылки, дающие возможность сортировать найденное или уточнять запрос. Ниже приведен общий вид страницы результатов.

Поисковая форма

Искать в найденном

Если в результате запроса Яндекс нашел много документов, но по более широкой теме, чем вам хочется, вы можете сократить этот список, уточнив запрос. Еще один вариант -- включить флажок в найденном в форме поиска, задать дополнительные ключевые слова, и следующий поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске. Например, чтобы найти страницы про кондиционеры -- средства, предназначенные для ухода за волосами (а не климатическую технику), можно задать запрос кондиционеры, для определения области поиска. А затем, поставив галочку в найденном, -- слово «волосы».

Область поиска

Под формой поиска могут появляться несколько дополнительных блоков.

Адрес сайта.

Яндекс позволяет искать информацию только по интересующему вас сайту, задав соответствующие параметры в расширенном поиске, с помощью Яндекс.Бара или нажав на ссылку «Еще с сайта». Тогда рядом с поисковой формой появляется напоминание, что результаты получены поиском по одному сайту. Если вы хотите продолжить поиск по всем сайтам, достаточно перед очередным запросом снять флажок ....

Выбор региона.

Поиск можно ограничить сайтами в нужном вам регионе или относящимися к интересной вам теме. Для поиска по всем сайтам снимите флажок в регионе.

Выбор диапазона дат.

Задав временной интервал, к которому должны относиться искомые документы, вы можете затем его исправить в результатах поиска, введя новые числа в формате «День-Месяц-Год».

Ссылки над поисковой формой

Над формой поиска видны две ссылки. Ссылка «Помощь» ведет на описание возможностей поиска. По ссылке «Настройка поиска», вы сможете изменить вид страницы с результатами поиска по своему вкусу, включить семейный поиск и отключить показ графической рекламы. Ссылка справа от формы поиска ведет на расширенный поиск, позволяющий даже неопытному пользователю задавать сложные поисковые запросы.

Параллельные поиски

Яндекс умеет искать не только сайты, но и новости, товары, картинки и т.д. Когда вы задаете запрос, поиск ведется одновременно по всем «параллельным» базам, и если что-либо найдено, Яндекс покажет информацию среди результатов поиска. В правой колонке -- товары и картинки, внизу или вверху страницы -- новости, словари, карты, афиша, погода. И все это -- одним запросом!

Пролог результатов поиска

Вверху списка найденных документов выдается статистика слов запроса и найденных документов.

Статистика запросов

Статистика запросов показывает, сколько раз в течение предыдущего месяца в запросах пользователей содержалось то или иное слово.

Пример:

Запросов за месяц: красота -- 114 851, спасет -- 5 990, мир -- 457 079.

Статистика найденных страниц

Статистика результатов поиска позволяет узнать количество найденных по запросу страниц и число сайтов, на которых они располагаются. Эти показатели примерные и могут меняться.

Пример:

Результат поиска: страниц -- 140, сайтов -- не менее 96

Статистика слов

Статистика слов в базе Яндекса показывается, только если вы указали это в настройках. Она говорит о том, сколько раз встретилось каждое из слов запроса на всех страницах, известных Яндексу. Этот показатель примерный и может меняться.

Пример:

Статистика слов: шерше -- 277 256, ля -- 7 154 215, фам -- 683 279

Область поиска

Если в поиске по запросу участвовали не все проиндексированные страницы, в области поиска показываются эти ограничения. В их число входят ограничение по региону, сайту, языку, формату документа, страницы, похожие на заданную, включенный семейный фильтр.

Рубрики Каталога и Маркета

Когда запросу соответствуют рубрики каталога или Яндекс.Маркета, перед результатами поиска выводятся ссылки на соответствующие рубрики. Такое совпадение характерно для запросов, охватывающих широкую тему (таких как кондиционеры, открытки), и каталог сайтов или товаров -- хорошее место, чтобы найти сайт с информацией или сделать покупку.

Ответы «параллельных» поисков

Многие службы Яндекса «понимают», когда они могут дать хороший ответ на запрос, и показывают соответствующую информацию в прологе результатов поиска.

Яндекс.Карты:

Яндекс.Афиша:

Яндекс.Погода:

Яндекс.Словари:

«Колдунщик»

Когда поиск принес мало документов, Яндекс анализирует запрос и предлагает способ, которым можно улучшить результаты. Мы называем этот модуль «колдунщиком».

Опечатки в запросе?

Если Яндекс подозревает, что в запросе есть опечатка, он может предложить возможный вариант написания слов.

Пример:

На запрос муму подарили ошейник будет предложено: опечатка? возможно, имелось в виду: мужу подарили ошейник

Ничего не найдено?

Как правило, небольшое число документов выдает поиск цитаты, который очень требователен к тексту страницы, поэтому, задав запрос "люблю грозу в конце апреля", вы увидите сообщение:

* ничего не найдено? попробуйте поискать без кавычек.

Ссылка на фразе без кавычек ведет на результаты поиска по тому же запросу, но уже без кавычек: люблю грозу в конце апреля.

Когда запрос отдается на усмотрение Яндекса, он ищет слова запроса на таком расстоянии друг от друга, чтобы максимально повысить качество результатов поиска. Иногда это приводит к малому количеству найденных страниц. Ссылка «с более мягкими условиями» ведет на результаты запроса, по которому отобраны страницы с заданными вами словами, независимо от того, насколько близко они к друг другу расположены.

* ничего не найдено? чтобы искать точнее, Яндекс ограничивается документами, в которых слова из запроса близки друг к другу -- поищите с более мягкими условиями

В форме расширенного поиска вы можете задать, насколько близко друг к другу должны быть слова запроса в искомом документе. Если с такими параметрами будет найдено мало страниц, Яндекс предложит соответствующий вариант изменения запроса:

* ничего не найдено? Вы выбрали режим искать слова запроса подряд. Поищите с более мягкими условиями

* ничего не найдено? Вы выбрали режим искать слова запроса в одном предложении. Поищите с более мягкими условиями

* ничего не найдено? Вы выбрали режим искать слова запроса не очень далеко. Поищите с более мягкими условиями.

Найденный документ

Заголовок документа

Заголовок документа отражает название документа, данное ему автором страницы. При нажатии на него откроется сам документ (в зависимости от настроек, в новом или том же окне. Если вместо заголовка показывается адрес страницы, значит, ее заголовок (title) не задан.

Найденные слова

Ссылка «Найденные слова» открывает окно, в котором в тексте найденного документа цветом фона подсвечены слова запроса. Красные стрелки рядом с каждым словом позволяют передвигаться вперед-назад по списку найденных слов. Ссылки «первое слово» и «последнее слово» дают возможность найти первое и последнее вхождение слов запроса в текст документа. Ссылка «Посмотреть сохраненную копию» показывает текст документа (без форматирования) в том виде, в каком он был в момент индексации. Даже если оригинал документа не открывается, или был изменен, вы всегда можете увидеть его копию. Ссылка «Найти похожие документы» аналогична ссылке Похожие документы в результатах поиска.

Фрагмент текста

Аннотация документа составляется на основе его текста, из которого извлекаются предложения или их части, содержащие слова запроса. Если Яндекс считает такое описание недостаточно информативным, оно может быть дополнено описанием страницы, которое составил ее владелец (тег meta description), или заменено на описание сайта из каталога. Когда сайт найден по ссылкам, в качестве описания приводятся тексты ссылок.

Пример:

По запросу поисковая система главная страница Яндекса в результатах имеет описание:

текст ссылок: Яндекс поисковая система по русскому интернету... поисковая система Yandex поисковый сервер для русского интернета...

Это значит, что на странице yandex.ru нет фразы поисковая система, но на эту страницу так часто ссылаются.

Статус документа

Под описанием документа выдается информация о нем:

* адрес страницы сайта, наиболее соответствующей запросу;

* размер страницы;

* дата последнего изменения страницы, если сервер ее выдает;

* мера соответствия страницы запросу. Возможны три варианта:

o отсутствие статуса означает, что все слова запроса есть в тексте страницы;

o «нестрогое соответствие» появляется, когда Яндекс считает страницу недостаточно подходящей для ответа на запрос, но так как общее число найденных документов невелико, он предлагает рассмотреть и такой вариант;

o «найден по ссылке» говорит, что страница обнаружена по ссылкам и будет интересна вам, несмотря на то, что она не содержит слов запроса.

Каждый из элементов описания может быть спрятан.

Тема сайта

Если найденная страница расположена на сайте, зарегистрированном в каталоге Яндекса, то под описанием документа отображается рубрика каталога, которой он принадлежит. Перейдя по этой ссылке, вы попадете в соответствующий раздел каталога.

Похожие документы

Ссылка «Похожие документы» позволяет найти страницы, которые похожи на выбранную вами и могут отвечать на запрос столь же хорошо. Если страница-образец уже удалена с сайта, Яндекс выдаст сообщение: «Запрошенный(е) документ(ы) не найден(ы)». По умолчанию ссылка не показывается, включить ее отображением можно в настройках поиска. Вы также можете искать похожие документы в форме расширенного поиска.

Еще с сайта.

Ссылка «Еще с сайта» позволяет увидеть все документы с выбранного сайта, соответствующие запросу. Вы также можете задать ограничения по сайту в форме расширенного поиска.

Эпилог результатов поиска

Другие страницы с результатами поиска

Если вам недостаточно первых десяти ссылок (или более) на первой странице результатов, вы можете просмотреть другие страницы. Ссылки «предыдущая» и «следующая» -- переход на страницу, предшествующую или следующую за текущей. Ряд чисел, оформленных в виде ссылок, позволяет перейти сразу на нужную страницу результатов поиска. Многоточие в конце списка страниц - переход на страницу, следующую за перечисленными в списке.

Сортировка результатов

Вы можете отсортировать найденные страницы одним из двух способов:

* по степени их соответствия запросу (релевантности);

* по дате последнего изменения документа.

По умолчанию сортировка идет по релевантности, а сортировка по дате нужна, как правило, только когда вы ищете максимально свежие документы.

Регионы найденных сайтов

Каждый раз, получая ваш запрос, Яндекс определяет, к каким регионам относятся найденные сайты. Нажав на одну из ссылок с названием нужного региона, вы отберете только те сайты, которые к нему относятся.

Темы найденных сайтов

Яндекс показывает темы (названия рубрик каталога), к которым относится большая часть сайтов, найденных по запросу. Жирным шрифтом выделены рубрики верхнего уровня, в скобках приведены подрубрики. Нажав на одну из ссылок, вы отберете только те сайты, которые относятся к заданной теме.

Пример:

Вы хотите найти информацию об эфирных и косметических маслах (а не моторных маслах). Задав запрос масло, выберите дальше рубрику «Народная и нетрадиционная медицина».

Как выбор темы сайтов, так и выбор региона заметно сужают область поиска, поэтому их эффективно применять для запросов, которые принесли слишком много результатов.

Другие поисковые системы

Если ответ Яндекса на ваш запрос оказался недостаточно точным, попробуйте сформулировать запрос иначе, либо задайте его другим поисковым системам. Достаточно нажать на ссылку с именем поисковика, и в новом окне откроются его результаты поиска.

Назначение поисковых систем: обеспечить автоматическое (программное) нахождение в сети Internet необходимой пользователю информации на основе поискового образа, составленного пользователем.

Если человек знает, ЧТО ему нужно, ему незачем ЭТО искать.

Искать человек может только ТО, что он НЕ ЗНАЕТ, но представляет, как ЭТО описать.

Ключевое слово -слово, которое, по мнению пользователя, должно обязательно присутствовать во фрагментах текста, представляющих интересующую пользователя информацию.

Ключевое слово - это обычное слово. Оно может присутствовать во множестве фрагментов текста, нужных и не нужных пользователю. Чтобы сократить количество фрагментов текста, которые ему выдаст в качестве ответа поисковая система, человек должен описать нужную ему информацию некоторым множеством ключевых слов.

Поисковый образ - последовательность составленных по определенным правилам ключевых слов, наиболее точно, по мнению пользователя, описывающих искомую информацию.

Поисковый образ размещается в запросе, который пользователь направляет поисковой системе.

С помощью поисковых систем всегда легче найти что-то конкретное, и труднее - что-то общее и неопределенное.

Варианты технологии функционирования поисковых систем

1.анализ ИР сети Internet ПОСЛЕ приема запроса от пользователя;

2.анализ ИР сети Internet ДО приема запроса от пользователя.

Все поисковые системы применяют технологию работы, когда анализ ИР сети Internet проводится ДО получения запроса пользователя.

Заключение

Теперь подытожим все вышесказанное.

* Первоочередная задача любой поисковой системы - доставлять людям именно ту информацию, которую они ищут.

* Основные характеристики поисковых систем:

1. Полнота

2. Точность

3. Актуальность

4. Скорость поиска

5. Наглядность

* Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.

* В состав поисковой системы входят компоненты:

1. Модуль индексирования

2. База данных

3. Поисковый сервер

На текущий момент в поиск включено 77 backend'ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend'ах первой группы, оранжевый сектор - на backend'ах второй группы и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend'ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.

С появлением web-технологии компьютер начинают использовать совершенно новые слои населения Земли. Можно выделить две наиболее характерные группы, находящиеся на разных социальных полюсах, которые были стремительно вовлечены в новую технологию, возможно, даже помимо их собственного желания. С одной стороны, это были представители элитарных групп общества - руководители крупных организаций, президенты банков, топ - менеджеры, влиятельные государственные чиновники. С другой стороны, это были представители широчайших слоев населения - домохозяйки, пенсионеры, дети.

Спектр социальных групп, подключающихся к сети Интернет и ищущих информацию в WWW, все время расширяется за счет пользователей, не относящихся к категории специалистов в области информационных технологий. Это врачи, строители, историки, юристы, финансисты, спортсмены, путешественники, священнослужители, артисты, писатели, художники. Список можно продолжать бесконечно. Любой, кто ощутил полезность и незаменимость Сети для своей профессиональной деятельности или увлечений, присоединяется к огромной армии потребителей информации во "Всемирной Паутине".

С развитием технологий гипертекстовой разметки в Интернете стало появляться всё больше сайтов, тематика которых была совершенно различной - от сайтов крупных компаний, повествующих об успехах компании и её провалах, до сайтов маленьких фирм, предлагающих посетить их офисы в пределах одного города.

Развитие Интернет-технологий послужило толчком к появлению новой ветки в Интернете - Интернет - форумов. Стали появляться сайты, и даже целые порталы, на которых люди со всех уголков планеты могут общаться, получать ответы на любые вопросы и, даже, заключать деловые сделки.

Список использованных источников

1. Е. Колмановская, CompTek International, Яndex: система русского поиска Internet/Intranet.

2. Абросимов А.Г., Абрамов Н.В., Мотовилов Н.В., Корпоративные экономические информационные системы, уч. пос. СГЭА, 2005.

3.Информационно-поисковые системы. - http://www.comptek.ru/yandex/yand_about.html.

4.Аликберов А. Поисковые машины. - http://citforum.ru/win/internet/search/index.shtml.

5. Талантов М. Поиск информации в Интернете: подводные камни // КомпьютерПресс.- № 9, 1999.

6. Троян Г.М. Поиск в русскоязычной части Интернет: поисковая система Rambler // Радиолюбитель. Ваш компьютер. - № 8-10, 1999.

7. Троян Г.М. Поиск в русскоязычной части Интернет: поисковая система Yandex // Радиолюбитель. Ваш компьютер. - № 1-3, 2000.

8. Современный самоучитель работы в сети Интернет. Самые популярные программы: Практ. пособ. - Под ред. Комягина В.Б. - М.: Издательство «Триумф», 1999. - 368 с.

9. Зольников Д.С. PHP5. Как самостоятельно создать сайт любой сложности. - 2-е изд. стер. - М.: НТ Пресс, 2007. - 272 с.

10.Вильямсон Х. Универсальный Dynamic HTML / Библиотека программиста - СПб.: ПИТЕР, 2001

11. Дронов В. А. Самоучитель Macromedia Dreamweaver 8. - СПб.: БХВ-Петербург, 2006

12. Орлов Л.В. Web-сайт без секретов. / Л.В. Орлов. - 2-е изд. - М.: Бук-пресс, 2006. - 512 с.

13. Алексеев А.П. Введение в Web-дизайн: учебное пособие. - М.: СОЛОН-ПРЕСС, 2008

14. Барысов Р. Постройте профессиональный сайт сами. - СПб., 2009

15. Печников В.Н. Самоучитель Web-страниц и Wrb-сайтов. - М.: Триумф, 2006

16. Борисенко А.А. Web-дизайн. Просто, как дважды два. - М.: Эксмо, 2008.-320с.

17. Панфилов К. По ту сторону веб-страницы. - СПб.: ДМК Пресс, 2008

18. Кроудер Д. Создание web-сайта для чайников: 3-е издание. - М.: Диалектика, 2009

Размещено на Allbest.ru

...

реферат "Web-страницы и поисковые системы" скачать

Подобные документы

Поисковые системы Интернета
Определение программного и математического обеспечения ИС. Виды запросов к базам данных в СУБД. Поисковые системы Интернет. Описание принципа работы поисковых систем Яндекс, Рамблер, Апорт. Особенности пересылки файлов средствами электронной почты.

контрольная работа [271,7 K], добавлен 22.11.2009
Поисковая система Яндекс
Яндекс как крупнейшая российская поисковая система и интернет-портал, история появления. Поиск системы: охват форматов, язык запросов. Мультимедийно-поисковые, рыночно-поисковые, справочно-информационные, рекламные и персонализированные веб-сервисы.

курсовая работа [105,3 K], добавлен 21.05.2013
Электронная почта. Поисковые системы и машины
Обзор понятия и принципов функционирования электронной почты - средства обмена информацией, подготовленной в электронном виде, между людьми, имеющими доступ к компьютерной сети. Информационно-поисковые системы. Параметры эффективности поиска информации.

презентация [677,8 K], добавлен 12.12.2012
Разработка Web-сайта образовательного учреждения на примере средней образовательной школы №60 г. Воронежа
Сущность и компоненты поисковой системы. Популярные поисковые системы, их виды. Язык программирования Java и JavaScript, их структурные элементы и функциональные возможности. Основные требования к школьному сайту. Дизайн, хостинг и продвижение сайта.

презентация [4,2 M], добавлен 17.12.2011
Поисковые системы Internet. Журналы
Основные протоколы, используемые в Интернет. Инструменты поиска в Интернете. Популярные поисковые системы. Как работают механизмы поиска. Средства поиска и структурирования. Автоматизированная навигация по Сети. Критерии качества работы поисковой машины.

реферат [19,7 K], добавлен 14.02.2012
Документальные информационно-поисковые системы
Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.

презентация [59,2 K], добавлен 14.10.2013
Поисковые системы интернета на примере системы "Rambler"
Изучение языка поисковых запросов. Принципы действия регистров, скобок, метасимволов. Методы управления индексированием сайта, использования файлов robots.txt. Группы инструкций для отдельных роботов: User-agent. Принципы работы поисковой машины Рамблер.

реферат [105,0 K], добавлен 19.12.2010
Разработка системы моделирования поисковой оптимизации веб-сайта
Ранжирование сайтов поисковыми системами. Поисковые машины, алгоритм работы. Описание процесса изменения рейтинга сайта, математическая модель. Главные функциональные возможности скрипта, описание подпрограмм, алгоритмов и принципа работы программы.

курсовая работа [66,1 K], добавлен 12.07.2012
Разработка системы электронного голосования на странице промо-сайта олимпиады "Мастера Photoshop"
Теоретические основы разработки электронного голосования. Общая идеология разработки, требования к организации голосования на странице промо-сайта олимпиады "Мастера Photoshop". Написание скрипта, интерфейс и дизайн блоков. Авторское право на разработку.

курсовая работа [68,0 K], добавлен 21.05.2010
Поиск информации в интернете. Поисковая система Яндекс
Информационная поисковая система Яндекс; характеристика услуг и сервисов портала: каталог, новости, города, энциклопедии. Полезные ссылки главной страницы. Формирование и активизация поискового запроса: морфология, контекст, порядок слов, результат.

презентация [2,6 M], добавлен 10.03.2015
Автоматизированные информационно – поисковые системы
Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

курсовая работа [81,9 K], добавлен 28.03.2005
Справочно-поисковые системы сети Интернет
Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.

реферат [28,4 K], добавлен 14.01.2010
Поиск в интернете: поисковые системы Яндекс и Google
Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.

реферат [30,0 K], добавлен 07.05.2011
Доходы поисковых систем
Контекстная реклама как основная статья дохода поисковых систем-лидеров. Понятие цены клика. Формирование цены на основе частот запросов (на примере поисковой системы Рамблер). Основные поисковые системы на российском рынке, перспективы их развития.

творческая работа [373,4 K], добавлен 07.04.2009
Поисковые системы
Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

реферат [24,3 K], добавлен 10.05.2013
Поиск и сохранение информации в сети Интернет
Понятие системы "Интернет", использование, размер сети, количество абонентов и пользователей. Поисковые системы, подход к сбору информации о ресурсах Интернет. Современные поисковые серверы. Работа с каталогами ресурсов, сохранение информации в Интернете.

реферат [17,6 K], добавлен 02.12.2010
База порошковых дифракционных данных (PDF) и поисковые системы к ней
Содействие идентификации веществ по порошковым дифракционным данным как основное назначение PDF-базы (картотеки) порошковых дифракционных данных. Источники поступления в PDF новых экспериментальных данных. Бумажные и электронные поисковые системы.

контрольная работа [255,0 K], добавлен 15.12.2015
Поисковая система "Яндекс"
Система поиска в сети и интернет-портал "Яндекс". Образование компании "Яндекс" в 2000 году, ее выход на самоокупаемость в 2002 году. Основное и приоритетное направление компании - разработка поискового механизма. Порядок введения запроса, его диапазон.

презентация [211,7 K], добавлен 03.02.2011
Анализ существующих информационно-поисковых систем
Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

научная работа [222,0 K], добавлен 29.01.2009
Разработка Web-сайта предприятия и его продвижение в поисковых системах
Формирование виртуальной странички предприятия в Internet. Обоснование выбора платформы. Разработка структуры и дизайна сайта, электронного каталога продуктов фирмы. Оптимизация сайта под поисковые системы. Основные принципы и правила продвижения сайта.

дипломная работа [3,0 M], добавлен 01.01.2018

Другие документы, подобные "Web-страницы и поисковые системы"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.