Поисковая система Яндекс

Понятие и функции поисковой системы, ее цели и значение, закономерности работы. Основные характеристики данной информационной системы. Оценка возможностей Яндекса, история его становления и развития, особенности и сферы применения на современном этапе.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 08.12.2013
Размер файла 212,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Введение

Если брать в расчет русский интернет, то здесь Яндекс является безусловным лидером. В России это первая по значимости поисковая система. В настоящее время Яндекс - это не только поисковая система, это еще и многочисленные сервисы, к которым могут получить доступ абсолютно все пользователи этой поисковой машины. Здесь можно найти и нужную информацию, и сориентироваться по выбору досуга, находить картинки, товары, сравнивать цены, смотреть погоду, общаться в социальной сети, смотреть расписание телепередач, транспорта. На Яndex реализована удобная система Яндекс. Вебмастер, где реализован функционал для работы со своими сайтами. В числе последних доступных нововведений сервиса - Вебвизор, который достаточно долго оставался платным, но в декабре 2011 года этот сервис стал доступен абсолютно всем.

Про замечательные технологии и полезные сервисы компании Яндекс можно продолжать еще очень и очень долго. Яndex - означает «Языковой index». Если переводить с английского, то получается «Yet Another indexer». Правда, потом, по мере развития поисковой машины, стали появляться и другие толкования. К примеру, если в английском Index перевести с английского на русский первую букву (I - Я), то получится «Яndex».

Официально поисковая машина Yandex. Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex. Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

1. История развития Информационно-поисковой системы Яндекс

Компания «Яндекс» была создана - Аркадием Воложем и Аркадием Борковским. Она выросла из компании CompTek, которую возглавлял Волож в середине 90_х. Именно CompTek и разработал для Рунета собственную поисковую систему «Яндекс». Отправной точкой развития «поисковика» можно считать 2000 год, когда Волож году покинул CompTek и выделил «Яндекс» в отдельную компанию.

Яндекс - это крупнейший российский портал, предлагающий пользователям ключевые интернет-сервисы. Ежедневная аудитория Яндекса составляет более 7 миллионов человек.

Среди служб Яндекса - поиск в Интернете и каталог сайтов, новости и платежная система, карты и энциклопедии, электронная почта и система фильтрации спама, каталог товарных предложений, социальная сеть профессионалов и бесплатный фотохостинг, а также многое другое.

Яндекс уделяет большое внимание работе с регионами. Все службы портала учитывают географическое положение пользователя: поиск позволяет задавать запрос только по региональным сайтам, Новости показывают местную информацию, Маркет в первую очередь предлагает товары из региональных магазинов. Региональная программа (проект Города) помогает привлекать к сотрудничеству интернет-компании и рекламные агентства со всех концов страны. Специалисты Яндекса проводят выездные семинары. А регулярно публикуемые интернет-индексы городов стали своеобразным индикатором развития интернета в России.

Яндекс заинтересован в увеличении интенсивности использования интернета. В 2007 году открыта программа «Локальная сеть». Во всех федеральных округах России размещается сетевое оборудование компании и арендуются выделенные каналы. Таким образом, Яндекс становится локальным ресурсом для большинства российских пользователей. Более 300 кафе, ресторанов и других общедоступных заведений принимают участие в проекте Яндекс. WiFi. Ежегодные Открытые Кубки России по поиску в интернете, изобретенные Яндексом, помогают пользователям оценить интернет как уникальную справочную.

Яндекс представляет собой рекламную площадку с возможностями как широкого охвата аудитории, так и точно сфокусированной рекламы. Система Яндекс. Директ первой в России позволила размещать рекламные объявлен ия в результатах поиска. По итогам 2006 года число рекламодателей Директа превысило 30 тысяч и продолжает расти. В 2005 году открыта Рекламная сеть Яндекса. Сегодня участниками Рекламной сети является большинство поисковых площадок и значительное количество крупных сайтов российского, украинского и белорусского интернета.

Компания «Яндекс» вышла на самоокупаемость в ноябре 2002 года. Летом 2003 года Совет директоров компании принял решение о выплате дивидендов, первых в русском интернете. Летом 2006 года недельный оборот системы размещения контекстной рекламы Яндекс. Директ превысил 1 млн долларов. Оборот за 2009 год - 278 миллионов долларов. Оборот за 2008 год - более 300 млн. долларов. Оборот за 2006 год - 72,6 млн. долларов, чистая прибыль - 29,9 млн., за 2005 год - 35,6 млн. долларов, чистая прибыль - 13,6 млн. Вся бухгалтерская отчетность Яндекса с 2000 года аудируется компанией Deloitte&Touche.

Главный офис компании расположен в Москве. В 2005 году открыто украинское представительство Яндекса в Одессе, в 2006 - офис в Санкт-Петербурге, а в 2007 - в Екатеринбурге и Киеве. Каждый год число сотрудников Яндекса удваивается, и сейчас в компании работают уже более тысячи сотрудников. Яндекс постоянно ищет новых специалистов в самых разных областях. Действует программа стажировок для студентов, проводятся лекции и семинары. В 2007 году Яндекс организовал Школу анализа данных, занятия в которой бесплатны.

Сейчас Яндекс - это крупнейший российский портал, предлагающий пользователям ключевые интернет-сервисы. По данным исследовательских компаний Gallup Media, ФОМ и Комкон, он является самым большим ресурсом в Рунете по объему аудитории. Ежедневная аудитория Яндекса составляет более 5 млн человек. Среди служб Яндекса - поиск в интернете и каталог сайтов, новости и платежная система, карты и энциклопедии, электронная почта и система фильтрации спама, каталог товарных предложений, социальная сеть профессионалов и бесплатный фотохостинг, а также многое другое.

Официально поисковая машина Yandex. Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex. Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

Чуть позже в разделе «Сказки» (наблюдения за содержанием русского Интернета) появилась первая сказка Рунета - «Web - гуманизм или чернуха?». А в разделе «Числа» - первая оценка объема Рунета, 5 тысяч серверов и 4 ГБ текстов.

Через два месяца, в ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex. Ru можно обращаться просто «по-русски», задавать длинные запросы, например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи» и получать точные ответы. Средняя длина запроса в Yandex. Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

В 1998 году на Yandex. Ru появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения. За этот год «объем» Русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. И тогда, и сейчас (при объеме в 200 ГБ) скорость поиска на Yandex. Ru - доли секунды.

За 1999 год Рунет вырос на порядок, как в объемах текстов, так и в количестве пользователей. Это был год бурного развития и для Yandex. Ru. Новый поисковый робот позволил оптимизировать и ускорить обход сайтов Рунета. Сегодня поисковая база Yandex. Ru вдвое больше, чем у ближайших конкурентов.

Новый робот позволил предоставить пользователям новые возможности - поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете было введено понятие «индекс цитирования» - количество ресурсов, ссылающихся на данный.

В течение всего года продолжалась работа по количественному и качественному анализу Рунета. Был открыт НИНИ-индекс (индекс «Непостоянства Интересов Населения Интернет»), показывающий динамику изменения интересов пользователей Интернета. Открылся поисковый Форум и новый сервис - подписка на запрос, то есть можно оставить свой запрос на Yandex. Ru и регулярно получать по электронной почте информацию о появлении новых и / или измененных документов, соответствующих этому запросу. К началу учебного года был открыт «Семейный Яndex», фильтрация результатов поиска от мата и порнографии.

Яндекс разрабатывает не только полезные веб-сервисы, но и различные программы: как бесплатные приложения для массового пользователя, так и коммерческие серверные решения.

Яndex. Server

Приложение для поиска по веб-сайту или локальной сети с учетом морфологии русского языка. Основная версия программы распространяется бесплатно.

Персональный поиск

Это специальная программа, которую можно установить на компьютере и осуществлять с ее помощью полнотекстовый поиск с учётом морфологии русского языка по файлам разных форматов.

Яндекс. Бар

Расширение, которое встраивается в браузер в виде дополнительной панели инструментов. У Яндекс. Бара есть много возможностей - от удобного и быстрого поиска до сохранения ваших закладок на серверах Яндекса и уведомлений о свежих сообщениях в Почте и Ленте.

Спамооборона

Это серверное решение для фильтрации спама, предназначенное для корпоративных пользователей и интернет-провайдеров. Продукт основан на технологии, уже несколько лет применяемой для защиты пользователей Яндекс. Почты. Система выполняет комплексный анализ тысяч характеристик письма с учетом их значимости, обеспечивая высокую полноту и точность фильтрации.

2002 год ознаменовался тем, что компания «Яндекс» вышла на самоокупаемость.

2009 стал для отечественного поисковика революционным - Яндекс запустил Матрикснет. Этот самообучающийся алгоритм на порядок улучшил качество поиска за счет учета множества факторов и комбинаций. Матрикснет затруднил продвижение сайтов в Яндекс и преобразил отечественный SEO_рынок, заставляя оптимизаторов искать новые методы продвижения веб-ресурсов. Помощник Матрикснета - алгоритм «Спектр» формирует выдачу, исходя из потребностей пользователя, и добавляет туда близкие запросу страницы.

В мае 2011 года Яндекс вышел на IPO. Первичное размещение акций компании произошло на бирже Nasdaq. Желающие могут приобрести частичку поисковой машины, если купят акции под тикером YNDX.

яндекс поисковый информационный

2. Понятие и функции поисковой системы

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу. Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Бирске»).

Первоочередная задача любой поисковой системы - доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

- Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

- Точность

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

- Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

- Скорость поиска

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

- Наглядность

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска подробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/? id=481937.

4. Состав и принципы работы поисковой системы

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) - программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html_код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос «get/path/document» и некоторые другие команды HTTP_запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

- URL страницы

- дата, когда страница была скачана

- http_заголовок ответа сервера

- тело страницы (html_код)

Crawler («путешествующий» паук) - программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html_теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

- Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

- Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.

- В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

- Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.

- Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) - страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

Запрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной машине первого уровня - frontend (1.1 - 1.3, на рис. машине 1.3). Frontend, в свою очередь, отправляет запрос дальше, на один из восьми proxy_серверов, также выбирая наиболее свободный сервер (2.1 - 2.8, на рис. машине 2.2). Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 - 3.2, на рис. машине 3.1) и по базе Тор 100 (4.1 - 4.2, на рис. машине 4.1). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, - backends (5.1.х - 5.7.х, на рис. машинам 5.1.2, 5.2.11, 5.3.1 и т.д.) Та же информация отправляется на машины с «быстрой базой» (6.1 - 6.2).

На текущий момент в поиск включено 77 backend'ов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend'ах первой группы (5.1.1 - 5.1.11 на рис), оранжевый сектор - на backend'ах второй группы (5.2.1 - 5.2.11) и т.д. Proxy_сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend'ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.

После того, как запрос обработан на backend'ах, информация о результатах и ранжировании отдается обратно на proxy_сервер. Туда же поступают отсортированные результаты с машин «быстрой базы». Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend'ах. Так, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. На proxy_сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте. Полученные результаты отдаются на frontend.

Помимо информации с proxy_сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю.

5. Что умеет Яndex

Программные продукты серии Яndex (Языковый index) - набор средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка.

Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких, как анализатор документов, языки разметки, конверторы форматов, сетевой «паук».

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами как в локальной так и в глобальной сети (технологии Intranet и Internet), а также может быть подключен как модуль к другим системам.

1. Индексация

Создаваемый индекс составляет около 1/3 объема текста (без картинок, tag'ов и пр.), при этом записывается подробный адрес слова - с точностью до позиции в тексте, что потом позволяет искать с учетом близости. В базу входят нормализованные формы слов текста, сами документы не хранятся.

Морфологический анализ слов текста происходит одновременно с индексацией, что дает возможность снятия омонимии.

Скорость индексации - не менее 2 Мб/минуту. Написан свой робот для обхода Web'а.

Организация изменения индекса (полное либо частичное обновление, слияние).

Идет индексирование по всем словам, стоп-слова определяются статистически.

2. Поиск

Язык запросов: скобки; логическое И (в пределах одного абзаца); логическое ИЛИ; оператор И НЕ (в пределах одного абзаца); близость - расстояние в словах.

Список выданных документов упорядочивается по релевантности - по количеству найденных слов. В каждом документе выделяются (подсвечиваются) найденные слова.

3. Работа с языком

Для интеллектуализации поиска используется словарь на 90 тыс. слов. При индексации происходит нормализация, то есть слово ставится в свою исходную форму (для существительных - именительный падеж единственного числа, для глаголов - неопределенная форма и т.д.) и в таком виде учитывается в базе. Алгоритм морфологического разбора умеет корректно обрабатывать и слова, не найденные в словаре. Морфология работает для русского и английского языка. Также индексируются числа.

Результаты поиска.

На странице результатов поиска Яндекса есть тексты, поясняющие результаты поиска, и ссылки, дающие возможность сортировать найденное или уточнять запрос. Ниже приведен общий вид страницы результатов.

Если в результате запроса Яндекс нашел много документов, но по более широкой теме, чем вам хочется, вы можете сократить этот список, уточнив запрос. Еще один вариант - включить флажок в найденном в форме поиска, задать дополнительные ключевые слова, и следующий поиск будет вестись только по тем документам, которые были отобраны в предыдущем поиске. Например, чтобы найти страницы про кондиционеры - средства, предназначенные для ухода за волосами (а не климатическую технику), можно задать запрос кондиционеры, для определения области поиска. А затем, поставив галочку в найденном, - слово «волосы».

Область поиска

Под формой поиска могут появляться несколько дополнительных блоков.

Адрес сайта

Яндекс позволяет искать информацию только по интересующему вас сайту, задав соответствующие параметры в расширенном поиске, с помощью Яндекс. Бара или нажав на ссылку «Еще с сайта». Тогда рядом с поисковой формой появляется напоминание, что результаты получены поиском по одному сайту. Если вы хотите продолжить поиск по всем сайтам, достаточно перед очередным запросом снять флажок….

Выбор региона

Поиск можно ограничить сайтами в нужном вам регионе или относящимися к интересной вам теме. Для поиска по всем сайтам снимите флажок в регионе.

Выбор диапазона дат

Задав временной интервал, к которому должны относиться искомые документы, вы можете затем его исправить в результатах поиска, введя новые числа в формате «День-Месяц-Год».

Ссылки над поисковой формой

Над формой поиска видны две ссылки. Ссылка «Помощь» ведет на описание возможностей поиска. По ссылке «Настройка поиска», вы сможете изменить вид страницы с результатами поиска по своему вкусу, включить семейный поиск и отключить показ графической рекламы. Ссылка справа от формы поиска ведет на расширенный поиск, позволяющий даже неопытному пользователю задавать сложные поисковые запросы.

Параллельные поиски

Яндекс умеет искать не только сайты, но и новости, товары, картинки и т.д. Когда вы задаете запрос, поиск ведется одновременно по всем «параллельным» базам, и если что-либо найдено, Яндекс покажет информацию среди результатов поиска. В правой колонке - товары и картинки, внизу или вверху страницы - новости, словари, карты, афиша, погода.

Пролог результатов поиска

Вверху списка найденных документов выдается статистика слов запроса и найденных документов.

Статистика запросов

Статистика запросов показывает, сколько раз в течение предыдущего месяца в запросах пользователей содержалось то или иное слово.

Пример:

Запросов за месяц: красота - 114 851, спасет - 5 990, мир - 457 079.

Статистика найденных страниц

Статистика результатов поиска позволяет узнать количество найденных по запросу страниц и число сайтов, на которых они располагаются. Эти показатели примерные и могут меняться.

Пример:

Результат поиска: страниц - 140, сайтов - не менее 96

Статистика слов

Статистика слов в базе Яндекса показывается, только если вы указали это в настройках. Она говорит о том, сколько раз встретилось каждое из слов запроса на всех страницах, известных Яндексу. Этот показатель примерный и может меняться.

Область поиска

Если в поиске по запросу участвовали не все проиндексированные страницы, в области поиска показываются эти ограничения. В их число входят ограничение по региону, сайту, языку, формату документа, страницы, похожие на заданную, включенный семейный фильтр.

Рубрики Каталога и Маркета

Когда запросу соответствуют рубрики каталога или Яндекс. Маркета, перед результатами поиска выводятся ссылки на соответствующие рубрики. Такое совпадение характерно для запросов, охватывающих широкую тему (таких как кондиционеры, открытки), и каталог сайтов или товаров - хорошее место, чтобы найти сайт с информацией или сделать покупку.

Ответы «параллельных» поисков

Многие службы Яндекса «понимают», когда они могут дать хороший ответ на запрос, и показывают соответствующую информацию в прологе результатов поиска.

Яндекс. Карты:

Яндекс. Афиша:

Яндекс. Погода:

Яндекс. Словари:

«Колдунщик»

Когда поиск принес мало документов, Яндекс анализирует запрос и предлагает способ, которым можно улучшить результаты. Мы называем этот модуль «колдунщиком».

Найденный документ

Заголовок документа

Заголовок документа отражает название документа, данное ему автором страницы. При нажатии на него откроется сам документ (в зависимости от настроек, в новом или том же окне. Если вместо заголовка показывается адрес страницы, значит, ее заголовок (title) не задан.

Найденные слова

Ссылка «Найденные слова» открывает окно, в котором в тексте найденного документа цветом фона подсвечены слова запроса. Красные стрелки рядом с каждым словом позволяют передвигаться вперед-назад по списку найденных слов. Ссылки «первое слово» и «последнее слово» дают возможность найти первое и последнее вхождение слов запроса в текст документа. Ссылка «Посмотреть сохраненную копию» показывает текст документа (без форматирования) в том виде, в каком он был в момент индексации. Даже если оригинал документа не открывается, или был изменен, вы всегда можете увидеть его копию. Ссылка «Найти похожие документы» аналогична ссылке Похожие документы в результатах поиска.

Фрагмент текста

Аннотация документа составляется на основе его текста, из которого извлекаются предложения или их части, содержащие слова запроса. Если Яндекс считает такое описание недостаточно информативным, оно может быть дополнено описанием страницы, которое составил ее владелец (тег meta description), или заменено на описание сайта из каталога. Когда сайт найден по ссылкам, в качестве описания приводятся тексты ссылок.

Пример:

По запросу поисковая система главная страница Яндекса в результатах имеет описание:

текст ссылок: Яндекс поисковая система по русскому интернету… поисковая система Yandex поисковый сервер для русского интернета…

Это значит, что на странице yandex.ru нет фразы поисковая система, но на эту страницу так часто ссылаются.

Статус документа

Под описанием документа выдается информация о нем:

- адрес страницы сайта, наиболее соответствующей запросу;

- размер страницы;

- дата последнего изменения страницы, если сервер ее выдает;

- мера соответствия страницы запросу.

Тема сайта

Если найденная страница расположена на сайте, зарегистрированном в каталоге Яндекса, то под описанием документа отображается рубрика каталога, которой он принадлежит. Перейдя по этой ссылке, вы попадете в соответствующий раздел каталога.

Похожие документы

Ссылка «Похожие документы» позволяет найти страницы, которые похожи на выбранную вами и могут отвечать на запрос столь же хорошо. Если страница-образец уже удалена с сайта, Яндекс выдаст сообщение: «Запрошенный(е) документ(ы) не найден(ы)». По умолчанию ссылка не показывается, включить ее отображением можно в настройках поиска. Вы также можете искать похожие документы в форме расширенного поиска.

Еще с сайта.

Ссылка «Еще с сайта» позволяет увидеть все документы с выбранного сайта, соответствующие запросу. Вы также можете задать ограничения по сайту в форме расширенного поиска.

Другие страницы с результатами поиска

Если вам недостаточно первых десяти ссылок (или более) на первой странице результатов, вы можете просмотреть другие страницы. Ссылки «предыдущая» и «следующая» - переход на страницу, предшествующую или следующую за текущей. Ряд чисел, оформленных в виде ссылок, позволяет перейти сразу на нужную страницу результатов поиска. Многоточие в конце списка страниц - переход на страницу, следующую за перечисленными в списке.

Сортировка результатов

Вы можете отсортировать найденные страницы одним из двух способов:

- по степени их соответствия запросу (релевантности);

- по дате последнего изменения документа.

По умолчанию сортировка идет по релевантности, а сортировка по дате нужна, как правило, только когда вы ищете максимально свежие документы.

Регионы найденных сайтов

Каждый раз, получая ваш запрос, Яндекс определяет, к каким регионам относятся найденные сайты. Нажав на одну из ссылок с названием нужного региона, вы отберете только те сайты, которые к нему относятся.

Темы найденных сайтов

Яндекс показывает темы (названия рубрик каталога), к которым относится большая часть сайтов, найденных по запросу. Жирным шрифтом выделены рубрики верхнего уровня, в скобках приведены подрубрики. Нажав на одну из ссылок, вы отберете только те сайты, которые относятся к заданной теме.

Пример:

Вы хотите найти информацию об эфирных и косметических маслах (а не моторных маслах). Задав запрос масло, выберите дальше рубрику «Народная и нетрадиционная медицина».

Как выбор темы сайтов, так и выбор региона заметно сужают область поиска, поэтому их эффективно применять для запросов, которые принесли слишком много результатов.

Заключение

В наше время информация играет огромную роль во всех сферах жизнедеятельности. Людям, имеющим дело с большими объемами текстов - это и новости, и подшивки газет в электронном виде, и электронная почта, и Web_страницы, важно быстро находить в этом море информации действительно нужную. Без помощи поисковой системы это было бы нереально. Благодаря удобству в обращении и хорошим техническим характеристикам, различные поисковые системы могут помочь в этом и новичку, и опытному пользователю.

Поисковые системы и существующие к ним приложения, способны облегчить работу представителей многих профессий: Web_мастера, аналитика, руководителя, лингвиста. Информационный бум продолжается, происходит дальнейшее развитие электронно-компьютерных технологий, а следовательно и в будущем без поисковых систем обойтись будет крайне сложно.

Итак, первоочередная задача любой поисковой системы - доставлять людям именно ту информацию, которую они ищут.

Основные характеристики, которыми должны обладать поисковые системы:

- Полнота - Представляет собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих запросу.

- Точность - Определяется степенью соответствия найденных документов запросу

- Актуальность - Характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу системы.

- Скорость поиска - Скорость поиска тесно связана с его устойчивостью к нагрузкам. Посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

- Наглядность - Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что зачастую приходится производить свой собственный поиск внутри найденного списка.

Лидер среди русскоязычных поисковых систем - Яндекс - индексирует документы форматов pdf, rtf, doc, txt, swf, rss и так далее. С помощью Яндекса можно искать информацию не только на русском и других языках.

В настоящее время, практически каждая поисковая система имеет свои механизмы расчета рейтинга Интернет-страниц, и алгоритмы эти постоянно изменяются, совершенствуются. Однако в целом можно сказать, что наибольшее внимание современные поисковики уделяют внешним критериям оценки релевантности.

Компактная форма выдачи результатов и рациональный дизайн Яндекса делают ее весьма удобной, когда нужно просмотреть десятки страниц со ссылками. Однако релевантность найденных ссылок не всегда высока и потому часто требуется использование расширенного поиска для уточнения запроса.

Список литературы

1. Е. Колмановская, CompTek International, Яndex: система русского поиска Internet/Intranet.

2. Абросимов А.Г., Абрамов Н.В., Мотовилов Н.В., Корпоративные экономические информационные системы, уч. пос. СГЭА, 2005.

3. Талантов М. Поиск информации в Интернете: подводные камни // КомпьютерПресс. - №9, 1999.

4. Троян Г.М. Поиск в русскоязычной части Интернет: поисковая система Rambler // Радиолюбитель. Ваш компьютер. - №8-10, 1999.

5. Троян Г.М. Поиск в русскоязычной части Интернет: поисковая система Yandex // Радиолюбитель. Ваш компьютер. - №1-3, 2000.

6. Современный самоучитель работы в сети Интернет. Самые популярные программы: Практ. пособ. - Под ред. Комягина В.Б. - М.: Издательство «Триумф», 1999. - 368 с.

7. Таненбаум Э. Компьютерные сети. Спб.: «Питер», 2002.

8. Петров, В.Н. Информационные системы - СПб.: Питер - 2003.

9. Косарев, В.П., Еремин, Л.В. Экономическая информатика - Москва: Финансы и статистика - 2002.

10. Семакин, И.Г., Хеннер, Е.К. Информационные системы и модели - Москва: БИНОМ - 2005.

11. Справочная информация по сетям ЭВМ и телекоммуникациям www.index.com

12. http://www.re-set.ru/seo/search-list.php

13. http://www.oqbo.ru/read.php? block=4

14.http://ru.wikipedia.ru

Размещено на Allbest.ru

...

Подобные документы

  • Рассмотрение принципов поисковой системы и процедуры проведения поиска по запросам пользователей "Яндекса". Изучение структуры запросов, вспомогательных программ поиска, модулей и этапов их преобразования. Описание дополнительной информации в сниппете.

    реферат [135,6 K], добавлен 27.12.2014

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Яндекс как крупнейшая российская поисковая система и интернет-портал, история появления. Поиск системы: охват форматов, язык запросов. Мультимедийно-поисковые, рыночно-поисковые, справочно-информационные, рекламные и персонализированные веб-сервисы.

    курсовая работа [105,3 K], добавлен 21.05.2013

  • Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.

    реферат [30,0 K], добавлен 07.05.2011

  • Основные методы объектно-ориентированного программирования поисковой системы. Выбор языка программирования и среды разработки приложения. Реализация паттерна, использование принципа сохраняемости. Описание пользовательского интерфейса поисковой системы.

    курсовая работа [781,4 K], добавлен 29.04.2015

  • Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

    курсовая работа [4,0 M], добавлен 10.05.2015

  • Система поиска в сети и интернет-портал "Яндекс". Образование компании "Яндекс" в 2000 году, ее выход на самоокупаемость в 2002 году. Основное и приоритетное направление компании - разработка поискового механизма. Порядок введения запроса, его диапазон.

    презентация [211,7 K], добавлен 03.02.2011

  • Информационная поисковая система Яндекс; характеристика услуг и сервисов портала: каталог, новости, города, энциклопедии. Полезные ссылки главной страницы. Формирование и активизация поискового запроса: морфология, контекст, порядок слов, результат.

    презентация [2,6 M], добавлен 10.03.2015

  • Определение RAD, ее сущность и особенности, основные принципы и методики, назначение, история становления и развития. Причины популярности RAD на современном этапе, ее преимущества и отличительные черты, сферы применения и инструментальные средства.

    курсовая работа [87,8 K], добавлен 16.04.2009

  • Основные источники информации, представленные в Интернете. Каталог - поисковая система с классифицированным по темам списком аннотаций со ссылками на web-ресурсы. Особенности поисковой и метапоисковой машины. Архитектура современных ИПС для WWW.

    реферат [51,7 K], добавлен 27.03.2010

  • Понятие и содержание информационной технологии на современном этапе, ассортимент изделий данной группы на рынке. Объекты информационных технологий и результаты их работы. Средства и методы информационных технологий, особенности и сферы их применения.

    реферат [17,9 K], добавлен 05.11.2010

  • Принципы и основные этапы проектирования информационной системы, требования к ее функционалу и оценка возможностей, сферы практического применения. Анализ и обоснование используемого программного обеспечения и технических средств. Листинг программы.

    контрольная работа [1,4 M], добавлен 04.02.2017

  • Обеспечение высокой релевантности поиска с помощью поисковой системы Google. Быстрота и надежность работы, большее количество ссылок в русскоязычном секторе Интернета. Службы, отсутствующие у других поисковых систем. Google как законодатель моды.

    презентация [1,5 M], добавлен 10.03.2015

  • Методы выбора информационной системы, используемое в процессе его разработки программы, а также основные технические средства. Анализ полезности использования экспертной системы и оценка ее необходимости, сферы и особенности практического применения.

    курсовая работа [112,1 K], добавлен 19.11.2016

  • Определение программного и математического обеспечения ИС. Виды запросов к базам данных в СУБД. Поисковые системы Интернет. Описание принципа работы поисковых систем Яндекс, Рамблер, Апорт. Особенности пересылки файлов средствами электронной почты.

    контрольная работа [271,7 K], добавлен 22.11.2009

  • Создание специального программного приложения, способного вести поисковую систему необходимой нам информации. Требования к данной информационной системе, ее функциональные особенности и сферы практического применения. Выбор и обоснование языка и среды.

    курсовая работа [541,1 K], добавлен 09.04.2015

  • Контекстная реклама как основная статья дохода поисковых систем-лидеров. Понятие цены клика. Формирование цены на основе частот запросов (на примере поисковой системы Рамблер). Основные поисковые системы на российском рынке, перспективы их развития.

    творческая работа [373,4 K], добавлен 07.04.2009

  • Экспертные системы как самостоятельное направление в исследованиях по искусственному интеллекту, история его зарождения и развития, главные цели и оценка важности. Сферы применения экспертных систем и причины их коммерческого успеха, перспективы.

    реферат [140,8 K], добавлен 27.03.2010

  • Составные части географической информационной системы (ГИС). Задачи, которые решает ГИС. Системы настольного картографирования. Примеры электронных карт. Добавление фотографий на Google Maps, Google+, Яндекс.Фотки, Яндекс.Народная карта, Wikimapia.

    курсовая работа [4,8 M], добавлен 18.06.2015

  • Разработка информационной системы для ведения каталога книг/читателей, поисковой системы, предварительных заказов на приобретение книг. Анализ затрат на разработку системы. Архитектура объектно-ориентированной системы. Диаграмма классов, модули системы.

    курсовая работа [906,1 K], добавлен 24.06.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.