Принцип работы поисковой системы Rambler

Определение понятия и общая информация о поисковых системах, их история развития, технологии и этапы работы. История поисковой системы Rambler, механизм ассоциаций и управление индексированием. Порядок добавления страниц в поисковой системе Rambler.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык русский
Дата добавления 24.05.2015
Размер файла 21,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Введение

1. Общая информация о поисковых системах

2. История

3. Поисковая система Rambler

3.1 История поисковой системы Rambler

3.2 Механизм ассоциаций от Rambler

3.3 Управление индексированием в поисковой системе Rambler

3.4 Добавление страниц в поисковой системе Rambler

3.5 Индексация в поисковой системе Rambler

Заключение

Источники

Введение

Большинство пользователей Интернет сообщества начинают свой рабочий день с поисковых систем, где пытаются найти столь необходимую им информацию и решить свои проблемы. К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты "далекие" от решаемого вопроса. При этом ресурсы, представляющие реальную пользу оказываются "за бортом" поиска.

Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. При этом надо понимать, что главная проблема заключается в отсутствии четких правил, доступных и открытых для всех желающих. Чем больше неопределенности в алгоритмах формирования поисковых индексов (некий черный ящик), тем меньше поисковые системы отражают процесс формирования реальной информации. И соответственно, тем меньше будет уровень доверия к результатам поиска поисковых систем.

Как это ни парадоксально, но это вина не поисковых систем, поскольку они обязаны скрывать правила построения поисковых индексов. Это вина самой технологии при организации поиска. По своей сути технология поисковых систем направлена на пассивного пользователя. Необходимо зарегистрировать только сайт, дальше все сделает поисковый робот. Он просканирует ресурс - страницу за страницей, пытаясь проанализировать содержание каждой из них. Трудоемкость пользователя минимальна, что позволяет использовать разные методики по "обману" поисковых роботов при низких затратах сил и средств. В такой схеме работы поисковым системам необходимо изменять алгоритмы и правила индексирования ресурсов и построения поискового индекса.

Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.

1. Общая информация о поисковых системах

Поисковая система - это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от СУБД.

В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста.

Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Релевантность - одно из самых субъективных и запутанных понятий в науке информационного поиска. Наиболее часто говорят о релевантности с точки зрения пользователя, и тогда «релевантная запросу информация» и «нужная пользователю информация» - одно и то же. Именно о такой релевантности мы говорим в данном разделе. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Так, например, если пользователю нужно узнать все о конкретной фирме, то он заинтересован в нахождении всех документов, в которых упоминается об этой фирме. В других обстоятельствах релевантная информация - это только та информация, которая достаточна для выполнения определенной задачи пользователя, например, поиска ответа на конкретный вопрос. Если в последнем случае в результатах поиска будет много избыточных данных, т.е. данных, которые имеют отношение к запросу, но не нужны для выполнения данной задачи, то выборка нужной/релевантной информации займет у пользователя дополнительное время.

Таким образом, традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части. Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию. Можно подобрать оптимальный запрос(ы), когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден.

Поисковые системы при использовании Интернет играют очень важную роль. В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.

2. История

Поисковая система (поисковый сервер, поисковая машина) - особый web-сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу.

Работа поисковой машины, как правило, состоит из двух этапов. Первый - особая программа (поисковый робот) или человек собирает информацию с веб-страниц и индексирует их. Когда пользователь задает запрос, поиск идет по предварительно построенному индексу. Результатом поиска является так называемая поисковая выдача - список ссылок на документы (веб-страницы), соответствующие запросу.

Большая часть поисковых систем ищут информацию на сайтах Интернета, но также существуют поисковые машины, способные искать файлы на ftp-серверах, документы, а также информацию во внутренних сетях и прочая. В последнее время появился новый тип поисковых движков, основанных на технологии RSS.

Работа поисковой системы основана на работе «поискового движка». Основными критериями качества работы поисковой машины являются релевантность, полнота базы, учёт морфологии языка.

Наиболее популярными поисковыми машинами в России на сегодняшний день считаются Google, Yandex, и Rambler.

Первой поисковой машиной стал «Wandex», уже не существующий web-сайт, который создал Мэтью Грэйем из Массачусетского технологического института в 1993. Чуть позднее появляется поисковая система «Aliweb», существующая до сих пор. Первой полнотекстовой поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.

Развитие русских поисковых машин началось в 1996 году с появлением морфологического расширения к поисковику Altavista, и запуском оригинальных российских поисковых машин Rambler и Aport. Вскоре, в 1997 году была открыта поисковая машина Яндекс.

Сегодня в мире работает несколько сотен разнообразных поисковых машин, отличающихся специализацией, возможностями и методиками поиска.

поисковый информация индексирование rambler

3. Поисковая система Rambler

3.1 История поисковой системы Рамблер

История поисковика "Рамблер" начинается в 1991 году в городке Пущино Московской области. Именно там группой единомышленников была создана компания "Стек". Возглавил компанию "Стек" Сергей Лысаков. Занималась компания локальными сетями и подключением к Интернету.

Уже в 1996 году, Сергей Лысаков и программист Дмитрий Крюков приняли решение разработать первую русскую поисковую систему для Интернета. Дмитрий Крюков придумал название проекту - Rambler. В переводе Rambler означает "скиталец, странник, бродяга", что созвучно с принципом работы робота поисковика.

26 сентября 2006 года было зарегистрирован домен rambler.ru и уже 8 октября компания "Стек" активизировала систему. Весной 1997 года появляется "Rambler's Top100" - рейтинг-классификатор, оценивающий на основе объективных данных популярность российских ресурсов.

В июне 2003 года компания запустила новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам: значительно увеличилась скорость поиска, благодаря новой архитектуре системы, обновление поискового индекса происходит несколько раз в день.

Для тех, кто точно знает, что ищет, и не хочет тратить лишнее время, была открыта специальная лаконичная версию поиска "Рамблер" по адресу r0.ru, (или, как говорят, Арнольд).

3.2 Механизм ассоциаций от Rambler

Когда кто-либо делает ряд последовательных запросов в поисковике Рамблер, эти слова и фразы становятся связанными между собой - Rambler ассоциациями. Пользователям поисковой системы Rambler доступен механизм ассоциаций Rambler. Ассоциации Rambler - это тематически (ассоциативно) связанные запросы с исходным запросом пользователя. Когда кто-либо делает ряд последовательных запросов в поисковике Рамблер, эти слова и фразы становятся связанными между собой. И такая последовательность создает ассоциации Rambler. Фактически, это понятие "У нас также ищут".

С одной стороны, с помощью механизма ассоциаций Rambler пользователь может быстро уточнить или расширить свой запрос. С другой стороны, цепочка типичных ассоциаций выявляет недостатки исходного запроса, его неоднозначность, "размытость". В результате посетитель поисковика Rambler учится правильно спрашивать, не тратя впустую время, то есть, по сути, прибегает к помощи "коллективного разума".

Механизм ассоциаций "У нас также ищут" интересен любому, кто хочет посмотреть, о чем думают тысячи и тысячи посетителей сети. Это инструмент для поиска, равно как и источник ценной информации для лингвистов и web-мастеров.

3.3 Управление индексированием в поисковой системе Рамблер

Ограничить индексирование страниц ресурсов поисковой системой Rambler можно через robots.txt или META-тег "Robots".Робот поисковика Рамблер называется "StackRambler". Именно он скачивает документы, выставленные в Интернет, находит в них ссылки на другие документы, скачивает вновь и т.д. Робот StackRambler анализирует файл robots.txt и ограничивает сканирование ресурса, согласно его указаний. Через robots.txt можно запретить доступ к определенным каталогам и/или файлам.

Ограничить сканирование страниц ресурса роботом поисковой системы Рамблер так же можно через META-тег "Robots". Тег управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам.

3.4 Добавление страниц в поисковой системе Рамблер

Робот Рамблера обходит Сеть по ссылкам и таким образом находит новые ресурсы. Можно заполнить регистрационную анкету. Робот Рамблера самостоятельно посещает только сайты, расположенные в национальных доменах .ru, .su, .ua, .by, .kz, .kg, .uz, .ge. Если сайт расположен в одной из других доменных зон (например, в .com, .net или .org, либо в других национальных доменах), по умолчанию роботы Рамблера не будут посещать страницы таких ресурсов. Для добавления таких ресурсов, представляющих интерес для русскоязычных пользователей, в число сканируемых необходимо обратиться к администратору поисковой системы Рамблер.

Робот Рамблера обходит Сеть по ссылкам и таким образом находит новые ресурсы для индексирования. Также можно заполнить регистрационную анкету в поисковой системе Rambler. Поля этой анкеты - "Название сайта" и "Описание" не используются для поиска. Они предназначены только для прочтения редакторами и используются во внутренних базах данных Rambler.

Робот сканирует страницы сайта в течение суток с момента регистрации (или нахождения ресурса). При этом он сразу же обходит сайт на некоторую глубину (сканирует страницы, на которые ссылается зарегистрированная страница). Скачанные роботом страницы появляются в поисковой базе с некоторой задержкой. Переиндексация полученных документов производится с интервалом приблизительно в две недели.

3.5 Индексация в поисковой системе Рамблер

При индексации поисковой системой Рамблер учитывается лишь та информация, которую пользователь может увидеть на странице. Базовые понятия и ключевые для сайта слова целесообразно включать в следующие HTML-теги (в порядке значимости): title h1...h4 b, strong, u Чем чаще слово встречается в этих полях, тем более вероятно, что поисковая система Rambler выдаст ссылку на этот документ ближе к началу списка результатов поиска.

Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.

Программа индексирования обрабатывает переадресацию (редиректы), но только в том случае, если перенаправление выполняется в домен .ru или в домены некоторых стран СНГ.

Рамблер обрабатывает все "динамические" страницы с именами вида *.asp*, *.php*, *.pl* и т. п. для посещаемых сайтов, а также сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается только часть таких страниц.

Фрагменты HTML, размеченные тегами, Рамблером не индексируются.

Поисковая машина Рамблер умеет извлекать ссылки из объектов flash и потому может обрабатывать сайты, построенные на флэш-технологии. Однако сами тексты flash-объектов пока не индексируются.

При индексации учитывается лишь та информация, которую пользователь может увидеть на странице.

Скрытые поля и все другие поля , кроме , при индексировании сайтов игнорируются. То же самое относится к комментариям в HTML-коде сайта. Не следует также использовать невидимый текст, в котором цвет шрифта совпадает с цветом фона.

Поиск учитывает данные Top100. Специальный робот Рамблера два раза в день добавляет в базу поисковой машины новые страницы со всех сайтов, которые участвуют в рейтинге Top100 и разместили счетчик на своих страницах. После изменения информации в рейтинге Top100 ее обновление в поисковой системе происходит в течение одного-двух дней. Если сайт зарегистрирован в Top100, он будет находиться по некоторым запросам, даже если информация была удалена из индексной базы.

При поиске учитывается информация, полученная из рейтинга Rambler's Top100, если сайт в нем зарегистрирован. Число показывает, когда была получена эта информация. Информация по Top100 обновляется практически каждый день.

Заключение

«Рамблер» стоял у истоков российского интернета. Появившись в 1996 году, он быстро завоевал огромную популярность и оставался ведущим игроком на рынке поиска России вплоть до 2001 года. Рамблер запустил первый в рунете рейтинг-классификатор (Rambler Top100), первый интернет-портал, первым среди отечественных интернет-компаний вышел на биржу.

В 2012 году философия портала была полностью переосмыслена -- теперь «Рамблер» представлен как медиапортал персонализированных новостей.

Состоит в группе компаний Rambler&Co, образованной в мае 2013 г. в результате объединения активов «Афиши-Рамблер» (ранее входила в холдинг «ПрофМедиа» Владимира Потанина) и SUP MediaАлександра Мамута.

«Рамблер» четырежды завоёвывал «Премию Рунета».

По данным на июль 2013 года, «Рамблер» занимает 11-е место по популярности среди сайтов России (по другим данным -- 9-е). Месячная аудитория «Рамблера» составляет 29 миллионов человек.

Источники

1. https://ru.wikipedia.org/wiki/

2. http://kormar2006.narod.ru/g.html

3. http://www.master-live.ru/rambler.html

4. http://www.seonews.ru/glossary/rambler

Размещено на Allbest.ru

...

Подобные документы

  • Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

    курсовая работа [4,0 M], добавлен 10.05.2015

  • Изучение языка поисковых запросов. Принципы действия регистров, скобок, метасимволов. Методы управления индексированием сайта, использования файлов robots.txt. Группы инструкций для отдельных роботов: User-agent. Принципы работы поисковой машины Рамблер.

    реферат [105,0 K], добавлен 19.12.2010

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Характеристика поисковых систем Yandex, Google, Rambler: сходства и отличия, преимущества и недостатки. Поиск определения ряда терминов, программных продуктов. Поиск информации по направлениям: писатели и поэты, их произведения, доктора наук для Самары.

    контрольная работа [17,4 K], добавлен 22.08.2011

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.

    курсовая работа [66,3 K], добавлен 20.12.2008

  • Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

    реферат [24,3 K], добавлен 10.05.2013

  • Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

    курсовая работа [2,6 M], добавлен 15.04.2014

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Возможность составления собственного персонального информационно-правового банка по свои индивидуальным предпочтениям - одно из важнейших преимуществ поисковой системы "Гарант". Основные элементы интерфейса информационного комплекса "Консультант".

    курсовая работа [534,5 K], добавлен 14.11.2017

  • Основные методы объектно-ориентированного программирования поисковой системы. Выбор языка программирования и среды разработки приложения. Реализация паттерна, использование принципа сохраняемости. Описание пользовательского интерфейса поисковой системы.

    курсовая работа [781,4 K], добавлен 29.04.2015

  • Совместимость и преобразование типов данных. Создание информационно-поисковой системы на языке программирования Паскаль. Описание интерфейса, каждого блока программы "Картотека больных". Рассмотрение результатов работы программы, сортирования данных.

    курсовая работа [368,9 K], добавлен 18.05.2015

  • Контекстная реклама как основная статья дохода поисковых систем-лидеров. Понятие цены клика. Формирование цены на основе частот запросов (на примере поисковой системы Рамблер). Основные поисковые системы на российском рынке, перспективы их развития.

    творческая работа [373,4 K], добавлен 07.04.2009

  • Основные понятия и определения web-технологии. Направления ее развития. Применение интернет-технологий в информационных системах, образовательной сфере, туризме. Инструменты деятельности поисковой системы Google и функции ее пользовательского интерфейса.

    реферат [25,3 K], добавлен 04.04.2015

  • Возможности программы DBDesigner. Проектирование и реализация информационно-поисковой системы с помощью CASE-средства DBDesigner в среде Intranet. Этапы проектирования базы данных, установление соединения с базой данных на сервере, синхронизация.

    лабораторная работа [1,5 M], добавлен 18.08.2009

  • Методы продвижения сайтов. Структура поисковой системы "Яндекс". Факторы ранжирования запросов. Фильтры поисковых систем, "Минусинск". Изменение структуры страниц. Применение внешней оптимизации сайта. Панель вебмастера с отображением внешних ссылок.

    курсовая работа [2,0 M], добавлен 14.11.2016

  • Построение структурной схемы модели системы, укрупненной схемы моделирующего алгоритма. Проект математической модели информационно-поисковой библиографической системы, построенной на базе двух ЭВМ и имеющей один терминал для ввода и вывода информации.

    курсовая работа [598,2 K], добавлен 21.06.2011

  • Обеспечение высокой релевантности поиска с помощью поисковой системы Google. Быстрота и надежность работы, большее количество ссылок в русскоязычном секторе Интернета. Службы, отсутствующие у других поисковых систем. Google как законодатель моды.

    презентация [1,5 M], добавлен 10.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.