Сравнительный анализ поисковых систем

Задачи поисковых технологий в сети интернет. История развития поисковых систем, их компоненты, особенности классификации. Проведение сравнительного анализа различных поисковиков по ряду критериев. Релевантность понятий в науке информационного поиска.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 11.05.2014
Размер файла 255,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

28

Размещено на http://www.allbest.ru/

Введение

Большинство пользователей Интернет сообщества начинают свой рабочий день с поисковых систем, где пытаются найти столь необходимую им информацию и решить свои проблемы. К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты "далекие" от решаемого вопроса.

При этом ресурсы, представляющие реальную пользу, оказываются "за бортом" поиска. Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. При этом надо понимать, что главная проблема заключается в отсутствии четких правил, доступных и открытых для всех желающих.

Чем больше неопределенности в алгоритмах формирования поисковых индексов (некий черный ящик), тем меньше поисковые системы отражают процесс формирования реальной информации. И соответственно, тем меньше будет уровень доверия к результатам поиска поисковых систем. Как это ни парадоксально, но это вина не поисковых систем, поскольку они обязаны скрывать правила построения поисковых индексов. Это вина самой технологии при организации поиска.

По своей сути технология поисковых систем направлена на пассивного пользователя. Необходимо зарегистрировать только сайт, дальше все сделает поисковый робот. Он просканирует ресурс страницу за страницей, пытаясь проанализировать содержание каждой из них. Трудоемкость пользователя минимальна, что позволяет использовать разные методики по "обману" поисковых роботов при низких затратах сил и средств.

В такой схеме работы поисковым системам необходимо изменять алгоритмы и правила индексирования ресурсов и построения поискового индекса. Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.

Глава 1. Поисковые технологии в сети

Поисковая система - это программное обеспечение, предоставляющее доступ к коллекции слабоструктурированной информации. Ориентация на слабоструктурированные данные, т.е. данные, которые нельзя представить в виде реляционной таблицы, отличает поисковую систему от СУБД. В данном определении поисковой системы подразумевается информация различного рода, т.е. текст, аудио, видео, изображения и т.п. Однако следует отметить, что именно текстовые данные идеально подходят для описания полной функциональности поисковой системы, т.к. алгоритмы поиска мультимедийной информации, прежде всего, основываются на алгоритмах поиска текста. Поисковые системы при использовании Интернет играют очень важную роль. В Интернете сосредоточено такое количество информации, что ее поиск уже превращается в отдельную задачу и отнимает очень много времени. Поисковые серверы выдают на запрос тысячи ссылок вместо нескольких страниц, где действительно имеется нужная информация. Пользователи всемирной сети Интернет, осознав преимущества, предоставляемые возможностью анализа пространственных данных, нуждаются в инструменте, позволяющем осуществлять быстрый и удобный поиск и доступ к цифровым снимкам местности и другой пространственной информации, сосредоточенной во многих правительственных, коммерческих и академических организациях.

1.1 История развития поисковых систем

Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов сайтов, в которых ссылки на ресурсы группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет.Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого очень проста - даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов. Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году.В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.В 1997 году Сергей Брин и Ларри Пейдж создали Google в рамках исследовательского проекта в Стэнфордском университете. В настоящий момент Google самая популярная поисковая система в мире. 23 сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет. В настоящее время существует 3 основных международных поисковых системы - Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb - базу Yahoo.В России основной поисковой системой является Яндекс, за ним идут Rambler, Google.ru, Aport, Mail.ru и KM.ru.

Поисковая система состоит из следующих основных компонентов:

Spider (паук) - браузероподобная программа, которая скачивает веб-страницы.Crawler (краулер, «путешествующий» паук) - программа, которая автоматически проходит по всем ссылкам, найденным на странице.

Indexer (индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Database (база данных) - хранилище скачанных и обработанных страниц. Search engine results engine (система выдачи результатов) - извлекает результаты поиска из базы данных.

Web server (веб-сервер) - веб-сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы. Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб-страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

Spider. Паук - это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html-текстом страницы (вы можете сделать «просмотр html-кода» в вашем браузере, чтобы увидеть «сырой» html-текст).

Crawler. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer. Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html-теги и т.д.

Database. База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Search Engine Results Engine. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас - именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Web server. Как правило, на сервере присутствует html-страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб-сервер также отвечает за выдачу результатов пользователю в виде html-страницы.

Яндекс - это самая известная современная поисковая система в России. Ее посещает около трех миллионов человек в день. В данной поисковой системе есть возможность размещать платные объявления в результатах поиска. Раскрутка сайта в Яндексе является приоритетной задачей для большинства сайтов, ориентированных на российскую аудиторию. Одним из критериев при определении позиции сайта в результатах поиска является индекс цитирования.

Рамблер - это первая российская поисковая система. Ее посещаемость в полтора раза меньше, чем посещаемость Яндекса. В поисковой системе есть рейтинг TOP100, участие в котором может быть полезно для раскрутки сайта.

Гугл - это крупнейшая мировая поисковая система. У данной поисковой системы самые современные алгоритмы определения соответствия сайта запросу пользователя, а значит самые качественные результаты поиска. Для определения цитируемости сайта используется PageRank. От чего зависит прибыль сайта? Если представить себе два сайта с примерно одинаковым ассортиментом, то у более посещаемого сайта прибыль будет больше. От чего же зависит посещаемость сайта? Посещаемость сайта зависит от количества денег, вложенных в раскрутку сайта. Ведь без правильной раскрутки сайта сегодня нереально попасть не то что на первую страницу результатов поиска товаров и услуг, а даже и на вторую-третью. Правильная раскрутка сайта зачастую приносит больше пользы и обходится в десятки раз дешевле, чем все остальные виды рекламы вместе взятые.

1.2 Классификация поисковых систем

Все поисковые системы условно можно разбить на три больших класса:

1) Поисковые машины (анг. - search engines). Иначе их еще называют программы - червяки и программы - пауки. Такие программы ползают от одного сайта к другому методично индексируя контент. Все, что находит такой червяк попадает в базу данных, куда любой пользователь может обратиться с запросом. Достоинство таких программ обширная база данных - практически вся сеть. Недостаток - это то, что в ответ на любой запрос вы получаете тысячи адресов веб-страниц.

2) Веб-каталоги или поисковые порталы (directories). Информация в них организуется в виде древовидной структуры, обычно по тематическому признаку и в соответствии с рейтингом. Адреса и описания веб-сайтов заносятся в каталог по заявке. Записи редактируются вручную web-мастером, модератором. Во многие каталоги попасть трудно, некоторые эту услугу делают платной. стремление хозяев сайтов попасть в любой каталог (чем больше, тем лучше) вызвано желанием разместить свою ссылку на чужом сайте и следовательно повысить рейтинг в метапоисковых системах о чем будет сказано ниже. Если вы стремитесь увеличить количество посетителей на своем сайте, то выбирайте такой каталог в котором вас будет видно. Эффект от размещения ссылки в небольшом каталоге и при наличии интересного контента может оказаться довольно высоким, т.к. с таких сайтов посетители уходят в основном по какой-нибудь ссылке. Тем не менее, регистрация в таких каталогах как Yahoo! и Open Directory желательна, т.к. их базы данных используются метапоисковыми системами при определении рейтинга.

3) Метапоисковые системы - это поисковые системы, у которых отсутствует своя база данных с адресами и описанием ресурсов. Они используют базы данных каталогов. В собственной базе данных хранятся только адреса ресурсов. Поиск с помощью этих систем в настоящее время наиболее популярен. О способах повышения рейтинга в этих системах на примере поисковой системы Google см. в нашей статье "О повышении индекса цитируемости"

1) Поисковые машины (от анг. search engines).

AltaVista (вид сверху) - торговая марка популярной поисковой машины. Сегодня база данных AltaVista является самой крупной в Интернете. Помимо разветвленных средств поиска текстовой информации содержит такие инструменты, как Photo Finder - поиск изображений, технологию онлайнового перевода документов и возможность индексирования на нескольких языках. В сотрудничестве с компанией AskJeeves. AltaVista разработала базу данных, управляемую при помощи команд на поддерживаемых языках.

Excite - поисковая машина. Технология Excite лицензирована компанией Netscape Communications для использования на портале NetCenter, а также корпорацией America Online (с правом собственного дополнения БД). Имеет интеллектуальные алгоритмы поиска по технологии ICE (Intelligent Concept Extraction), которые позволяют работать не только с отдельными ключевыми словами, но и с объединяющими их понятиями. Если, допустим, вы введете словосочетание "система обучения", то поисковая машина просмотрит также страницы, содержащие слова "школа", "учебник" и т.д. Таким образом, Excite очень эффективна для поиска материалов по смежным понятиям.

Goto - Компания начала свою деятельность с приобретения старой и довольно известной поисковой машины WWW Worm. Затем решено было подобрать ссылки на самые популярные темы поиска и даже расположить соответствующие ключевые слова на заглавной странице. Результаты поиска часто получаются такие же, что и в HotBot, Snap и Yahoo!, а иногда даже и лучше.

HotBot (Wired Digital) - с 1998 года поисковая машина принадлежит компании Lycos. Здесь используется оригинальная технология Inktomi, позволяющая совершать полноценный текстовый поиск по произвольному ключевому слову. Основные посетители ее поискового сервера - компьютерщики-профессионалы, которые используют HotBot для поиска необходимого программного обеспечения и данных, связанных с информационными технологиями. Однако компьютерной тематикой данная поисковая система, безусловно, не ограничивается. Постоянно ведется работа, направленная на дальнейшее ее развитие: пополняется база данных Inktomi, выпускаются новые версии алгоритмов.

InfoSeek - Поисковая машина, которая когда-то входила в десятку лучших. В настоящее время она больше занимается электронной коммерцией. После создания в 1999 году совместного с компанией Walt Disney нового суперпортала под названием Go Network - этот сайт входит в первую десятку по посещаемости.

Northern Light - поисковая машина создавалась в целях увеличения информативности поиска в Интернете. Ее основная идея - контекстный поиск. Спайдер компании ежедневно индексирует тысячи сайтов, в число которых входят электронные издания, периодика, службы новостей, академические библиотеки и электронные архивы текстов. Еще одной особенностью поисковой машины Northern Light, выгодно отличающей ее других, является возможность сортирования полученной информации по адресам сайтов и тематикам. Желающие могут подписаться на всевозможные тематические подборки, например на материалы определенных рубрик из любимых газет и журналов, а затем в течение года получать специально подготовленную и отсортированную информацию. Проект Northern Light является одним из самых масштабных в Интернете.

SearchKing - поисковая система с упором на повышение достоверности информации (релевантности документов). При построении рейтинга поисковая машина учитывает количество "кликов" (щелчков) на ссылках, посещаемых в результате поиска. Поэтому каждый пользователь невольно "голосует" за самый популярный сайт.

WebCrawler - С 1996 года проект принадлежит компании Excite, поэтому на его заглавной странице находится логотип этой фирмы, а поисковая машина WebCrawler является составной частью Excite Network. Ее создатели обращают внимание на то, что многие более поздние технологии, включая Lycos и InfoSeek, были разработаны уже после появления WebCrawler. База данных проекта продолжает регулярно пополняться, но использовать эту систему рекомендуется в случаях, если нужен поиск по одному или двум ключевым словам.

2) Веб-каталоги и поисковые порталы:

LookSmart - Каталог ссылок, который редактируется вручную, усилен одной из самых мощных поисковых машин AltaVista - это позволило создать один из самых информативных порталов. гигантская база данных AltaVista поможет отыскать нужный сайт по ключевым словам, а рубрики LookSmart позволят точнее определиться с предметом поиска.

Lycos - Поисковая система специализируется в сфере Интернет-торговли. База данных регулярно пополняется. этот портал обладает мощнейшим специализированным каталогом WhoWhere, содержащим персональную информацию о зарегистрированных пользователях Интернета, а также развитыми средствами по предоставлению услуг электронной почты с ведением адресных книг и возможностью создания иерархической структуры подкаталогов для хранения персональной корреспонденции. Всем посетителям в качестве ответов на запрос вначале предлагаются сайты Open Directory Project, а затем ссылки из базы данных поискового механизма Lycos.

PlanetSearch Networks - портала нового типа, основанный на онлайновых сообществах, в которые люди смогли бы объединяться по интересам и увлечениям, а затем пользоваться не только механизмом поиска, но и тематическими досками объявлений, а также чатами. В результате прекрасный набор тематических сайтов и соответствующих поисковых систем.

Yahoo - один из самых известных порталов Сети. Каталог содержит ссылки, которые наиболее полно отвечают указанной в запросе тематике. Имеются интеллектуальные средства "отсечения" пустых, находящихся в разработке или чисто рекламных сайтов, далеких от искомой тематики. При поиске на Yahoo! большое внимание уделяется предварительному предложению отсортированной информации в каталогах, и только если найденная там информация не удовлетворяет пользователя, то запрос передается метапоисковым машинам.

3) Метапоисковые системы:

All4One (все-в-одном) - предоставляет посетителям возможность получать результаты поиска непосредственно из поддерживаемых поисковых систем, то есть с привычным интерфейсом. После ввода запроса окно браузера разбивается на несколько фреймов. В каждом из них выводится список ссылок, найденных конкретной поисковой машиной, в число которых входят и AltaVista, и Lycos, и Excite. Надо сказать, что такой интерфейс имеет и свои недостатки: страницы со ссылками в узких фреймах очень неудобно просматривать. Однако тем, кому нужен быстрый и широкомасштабный поиск с использованием известных поисковых машин, All4One предоставит весь спектр необходимых услуг.

Debriefing - эта метапоисковая система имеет две различные версии пользовательского интерфейса: интернациональный - на английском языке и национальный - на французском. При работе с ключевыми словами на английском языке сервер использует стандартный набор популярных поисковых систем, а вот запросы на французском языке обслуживают пять поисковых систем и каталогов Франции.

Dogpile - Мощная метапоисковая система Dogpile использует для поиска не только поисковые машины, но и FTP-серверы, а также сайты, на которых собираются последние новости, фондовые котировки и "желтые страницы" Интернета. Среди дополнительных услуг, предоставляемых этим сервером, возможность получения подробных прогнозов погоды и географических карт интересующей пользователя местности.

Google - одна из самых популярных метапоисковых машин в Cети. Корректное отображение запрашиваемой информации. Представление информации согласно рейтинга в основу которого положен индекс цитируемости страниц. Рейтинг страницы определяется по количеству ссылок на нее с популярных внешних сайтов и по упоминанию данного адреса в авторитетных источниках информации.

Mamma Systems - Канадская метапоисковая система предоставляет стандартный комплекс услуг, принятый в таких случаях: используя базы данных популярных поисковых машин, она делает свою работу весьма качественно.

MetaCrawler - метапоисковая система принадлежит американской компании Go2Net. MetaCrawler вначале производит поиск необходимой информации по базам данных других систем, а затем, используя собственный алгоритм, анализирует и сортирует полученные ссылки, ищет похожие, определяет рейтинг и выдает результат клиенту. Среди других услуг, предоставляемых MetaCrawler, следует отметить возможность расширенного поиска, довольно интересное приложение MiniCrawler для поиска информации в Сети в обход сайта компании и программу MetaSpy, позволяющую вести наблюдение за ключевыми словами в системе MetaCrawler. По данным различных информационных агентств, MetaCrawler в последнее время входит в десятку лучших метапоисковых систем в Сети.

OneSeek - метапоисковая система предназначена для тех, кто знает, что именно ищет.

При использовании OneSeek требуется предварительно выбрать необходимую категорию, поскольку поиск интересующей информации будет производиться именно по этой тематике.

Для того чтобы определиться с целями, предлагается довольно удобный интерфейс, который позволит оптимизировать поиск, сэкономит время и позволит избежать ненужных результатов.

ProFusion - Метапоисковую систему ProFusion отличает от других подобных систем наличие функции автоматического выбора трех наиболее подходящих для данного запроса поисковых машин.

Это означает, что после ввода ключевого слова ProFusion пытается сузить область поиска, определить тематику, к которой относится запрос, и выбрать три оптимальные для данного случая поисковые машины.

Кроме того, ProFusion предоставляет персональный сервис по сохранению ключевых слов запроса, а затем регулярно автоматически сканирует выбранные поисковые машины, а если находит новую информацию по интересующей теме, то сообщает об этом пользователю (или создает для него "теневую" базу данных). Разрабатываются и другие вспомогательные функции системы.

Proteus - представляет собой скорее даже не метапоисковую систему, а средство переадресации запросов на другие поисковые машины.

Здесь нет никакого алгоритма сортировки полученных ссылок - просто на одной странице находится окошко для ввода ключевых слов и множество кнопок для поиска во внешних поисковых системах.

SavvySearch - система предоставляет услуги расширенного поиска в Сети с 1998 года.

При запросе клиента исследуются 200 внешних баз данных, сборники прайс-листов и целый ряд специальных электронных справочников и библиотек. SavvySearch имеет простой и продуманный интерфейс, удобные функции поиска. Кроме того, система предоставляет множество дополнительных услуг, количество которых постоянно растет.

Глава 2. Сравнительный анализ поисковых систем

Сегодня самым мощным и оперативным источником информации является Интернет. Собственный сайт в сети имеет практически каждая крупная организация, фирма или компания. В Интернет расположены электронные варианты многих газет и журналов, через Интернет вещают сотни радиостанций и телекомпаний. В современном обществе практически нет области человеческой деятельности, которая не была бы представлена в сети. Умение быстро находить необходимую информацию сегодня так же необходимо как умение читать и писать. Одной из первых проблем, с которыми сталкивается пользователь подключаясь к сети, является проблема выбора поисковой системы. Каталоги (общие и специальные), поисковые системы, каталоги поисковых систем, тематические коллекции ссылок, рейтинги и т.п., могут стать помощником для эффективного поиска информации, а могут помочь заблудиться в дебрях Интернета. Конкретные рекомендации по выбору поискового указателя очень быстро стареют. Ситуация в Интернете меняется буквально на глазах. Не проходит и полугода, чтобы что-нибудь не изменилось и в поисковых системах. Та система, которая была наилучшей вчера, может быть не самой лучшей сегодня и очень плохой завтра.

Яндекс

«Ямндекс» -- российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является 5-ой среди поисковых сайтов мира по количеству обработанных поисковых запросов (более 3 млрд, 1,7 % от мирового количества, статистика за сентябрь 2011 года)[2]. Поисковиком в мире пользуются более 50 млн чел.[ По состоянию на 12 апреля 2012 года, согласно рейтингу Alexa.com, по популярности сайт yandex.ru занимает 23-е место в мире и 1-е место в России. Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году. В мае 2011 года Яндекс провёл первичное размещение акций, заработав на этом больше, чем какая-либо из Интернет-компаний со времён IPO поисковика Google в 2004 году.

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы «Яндекс» стал мультипорталом. В 2011 году «Яндекс» предоставляет более 30 сервисов. Самыми популярными являются: Яндекс.Картинки,Яндекс.Почта, Яндекс.Карты, Яндекс.Новости, Яндекс.Погода и другие.

Язык поисковых запросов

Отличительная особенность Яндекса -- возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б -- документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && -- во всём документе.

Оператор ! позволяет отключить морфологию для конкретного слова, а !! позволяет указать нормальную форму, что позволяет обойти некоторые проблемы, связанные с омонимией. Например запрос !!Иванов будет находить Иванова и Иваномвых, но не Ивана.

Результаты поиска

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличаться, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска -- по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Качество поиска

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Такие изменения, официально объявленные, происходили, например, в марте 2004 года, августе 2005 года и январе 2007 года; по неофициальным сведениям, их значительно больше (например, в августе-сентябре 2007 года). Крупное изменение произошло в ноябре 2009 года, когда была выложена обновлённая версия поисковой программы «Снежинск». Последнее подобное изменение произошло в декабре 2010-го, когда Яндекс внедрил новую поисковую технологию «Спектр» (версия «Краснодар»). Она позволяет учитывать потребности пользователей, которые не были явно сформулированы в запросе. Например, по запросу [бетховен] пользователям покажут результаты и про биографию композитора, и его произведения, и фильм «Бетховен».

В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже -- по целым семействам запросов).

Сайты, которые «Яндекс» не индексирует или ограничивает ранжирование:

1. Копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.

2. Единственной целью которых является перенаправление пользователя на другой ресурс, автоматически (редирект) или добровольно.

3. С автоматически сгенерированным (бессмысленным) текстом.

4. С каталогами (статей, программ, предприятий и т. п.), если они являются только агрегаторами контента, не создают тексты и описания самостоятельно и не предоставляют никакого уникального сервиса.

5. С невидимым или слабовидимым текстом или ссылками.

6. Отдающие разный контент пользователям и роботам поисковых систем (клоакинг).

7. Предоставляющие товары или информацию по партнёрским программам, но не представляющие никакой ценности для пользователя.

8. Использующие обманные техники (например, вредоносный код, скрипты, настройки серверов), перенаправляющие пользователей на сторонние ресурсы или меняющие окно результатов поиска на страницы других ресурсов при переходе из поисковых систем.

9. Содержащие списки поисковых запросов (многократное повторение и перечисление ключевых слов), предназначенные исключительно для обмана поисковой системы и манипулирования результатами её работы, в том числе использование элементов страниц, скрывающих ключевые слова, например, посредством скроллинга или других технических приёмов.

10. Группы сайтов одного владельца/компании, предоставляющие пользователю одни и те же товары или услуги, созданные с целью заполнения нескольких позиций в результатах поиска и сбора трафика.

11. Немодерируемые форумы, доски объявлений, содержащие большое количество ссылочного спама.

12. Ставящие внешние ссылки исключительно для обмана поисковых систем и «накачивания» релевантности и не являющиеся рекомендацией автора посетить ресурс.

13. Сайты или группы сайтов, интенсивно ссылающиеся друг на друга (линкфармы).

14. Страницы сайта с результатами поиска.

Образовательная деятельность Яндекса.

В 2004--2005 и 2006--2007 годах компания финансировала гранты на исследования молодых учёных по тематике информационного поиска в виде конкурса «Интернет-математика». На конкурс 2006--2007 года поступило 156 заявок, из которых 31 отобранным заявкам было выделено финансирование на общую сумму 5 млн рублей.

Конкурс «Интернет-математика» проводился в третий раз в 2009 году, но в существенно изменённом формате и с урезанным финансированием. Все участники решали одну общую задачу, поставленную Яндексом. По выданным наборам данных, состоящих из оценок релевантности некоторых документов поисковым запросам, требовалось построить ранжирующую формулу методами машинного обучения ранжированию.

В четвёртый раз конкурс «Интернет-математика» проводился в 2010 году. К 16 мая предлагалось предсказать замеры скорости на дорогах Москвы в период с 18 до 22 часов, исходя из данных замеров с 16 до 18 часов и из статистики 30 предшествующих дней.

С октября 2009 года Яндекс совместно с Microsoft Research проводит в своём московском офисе цикл научных семинаров по информационному поиску и анализу данных для всех желающих.

1 апреля 2010 года состоялся первый так называемый СтуДень -- студенческий день Яндекса, организованная для студентов однодневная конференция, на которой можно было узнать о поисковых технологиях и компании.

24 сентября 2010 года состоялся второй СтуДень, он прошел в Новосибирске и собрал студентов из Барнаула, Новосибирска, Омска и Томска

Школа анализа данных

В сентябре 2007 году была открыта Школа анализа данных Яндекса -- двухгодичные очные вечерние курсы для подготовки специалистов в прикладных областях, связанных с обработкой больших массивов данных (в частности, полученных из интернета).

С 2008 года работа школы была разделена на два отделения -- отделение анализа данных и отделение computer science (информатики). Основной контингент школы -- студенты старших курсов, аспиранты московских вузов и недавние выпускники.

Школа сотрудничает с магистратурой Высшей школы экономики и МФТИ, в которой при содействии Яндекса была открыта новая базовая кафедра «Анализ данных» и кафедра Дискретной математики. Занятия проводятся в Московском корпусе МФТИ (Климентовский переулок, 1, стр. 18). Среди лекторов школы -- известные учёные, такие как Альберт Ширяев и Алексей Червоненкис.

Гугл

Поисковая система Google была создана в качестве учебного проекта студентов Стэнфордского университета Ларри Пейджа и Сергея Брина. Они в 1996 году работали над поисковой системой BackRub, а в 1998 году на её основе создали новую поисковую систему Google.

Хотя корпорация была основана 2 сентября 1998 года, а домен Google.com зарегистрирован 15 сентября 1997 года, поисковик (с 2000 года) иногда отмечает свой день рождения и в другой день: как 7, так и 27 сентября.

Название Google произошло от слова Гугол (Googol) намеренно искажённого Сергеем Брином, которое означает десять в сотой степени -- .

Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle:Google site:wikipedia.org» выведет все статьи Википедии на всех языках, в заголовке которых встречается слово Google. Мощный язык запросов в руках хакеров может быть использован для исследования веб-сайтов на уязвимости.

Поиск в найденном

Для результатов поиска Google ранее предоставлял возможность повторного поиска, что позволяло производить поиск более детально. Для более детального поиска пользователям необходимо было указывать дополнительные параметры по которым происходил отбор результатов, что позволяло сразу отобразить не только запрос, но и контекст где он применяется. Данная возможность упрощала процедуру поиска исключив необходимость в открытии каждого результата.

Вики поиск

Поисковая технология, позволяющая пользователю настраивать результаты выдачи по поисковым запросам. Пользователь может удалять результаты из списка и поднимать вверх списка. Технология была запущена компанией Google весной 2009 года и проработала до осени. В настоящий момент (4 мая 2010 года), в настройках поиска осталась настройка для включения «Википоиска», но в выдаче соответствующие элементы управления отсутствуют. Другие поисковые системы подобной функциональности пока не предоставляли.

Голосовой поиск

22 сентября 2010 года компания запустила голосовой поиск в России. Чтобы осуществить поиск, необходимо нажать в телефоне кнопку рядом со строкой поиска и произнести свой запрос, телефон отправит ваш голос на сервер, и браузер выдаст строку с распознанным вашим запросом и результатами поиска по нему.

Google Doodle

По случаю праздника или круглой даты какой-нибудь широко известной личности, стандартный логотип Google у некоторых или, реже, -- у всех региональных доменов может меняться на праздничный, имеющий определённую тематику, смысл, но в стиле Google (англ. Holiday and Events -- Google style!). Например, по случаю дня рождения Наполеона Орды 11 февраля 2010 года на логотипе белорусского домена Google появились акварели этого известного художника, 6 июля поздравляли со 121- летием Марка Шагала (логотип был в виде коллажа из фрагментов его работ)[26]. После десятилетнего ожидания 22 марта 2011 года Google выиграл патент на «Google Doodle».

Российские:

§ 12 июля 2011 появился логотип с изображением Собора Василия Блаженного, в честь 450-летия этого памятника культуры.

§ 27 августа 2011 появился логотип с изображением Фаины Раневской.

§ 1 сентября 2011 появился логотип к празднику День знаний.

§ 11 ноября появился логотип с изображением Фёдора Достоевского в честь 190-летия со дня рождения великого русского писателя.

§ 19 ноября 2011 года показывался логотип к 300-летию со дня рождения величайшего русского ученого мирового значения, Михаила Васильевича Ломоносова, с его изображением.

§ 18 декабря 2011 года показывался логотип к 90-летию со дня рождения Юрия Никулина.

§ 25 января 2012 года показывался логотип к 74-летию со дня рождения Владимира Высоцкого.

§ 17 февраля 2012 показывался логотип к 106-летию со дня рождения Агнии Барто.

Интерактивные:

§ Игра Pac-Man (включение/выключение звука, управление передвижением мышкой или клавишами со стрелками клавиатуры)

§ 9 июня 2011 появился интерактивный логотип, посвящённый 96-й годовщине со дня рождения Леса Пола. Лого предоставляет возможность генерировать звуки (с изображением колеблющейся гитарной струны), записывать и проигрывать мелодии, передавать записанное (как URL).

§ 15 июня 2011 года (к лунному затмению) был выпущен очередной интерактивный логотип, демонстрирующий (с возможностью прокрутки) фазы затмения.

§ 5 сентября 2011 года ко дню рождения Фредди Меркьюри был выпущён логотип, в котором показан мульт-клип на песню Queen -- Don't Stop Me Now, созданный компанией Google.

§ 23 ноября 2011 года -- к 60-летию первой публикации Станислава Лема (по мотивам иллюстраций польского художника Даниэля Мроза к Кибериаде).

§ 9 апреля 2012 года -- к 182-летию со дня рождения Эдварда Мейбриджа. Логотип представляет из себя 21 сектор разного цвета, в каждом из которых бежит скаковая лошадь

Нигма.РФ --российская интеллектуальная метапоисковая система, первая кластеризующая поисковая система в Рунете. Проект создан при поддержке факультетов ВМиК и психологии МГУ, а также Стэнфордского университета. Название «Nigma» (один из родов пауков семейства Dictynidae, en:Nigma) было выбрано по ассоциации со Всемирной паутиной.

На момент появления Нигма.РФ в проекте участвовало 2 человека, а именно Виктор Лавренко и Владимир Чернышов. На начало 2009 года в проекте работает более 25 человек.

Nigma осуществляет поиск как по своему индексу, так и по индексам Google, Yahoo, Bing, Яндекс, Rambler, AltaVista, Aport.

По состоянию на 28 февраля 2009 года в суммарном индексе всех этих поисковых систем находилось более 7,16 млрд русскоязычных документов.

Кластеризация

На основе введенного пользовательского запроса Нигма формирует список документов, разделённых на несколько множеств (кластеров). Пользователь может уточнить, в каком множестве продолжить поиск, тем самым улучшив релевантность результатов поиска. Пользователь также может исключить ненужные ему множества сайтов, например, документы, пришедшие синтернет-магазинов (для них формируется специальный кластер).

Список кластеров выводится слева от списка результатов поиска. Для каждого кластера указывается образующая его фраза и количество документов в кластере. Пользователь может управлять кластерами при помощи специальных ссылок под списком кластеров.

Примеры запросов:

§ музыка

§ курсы

§ каникулы

Морфология

Nigma поддерживает русскую морфологию. Используется морфологический модуль для русского языка собственной разработки.

Ранее в Нигме поддержка морфологии была реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены распространённые морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращал, а увеличивал количество найденных документов, так как морфологически изменённый запрос объединяется с исходным. Релевантность также увеличивалась, так как использовались специальные алгоритмы объединения результатов.

Таким образом, через Nigma, например, можно было искать документы в индексе Google с учётом русской морфологии даже в то время, когда Google не поддерживал русскую морфологию. Сейчас надобность в данной технологии отпала, так как все ведущие поисковые системы поддерживают русскую морфологию.

Nigma позволяет производить простейшие арифметические преобразования и решать математические задачи, с учётом различных единиц измерения и распознаванием математических и физических констант. Также поддерживаются запросы на конвертацию валют, решение систем уравнений и построение графиков функций.

Математическая система была запущена в октябре 2008 года.

В декабре 2008 года появилась поддержка запросов по неорганическим химическим реакциям, как по исходным, так и по конечным веществам реакции. Впоследствии были добавлены поиск химических реакций и поддержка органической химии.

На 2011 год система позволяет производить поиск по более чем 12 000 неорганических реакций. Вещества можно задавать как в виде названий («хлорид натрия», «каменная соль»), так и в виде формул («NaCl»).

Практическая часть

На примере Яндекса покажем, как работают поисковые системы.

Например, в поисковой системе Яндекс будет искать музыку. Для этого откроем любой браузер. Я использую браузер Гугл Хром. В поисковую строку набираем слово «музыка» и нажимаем на значок поиск или жмем Enter.

В данном случае Яндекс нашел около 268 млн. результатов.

Дальше поводим курсор мыши на тот сайт, который вам нужен и нажимаем на левую кнопку мыши. Например, откроем сайт «тут зайцев нет». Здесь можно скачивать или слушать музыку. Так же можно просмотреть новости, видео или картинки.

Для этого нужно нажать левой кнопкой мыши на слово. Например попробуем картинки.

Для сравнения можно осуществить поиск в поисковой системе Гугл. Повторим ту же процедуру. Введем слово музыка и нажмем поиск.

В поисковой системе Гугл нашлось 499 млн. результатов. Это почти в два раза больше результата Яндекс. Так же в поисковой системе Гугл указывается скорость нахождения этого результата. Гугл нашел искомый запрос за 0,11 секунду.

Заключение

интернет поисковый информационный

Основная задача поисковой системы - минимизировать время, затрачиваемое пользователем на поиск релевантной запросу информации. Релевантность - одно из самых субъективных и запутанных понятий в науке информационного поиска. Наиболее часто говорят о релевантности с точки зрения пользователя, и тогда ``релевантная запросу информация'' и ``нужная пользователю информация'' - одно и то же. Именно о такой релевантности мы говорим в данном разделе. Вопрос заключается в том, какую информацию пользователь посчитает нужной? В некоторых обстоятельствах релевантную информацию можно определить как всю информацию из базы, имеющую отношение к запросу. Так, например, если пользователю нужно узнать все о конкретной фирме, то он заинтересован в нахождении всех документов, в которых упоминается об этой фирме. В других обстоятельствах релевантная информация - это только та информация, которая достаточна для выполнения определенной задачи пользователя, например, поиска ответа на конкретный вопрос. Если в последнем случае в результатах поиска будет много избыточных данных, т.е. данных, которые имеют отношение к запросу, но не нужны для выполнения данной задачи, то выборка нужной/релевантной информации займет у пользователя дополнительное время. Таким образом, традиционно к поисковой системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз, когда пользователь задает системе запрос, тем самым инициализируя поиск, все документы в коллекции поисковой системы делятся на четыре части. Точность определяет один аспект поиска, а именно, насколько хорошо поисковая система способна минимизировать время, затрачиваемое пользователем на поиск релевантной данному запросу информации. В то время как полнота определяет другой аспект - насколько хорошо система способна найти релевантную данному запросу информацию. Можно подобрать оптимальный запрос, когда каждый найденный документ будет релевантным, и каждый релевантный документ будет найден.

Размещено на Allbest.ru

...

Подобные документы

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.

    курсовая работа [66,3 K], добавлен 20.12.2008

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.

    реферат [28,4 K], добавлен 14.01.2010

  • Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.

    презентация [775,3 K], добавлен 10.03.2015

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

    курсовая работа [2,6 M], добавлен 15.04.2014

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • История поисковых систем. Классификация информационных систем по степени автоматизации. Три основных способа поиска информации в Интернете. Отличие поисковых систем от каталогов. Назначение и типы информационных систем государственных учреждений.

    курсовая работа [368,5 K], добавлен 13.05.2015

  • Информация о поисковых системах, принцип их работы. Первая поисковая система в мире. Рейтинг самых популярных поисковых систем. Измерение популярности поисковых систем среди интернет-пользователей. Эффективная работа с разными поисковыми системами.

    творческая работа [2,2 M], добавлен 21.06.2023

  • Появление поисковых систем. Применение семантических сетей для анализа текста. Определение релевантности, ранжирование и индексация. Особенности программы Balabolka. Системы анализа речи. Современные особенности поиска. Развитие сервисов поисковых систем.

    реферат [3,2 M], добавлен 22.04.2015

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.

    реферат [30,0 K], добавлен 07.05.2011

  • Общее представление о поисковых службах. Характеристика видов информационно-поисковых систем, анализ их преимуществ и недостатков. Приемы простого поиска с помощью ключевых слов. Сохранение информации на компьютере для ее последующего использования.

    учебное пособие [313,9 K], добавлен 10.10.2011

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Характеристика поисковых машин: сущность, задачи, базовые компоненты; основные параметры. Глобальные поисковые системы, их достоинства и недостатки; особенности правовой системы - Garant. Стратегия и методика профессионального информационного поиска.

    реферат [415,8 K], добавлен 21.04.2011

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.