Поисковые системы
Когда мы вбиваем запрос в Гугл или Яндекс, они не начинают поиск по всей сети и искать для нас странички, они обращаются к уже собранной и подготовленной базы данных. Одна из причин недоступности сайта — это сбой на сервере. Сортировка по релевантности.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | реферат |
Язык | русский |
Дата добавления | 28.05.2022 |
Размер файла | 24,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
БАЗОВЫЕ ПРИНЦИПЫ ПОИСКОВОЙ СИСТЕМЫ
Поисковая оптимизация (англ. search engine optimization, SEO) -- комплекс мер по внутренней и внешней оптимизации для поднятия позиций сайта в результатах выдачи поисковых систем по определённым запросам пользователей, с целью увеличения сетевого трафика (для информационных ресурсов) и потенциальных клиентов (для коммерческих ресурсов) и последующей монетизации (получение дохода) этого трафика.
Мы собираемся работать со сложной системой, поисковым алгоритмом. Поэтому нам необходимо знать базовые принципы работы поисковой системы.
Google -- самая популярная поисковая система в мире с долей на рынке 68,69 %. Bing занимает вторую позицию, его доля 12,26 %.
Россия и русскоязычные поисковые системы
Яндексом пользуются 56,2 % пользователей в России (Google -- 37,6%)[21].
Всеязычные: Google (37,6 %), Bing (0,3 %), Yahoo! (0,1 %)
Русскоязычные -- большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках -- украинском, белорусском, английском, татарском и других. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что, в основном, индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык, или другими способами ограничивают своих роботов русскоязычными сайтами.
* Яндекс (56,2 %) Mail.ru (5,3 %) Рамблер (0,5 %)
Первое, что необходимо знать: поисковая система ищет не совсем в интернете, а по своей базе данных. Когда мы вбиваем запрос в Гугл или Яндекс, они не начинают поиск по всей сети и искать для нас странички, они обращаются к уже собранной и подготовленной БД, в которой хранятся миллиарды разнообразных страниц. Откуда они берутся в этой БД. Их собирает программа, которая называется Краулер (web -паук, поисковой бот). Его легко представить в виде 2 жучков, которые бегают по интернету и скандируют содержание. Первая часть ПБ занимается сканированием содержания (текста, фото, видеофайлов). Вторая часть ищет в тексте ссылки и направляет работу ПБ. Те ПБ отсканировал страницу, увидел ссылку и перешел по ней далее. И таким образом движется в интернете по ссылкам.
После того, как ПБ отсканировал страницу, он формирует 2 файла:
1- отсканированное содержание
2 -набор ссылок, связей между страницами
Эта информация передается в БД. Но перед сохранением там этой информации, происходит первичная ее обработка. Поисковой системе, как любому роботу, трудно работать с естественным языком, на котором общаются люди. Мы должны понимать, сто ПС - это математический алгоритм. Поэтому поисковику удобно структурировать эту информацию в набор символов, меток, по которым впоследствии можно будет легко произвести поиск.
Базово можно представить себе, что ПС использует такой алгоритм, как составление частотных таблиц. Те ПС после сканирования страницы, смотрит какие слова встречались на странице и как часто они потреблялись. Она составляет таблицу, где выделены все слова и количество их упоминания.
Давайте посмотрим, как выглядит такая частотная таблица. Мы воспользуемся инструментом simple-seo-tools.com. Он позволяет анализировать различные текста, раскладывает их содержание на слова. Он сканирует страницу очень схоже с ПС. Мы видим плотность слов в % (те количество упоминаний слова ко всему количеству слов). Зачем ПС эта частотная таблица?
Частотная таблица позволяет ПС значительно быстрее осуществлять поиск, который ищет пользователь. ПС не нужно проверять весь интернет на наличие слов в запросе (напр, поисковой бот), она обращается к свои частотным таблицам и находит где упоминание слов «поисковой бот» встречается часто. Таким образом ПС не приходится заново вычитывать содержание страниц сайтов. На основании частотных таблиц ПС делает выборку потенциально подходящих для пользователя страниц.
Примерно так мы можем представить себе первичную обработку. И уже в БД сохраняется у нас 3 документа (файла): первичное отсканированное, набор ссылок и частотная таблица (набор маркеров).
Этот набор маркеров производит программа, которая называется Индексер. А БД, в которой хранятся все эти файлы - Поисковой Индекс. Процесс сканирования и передачи данных - индексация.
Что мы должны запомнить? Первое: ПС ищет не в Интернете, а по Поисковому Индексу. Если нашего сайта нет в Поисковом Индексе, то его и не будет в результате поиска. Первичная задача любого сеошника - сделать, чтобы все границы нашего сайта были проиндексированы. Как это сделать мы уже можем понять, если вспомним, что ПБ движется по ссылкам в интернете. Значит, если у нас есть поисковая страница, о которой ПБ еще ничего не знает, нам достаточно создать ссылку на эту страницу с уже известной для ПБ страницы. Гугл перепроверяет каждую страницу в БД в среднем раз в неделю. Перепроверяя страницу, он увидит нану новую ссылку, перейдет по ней и окажется на нашей новой странице. Если на этой странице будут ссылки на наш сайт, то ПБ просканирует весь наш сайт.
Если Вы хотите присутствовать в результатах поиска, первое, что Вы должны сделать - проверить проиндексирован ли Ваш сайт. Если Вы хотите, чтобы он был проиндексирован - создайте ссылку на Ваш сайт с какого-то большого хорошо известного сайта (каталога, социальной сети, доски обьявлений). Это легко. Чем больше мы создадим ссылок с больших ресурсов на наш сайт, тем быстрее вероятность индексации сайта.
Отдельно можно сообщить поисковой системе о том, что мы есть и пригласить ПБ на сайт. Но об этом позже.
Как проверить наш сайт проиндексирован поисковой системой или еще нет.
СПОСОБЫ:
1. Проверка индексирования сайта через панель Яндекс.Вебмастера и Google Search Console
2. Проверка количества проиндексированных страниц в ПС при помощи операторов
3. Отслеживание проиндексированных страниц с помощью online сервисов
Еще один способ проверки индексации это использование сторонних ресурсов. Например, переходим на сайт a.pr-cy.ru вводим url и нажимаем «Анализировать».
4. Спец программное обеспечение
Для этого есть специальная программа, которую используют сеошники - это команда site:domein.com ПРОВЕРИМ!
Должно быть проиндексировано столько страниц, сколько есть на сайте. Если больше или меньше - проблема. Нам необходимо разобраться с этим. Для этого достаточно набрать site и просмотреть все визуально, что проиндексировано по выпадающим ссылкам (сохраненная копия - версия в БД). Дата - время последней индексации. Также мы можем использовать оператор cache. Позволяет просмотреть сохраненную в БД копию страницы. для этого вбиваем в гугл cache: URLстраницы.
Одна из причин недоступности сайта -- это сбой на сервере. В этом случае не только поисковые роботы, но и пользователи не смогут зайти на сайт. А если он будет недоступен продолжительное время, поисковые системы удалят его из своих баз, чтобы поддерживать их в актуальном состоянии. Поэтому важно следить за тем, чтобы сервер исправно отвечал на запросы.
ПБ и Поисковой индекс - это не вся часть ПС. Есть еще важные элементы. Это поисковая машина и Web-сервер.
Web-сервер- та часть ПС, в которой мы вводим запрос и делаем поиск (напр, google.com, mail.ru). Больше нам знать о сервере ничего не нужно.
ПМ - это программно-аппаратный комплекс, который занимается сортировкой и анализом результата поиска. Те это узел ПС, который и определяет какая из страниц будет на первом месте. (SEO) - оптимизация под ПМ.
Все это вместе называется ПС.
Для того, чтобы разобраться как работает ПМ, надо разобраться в 2 понятиях: релевантность и ранжирование. гугл яндекс сайт поиск
Релевантность - адекватность, соответствие. ПС ищет для нас релевантные запросу страницы. Мы часто задаем неадекватные вопросы. Напр, гольф: что мы подразумеваем - мы не объясняем. Гольф -игра, авто, носки, майка. Если поисковая система нам правильно не ответит, мы будем считать, что она не правилась. Гугл, учитывая более 200 разнообразных факторов, пытается дополнить наш вопрос и дать нам адекватную нам информацию. Проверяем.. Видим - игра и авто. Потому как Гугл знает, что носки и гольфы мы ищем другими словами. Он знает о предпочтениях пользователей.
2 пример: Минск. 3 блока: реклама, граф знаний сбоку, ссылки на интересные места. Википедия, новости, погода. Мы видим как минимум 3 блока информации - википедия, новости, погода, энциклопедия. Те ПС пытается угадать с нашим запросом и выдает эти разные блоки информации. Это называется релевантность: близость смысла страниц к запросу. Стоит ли называть ресторан Минск и пытаться его продвигать seo-методами?
Когда мы продвигаем сайт, нам необходимо понять, мы его продвигаем по релевантным или нерелевантным запросам?
Сортировка по релевантности называется ранжирование.
Информационный поиск - это подраздел науки кибернетика.
Подытожим: ПИ и индексация, секрет позиции в гугле - хорошая релевантность (не количество повторов слов, а качество ответа), ранжирование.
БАЗОВЫЕ ПРИНЦИПЫ РАНЖИРОВАНИЯ
Какие факторы использует ПС для определения позиции сайта в результатах поиска. Итак, релевантность - степень соответствия страниц запросу. Как ПС это определяют? Один из самых старых способов - анализ текста на повторяемость тех или иных слов. По этому анализу становится понятно, о чем текст. Те если разложить текст по частотной таблице -то по верхушке таблицы станет понятно, о чем текст. Это базовый алгоритм для ПС, который используется до сих пор. Минус - этот алгоритм неустойчив к разного рода манипуляциям, махинациям (серое seo). Как ПС с эти борятся? Все ПС используют алгоритмы машинного обучения -это когда люди учат машину как искать правильно.
В ПС есть специальнообученные люди, которые выбирают по инструкции по набору субъективных факторов хорошие полезные странички из интернета и формируют наборы релевантных определенным запросам хороших страниц. Этот набор страниц отправляется в алгоритм машинного обучения. Этот алгоритм выискивает в этом наборе общие сигналы, закономерности (все хорошие интернет-магазины имеют хорошо заполненные страницы оплата и доставка, все блоги содержат контактную инфо о владельце). После чего эти сигналы преобразуются в факторы и их начинают использоватьс в ПС при поиске и результатах. Это тестируется на выборке пользователей. И если такой поиск нравиться, то алгоритм внедряется в жизнь.
Алгоритм поиска очень динамично изменяется все время.
Допусти у нас есть 3 хорошие страницы, соответствующие определенному запросу. Мы можем сделать по ним частотную таблицу. Плотность ключевого слова: 1%, 2%, 3%. Значит, средняя плотность 2%. Зачем нам это надо?
Имея хорошую выборку таких страниц и частотные таблицы по ним мы можем (мы - ПС) нарисовать диапазон плотности ключевого слова, в который будет попадать 99% всех релевантных страниц: от 0,9 до 5% (например). Если плотность ниже - страница нерелевантна, если выше - подозрительная страница некачественная (махинаторская). Такую страницу ПС может исключить из поискового индекса.
Несколько лет было модно пытаться найти оптимальную точку (плотность ключевого слова 5%). Считалось, что если добиться такой частоты, то можно получить сумасшедший эффект в позициях.
Сейчас это абсолютно не работает. Никакой оптимальной плотности слова в рамках диапазона быть не может. В каждом конкретном случае диапазон - уникален. Нет идеальной плотности ключевого слова. Важно просто попасть в доверительный диапазон. Как это сделать на практике? Здесь есть 2 подхода:
1. основан на анализе конкурентов. Берем топ 10 и отталкиваемся от них как от доверительной выборки. Рассчитаем среднее значение и ориентируемся под него. Минус в том, что в низкоконкурентных тематиках Ваши конкуренты не очень хорошо оптимизированы и Вы возьмете плохой результат за пример.
2. писать содержание для людей, не ориентируясь на статистику. В этом есть здравый смысл, тк необходимо вспомнить, что выборку релевантных страниц для технологии машинного обучения делают люди со своими субъективными оценками. Если страница интересна, раскрывает тему, содержит полезную информацию и нравится пользователям, то Вы с 99% вероятностью попадете во все нужные диапазоны. Но! когда люди создают контент для людей они часто не совсем правильно понимают этот совет.
Оказывается можно очень интересно написать текст про пироги, туры, но текст при этом почему-то будет иметь низкую релевантность. Почему? Текст будет недостаточно полным и тематичным. Пример:
2 страницы. На одной - ключевое слово «наполеон» имеет плотность 3%, на другой - 1%. По идее 1 страница должна показываться выше. Но есть нюанс: наполеон может быть Бонапартом, а может быть тортом. В зависимости от тематики запроса результаты поиска будут сильно отличаться. Итак, если 1 страница про Бонапарта (история), а вторая про торт (кулинария), то по запросу о торте показываться будет 2 страница. Как ПС определяет тематику? Поисковик смотрит какие еще слова использовались на страницах (молоко, рецепт, битва, биография) и отнесет эти страницы к соответствующим темам.
Контент должен быть максимально информативным и тематическим. Пример ошибки, люди пишут не как купить люстру, а как она была изобретена Людовиком 14. В итоге мы получаем текст с хорошим упоминаем слова люстра, но в тематике история, а не в тематике продажа осветительных приборов.
Как проверить, имеет ли наш текст правильную тематичность. Во-первых проанализируйте верхушки частотных таблицы конкурентов (которые в топе):
1. Simple-seo-tools. (2 таблицы: первая по каждому слову, вторая по словоформам). Вы можете сравнить текста и сравнить термины, которые используются.
2. специальные инструменты, которые сравнивают страницы топа 10 и дают готовую выборку слов, которые там чаще встречаются.
lemmatop.yula-group.ru (бесплатный)
Вводим url- конкурентов и анализ: напр, рецепт- 4 (значит это слово встречалось во всех 4 текстах) Это будут слова, которые крайне желательны в использовании в тексте. Конечно могут попасться также и просто частоупотребляемые слова русского языка.
ИТАК: упоминание слова+тематичность
Но есть и другие нетекстовые факторы ранжирования.
Пример, если запрос простой, информационный: достопримечательности Франции, то гуглу достаточно показать ссылки на хорошие энциклопедии. А что показывать, если запрос был коммерческим, например: айфон 6. Здесь уже недостаточно дать ему информацию-описание про айфон, возможно он хочет его купить. Значит надо показать страницы продавцов этого товара. Их будет сотни, но только десяток будет иметь полноценные тематичные тексты с фото-, видео- обзорами, отзывами, обсуждениями. И эта десятка будет одинаково релевантна. Кого показать первым?
Разработчики Гугл решили не только отталкиваться от текстового фактора, но и определять вес каждой страницы в инетернете, ее значимость. Лари Пэйдж (один из создателей гугл) придумал алгоритм Page Rank. Лари Пэйдж предложил считать ссылку в инертнете рекомендацией. Те когда одна страница ссылается на другую страницу, мы будем считать, что страница рекомендует другую страницу или один сайт рекомендует другой сайт. И на основе этих рекомендаций можно рассчитать некий рекомендательный вес каждой страницы в интернете. Пэйдж реализовал эту идею в виде математического алгоритма Пэйдж Ранк. Как это работает?
Некий Коля сделал страницу в интернете и никому не сказал. Какой шанс, что у Коли на странице кто-то есть в данный момент времени? Очень небольшой - там может быть только Коля. (0,00001). Есть такой же Петя со страницей с таким же шансом. А потом чудесным образом возникла ссылка со страницы Коли на страницу Пети. Теперь Коля возможно зайдет на свою страницу и возможно перейдет на страницу Пети. Шанс, что кто-то зайдет на Петиту страницу незначительно увеличился, а шанс, что кто-то зайдет на страницу Коли незначительно уменьшился. Тк раньше Коля мог зайти на свою страницу или закрыть ее, а теперь он может зайти, закрыть, перейти по ссылке. Появилось больше выходов со страницы. Это и есть основа Page Ranc. Это звучит как вероятностный показатель пребывания пользователя на странице с учетом только ссылочных связей. Простыми словами Page Ranc рассчитывается на основе ссылок, каждая ссылка передает вес. Этот рейтинг, который передался по ссылке часто называют ссылочным весом. Таким образом ПС понимает, какие страницы более авторитетны, какие чаще рекомендуют. Этот вес распределяется как между сайтами, так и между страницами внутри сайта.
Этот алгоритм используется во всех ПС.
Что еще нужно знать про Page Ranc?
Какая из этих страниц более важна с точки зрения алгоритма Page Ranc?
Количество входящих ссылок одинаковое (1), но вес источника ссылки во втором случае больше. Мы должны понять, что в алгоритме Page Ranc важно не только количество входящих ссылок, но и вес (качество) их источников (страница-донор). Те 1ссылка с авторитетного сайта лучше, чем сотня с подозрительных.
Многие сеошники могут сказать, что этот алгоритм уже не актуален. Они частично правы.
Раньше гугл отображал вес страницы в виде PR ( публичный ранг) от 1 до 10. Несколько лет назад, они заявили, что они не будут его более отображать и поддерживать. Но это вовсе не означает, что гугл отказался от самого алгоритма. Они сейчас публикуют посты, где утверждают, что Page Ranc входит в тройку самых влиятельных факторов ранжирования результатов поиска. В эту же тройку входит текстовая релевантность.
Вернемся к нашим страницам про айфон со схожей релевантностью. Когда возникает такой спор, то ПС запускает фактор веса.
Те ПС вначале выбирает релевантные страницы поиска (это первоочередной фактор ранжирования), а потом при спорной ситуации подключает фактор веса.
Вес страницы усиливает редевантность. Но без релевантности эффекта не будет вообще.
Итог:
SEO можно разложить на 3 слоя:
внутри -индексация (проиндексирована ли наша страница, сайт?)
поверх индексации накладывается релевантность, мы должны отвечать запросу пользователя релевантность усиливает вес, рейтинг сайта
Необходимо работать над всеми 3 факторами.
Размещено на Allbest.ru
...Подобные документы
Яндекс как крупнейшая российская поисковая система и интернет-портал, история появления. Поиск системы: охват форматов, язык запросов. Мультимедийно-поисковые, рыночно-поисковые, справочно-информационные, рекламные и персонализированные веб-сервисы.
курсовая работа [105,3 K], добавлен 21.05.2013Формирование виртуальной странички предприятия в Internet. Обоснование выбора платформы. Разработка структуры и дизайна сайта, электронного каталога продуктов фирмы. Оптимизация сайта под поисковые системы. Основные принципы и правила продвижения сайта.
дипломная работа [3,0 M], добавлен 01.01.2018Анализ возможностей поисковых систем Яндекс и Google, их сравнение с точки зрения полезности. История создания поисковых систем, характеристика их интерфейса, поисковых инструментов и алгоритмов. Формирование вопроса и критерий к ответу на него.
реферат [30,0 K], добавлен 07.05.2011Обзор понятия и принципов функционирования электронной почты - средства обмена информацией, подготовленной в электронном виде, между людьми, имеющими доступ к компьютерной сети. Информационно-поисковые системы. Параметры эффективности поиска информации.
презентация [677,8 K], добавлен 12.12.2012Основные понятия информационных баз данных. Реляционная модель данных. Создание с помощью программы СУБД Access таблиц "Оптовый магазин", их сортировка по различным критериям. Введение многотабличного запроса на выборку с обновлением записей и отчетом.
контрольная работа [25,6 K], добавлен 26.02.2009Разработка базы данных "Поставка и реализация продуктов питания". Применение базы данных. Цель инфологического проектирования. Выборка информации при помощи запросов. Подпрограммы, работающие на сервере и управляющие процессами обработки информации.
курсовая работа [326,0 K], добавлен 28.06.2011Повышение эффективности (снижение времени, увеличение релевантности документов) поиска данных в больших массивах неструктурированной текстовой информации с помощью поисково-информационных и поисково-справочных машин. Классификация сайтов. Языки запроса.
дипломная работа [523,2 K], добавлен 07.07.2015Система поиска в сети и интернет-портал "Яндекс". Образование компании "Яндекс" в 2000 году, ее выход на самоокупаемость в 2002 году. Основное и приоритетное направление компании - разработка поискового механизма. Порядок введения запроса, его диапазон.
презентация [211,7 K], добавлен 03.02.2011Авторизация с каталогами проектирования базы данных магазина. Задачи базы данных: учет всех товаров, поиск и выдача данных о клиентах, адрес, телефоны, цена и наличие товара. Этапы проектирования базы данных. Схема данных, создание запросов и их формы.
реферат [1,6 M], добавлен 22.10.2009Разработка базы данных спортивной обуви NIKE. Работа основных модулей и блоков. Процесс упорядочения элементов по определенному критерию. Формы сортировки базы данных. Добавление данных в базу. Поиск значений по заданному пользователем критерию.
курсовая работа [2,9 M], добавлен 16.08.2012Определение программного и математического обеспечения ИС. Виды запросов к базам данных в СУБД. Поисковые системы Интернет. Описание принципа работы поисковых систем Яндекс, Рамблер, Апорт. Особенности пересылки файлов средствами электронной почты.
контрольная работа [271,7 K], добавлен 22.11.2009Изучение особенностей функционирования базы данных Excel. Организация ввода и просмотра данных, сортировка, фильтрация и консолидация данных в таблицах. Подведение итогов и сводная таблица. Организация базы данных в Access. Создание запроса и отчетов.
курсовая работа [2,7 M], добавлен 04.10.2013Методы уточнения поискового запроса, расширение запроса с помощью тезауруса. Ключевые концепции для обратной связи по релевантности, вычисление центроидов. Алгоритм Rocchio, положительные или отрицательные сдвиги обратной связи, допущение и оценка.
презентация [1,4 M], добавлен 06.01.2014Создание БД с информацией о сотрудниках на основе таблиц: "Сотрудники", "Отдел". Поиск, сортировка и фильтрация данных в таблицах. Запросы на выборку данных, удаления и замены. Создание форм и отчетов на основе запросов и таблиц. Диспетчер кнопочных форм.
лабораторная работа [136,7 K], добавлен 01.12.2011Ограничения на связи между таблицами базы данных хлебной базы. Проектирование оптимальной структуры базы данных методом синтеза. Исходное множество функциональных зависимостей. Многотабличный запрос на выборку по условию. Расчет сложности запроса.
дипломная работа [488,5 K], добавлен 30.08.2012Разработка базы данных академической успеваемости 10 студентов. Корреляция БД с использованием форм: вставка, удаление и изменение записей. Поиск записей в списке по различным критериям. Сортировка информации и отбор данных с помощью автофильтров.
лабораторная работа [921,5 K], добавлен 17.06.2014Особенности создания учетных записей на файловом сервере. Разработка функциональной модели базы данных. Отчет по дугам модели. Сущность, атрибуты и связи информационной модели. Разработка базы данных в системе управления базами данных MS Access.
контрольная работа [2,3 M], добавлен 23.01.2014Использование электронной таблицы как базы данных. Сортировка и фильтрация данных в Microsoft Excel 97. Сортировка - это упорядочение данных по возрастанию или по убыванию. При фильтрации базы отображаются только записи, обладающие нужными свойствами.
реферат [6,6 K], добавлен 17.11.2002Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.
курсовая работа [101,1 K], добавлен 01.06.2012Содействие идентификации веществ по порошковым дифракционным данным как основное назначение PDF-базы (картотеки) порошковых дифракционных данных. Источники поступления в PDF новых экспериментальных данных. Бумажные и электронные поисковые системы.
контрольная работа [255,0 K], добавлен 15.12.2015