Как поисковые системы индексируют сайт

Как поисковые системы индексируют сайт

Перед показом страницы в выдаче её основательно обрабатывают роботы поисковых систем. Вначале роботы сканируют страницу, затем вносят контент в индекс и предоставляют результаты в выдаче.

Индексирование — объединение и систематизация всей собранной на этапе сканирования информации о страницах с помощью создания специальной базы, индекса.

Не все просканированные страницы попадают в индекс. При сканировании робот вносит в свою базу все страницы, которые может обнаружить, но в индекс войдут только те, которые робот сочтет полезными для пользователя.

Также не стоит путать индексирование с ранжированием. На данном этапе ранг документу не присваивается, так как база постоянно пополняется новыми страницами и определить релевантность документа однозначно нельзя — через секунду может появится более релевантная страница. Поэтому ранг странице присваивается непосредственно в момент поиска.

Как формируется индекс?

Индекс содержит данные о словах на странице, о их местоположении, данные из основных тегов и атрибутов, например, тегов title и атрибутов alt. Построив индекс, роботы поисковых систем легко проводят поиск нужных документов.

Большинство роботов используют «инвертированный индекс» — для каждого термина создается список документов, которые содержат этот запрос.

Например:

ТерминДокумент
Термин 1Документ 1, Документ 3, Документ 5, Документ 7
Термин 1Документ 3, Документ 5, Документ 4
Термин 1Документ 3, Документ 6

Если посмотреть на создание инвертированного индекса глазами робота, то выглядит это примерно так:

  1. Конверсия в чистый текст — робот удаляет нетекстовые элементы (разметка, графика).
  2. Токенизация — робот создает выборку слов для выделения лексем (семантических единиц для обработки).
  3. Лингвистическая обработка лексем. Собранные лексемы всех слов со всех текстов упорядочиваются по алфавиту и для каждой из них добавляется номер вхождения и информация о номере страницы, откуда лексема была взята.
  4. Собственно составление индекса.

Как управлять индексированием?

Как стимулировать роботов внести страницы в индекс:

1. Открыть закрытые для индексирования страницы.

Также можно использовать «ловцов ботов» — программы, основная задача которых предоставлять поисковым роботам ссылки на важные страницы сайта.

3. Размещать релевантный контент, метатеги, оптимизировать изображения, следить, чтобы рекламные блоки занимали максимум 30% первого экрана сайта.

Как ограничить доступ роботов к индексированию контента:

1. Добавить специальный метатег в верхней части HTML-страниц: <meta name=»robots» content=»noindex» />.

2. Добавить специальный HTTP-заголовок: X-Robots-Tag: noindex.

St.Bob

Добавить комментарий