Энциклопедия поискового продвижения Ingate
Энциклопедия поискового продвижения Ingate

Процессы поисковых систем

Каждый процесс, происходящий в поисковых системах, уникален и интересен. Зная архитектуру поисковой системы, можно понимать причины "выпадения" сайта из выдачи или повышения позиций. Рассмотрим каждый процесс в отдельности.

Процесс индексации

Индексация – это процесс, во время которого поисковые роботы посещают сайты, собирая с их страниц разнообразную информацию и занося ее в специальные базы данных. Потом эти данные обрабатываются, и строится индекс – выжимка из документов. Именно по индексу поисковая система ищет и выдает ссылки на сайты, исходя из запросов пользователей.

Рассмотрим процесс индексации на примере поисковой системы Яндекс.

В поисковой системе есть 2 типа роботов: быстрый и основной. Задача основного робота – индексация всего контента, а быстрого – занесение в базы данных самой свежей информации. Планировщик поискового робота составляет маршруты посещения и передает его «пауку», который ходит по выбранным страницам и выкачивает из них информацию. Если во время индексации в документах обнаруживаются новые ссылки, они добавляются в общий список.

При первом посещении «паук» проверяет состояние ресурса. Если его характеристики подходят под требования Яндекса, сайт заносится в базу. При повторном посещении «пауком» уже проиндексированной страницы происходит обновление содержащейся на ней информации.

Документы в индекс попадают следующими способами: автоматически, когда поисковый робот сам переходит по внешним и внутренним ссылкам, ибо если владелец сайта сам добавил URL через специальную форму или через установленную на сайте Яндекс.Метрику. Этот сервис передает URL страниц на индексацию Яндексу. При необходимости в интерфейсе Метрики можно отключить данную опцию.

Скорость индексации и обновления страниц сайта

В идеале, как только создана новая страница, она должна быть сразу же проиндексирована. Однако большие объемы информации затрудняют индексацию новых страниц и обновление старых. Роботы поисковых систем постоянно обновляют базу данных, но, чтобы она была доступна пользователям, ее необходимо переносить на «базовый поиск». База данных переносится туда не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый спам, и другие ненужные, по мнению поисковика, документы.

Глобально базы поисковых систем обновляются роботами примерно раз в неделю.

Однако для некоторых типов информации такая скорость обновления неприемлема. Примером может служить индексация новостных сайтов. Размещенные новости должны быть доступны в поисковой системе практически сразу после их добавления. Для того, чтобы увеличить скорость индексации часто обновляемых страниц, и существует специальный быстрый робот, который посещает новостные сайты несколько раз в день.

Понять, что сайт посетил быстрый робот, можно сразу по двум признакам: если в поисковой выдаче рядом с URL сайта показывается время последнего обновления и если в числе проиндексированных страниц сохранены две копии одного и того же документа.

Поисковые роботы стремятся проиндексировать как можно больше информации, однако существует ряд факторов, которые накладывают ограничения на процесс индексации. Так, например, возможность попадания в индекс напрямую зависит от авторитетности ресурса, уровня вложенности страниц, наличия файла sitemap.xml, отсутствия ошибок, мешающих нормальной скорости индексации сайта. Основными инструментами управления индексацией сайтов являются robots.txt, мета-теги, теги, атрибуты noindex и nofollow.


На сегодняшний день могут индексироваться следующие типы документов:

1. PDF, Flash (Adobe Systems).

2. DOC/DOCX, XLS/XLSX, PPT/PPTX (MS Office).

3. ODS, ODP, ODT, ODG (Open Office).

4. RTF, TXT.


    Robots.txt — это текстовый файл, в котором можно задавать параметры индексирования как для всех роботов поисковых систем сразу, так и по отдельности. Тег и метатег noindex отвечают за индексацию текста или самой страницы, а nofollow – за индексацию ссылок. В одной из следующих глав мы подробно разберем настройку этих элементов сайта.

    Помимо обычных текстов, размещенных на сайтах, все современные поисковые системы умеют индексировать и документы в закрытых форматах, хотя существуют некоторые ограничения на типы данных, размещенных в этих файлах. Так, в PDF индексируется только текстовое содержимое. Во flash-документе индексируется текст, который размещен только в определенных блоках, в то время как документы больше 10 Мб не индексируются вовсе.

    Роботы поисковых систем

    Среди всех существующих поисковых роботов выделяют 4 основных типа:

    1. Индексирующий робот;

    2. Робот по изображениям;

    3. Робот по зеркалам сайта;

    4. Робот, проверяющий работоспособность сайта или страницы.


      Определить, какой робот зашел на сайт, можно с помощью лог-файла, который обычно доступен либо в админке, либо на ftp. Все существующие роботы представляются по одной схеме, но каждый имеет свое название. Например: «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)» — основной индексирующий робот поисковой системы Яндекс.


      Некоторые посторонние роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить подлинность робота с помощью идентификации, основанной на обратных DNS-запросах.

      Индексирующий робот обнаруживает и индексирует страницы, чтобы создать базу для основного поиска.

      Робот по изображениям заносит в индекс графическую информацию, которая в дальнейшем отображается в выдаче соответствующего сервиса, например, Яндекс.Картинки или Картинки Google.

      Робот, определяющий зеркала, проверяет зеркала сайтов, прописанных в файле robots.txt. Если они идентичны, то в результатах выдачи поисковой системы будет только один сайт – главное зеркало.

      Специальный робот проверяет доступность сайта, добавленного через форму «Добавить URL» в Яндекс.Вебмастере.

      Существуют и другие типы индексирующих роботов: индексаторы видео и пиктограмм (иконок) сайтов; робот, проверяющий работоспособность сайтов в Яндекс.Каталоге; индексатор «быстрого» контента на площадках типа Яндекс.Новостей и др.

      Важно понимать, что процесс индексации сайта является длительным, за ним следует процесс обновления индексных баз, который также требует временных затрат. Поэтому результат внесенных на сайте изменений будет виден только через 1-2 недели.



      Вернуться назад: Как устроены поисковые системы Читать далее: Представление сайтов внутри поисковых систем