Проверка robots.txt

Файл robots.txt предназначен для роботов поисковых систем и должен быть составлен по определенной структуре для корректной обработки. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Проверка запрета индексации технических страниц (разделов)

В поисковый индекс могут попасть технические страницы сайта [http://<домен>/]. Нахождение указанных типов страниц в поисковом индексе нежелательно и может негативно повлиять на скорость попадания в поисковый индекс страниц с полезным содержимым (например, продвигаемых страниц).

Для исключения технических страниц из индекса поисковых систем, а так же, предотвращения попадания их в индекс, необходимо внести соответствующие директивы в файл robots.txt:

Disallow: /cart/
Пояснения:
1. /cart/ — раздел корзины
Пример страницы:
[http://<домен>/]cart/
*Окончательный вариант файла robots.txt делает ваш вебмастер.

Проверка запрета индексации технических дублей страниц

Дубли страниц

Технические дубли являются частичными дубликатами основных страниц сайта. Попадание данных страниц в поисковый индекс повлечет за собой проблемы с определением релевантности целевых страниц поисковыми системами и понижение позиций документов сайта в поисковой выдаче.

Для исключения технических дублей страниц из поискового индекса необходимо внести соответствующие директивы в файл robots.txt:

Disallow: /*sort=
Пояснения: /*sort= — параметр сортировки
Пример страницы:
[http://<домен>/| http://www.<домен>/]category/?sort=price

Проверка запрета индексации URL с параметрами по маске

URL-адреса, содержащие параметры, являются полными дубликатами основных страниц сайта. Попадание данных страниц в поисковый индекс повлечет за собой наложение санкций со стороны поисковых систем и понижение позиций документов сайта в поисковой выдаче.

Примеры URL с параметрами:

[Пример 1] [Дубликат 1], [Дубликат 2], [Дубликат 3] и т.д.

Для исключения полных дублей страниц из поискового индекса необходимо внести соответствующие директивы в файл robots.txt:

Disallow: /*utm_
Пояснения: /*utm_ — URL-адреса, содержащие utm-метки
Пример страницы:
[http://<домен>/]category/?utm_source=yandex&utm_medium=cpc&utm_campaign=action

Проверка правильности записи основного зеркала

Вариант 1. На данный момент основное зеркало сайта указано корректно. Необходимо оставить директорию в файле без изменений:

Host: [<основной хост>]

Вариант 2. На данный момент основное зеркало отсутствует в файле robots.txt. Для того, чтобы указать поисковому роботу Яндекса основное зеркало сайта, необходимо прописать директиву Host с его указанием, непосредственно после директив ‘Disallow'(‘Allow’):

Host: [<основной хост>]