Файл robots.txt предназначен для роботов поисковых систем и должен быть составлен по определенной структуре для корректной обработки. В этом файле веб-мастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Проверка запрета индексации технических страниц (разделов)
В поисковый индекс могут попасть технические страницы сайта [http://<домен>/]. Нахождение указанных типов страниц в поисковом индексе нежелательно и может негативно повлиять на скорость попадания в поисковый индекс страниц с полезным содержимым (например, продвигаемых страниц).
Для исключения технических страниц из индекса поисковых систем, а так же, предотвращения попадания их в индекс, необходимо внести соответствующие директивы в файл robots.txt:
Disallow: /cart/
Пояснения:
1. /cart/ — раздел корзины
Пример страницы:
[http://<домен>/]cart/
*Окончательный вариант файла robots.txt делает ваш вебмастер.
Проверка запрета индексации технических дублей страниц
Технические дубли являются частичными дубликатами основных страниц сайта. Попадание данных страниц в поисковый индекс повлечет за собой проблемы с определением релевантности целевых страниц поисковыми системами и понижение позиций документов сайта в поисковой выдаче.
Для исключения технических дублей страниц из поискового индекса необходимо внести соответствующие директивы в файл robots.txt:
Disallow: /*sort=
Пояснения: /*sort= — параметр сортировки
Пример страницы:
[http://<домен>/| http://www.<домен>/]category/?sort=price
Проверка запрета индексации URL с параметрами по маске
URL-адреса, содержащие параметры, являются полными дубликатами основных страниц сайта. Попадание данных страниц в поисковый индекс повлечет за собой наложение санкций со стороны поисковых систем и понижение позиций документов сайта в поисковой выдаче.
Примеры URL с параметрами:
- [Пример 1] [Дубликат 1], [Дубликат 2], [Дубликат 3] и т.д.
Для исключения полных дублей страниц из поискового индекса необходимо внести соответствующие директивы в файл robots.txt:
Disallow: /*utm_
Пояснения: /*utm_ — URL-адреса, содержащие utm-метки
Пример страницы:
[http://<домен>/]category/?utm_source=yandex&utm_medium=cpc&utm_campaign=action
Проверка правильности записи основного зеркала
Вариант 1. На данный момент основное зеркало сайта указано корректно. Необходимо оставить директорию в файле без изменений:
Host: [<основной хост>]
Вариант 2. На данный момент основное зеркало отсутствует в файле robots.txt. Для того, чтобы указать поисковому роботу Яндекса основное зеркало сайта, необходимо прописать директиву Host с его указанием, непосредственно после директив ‘Disallow'(‘Allow’):
Host: [<основной хост>]