Правила для поисковых ботов в robots.txt
Файл robots.txt, который находится в корне сайта, содержит инструкции для поисковых роботов, которым они следуют выполняя индексацию. Конечно, он может там и не находиться, если веб-мастер не позаботился о его создании. Некоторые вообще не знакомы с таким инструментом управления поисковиками или, по крайней мере, с правилами его составления. Самые подробные указания по составлению robots.txt можно найти в справке Яндекса и Google.
Robots.txt представляет собой обычный текстовый файл, который легко создается с помощью стандартного блокнота системы Windows. Важно, чтобы он имел расширение *.txt и располагался в корневом каталоге сайта, т. е. был доступен по адресу ваш_сайт/robots.txt. В этом файле находятся директивы для всех поисковых систем. Эти правила используются для указания карты сайта, ограничения нагрузки, создаваемой ботом, но главным образом, для того, чтобы запретить индексацию определенных разделов сайта. Например, это могут быть дубли уникальных страниц или приватная информация.
В начале файла указывается директива User-aget: - она определяет для какого бота предназначены следующие правила. Например, основной бот Google называется Googlebot, а Яндекса — YandexBot. Но у каждого поисковика есть дополнительные роботы, индексирующие картинки (Googlebot-Image и YandexImages), новости (YandexNews) и пр. Если мы хотим определить правила для всех роботов, то можно просто поставить звездочку — User-aget: *
Далее идет директива Disallow:, определяющая какие страницы или разделы сайта не следует индексировать. Например,
Disallow: /privat.html #блокирует доступ к странице
Disallow: /tmp/ #блокирует доступ к папке
Как видно из этого примера для комментариев используется знак #. Если мы хотим открыть для индексации весь сайт, то в robots.txt запишем:
User-agent: *
Disallow:
Существует также директива Allow:, которая используется, если требуется открыть для индексации некоторые страницы или папки, запрещенные Disallow.
Роботу Яндекса также можно указать директиву
User-agent: *
Disallow:
Host: my_site.ru
Как видно, в предыдущем примере в индекс попадут страницы без www в адресе. Google позволяет сделать подобные указания только через инструменты для веб-мастеров.
В заключении добавим, что у Яндекса есть инструмент для проверки корректности составления robots.txt.