Запрет индексации страниц и контента
Хотя в общем цель веб-мастера заключается в
Самый глобальный метод блокировки доступа поисковых систем — это файл robots.txt. Это обычный текстовый документ, размещенный в корне сайта и содержащий правила для поисковиков. Один файл robots.txt включает ограничения для всех поисковиков. Например, следующая конструкция
User-aget: *
Disallow: /privat.html
Disallow: /tmp/
означает, что все поисковые роботы не должны индексировать страницу privat.html и папку tmp.
Следующая возможность заключается в мета-теге robots, который располагается в разделе head разметки страницы и содержит указания для всех ботов. В отличие от robots.txt здесь нельзя указать отдельные правила для отдельных пауков. Запись выглядит следующим образом:
Атрибут контент имеет такие значения:
index – разрешается индексация страницы
noindex – запрещается индексация страницы
follow – разрешается индексация ссылок
nofollow – запрещается индексация ссылок
all – равносилен записи content="index, follow"
none – равносилен записи content="noindex, nofollow"
Для запрета индексации ссылки применяется атрибут rel, который всегда распознавался Google, а с 2010 года учитывается и Яндексом. Ссылки с таким атрибутом иногда могут появляться среди обратных, однако через них не передается вес, увеличивающий тИЦ и PR сайта. Ссылка имеет вид:
Нестандартный тег noindex был введен Яндексом и только им и поддерживается. С его помощью закрывается от индексации целая часть страницы. Используется он так:
Этот абзац не индексируется Яндексом.