Запрет индексации страниц и контента

Хотя в общем цель веб-мастера заключается в быстрой индексации всех страниц сайта, существует информация, которую требуется заблокировать от поисковых систем. Например, это могут быть служебные страницы: панель администратора, профили пользователей, формы регистрации и подписки, разделы, доступные только для зарегистрированных пользователей. Иногда нужно закрыть от индексации только одну ссылку или часть страницы.

Самый глобальный метод блокировки доступа поисковых систем — это файл robots.txt. Это обычный текстовый документ, размещенный в корне сайта и содержащий правила для поисковиков. Один файл robots.txt включает ограничения для всех поисковиков. Например, следующая конструкция

User-aget: *

Disallow: /privat.html

Disallow: /tmp/

означает, что все поисковые роботы не должны индексировать страницу privat.html и папку tmp.

Следующая возможность заключается в мета-теге robots, который располагается в разделе head разметки страницы и содержит указания для всех ботов. В отличие от robots.txt здесь нельзя указать отдельные правила для отдельных пауков. Запись выглядит следующим образом:

Атрибут контент имеет такие значения:

index – разрешается индексация страницы

noindex – запрещается индексация страницы

follow – разрешается индексация ссылок

nofollow – запрещается индексация ссылок

all – равносилен записи content="index, follow"

none – равносилен записи content="noindex, nofollow"

Для запрета индексации ссылки применяется атрибут rel, который всегда распознавался Google, а с 2010 года учитывается и Яндексом. Ссылки с таким атрибутом иногда могут появляться среди обратных, однако через них не передается вес, увеличивающий тИЦ и PR сайта. Ссылка имеет вид:

Нестандартный тег noindex был введен Яндексом и только им и поддерживается. С его помощью закрывается от индексации целая часть страницы. Используется он так:

Этот абзац не индексируется Яндексом.

Акции