Как удалить мусор из индекса Google

Как удалить мусор из индекса Google

Каждый владелец сайта знает, что со временем на его ресурсе скапливается куча ненужных страниц, некоторые даже отдают 404, некоторые представляют собой не пойми чего. Всё это нам не нужно, не нужно и Google. Но мусор продолжает висеть, и чаще всего он застревает в дополнительных результатах выдачи, куда никто, кроме владельцев сайтов (используют оператор site, чтобы посмотреть) не заглядывает.

Какие есть варианты?

1) Удаление страниц на сайте. С использованием robots.txt.
Напомню, что robots.txt в Google управляет только сканированием страниц, то есть включает или выключает доступ в определённые места сайта. То, что находится уже в индексе Google, подчиняется только метатегу robots с параметром noindex. А в robots.txt, если что-нибудь запретить, то что уже известно Google, это самое просто не будет сканироваться, останется в индексе без обновления. Со временем получит заглушку вместо сниппета и уйдёт на "запасные пути" индекса.

Собственно, не мудрствуя лукаво, мы удаляем на сайте мусорные страницы. Страницы удалены и получили код 410 (или 404). Статус "удалено" или "отсутствует.
В robots.txt обязательно открываем доступ к этим удалённым страницам, иначе гуглбот не сможет прочитать код 410 или 404.

Что важно знать. Для удаления ненужных страниц достаточно кода 404 и доступа к нему гуглобота. Всё! Google не штрафует сайты за большое количество страниц 404 или 410!!! Эти страницы со временем уйдут из индекса. Если не уходят, обратитесь в Google, оформят баг.

См. Ошибка 404.

2) Оставляем страницы на сайте, используем метатег robots с параметром noindex. Этот метатег управляет индексированием. Страницы, им помеченные, удалятся из индекса со временем сами. В robots.txt к ним должен быть прописан разрешающий доступ.

См. Блокировка индексирования при помощи метатегов.

3) Оставляем страницы на сайте, используем атрибут rel="canonical".  Этот способ годится только для того, чтобы избавиться от абсолютно идентичных дублей. В противном случае Google не учтёт этот параметр. В итоге при хорошем раскладе в индексе остаётся каноническая страница, а её дубли (хоть один, хоть тысяча) исчезнут.

См. Канонические URL.
Будьте внимательны! Google поддерживает кроссдоменную канонизацию ссылок, Яндекс - нет!

4) Оставляем страницы, настраиваем редирект 301 на правильные версии. Чтобы гуглбот увидел редирект, всё должно быть открыто в robots.txt!

См. Переадресация 301.

5) Фильтрация нагенерированных ссылок при помощи Параметры URL.
См. Как классифицировать параметры с помощью инструмента "Параметры URL".

Дополнительно:
Программные ошибки 404.
Фасетная навигация сайта - плохие и хорошие примеры.
Когда не следует использовать инструмент для Удаления URL.