Google прекратил поддерживать директиву noindex в robots.txt

Грядут изменения в том, как Google понимает некоторые из неподдерживаемых директив в вашем файле robots.txt.

С 1 сентября Google перестанет поддерживать неподдерживаемые и неопубликованные правила в эксклюзивном протоколе роботов,сообщила компания в блоге Google для веб-мастеров. Это означает, что Google больше не будет поддерживать файлы robots.txt сNOINDEXДиректива указана в файле.

«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим выпускам с открытым исходным кодом мы удалим весь код, который обрабатывает неподдерживаемые и неопубликованные правила (такие как noindex) 1 сентября 2019 года. Для тех из вас, кто полагался на noindex Директива indexing в файле robots.txt, которая контролирует сканирование, есть ряд альтернативных вариантов », — сказали в компании.

Какие есть альтернативы? Google перечислил следующие опции, которые вы, вероятно, должны были использовать в любом случае:

(1) Noindex в метатегах роботов. Поддерживаемая как в заголовках ответа HTTP, так и в HTML, директива noindex является наиболее эффективным способом удаления URL-адресов из индекса, когда сканирование разрешено. 
(2) Коды состояния HTTP 404 и 410 : оба кода состояния означают, что страница не существует, поэтому такие URL будут удалены из индекса Google после их сканирования и обработки. 
(3) Защита паролем: если разметка не используется для обозначения подписки или платного контента , скрытие страницы за логином обычно удаляет ее из индекса Google. 
(4) Запретить в robots.txt: поисковые системы могут индексировать только те страницы, о которых они знают, поэтому часто блокировка страницы при сканировании означает, что ее содержимое не будет проиндексировано. Хотя поисковая система может также индексировать URL на основе ссылок с других страниц, не видя самого контента, мы стремимся сделать такие страницы менее заметными в будущем. 
(5) Инструмент удаления URL консоли поиска . Этот инструмент — быстрый и простой способ временно удалить URL из результатов поиска Google.

Стать стандартом. Вчера Google объявил, что компания работает над тем, чтобы сделать протокол исключения роботов стандартом, и это, вероятно, первое изменение. Фактически, Google выпустила свой парсер robots.txt как проект с открытым исходным кодом вместе с этим объявлением вчера.

Почему Google меняется сейчас. Google уже несколько лет пытается это изменить, и теперь, стандартизировав протокол, он может двигаться вперед. Google сказал, что «проанализировал использование правил robots.txt». Google сосредоточен на рассмотрении неподдерживаемых реализаций интернет-проекта, таких как задержка сканирования,не следует, а также NOINDEX, «Поскольку эти правила никогда не были задокументированы Google, естественно, их использование по отношению к Googlebot очень низкое», — сказал Google. «Эти ошибки вредят присутствию веб-сайтов в результатах поиска Google таким образом, что, как мы думаем, веб-мастера не предназначены»

Почему мы заботимся Самое главное, чтобы убедиться, что вы не используете директиву noindex в файле robots.txt. Если да, то вы захотите внести предложенные изменения выше до 1 сентября. Также посмотрите, используете ли вы команды nofollow или crawl-delay, и если да, то посмотрите, будет ли использоваться истинно поддерживаемый метод для этих директив в будущем.