Google рассказали о методах определения дублирующегося контента с помощью сопоставления идентичных URL-адресов. Это делается для того, чтобы поисковые роботы не тратили время на поиск и индексацию одинаковых страниц.
Когда роботы Google находят страницы с одинаковой структурой URL и обнаруживают на них идентичный контент, они делают вывод о том, что все страницы сайта с похожими URL повторяют друг друга, и не индексируют одну из них.
К сожалению, этот метод приводит к тому, что действительно важные страницы с уникальным контентом исключаются из выдачи просто из-за того, что структура их URL похожа на адрес других страниц сайта.
Во время видеотрансляции Google Search Central от 5 марта один из SEO-специалистов, занимающийся продвижением сайтов, задал вопрос на эту тему. Он пожаловался на то, что тысячи страниц его сайта, посвящённого организации мероприятий, не индексируются должным образом. Представитель компании Джон Мюллер предположил, что это может происходить из-за той самой технологии «предсказания» дублирующегося контента, основанной на анализе структуры URL.
Джон Мюллер об определении дублирующегося контента
Google находит одинаковый контент двумя способами:
«...один способ заключается в том, что мы напрямую анализируем контент на страницах, и если мы видим, что он отличается, то, соответственно, работаем с каждой страницей отдельно.
Второй подход более обширный, основанный на прогнозировании. Мы периодически смотрим на структуру URL у страниц сайта, чтобы найти в ней схожие элементы. И если однажды мы установим, что страницы с одинаковой структурой URL содержат в себе повторяющийся контент, мы сделаем вывод о том, что они являются дублирующимися».
По словам Мюллера, Google используют этот метод для того, чтобы сэкономить время, которое уходит у поисковых роботов на поиск и индексацию контента.
«Таким образом мы бережём «силы» поисковых роботов, чтобы они могли своевременно и тщательно разбираться с редкими и индивидуальными случаями дублирующегося контента.
Очень часто я сталкивался с идентичными URL и одинаковым контентом на страницах компаний, работающих в разных городах. Сфера организации мероприятий не исключение - вы можете создать одинаковые страницы с предложениями своих услуг, к примеру, отдельно для мегаполиса и его пригорода. Поэтому здесь этот метод оправдывает себя - зачем нам индексировать оба этих варианта? Мы игнорируем один из них».
Как можно исправить эту проблему?
В качестве решения этого вопроса Мюллер предложил устранить с сайта все случаи дублирующегося контента.«...попробуйте добавить rel canonical на страницы, посвящённые деятельности компании в больших городах, а не в маленьких. Благодаря этому мы поймём, что именно эти страницы и их URL содержат в себе уникальный контент и важны для индексации».Джон Мюллер никак не затронул тему штрафов за дублирующийся контент, поэтому SEO-сообщество сделало вывод о том, что для него не существует никакого негативного сигнала ранжирования. Google просто не будет индексировать одинаковые страницы, и это никак не отразится на репутации сайта в выдаче.
Переведено специально для SEO-Format.ru - частное продвижение сайтов.
Послушать полный ответ Мюллера можно в видео ниже: