Далее Мюллер объяснил, как краулинговые системы — в том числе поисковые роботы и SEO-инструменты — определяют для себя ценный контент для индексации:“Не существует ни одного реального способа проиндексировать весь интернет.
Это невозможно теоретически, потому что количество ссылок, созданных на его просторах, бесконечно. Ни один инструмент, сервис и поисковый робот не сможет работать с такой огромной базой данных, поэтому все они стараются максимально упростить процесс краулинга и научиться распознавать информацию, которую действительно стоит индексировать.
Если даже создание такой базы данных было возможно практически, у нас не хватило бы времени краулить её на регулярной основе — современный интернет не настолько мощный и стабильный, чтобы это выдержать. Более того, регулярный краулинг огромного количества страниц стоит больших денег для всех сторон.
Не стоит забывать и о том, что одни страницы обновляются регулярно, а другие остаются в одном и том же виде в течение 10 лет — краулинговым системам целесообразно экономить свои силы, чтобы уделять больше внимания тому контенту, который обновляется часто”.
“В интернете хранится куча мусора, до которого многим нет дела — бесполезные страницы, переполненные спамом. Они могут довольно часто обновляться, нормально выглядеть и иметь правильные URL-адреса, но всё равно оставаться мусором по своему предназначению. Любая поисковая система, заботящаяся о своих пользователях, будет игнорировать такие страницы.
Иногда распознать бесполезность страницы бывает сложно с первого раза. Всё чаще и чаще мы находим сайты, которые хорошо выглядят с технической точки зрения, но не дотягивают до надлежащего уровня качества, установленного нашей поисковой системой. Мы отодвигаем такие страницы на второй план”.
В конце своего сообщения Мюллер рассказал о том, что все краулинговые системы в интернете работают с “упрощённым” набором ссылок. У каждой системы есть свой способ определения ценных для индексации страниц, поэтому если один инструмент не определил какие-то из ваших ссылок, попробуйте воспользоваться другим.