1. Главная
  2. Блог
  3. Новости
  4. Google рассказали о процессе анализа и оценки контента на страницах

Google рассказали о процессе анализа и оценки контента на страницах

23 октября 2021
27

Во время последнего вебинара на сервисе Duda, представитель Google Мартин Сплитт затронул тему того, как поисковая система анализирует содержимое веб-страниц и отделяет уникальный текст от шаблонного. Помимо этого, он упомянул о таком понятии, как Centerpiece Annotation — кратком содержании контента на странице, в котором спрятана его основная мысль.

Сплитт объяснил, каким образом Google делит страницы на несколько секций и определяет, какие из них являются наиболее важными:

“Мне кажется, мы упоминали об этом в одном из подкастов: у нас есть такое понятие, как Centerpiece Annotation (досл.пер. — аннотация об основной теме), наряду с другими аннотациями, которые мы используем для определения смысла текста.

Мы выявляем основную тематику контента ещё на этапе ознакомления с ним на HTML-уровне с помощью технологий обработки естественного языка. Система анализирует текст целиком, и мы делаем вывод, что он, например, посвящён кормам для собак”.

Далее Google делит страницу на несколько секций, каждая из которых оценивается на предмет своей важности и релевантности:

“При дальнейшем анализе страницы мы находим другие её элементы — например, ссылки на сопутствующие товары. Они не являются основным контентом. 

Далее мы сталкиваемся с каким-то шаблонным или повторяющимся текстом. К такому виду текста относятся меню, например. Но в этой ситуации мы не оперируем такими понятиями, как “меню” — мы смотрим только на текст и его смысловую нагрузку. 

Если мы видим его дубликаты на других страницах сайта, то этот элемент автоматически теряет возможность стать основным и оценивается нами иначе”.

Оценка контента, не относящегося к основной теме

Далее Мартин Сплитт рассказал о том, что Google делает с секциями страницы, которые не являются основными:

“Если на вашей странице оказался контент, не относящийся к её основной тематике, мы не будем уделять ему много внимания. Он пригодится нам только для получения информации о структуре вашего сайта, ссылках и т.д.

Однако, если среди 10000 слов о кормах для собак мы найдём 2000-3000 слов о велосипедах, то мы воспримем этот контент как нерелеватный и будем ранжировать его в соответствии с правилами поисковой системы”.

Таким образом, для определения смысла контента на странице, Google сначала анализирует его целиком и определяет его основную тематику, после чего делит страницу на секции. Элементы, не относящиеся к основной теме, либо не рассматриваются поисковой системой вообще, если они нерелевантны, либо участвуют только в формальных процессах обработки страницы — получении информации о её структуре, ссылках и т.д.
По всем вопросам