Semalt приводит основные причины, по которым робот Google не сканирует каждую страницу на некоторых сайтах

К нам приходили клиенты, которые жаловались, что некоторые из их сайтов не сканируются роботом Googlebot. Наша работа как SEO-экспертов заключается в том, чтобы найти проблему и исправить ее, чтобы наши клиенты были довольны и поддерживали свой сайт в отличном состоянии.
Джон Мюллер из Google объясняет некоторые факторы, которые влияют на сканирование страниц любого сайта. Конечно, это не было конкретным, но это указывает нам правильное направление. В этом посте Джон также подчеркивает, почему некоторые страницы сайта не сканируются.
Вопрос, вызвавший этот ответ, касался того, почему Google сканирует веб-сайты в относительно медленном темпе, которого сегодня недостаточно для обработки огромного количества веб-сайтов.
Понимание бюджета сканирования Google
Это первая область, на которой мы хотим сосредоточиться, поскольку она многое объясняет о том, как часто Google сканирует веб-сайт. Робот Googlebot (название поискового робота Google) просматривает веб-страницы и поддерживает их в индексе, чтобы они могли ранжироваться в поисковой выдаче. Однако большой объем веб-сайтов становится проблемой, поэтому Google разработал стратегию, в которой он индексирует только высококачественные веб-страницы. Думайте об этом как о каком-то фильтре. Вместо того, чтобы тратить все эти ресурсы на страницы, которые, скорее всего, не имеют отношения к пользователю, Google фокусируется только на веб-страницах высокого качества.
Бюджет сканирования сайта - это количество ресурсов, которые Google выделяет на сканирование этого сайта. Также важно отметить, что не все, что сканируется, индексируется. Веб-страницы индексируются только после того, как они были просканированы и признаны ценными.
Как только ваш краулинговый бюджет израсходован, Google прекращает сканирование ваших веб-страниц.
Установка бюджета сканирования
Бюджет сканирования веб-сайтов определяется четырьмя основными факторами:
- Размер сайта: У больших веб-сайтов больше краулингового бюджета.
- Настройка сервера: производительность и время загрузки вашего сайта могут повлиять на размер бюджета сканирования, выделенного вашему сайту. Как мы уже говорили, более качественные сайты получают больший бюджет сканирования, поэтому, когда ваш сайт работает отлично, он получает больший бюджет сканирования.
- Частота обновлений: Регулярные обновления означают регулярный приток свежего контента. Google будет уделять приоритетное внимание веб-сайтам, которые получают регулярные обновления, и выделять им более значительный бюджет сканирования.
- Ссылки: ваша внутренняя структура ссылок и входящие ссылки также влияют на размер краулингового бюджета вашего сайта.
Легко понять, почему вы так беспокоитесь, если часть вашего контента не просканируется как владелец веб-сайта. Это снижает ваши шансы на ранжирование, особенно когда не учитываются самые ценные части контента.
Как исправить проблемы со сканированием
Устранение проблем с вашими метатегами или файлом robots.txt
Проблемы, подпадающие под эту категорию, обычно легко обнаружить и решить. Иногда весь ваш веб-сайт или отдельные страницы на нем могут оставаться невидимыми для Google, потому что роботу Googlebot не разрешено их вводить.
Существует ряд команд ботов, которые предотвращают сканирование страницы, и это можно исправить, проверив ваши метатеги и файл robots.txt. Наличие правильных параметров и их правильное использование на самом деле поможет вам сэкономить краулинговый бюджет и направить робота Googlebot в правильном направлении.
Также возможно наличие запретных ссылок. В этом случае поисковый робот индексирует страницу, но не может перейти по ссылке. Это не очень хорошо для вашего сайта, поскольку робот Googlebot использует эти внутренние ссылки для поиска новых страниц. Это подводит нас к следующему пункту.
Внутренние неработающие ссылки
Неработающие ссылки никогда не приносят пользу ни пользователям, ни поисковым роботам. Для каждой индексируемой страницы изымается часть краулингового бюджета сайта. Зная это, мы понимаем, что когда слишком много неработающих ссылок, бот будет тратить весь ваш краулинговый бюджет на их индексацию, но он не попадет на ваши релевантные и качественные страницы.
Исправление битых ссылок помогает сделать ваш качественный контент более заметным для робота Googlebot.
Внутренние неработающие ссылки могут быть результатом опечаток в URL (если есть опечатка в URL-адресе гиперссылки), устаревших URL-адресов или страниц с отказом в доступе.
Проблема, связанная с сервером
Ваш сервер также может быть причиной того, что Google не находит определенные страницы. Большое количество ошибок 5xx на вашем сайте может быть сигналом того, что с вашим сервером что-то не так. Чтобы решить эту проблему, мы перенастраиваем области, где есть ошибки, и исправляем ошибки.
Иногда может случиться так, что ваш сервер перегружен. В этом случае он перестает отвечать на запросы пользователя и бота. Когда это происходит, ваши зрители, а также боты не могут получить доступ к этой странице.
В экстремальных ситуациях мы можем столкнуться с неправильной конфигурацией веб-сервера. Здесь сайт виден пользователям-людям, но он продолжает вырабатывать сообщение об ошибке для поисковых роботов. Эта проблема довольно сложная, так как ее бывает трудно заметить. В этом случае веб-страница недоступна для робота Googlebot, что делает невозможным сканирование и индексирование роботами.
Проблемы с XML карты сайта
Карта сайта влияет на широкий спектр элементов вашего веб-сайта. Важно, чтобы URL-адреса на карте вашего сайта были актуальными. Они должны быть обновлены и исправлены. Это важно, потому что, когда ваш бюджет сканирования недостаточен, ваша карта сайта направляет роботов-роботов на наиболее релевантные сайты. Таким образом, ваши самые важные страницы все равно будут проиндексированы.
Ошибки с веб-архитектурой
Это одна из самых сложных проблем, которую нужно решить. Проблемы, подпадающие под эту категорию, могут блокировать или дезориентировать роботов на вашем веб-сайте. Это могло произойти в виде проблем с вашей внутренней связью. Или это может быть неправильная переадресация. В этом случае пользователи и боты перенаправляются на менее релевантные страницы. Наконец, у нас есть дублированный контент. К сожалению, дублированный контент - одна из самых распространенных проблем SEO. Это также одна из основных причин, по которой у вас исчерпывается бюджет сканирования, и Google становится трудно сканировать некоторые из ваших страниц.
Вывод
Google не может найти ваш контент не только из-за проблем, связанных с контентом, или из-за того, что вы оптимизируете его для неправильных ключевых слов. Даже оптимизированный контент может оставаться невидимым для Google, если у него есть проблемы со сканированием.
Мы здесь, чтобы выяснить, что не так, а также составить план решения этой проблемы. Свяжитесь с нами сегодня и Семальт может помочь вам снова привлечь внимание к вашему контенту.