Как найти мусорные страницы на сайте

Как проверить индексацию для неподтвержденного сайта мы рассказали ранее. Сейчас же расскажем о проверке с помощью данных, которые предоставляет Яндекс Вебмастер и Google Search Console.

Список проиндексированных страниц

Для того чтобы получить полный список проиндексированных страниц в Яндексе, необходимо зайти в раздел Индексация > Страницы в поиске > вкладка «Все страницы».

Ниже представлен список всех страниц, находящихся в поиске, и возможность выгрузить таблицу в XLS и CSV.

В новой версии Google Search Console также появилась возможность увидеть список всех проиндексированных страниц. Для этого нужно зайти в отчет «Покрытие» (в разделе «Индекс»).

В списке ниже представлена информация о страницах, о которых известно поисковой системе и дополнительная информация по ним.

Детальный список проиндексированных страниц можно получить из списка со статусом «Страница без ошибок».

Проверка индексации

Чтобы обнаружить «мусорные страницы», нужно следовать следующему алгоритму:

  • Получаем полный список страниц, которые должны быть проиндексированы. Для этого мы используем программу Screaming Frog SEO Spider. При правильной настройке файла robots.txt спарсится список всех доступных для индексации страниц.
  • Выгружаем индексируемые страницы сайта из Вебмастеров.
  • Сравниваем попарно получившиеся списки с помощью инструмента «Условное форматирование» в Excel, подсветив все уникальные значения.

В ходе сравнения могут возникнуть следующие ситуации:

  • подсветка страниц, которые есть только в списке парсера. В таком случае нужно диагностировать причину, почему страница не находится в индексе. Если она должна индексироваться, то отправляем ее на переобход.
  • подсветка страниц, которые есть только в индексе. В данном случае пытаемся понять, почему ее нет в списке всех страниц сайта. Возможно, это страница с кодом 404, которая так и не была удалена поисковым роботом или деактивированный элемент, у которого неверно настроен код ответа.

Для удаления страниц в Вебмастере существует инструмент «Удаление страниц из поиска», позволяющий единовременно удалить до 500 отдельных страниц или группу страниц по префиксу в url. Главное, чтобы страницы были закрыты от индексации.

Инструмента для принудительного удаления страниц у Google нет, но можно временно удалить свои URL из результатов поиска.

Для этого необходимо зайти в старую версию Search Console и в левом меню выбрать «Индекс Google» > «Удалить URL-адреса».

Далее указываем URL страницы, которую вы хотите скрыть. Выбираем из списка необходимое действие и отправляем запрос.

Ждите новые заметки в блоге или ищите на нашем сайте.

Вы создали карту сайта, загрузили ее в Google Search Console, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковикиигнорирует ваш файл Sitemap и не собирается индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и даже расскажем, как это сделать.

Если у вас еще нет карты сайта и вы хотите узнать, зачем она нужна, ознакомьтесь с нашим вводным интенсивом по созданию файла Sitemap. Здесь мы расскажем о преимуществах использования карты сайта и действенных рекомендациях по работе с ней. Если вы пока не знаете, для чего используют теги <loc> и <lastmod>, что такое карта сайта для видео или файл индекса Sitemap, вводное руководство вам точно пригодится.

В первой части этой статьи перечислены все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console. Если же вы ищете способ устранить конкретные проблемы, воспользуйтесь содержанием, чтобы перейти к интересующим вас ошибкам.

Во второй части — рекомендации, которые помогут вам извлечь максимальную выгоду из карты сайта. Вы узнаете, как найти мусорные страницы в файле Sitemap, где искать страницы, которые вы могли пропустить и не добавить в карту сайта, и как заставить поисковик проиндексировать как можно больше страниц из файла Sitemap. Поэтому очень советую всем внимательно ознакомиться со второй главой этой статьи.

Исправление ошибок в отчете Sitemap

После загрузки карты сайта в Google в столбце «Статус» можно увидеть, удалось ли поисковику обработать файл. Если ваш файл соответствует всем правилам, появится статус «Успешно». В этой главе мы рассмотрим другие статусы, а именно «Не получено» и «Обнаружены проблемы».

Проблемы со сканированием вашего файла Sitemap

Начнем с самого худшего сценария, когда поисковик не может обработать файл Sitemap. Сначала разберемся с Google — что делать, если статус вашей карты сайта «Не получено». 

Статус карты сайта «Не получено»

В этом случае вам придется использовать «Инструмент проверки URL», чтобы выяснить, что может быть причиной проблемы. В инструменте нажмите кнопку «Проверить страницу на сайте» и посмотрите статус получения страницы. Если написано «Успешно», значит ошибка на стороне Google.

Статус получения страницы в GSC

Если Google не удалось получить вашу карту сайта, убедитесь, что ничто не блокирует доступ к файлу Sitemap — будь то директивы robots.txt или плагины CMS (да, иногда виноваты они!). Также проверьте, правильно ли введен URL-адрес карты сайта — обратите внимание на протокол и префикс www.

Ошибка «Не получено» может возникнуть как при загрузке отдельной карты сайта, так и в случае загрузки в Google Search Console файла индекса Sitemap. Проблему нужно решить так же, как и с одной картой сайта.

Ошибки в файле индекса Sitemap

Теперь перейдем к случаям, когда поисковики просканировали добавленный вами файл и обнаружили ошибки. И начнем мы с ошибок файла индекса Sitemap.

Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.

Кроме того, в вашем файле индекса Sitemap не должны быть указаны другие файлы индекса Sitemap, а только карты сайта. Если вы сделаете так, то получите сообщение «Вложенные файлы индекса Sitemap» в Google Search Console.

И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.

Недопустимый размер файла Sitemap и ошибки сжатия

Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google. Узнать больше о том, как разделить карту сайта на несколько файлов, можно из нашего полного руководства по созданию файла Sitemap. 

Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в консоли.

Я говорила, что допустимый размер карты сайта в несжатом виде должен быть меньше 50 МБ, но часто файлы Sitemap сжимают для экономии пропускной способности канала. Обычно для этой цели используют инструмент gzip, который добавляет расширение gz к файлу. Сообщение об ошибке сжатия или разархивирования в отчете означает, что что-то пошло не так во время процесса сжатия, и вам нужно сделать это еще раз.

Проблемы со сканированием URL-адресов в карте сайта

По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.

«Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.

Еще одна довольно очевидная проблема, которая не позволяет Google сканировать страницу, — это код ответа, отличный от 200 ОК. В отчете поисковиков это называется ошибкой HTTP, и точный код указывается для каждой отдельной страницы. Кроме консолей вебмастеров, проверить коды ответа URL-адресов из вашей карты сайта можно с помощью инструмента «Аудит сайта» от SE Ranking.

Всю необходимую информацию ищите в разделе «Код ответа сервера».

Раздел «Код ответа сервера» в SE Ranking

Google также выделяет другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.

Ошибка «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.

Ошибка «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.

Google Search Console не указывает, что именно может быть причиной проблемы. Поэтому вам нужно использовать другие инструменты, чтобы понять, какие ошибки необходимо исправить. Например, в инструменте «Аудит сайта» SE Ranking есть специальный раздел «Редиректы», где можно проверить, есть ли на вашем сайте какие-либо проблемы с перенаправлениями.

Если инструмент обнаружит какие-либо ошибки, вы получите всю необходимую информацию по каждой из них — щелкнув на количество страниц, можно узнать, на какой странице есть проблема и как она связана с другими страницами сайта.

Раздел «Редиректы» в SE Ranking

Ошибка «Нельзя использовать URL» означает, что ваша карта сайта содержит URL-адреса, которые находятся на более высоком уровне или в другом домене по сравнению с файлом Sitemap. Например, если ваша карта сайта находится по адресу: vashsajt.com/category1/sitemap.xml и вы добавили в нее страницу, адрес которой: vashsajt.com/stranitsa1, поисковики не смогут получить к ней доступ.

Что касается разных доменов, помните, что для Google версии сайта на HTTP и HTTPS, а также с www и без www считаются разными. Поэтому, если ваша карта сайта находится по адресу http://www.vashsajt.com/sitemap.xml, URL вида https://vashsajt.com/stranitsa1 будет считаться некорректным. 

Если вы недавно перешли на HTTPS, обязательно создайте новую карту сайта с HTTPS URL-адресами. Инструмент «Аудит сайта» SE Ranking напомнит вам об этом.

Раздел «Безопасность сайта» в SE Ranking

Google считает, что вы указали неправильные URL

Также стоит обратить внимание на еще одну ошибку, которую выделяет Google. Если вы добавите URL без префикса www в свою карту сайта, адрес которой содержит www, вы получите ошибку «Несоответствующий путь». То же самое касается файла Sitemap с www и URL-адресом без соответствующего префикса. Даже если ваш сайт доступен как с префиксом www, так и без него, не нужно путать эти вещи в карте сайта. Если ваш файл Sitemap находится по адресу: https://example.com/sitemap.xml, ни один из URL-ов, которые она содержит, не должен включать www. Если ваша карта сайта находится по адресу: https://www.example.com/sitemap.xml, все перечисленные в ней URL-ы должны включать www.

Синтаксические ошибки в карте сайта

В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок. 

  • «Недопустимое значение тега». Значение тега — это то, что вы указываете между начальным и конечным тегами — URL-адрес между тегами <loc>, или дата, которую вы определяете с помощью тега <lastmod>. Ошибка возникает, когда вы указываете недопустимое значение в карте сайта, например, устанавливаете приоритет вне диапазона от 0,0 до 1,0.
  • «Неверное значение атрибута». Значение атрибута указывается после знака равенства (=) в кавычках. В следующей строке кода перечислены различные языковые версии страницы в файле Sitemap.
<url><loc>https://example.com</loc><xhtml:link rel=”alternate” hreflang=”gb” href=”https://example.com”/><xhtml:link rel=”alternate” hreflang=”fr” href=”https://example.com/fr”/></url>

Здесь “alternate”, “gb” и “fr” являются значениями атрибутов, но “gb” используется неправильно. Вы не можете указать в hreflangs только код страны — он должен сочетаться с кодом языка, например, “en-gb”.

  • «Неправильно введена дата». Все довольно просто — вы использовали неправильный формат даты для тега <lastmod>. Единственный допустимый формат:
2005-02-21 
2005-02-21T18:00:15+00:00
  • «Недопустимый URL». Как вы могли догадаться, эта ошибка означает, что нужно искать опечатки в добавленных URL-адресах. Напомню, что все URL-ы в вашей карте сайта должны быть абсолютными.
  • Ошибки «Отсутствует атрибут XML» и «Отсутствует тег XML» тоже довольно очевидны. Отсутствие обязательных тегов и атрибутов (urlset, url, loc, xmlns) недопустимо — их нужно добавить, чтобы ваша карта сайта работала должным образом.
  • «Недопустимый XML: слишком много тегов». Эта ошибка может возникнуть, если вы используете один из тегов несколько раз. Например, вы указали два разных адреса или две даты изменения для одного URL. В этом случае вам необходимо удалить повторяющийся тег.
<url>
<loc>http://www.example.com/</loc>
<lastmod>2021-01-01</lastmod>
<lastmod>2021-02-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
  • «Неправильно указано пространство имен». Пространство имен, указанное в вашем теге <urlset>, должно быть одним из принятых протоколов. В настоящее время используется следующий протокол:

Обычные файлы Sitemap — xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9”

Файлы Sitemap для новостей — xmlns:news=”http://www.google.com/schemas/sitemap-news/0.9″

Файлы Sitemap для видео — xmlns:video=”http://www.google.com/schemas/sitemap-video/1.1″

Файлы Sitemap для изображений — xmlns:image:=”http://www.google.com/schemas/sitemap-image/1.1″

Напомню, что специальные карты сайта для новостей, картинок и видео поддерживает только Google.

Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8.

Ошибка «Неподдерживаемый формат файла» в GSC

Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.

Чтобы избежать синтаксических ошибок, перед отправкой файла Sitemap используйте один из сервисов проверки карты сайта, подобных этому. Инструменты будут выделять проблемы, которые необходимо исправить.

После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.

Такие действия заставят Google повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок.

Загруженные vs проиндексированные URL-адреса

Ваша карта сайта и файл индекса Sitemap могут получить статус «Успешно» или «Ок», но на этом ваша работа не заканчивается.

Давайте сначала разберем, что делать дальше в Google Search Console. Щелкните на значок диаграммы рядом с количеством выявленных URL-адресов, чтобы перейти к отчету об индексировании. Как только вы начнете анализировать его, вы скорее всего заметите, что не все отправленные страницы были проиндексированы.

Отчет об индексировании в GSC

Это нормально, когда страницы исключаются из индексации — Google не может оценить и проиндексировать все страницы вашего сайта, о которых он знает. Более того, почти на каждом сайте есть страницы, которые вебмастера не хотят индексировать: страницы защищенные паролем, служебные страницы и дубли. Что не нормально, так это наличие ошибок и предупреждений в вашем отчете об индексировании. Также недопустимо, чтобы количество исключенных страниц во много раз превышало количество страниц без ошибок.

Так почему же поисковики не могут проиндексировать страницы, которые были добавлены в карту сайта? В большинстве случаев это происходит, когда вы добавляете туда страницы, которых в карте сайта быть не должно. Возможно, поисковики просто не могут проиндексировать страницу из-за директивы noindex. Кроме того, поисковики могут запутаться, действительно ли вы хотите, чтобы страница была проиндексирована — например, когда вы добавляете неканонические страницы в карту сайта. 

Все подобные ошибки можно найти в разных вкладках «Отчета об индексировании» в Google Search Console. Но их удобнее проверять с помощью инструмента «Аудит сайта» SE Ranking — если на вашем сайте есть подобные проблемы, вы легко найдете их все в разделе «Сканирование» в «Отчете об ошибках».

Вкладка «Сканирование» в SE Ranking

Удалите из карты сайта неиндексируемые и неканонические страницы. А если страницы были по ошибке помечены как неиндексируемые и неканонические, решите эту проблему.

Оптимизируйте карту сайта с подсказками от Google

Убедившись, что с вашей картой сайта все в порядке, изучите «Отчет об индексировании», чтобы найти случаи, когда ваше мнение о странице расходится с Google.

  • На вкладке «Без ошибок, есть предупреждения» обратите внимание на страницы, которые были проиндексированы, несмотря на директиву noindex. Скорее всего, Google был прав, и вам нужно удалить тег noindex из этих страниц или из вашего X-Robots-Tag.
  • На вкладке «Страница без ошибок» посмотрите внимательно на проиндексированные, но не отправленные в файл Sitemap страницы — вы можете добавить их в карту сайта, так как Google считает их качественными. В то же время, если Google проиндексировал ваше «Пользовательское соглашение», которое вы не включили в карту сайта, можно ничего не делать. Также следите за дублями страниц, которые были проиндексированы, но отсутствовали в вашей карте сайта — такие случаи часто возникают из-за проблем с пагинацией и обработкой параметров URL-адресов.
  • Наконец, перейдите на вкладку «Исключено». Большинство страниц здесь исключены из индексации в соответствии с вашими собственными директивами, например старые страницы 404, страницы, заблокированные robots.txt, неиндексируемые и неканонические страницы. Обратите внимание на канонические страницы, которые Google решил не индексировать, — поисковая система считает, что на вашем сайте есть альтернативы получше. Тщательно изучите каждый случай и решите, действительно ли страница более ценна, чем ее дубли — исправьте свои теги canonical, если Google был прав. Если вы по-прежнему считаете, что страницу нужно проиндексировать, вам придется поработать над ее содержанием, профилем бэклинков и внутренней линковкой, чтобы убедить Google в обратном.

На вкладке «Исключено» можно увидеть еще две интересные категории страниц: «Просканированы, но пока не проиндексированы», и «Обнаружены, не проиндексированы». Оба типа обычно определяют некачественные страницы с малым содержанием, которые Google не хочет показывать пользователям. В первом случае страница была по крайней мере просканирована, а затем признана некачественной. А во втором случае поисковик даже не потратил краулинговый бюджет на страницу. Тщательно проанализируйте все такие страницы и посмотрите, что вы можете сделать, чтобы повысить их ценность: поработайте над контентом, взаимодействием с пользователем, внутренней линковкой и т. д.

Заключение

Благодаря разнообразию инструментов для создания карты сайта сделать файл Sitemap очень легко. Однако, если вы просто воспользуетесь одним из случайных инструментов и проигнорируете рекомендации по созданию карты сайта, то наверняка получите отчет о файле Sitemap с большим количеством ошибок, или отправите через карту сайта множество некачественных страниц на рассмотрение поисковикам.

Я надеюсь, что это руководство помогло вам исправить каждую ошибку в отчете о файле Sitemap. А воспользовавшись советами из второй части этого руководства, вы сможете оставить в карте сайта только качественные страницы и убрать все те, которые поисковики все равно не захотят индексировать. Если у вас остались вопросы, не стесняйтесь оставлять их в комментариях ниже.

Даша — контент-маркетолог и редактор в SE Ranking. Пишет статьи о SEO и диджитал-маркетинге. Любит разбираться в сложных вещах и описывать их просто и доступно. В свободное от блога время Даша путешествует, изучает искусство фотографии и посещает картинные галереи.

Сеошник провел аудит более тысячи сайтов и выписал несколько популярных проблем. Мы собрали интересные для вас.

Специалист по SEO, основатель компаний detailed.com и gaps.com Глен Оллсопп проверил тысячу с лишним сайтов и на основе анализа составил список типичных ошибок с рекомендациями. В выборку вошли в том числе сайты многомиллионных брендов, SaaS-компаний и крупных партнерок.

Содержание:

  1. Отдельные страницы картинок
  2. Мусорные страницы в индексе
  3. Лишние теги и категории
  4. Несоответствие даты и контента
  5. Несоответствие даты в H1 и Title
  6. Ссылки на неважные страницы

Проблема 1. Отдельные страницы картинок

Примерно 30% сайтов на WordPress из выборки имели эту проблему: для загруженных на сайт картинок формировалась своя индексируемая страница. На ней были только шапка, подвал сайта и само изображение. К примеру, на сайте Wired картинка имеет собственную страницу по адресу www.wired.com/google_io_237/

Мусорная страница на сайте, пример

Страница с изображением
На некоторых сайтах таких страниц с картинками было даже больше, чем реальных контентных.

Эти страницы не решают задачу пользователя и не содержат ничего, кроме самой картинки, которая может быть даже не иллюстрацией, а просто обложкой статьи. Они не полезны, не закрывают ни один запрос пользователя, не содержат контента, кроме одной картинки. 

Такие страницы не нужны ни на сайте, ни тем более в поисковой выдаче, они портят общий показатель качества сайта.

Откуда берутся страницы для картинок в WordPress

Все дело в Attachment — картинках, прикрепленных к посту через загрузочную форму. Когда в разделе редактирования поста вы загружаете картинку через «Добавить медиафайл», WordPress прикрепляет картинку к записи и одновременно создает для нее отдельную страницу.

Как это исправить

Отключить Attachment в WordPress нельзя, но можно выйти из положения с помощью 301 редиректа с URL картинки на основной URL поста, к которому она прикреплена.

У WP есть отдельный плагин для таких редиректов Attachment Pages Redirect, а если у вас установлен Yoast SEO, можно настроить это там:

  1. Найдите вкладку «SEO» в разделе «Dashboard» — «Features».
  2. Включите расширенные настройки «Advanced settings pages», не забудьте сохранить.
  3. Перейдите в раздел «Advanced» на вкладку «Permalinks».
  4. Включите параметр «Redirect attachment URLs to parent post URL», сохраните.

Проблема 2. Мусорные страницы в индексе

Посмотрите на страницу на скриншоте. На ней нет полезного контента, только шапка, подвал и текст «Lorem ipsum», который используют в качестве «рыбы» во время работы над созданием и наполнением сайта. 

Какие страницы сайта не должны ранжироваться

Пример тестовой страницы на сайте

Еще один пример — тестовая страница на сайте docusign.com, которая оказалась доступна пользователям:

Пример страницы, которая не должна быть в индексе

Тестовая страница на сайте

Ее удалось найти по запросу «site:docusign.com testing pages». 

Тестовый URL в индексе Google

Тестовая страница в выдаче

Такие страницы можно назвать мусорными, они не полезны аудитории и не нужны в выдаче.

Как найти мусорные страницы в индексе

Задайте поисковику запрос «site:вашдомен.com» и попробуйте поочередно Index, Error, Lorem ipsum, Тест, Demo. Так вы увидите страницы, которые попали в выдачу, хотя не должны там быть.

К примеру, на ey.com обнаружилось очень много страниц с «Lorem ipsum»:

Как найти страницы с мусором в выдаче

Выдача со страницами с Lorem ipsum

Такие страницы в принципе не нужны, если сайт уже доделан и запущен в работу. Их можно удалить не только из выдачи, но и с сайта. 

Проблема 3. Лишние теги и категории

Для блогов, форумов и интернет-магазинов был характерен избыток тегов и категорий, из-за чего образовывалось много лишних страниц. Категории товаров и записей упрощают поиск, но они только мешают, если в категории всего один товар или одна статья. Как правило, такое случается с категориями, на которые давно не обращали внимания и не обновляли.

К примеру, на сайте shop.startrek.com Гленн нашел множество таких товарных категорий, включающих всего один продукт. Их стоит проанализировать: перевести в другую подходящую категорию, а если какой-то товар давно не пользуется спросом, возможно, его стоит снять с продажи.

Мусорные категории и теги на сайте

Категории с одним товаром

Другие проблемы со страницами сайта поможет найти сервис pr-cy.ru/analysis: он проверяет внутренние страницы и выдает список URL с конкретными ошибками. Вы сразу узнаете, где нужны исправления.

Онлайн проверка страниц сайта

Аудит внутренних страниц

Проблема 4. Несоответствие даты и контента

В некоторых случаях поисковики показывают дату публикации в выдаче. При этом бывает, что дата в заголовке страницы не совпадает с датой в сниппете. У пользователей может возникнуть ощущение, что вы выдаете старый материал за актуальный.

Пара примеров:

Проблема с датами контента

Дата материала и дата заголовка разные

Дайте поисковику понять, что вы обновили контент: добавляйте новый текст, меняйте дату публикации статьи, можно добавить вторую дату — число, когда обновили материал.

Как найти проблемные страницы

  1. Введите в поисковик запрос «site:вашдомен.com», выберите Инструменты и поменяйте «За все время» на «За период…» и поставьте предыдущий год.

  2. Обратите внимание на даты рядом с URL-адресами и даты в заголовках.

Как найти страницы на сайте по датам

Поиск страниц за определенный период

Проблема 5. Несоответствие даты в H1 и Title

Не забывайте обновлять Title страницы, если вы поменяли что-то важное в заголовке статьи H1. Обычно забывают поменять год. К примеру, как у подборки на сайте CNN: заголовок H1 обновили, но Title остался прошлогодним.

Разные H1 и Title статьи

Несоответствие заголовков

Эта статья находится на первой странице выдачи по запросу, включающему 2021 год, но вряд ли в 2023 году кто-то будет искать лучшие товары за 2021.

Страница в топ-1 Google

Страница в выдаче

В WordPress такое бывает, когда заголовок не синхронизируется напрямую с вашим пользовательским правилом для формирования тега Title. В некоторых плагинах есть такая проблема.

Как найти страницы с несовпадением дат

Самый простой способ — сделать в поисковике запрос «site:вашдомен.com intitle:[предыдущий год]» (без «» и []).

Проблема 6. Ссылки на неважные страницы

Строго говоря, это не проблема. Нет ничего страшного в том, чтобы ставить ссылку на страницу, которую вы не собираетесь продвигать в выдаче — например, на неканоническую. Но Гленн все-таки советует не тратить на это ключевые ссылки на главной странице, в навигации по сайту или на других ключевых местах.

На Shopify много таких ссылок на неканонические страницы, иногда целые сайты строятся таким образом.

Ссылки на сайте

Ссылка на неканоническую страницу
Не чините то, что хорошо работает.

Не стоит менять что-то глобальное на сайте, только потому что вы прочитали чей-то совет в интернете. Создавайте бэкапы, сохраняйте исходники, а если хотите удалить какие-то страницы, не используя редирект, убедитесь, что они не получают трафика и не имеют ссылок с авторитетных сайтов.

Каждый коммерческий сайт — это прежде всего инструмент продаж, лицо вашей фирмы в сети. Сайт можно сравнить с айсбергом: есть 2 части — надводная, которую оценивают посетители, заходя на сайт, и подводная, которая имеет большое значение для поисковых систем. О подводных камнях мы сейчас и поговорим.

Есть такое понятие, как возраст сайта. Он считается с момента попадания его страниц в индекс поисковой системы. Иногда, по разным причинам, в индекс попадает больше страниц, чем нужно, и создается избыточная масса страниц. Это могут быть дубли уже существующих страниц, пустые страницы без контента и прочий мусор. В результате сайт ранжируется в поисковой выдаче ниже, чем мог бы.

Почему в индекс попадают ненужные страницы?

1. Особенности CMS

Сейчас редко можно встретить статичные сайты, сделанные в виде html страниц. Чаще всего используются различные системы управления контентом — CMS. У всех CMS есть свои особенности и недостатки.

Некоторые в процессе своей работы создают избыточные страницы с адресами вида http://yoursite.com/?attachment_id=2 , http://yoursite.com/component/content/frontpage.html и дубли страниц. Все они попадают в индекс: например, когда одна и та же страница доступна по 2 адресам — http://yoursite.com/category/page1.html и http://yoursite.com/page1.html.

2. Дубли и старые версии страниц

Это одна из самых распространённых ошибок. Если сайт живёт давно и его время от времени меняли —  что-то добавляли, что-то убирали, создавали новые, заменяли старые страницы — некоторые из них доступны и остаются в индексе, хотя на сайте может не быть ссылок.

3. Документы

Часто на сайтахх, особенно коммерческих, размещаются различные документы (doc, xls, pdf и т.д.). Они так же, как и все страницы сайта, попадают в индекс поисковых систем и расцениваются как обычные страницы. Я советую закрывать документы от индексирования, потому что на них обрывается цепочка ссылок, которая строится внутри сайта, в результате чего нарушается внутренняя перелинковка страниц.

Важно: универсальной инструкции по поиску ошибок нет, всё зависит от ситуации.

Как определить, что в поиске есть ненужные страницы

Очень просто: нужно посмотреть на страницы, которые в данный момент находятся в индексе. Лучше всего для этого подойдёт google: особенность этой поисковой системы такова, что она сохраняет все страницы, попавшие в индекс.

Для этого можно воспользоваться операторам поиска site:yoursite.com. Введя эту комбинацию в поисковую строку, Вы увидите все страницы, проиндексированные поисковой системой.

Если на сайте менее 100 страниц, оценить объём и качество страниц легко. Кроме этого, на последней странице выдачи google будет находится «дополнительный индекс», где будут показаны страницы с добирающимся контентом. Главное, не делайте быстрых выводов: в первую очередь нужно понять, что это за страницы.

Используя аналогичный оператор, Вы можете посмотреть, какие страницы проиндексированы Яндексом.

Как бороться с избыточной массой страниц в индексе?

Есть несколько способов удалить подобные страницы из индекса:

1. Самый простой — настройка правил индексации сайта посредством robots.txt. Плюс: универсальный и простой способ. Минус: результат будет не сразу.

Для этого используются следующие директивы:

  • Allow разрешает индексирование;
  • Disallow запрещает индексирование.

2. Простой — удаление неиспользуемых страниц. Это актуально для дублей и старых версий страниц. В этом случае удалённая страница будет отдавать код 404 и постепенно выйдет из индекса. Плюсы: метод эффективен для небольших сайтов. Минусы: применим не во всех случаях.

3. Эффективный — настройка 301 редиректа с дубля на целевую страницу.

При переходе на дубль страница будет отдавать код ошибки 301 (Permanent Redirect) и перенаправлять пользователя на целевую страницу. Плюсы: эффективен, мусорные страницы выходят из индекса. Минусы: потребует много времени на настройку для больших сайтов.

Пример правильной настройки Robots для WordPress

User-Agent: *

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /xmlrpc.php

Disallow: /template.html

Disallow: /wp-admin

Disallow: /wp-includes

Allow: /wp-content/uploads/

Disallow: /wp-content

Disallow: /tag

Disallow: /category

Disallow: /archive

Disallow: */trackback/

Disallow: */feed/

Disallow: */comments/

Disallow: /?feed=

Disallow: /?s=

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Подробнее о том, как настроить редирект, можно прочитать в  блоге Сергея Кокшарова (Devaka).

Cправка — Search Console

Войти

Справка Google

  • Справочный центр
  • Сообщество
  • Search Console
  • Политика конфиденциальности
  • Условия предоставления услуг
  • Отправить отзыв

Тема отзыва

Информация в текущем разделе Справочного центра

Общие впечатления о Справочном центре Google

  • Справочный центр
  • Сообщество

Search Console

Понравилась статья? Поделить с друзьями:
  • Как найти сокровище 749 625
  • Вар в играх как исправить
  • Как исправить ошибку зеленого экрана
  • Как найти старую страничку в контакте
  • Как найти вирус который создает ярлыки