Найдены страницы дубли с get параметрами как исправить - Исправление недочетов и поиск решений вместе с Examum.ru

С лета 2021 года Яндекс.Вебмастер стал информировать вебмастеров о наличии на сайтах страниц-дублей с GET-параметрами, причем помечается эта проблема как критичная, что многих пользователей приводит в ужас. Здесь мы расскажем что это за проблема и как от нее избавиться проще всего.

Что же такое GET-параметр — это динамический параметр в URL, с помощью которого возможно изменение содержимого документа. Самым частым примером URL с GET-параметром в интернет магазинах являются страницы пагинации, например, site/category?page=2 или сортировки, например, site/category?sotr=abc. page и sort являются параметрами. Таких параметров может быть бесконечное множество. Они могут генерироваться как изнутри самим сайтом (CMS), так и снаружи, например, добавляя UTM-метки для рекламных компаний вы создаете дубли страниц для поисковых систем.

Как решить проблему дублей?

Для этого Яндекс даже выпустил собственный подробный гайд.

Но он не раскрывает все методы, не рассказывает об их сильных и слабых сторонах и не описывает как эффективно комбинировать разные способы. Сначала мы опишем основные методы по отдельности, с их достоинствами и недостатками, а в конце самый эффективный способ комбинирования их.

Clean-param

Как использовать:

В файл robots.txt добавить директиву Clean-param с перечислением всех возможных GET-параметров через амперсанд, например, для страниц site/category?page=2 и site/category?sotr=abc Clean-param: page&sort

Кроме исключения дублей из поисковой базы, директива позволяет эффективно передавать параметры со страницы с GET-параметром на страницу без него.

Недостатки:

1. Так как GET-параметров может быть бесконечное количество, вам придется отслеживать появление новых параметров в поисковой выдаче и периодически обновлять директиву, поэтому способ подходит для небольших сайтов, либо для сайтов, которые генерируют мало GET-параметров.

2. Данная директива работает только для поисковой системы Яндекс.

3. Ограничение в 500 символов, при всем желании, не даст перечислить абсолютно все параметры в одной директиве.

rel=canonical

Как использовать:

Проставлять на страницах с GET-параметром атрибут с указанием URL канонической страницы, например, для site/category?page=2 тег будет выглядеть так <link rel=»canonical» href=»site/category» />

Такой способ тоже позволяет передавать параметры страницы, но менее эффективно.

Недостатки:

Является не строгим правилом для поисковых систем, поэтому значительная часть страниц может без проблем попадать в поисковую базу.

Disallow

Как использовать:
В файле robots.txt прописать директиву Disallow: *?*, чтобы закрыть от индексации абсолютно все страницы с GET-параметрам. Более жесткое правило для поисковых роботов, поэтому достаточно эффективно убирает дубли страниц из поисковой выдачи.
Недостатки:

1. Не позволяет передавать параметры на нужную страницу.

2. Полностью исключает посещение поисковым роботом закрытых страниц.

Метатег robots

Как использовать:

Проставлять на страницах с GET-параметром <meta name=»robots» content=»noindex» />, что позволяет закрывать их от индексации, но не закрывает возможность посещать данные страницы поисковым роботам.

Недостатки:

Не передает параметры страницы.

Наиболее эффективный способ избавления от дублей

Сделав это раз вам больше не будет нужно мониторить появление новых дублей с GET-параметрами. Лучше всего комбинировать два метода Метатег robots и rel=canonical. Каждый из них будет дополнять друг-друга и компенсировать недостатки, а именно, canonical будет передавать все параметры со страницы с GET на основную, при этом, noindex будет более строгим правилом, что позволит сократить количество дублей страниц до минимума. Кроме того, оба этих способа работают для всех поисковых систем, а не только для Яндекс.

Чтобы внедрить данный метод к себе на сайт можно либо поставить ТЗ на разработку и разместить теги на всех страницах с GET-параметром (или только на нужных, либо поискать для своих систем управления готовые решения, например, на CMS Webasyst/Shop-Script есть несколько плагин, которые позволяют автоматизировать процесс простановки тегов по определенным условиям.

Переверзев Алексей

Руководитель отдела SEO-продвижения

Источник

07 апреля 2022

Одной из работ по оптимизации сайта является удаление дублей страниц, которые имеют одинаковое наполнение, но при этом разные адреса Url. Наличие дублей на сайте негативно сказывается на его качестве и скорости индексации. Робот поисковой системы имеет ограничения по времени обхода и количеству обращений к сайту, поэтому дубли просто отнимают его ценное время, а посадочные страницы могут долго попадать в индекс.

Кроме этого в индекс поисковой выдачи может попасть множество мусорных страниц с сайта, которые не отличаются уникальностью контента. Вы наверняка видели в панели Яндекс.Вебмастера сообщение об ошибке с заголовком: «Найдены страницы дубли с GET параметрами». Как написано в описании к ошибке, это означает, что на сайте есть страницы с одинаковым содержанием, но разными с разными адресами, содержащими GET-параметры.

Фото: Скриншот с Яндекс.Вебмастера про ошибку страниц дублей с GET-параметрами.

В Вебмастере можно перейти по ссылке «Посмотреть примеры страниц», чтобы увидеть, какие страницы дубли обнаружил Яндекс.

Фото: Примеры страниц дублей и GET-параметры

Такую картину можно увидеть в своем Вебмастере или аналогичную этой. В колонке с Get-параметрами будут указаны все атрибуты. Он может быть один или множество.

Что такое GET-Параметры?

GET-параметр в адресе страницы Url – это динамический элемент, который позволяет менять содержимое страницы. Он прописывается сразу после знака «?» и может быть разделен специальным символом &. Часто GET-параметры используются в интернет-магазинах, чтобы отображать товары в листингах, которые отсортированы по фильтру магазина.

Также это могут быть страницы результатов внутреннего поиска сайта.

Например, url могут содержать непонятные для простого пользователя символы:

/#category_id=60&page=1&path=60&sort=p.price&order=ASC&limit=36&route=product

Результаты поиска выглядят так:

/search/?search=кухни

Есть ли польза от Clean-param для сайта?

Очень многие ищут информацию, как исправить ошибку дублей страниц Get-параметрами? И как правильно прописать директиву Clean-param в файле robots.txt? А нужно ли это делать?

Нужно, так как это позволяет поисковому боту быстрее обходить важные и полезные страницы сайта. Не тратя времени на страницы дубли. То есть изменения на сайте будут быстрее попадать в поисковую выдачу, а это позволит увеличить трафик с органической выдачи и доход с сайта. Кроме этого вы сможете снизить нагрузку на сервер от посещений и работы различных ботов.

Как использовать Clean-param?

Хочется сказать, что директива Clean-param учитывается только поисковой системой Яндекс, а Google к ней равнодушен. Поэтому прописывать ее нужно в разделе robots.txt, который имеет команды для Яндекса (ниже User-agent: Yandex). Выглядеть это может примерно, вот так:

Clean-param: path
Clean-param: id
Clean-param: index_php
Clean-param: product_name
Clean-param: dev

Если у вас нет отдельно стоящих юзер-агентов, то можно Clean-param прописать и в общих правилах ко всем ботам. Это межсессионная директива, которая будет читаться роботами в любом месте robots.

Показываем на примерах

Давайте детально разуберёмся, как писать директиву в разных случаях. Ниже мы приведем примеры адресов с GET-парfметрами и строки, которые нужно прописать в файле robots.txt.

www.example.com/catalog/book?ref=site_1&book_id=123
www.example.com/catalog/book?ref=site_2&book_id=123
www.example.com/catalog/book?ref=site_3&book_id=123

Как мы видим, отличие только в одной цифре, а страницы выглядят идентично.

Прописываем:

Clean-param: ref /catalog/book

Поэтому Яндекс, прочитав данную директиву, склеит эти страницы в одну:

www.example.com/catalog/book?book_id=123 и эта страница будет доступна в поиске, а остальные будут автоматически удалены.

Для идентификаторов:

www.site2.com/index.php?page=1&sid=2564126ebdec301c607e5df

www.site2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae

Прописываем:

Clean-param: sid / index.php

Если GET-параметров в адресе несколько:

www.site.com/catalog/kreslo.php?art=681498605&t=8243&ref=1234

www.site.com/ catalog/kreslo.php?art=1e71c417a&t=8243&ref=3442

Прописываем:

Clean-param: art&t&ref /catalog/kreslo.php

Использование Disallow вместо Clean-param в robots.txt

Можно вместо Clean-param использовать директиву Disallow. Возьмем для примера, адрес, который мы использовали выше:

www.site.com/catalog/kreslo.php?art=681498605&t=8243&ref=1234

Тогда прописываем следующее:

Disallow: *?art=
Disallow: *&t=
Disallow: *&ref=

Мы закрываем от индексации все страницы, содержащие своём адресе эти динамические параметры. Но можно в этом случае сделать проще и прописать всего одну строчку: Disallow: *?.

При использовании запрещающих индексацию директив нужно учитывать то, что по ошибке можно закрыть ценные страницы.

Об авторе

Владимир Харченко

Ведущий SEO-специалист с 9-летним стажем работы в области продвижения сайтов и Веб-аналитики. Постоянно обучаюсь и усовершенствую имеющиеся навыки, изучаю изменения в поисковых системах и применяю на практике проверенные методики.

Источник

Время чтения — 3 минуты

Как исправить ошибку в Вебмастере

Время чтения — 3 минуты

Ошибка Я. Вебмастера: найдены страницы дубли с GET-параметрами — что делать

Как исправить ошибку в Вебмастере

Специалист по SEO-продвижению

Дубли страниц могут приводить к потери позиций в поисковой выдаче и снижать скорость индексации. Стоит понимать, что у поискового робота есть определенный лимит запросов к домену в день. Поэтому существует вероятность того, что он потратит все лимиты на сканирование мусорных страниц и не доберется до страниц с уникальным контентом.

О наличии проблемы с дублированным контентом свидетельствует сообщение в панели Вебмастера: «Найдены страницы дубли с GET параметрами». В своем сообщении Яндекс информирует вебмастера о том, что на некоторых страницах сайта размещен одинаковый контент, различающийся только гет-параметрами.

Что такое get-параметры на сайте

GET параметры в URL – это динамические параметры, позволяющие изменить контент страницы. В URL они находятся после «?» и разделяются «&». GET-параметры используются при работе фильтров в интернет-магазине, при работе поиска и сортировки на сайте или настройке меток коллтрекинга.

Примеры url с гет-параметрами:
https://site.ru/catalog/monitory?sort=price (get-параметр после ? — sort, его значение =price — сортировка по цене)
https://site.ru/catalog/search?q=lukoil (get-параметр после ? — q, его значение =lukoil — результаты поиска по слову «lukoil» на сайту)

Как избавиться от ошибки — Найдены страницы дубли с GET-параметрами

Самый простой и эффективный способ избавиться от дублей с разными get-параметрами — добавить правило Clean-param или Disallow в файл robots.txt.

Если в поиске есть дублированные страницы из-за гет-параметров, Яндекс предлагает воспользоваться правилом Clean-param в robots.txt (правило действительно только для Яндекс, Google его не воспринимает).

В результате использования Clean-param поисковый робот Яндекса объединяет сигналы с дублированных страниц на основной. После того, как краулер узнает обо всех произошедших изменениях, страницы с не имеющими значение гет-параметрами исчезнут из поисковой выдачи.

Как использовать Clean-param

Как использовать Disallow

Учитывая, что Яндекс.Вебмастер считает данную проблему критичной, ее рекомеедуется устранять.

Готовы обсудить продвижение вашего проекта?

Оставьте контакты, и мы с вами свяжемся.

Надежда Коробова
Руководитель отдела поискового продвижения Artsofte Digital

Отправляя форму, вы даете согласие на обработку своих персональных данных и соглашаетесь с политикой обработки персональных данных

Источник

Добрый день! Если вы маркетолог или предприниматель это статья для вас. Быстро и кратко расскажу что за ошибка Найдены страницы-дубли с GET-параметрами.

Начиная с лета 2021 года Яндекс.Вебмастер стал информировать всех у кого сайт добавлен в панель о наличии на сайтах страниц-дублей с GET-параметрами, причем помечается эта проблема как критичная, что многих маркетологов и владельцев бизнеса приводит это в ужас. Случается на любой админке битрикс, вордпресс.

Скажу сразу переживать не стоит! Ошибка пустяковая и тупа попадает 1-2 страницы. Исправить легко.

GET-параметр — это динамический параметр в URL, с помощью которого возможно изменение содержимого документа. Самым частым примером URL с GET-параметром в интернет магазинах являются страницы пагинации, например, site/category?page=2 или сортировки, например, site/category?sotr=abc. page и sort являются параметрами. Таких параметров может быть бесконечное множество. Они могут генерироваться как изнутри самим сайтом (CMS), так и снаружи, например, добавляя UTM-метки для рекламных компаний вы создаете дубли страниц для поисковых систем.

Как решить проблему дублей GET параметров?

Первый метод Clean-param

Второй метод rel=canonical

Третий метод Disallow

В файле robots.txt прописать директиву Disallow: *?*, чтобы закрыть от индексации абсолютно все страницы с GET-параметрам. Более жесткое правило для поисковых роботов, поэтому достаточно эффективно убирает дубли страниц из поисковой выдачи.

ВЫВОД

Я рекомендую закрывать через robots txt. Считаю более эффективно. Вам осталось попросить вашего разработчика прописать всё это дело и проблема пропадёт через некоторое время. Что-бы ускорить процесс добавляйте в переобход.

Источник

Дубли страниц на сайте могут появиться в поиске вместо ценных страниц сайта или замедлить их обход и индексирование.

Вообще, дубли — это страницы сайта, содержание текста в которых полностью или практически совпадает. Страницы с GET-параметрами в URL тоже могут быть дублями. Если GET-параметр влияет на содержание страницы — это не дубль. А если GET-параметр не меняет контент страницы, то этот параметр называют незначащим и страницу стоит скрыть от поиска.

Расскажем подробнее, что такое незначащие GET-параметры, как найти дубли с такими параметрами и убрать их.

Что такое дубли страниц с незначащими GET-параметрами

GET-параметр — это параметр, который передается серверу в URL страницы. Он начинается с вопросительного знака. Если URL содержит более одного параметра, то эти параметры разделяются знаком «&». Самый частый случай появления дублей из-за незначащих параметров — метки для задач веб-аналитики. Например, utm_source, utm_medium, from. Такими метками владельцы сайтов привыкли помечать трафик. Фактически эти URL одинаковые, на них опубликован одинаковый контент. Но формально адреса разные, так как различаются GET-параметрами в URL. Соответственно, и поиск тоже может посчитать их разными. Такие страницы и называются дублями с незначащими GET-параметрами.

Наличие дублей страниц с незначащими GET-параметрами не приносит пользы и может негативно сказаться на взаимодействии сайта с поисковой системой.

Зачем отслеживать дубли

1) Скорость обхода. Когда на сайте много дублей, роботы тратят больше времени и ресурсов на их обход, вместо того, чтобы обходить ценный контент. А значит, ценные страницы вашего сайта будут медленнее попадать в поиск.

2) Неуправляемость. Так как поисковой робот произвольно выбирает, какой из дублей показывать в поиске, то на поиск могут попасть не те страницы, которые вам нужны.

3) Влияние на поиск. Если незначащие параметры не добавлены в clean-param, робот может обходить эти страницы и считать их разными, не объединяя их в поиске. Тогда поисковый робот будет получать разные неагрегируемые сигналы по каждой из них. Если бы все сигналы получала одна страница, то она имела бы шансы показываться выше в поиске.

4) Нагрузка на сайт. Лишний обход роботом также дает нагрузку на сайт.

Например, на сайте по продаже билетов есть форма заявки на обратный звонок. При ее заполнении в url передается GET-параметр?form=show1, — он сообщает информацию о том, какой спектакль с этой страницы выбрал пользователь в заявке, хотя контент самой страницы никак не меняется. Таким образом, поисковой робот будет тратить время на обход множества одинаковых страниц, различающихся только GET-параметрами в URL, а до ценных страниц сайта доберется значительно позже.

Для интернет-магазинов типичный пример — страницы с фильтрами. Например, если пользователь выбирает товары в дорогом ценовом диапазоне, изменяя значения в фильтре «Цена», то в большинстве случаев ему будет показана страница с одними и теми же товарами. Таким образом, поиск будет получать сигналы о множестве одинаковых страниц, отличающихся только GET-параметром price= в URL.

Как обнаружить дубли

Теперь находить одинаковые страницы стало проще: в разделе «Диагностика» появилось специальное уведомление, которое расскажет про дубли из-за GET-параметров. Алерт появляется с небольшой задержкой в 2-3 дня, поэтому если вы увидели в нем исправленные страницы, не пугайтесь — это может быть связано с задержкой обработки данных. Дубли с параметром amp, даже если они у вас есть, мы не сможем показать в алерте.

Подписываться на оповещения не нужно, уведомление появится само.

Как оставить в поиске нужную страницу

1. Добавьте в файл robots.txt директиву Clean-param, чтобы робот не учитывал незначащие GET-параметры в URL. Робот Яндекса, используя эту директиву, не будет много раз обходить повторяющийся контент. Значит, эффективность обхода повысится, а нагрузка на сайт снизится.

2. Если вы не можете добавить директиву Clean-param, укажите канонический адрес страницы, который будет участвовать в поиске. Это не уменьшит нагрузку на сайт: роботу Яндекса всё равно придётся обойти страницу, чтобы узнать о rel=canonical. Поэтому мы рекомендуем использовать Сlean-param как основной способ.

3. Если по каким-то причинам предыдущие пункты вам не подходят, закройте дубли от индексации при помощи директивы Disallow. Но в таком случае поиск Яндекса не будет получать никаких сигналов с запрещенных страниц. Поэтому мы рекомендуем использовать Сlean-param как основной способ.

Директива Clean-param — межсекционная, это означает, что она будет обрабатываться в любом месте файла robots.txt. Указывать ее для роботов Яндекса при помощи User-Agent: Yandex не требуется. Но если вы хотите указать директивы именно для наших роботов, убедитесь, что для User-Agent: Yandex указаны и все остальные директивы — Disallow и Allow. Если в robots.txt будет указана директива User-Agent: Yandex, наш робот будет следовать указаниям только для этой директивы, а User-Agent: * будет проигнорирован.

Подробнее о работе со страницами-дублями читайте в Справке.

P. S. Подписывайтесь на наши каналы
Блог Яндекса для Вебмастеров
Канал Яндекса о продвижении сайтов на YouTube
Канал для владельцев сайтов в Яндекс.Дзен

Источник