Как найти неиндексируемые сайты

Вряд ли стал писать на эту простую тему, если бы не статья, которая начинается так:

Узнать, сколько страниц было проиндексировано Google, можно с помощью Search Console. Но как отыскать те URL, которые отсутствуют в индексе поисковой системы? Справиться с этой задачей поможет специальный скрипт на Python.

цитата из перевода на searchengines.ru

Вот это да, подумал я. Автор предлагает:

  1. Установить на компьютер Phyton 3.
  2. Установить библиотеку BeautifulSoup.
  3. Установить Tor в качестве прокси-сервера.
  4. Установить Polipo для преобразования socks-прокси в http-прокси.
  5. Провести настройки в консоли (не Search Conosole! в терминале операционной системы!).
  6. Увидеть предупреждение в конце статьи “Если скрипт не работает, то Google, возможно, блокирует Tor. В этом случае используйте свой собственный прокси-сервер”.
  7. Побиться головой о стену (ой, тут все-таки прорвался мой сарказм).

Как проверять индексацию без лишних мучений?

Автор опирается на верный в основе способ – запросы к выдаче с оператором info:. Это самый надежный метод, но у него есть огромный минус. Один запрос проверяет один url. А что если у нас их 10 000? Или больше?

Очевидно, что нужен более экономный путь. И он есть. Рассказываю.

Во-первых, получаем полный список страниц сайта. Если вы следуете стандартам веб-разработки и минимально заботитесь об индексации, то он должен содержаться в sitemap.xml.

Для удобства работы выгружаем url в виде простого списка. Это можно сделать, открыв xml-файл в Excel:

Вся дальнейшая работа сводится к тому, чтобы удалить из списка те страницы, которые есть в индексе.

В посте Как проверить индексацию сайта или раздела в Google? Ответ не так уж прост! я писал о том, что традиционно используемые для пробивки индекса операторы “site:” и “inurl:” не дают точных результатов. Если страница не обнаруживается поиском с оператором, это не значит, что ее нет в базе Googe.

Но! Если уж страница нашлась – это значит, что она в индексе. Понимаете разницу? Оператор находит не все, но уж что находит – то в индексе. Этим и воспользуемся.

Смотрим основные разделы и типичные паттерны в url, формируем список запросов для проверки индекса в них.

Например, для этого блога:

  • site:alexeytrudov.com/dnevnik/
  • site:alexeytrudov.com/web-marketing/
  • site:alexeytrudov.com/veb-razrabotka/

Как быть, если в url нет ЧПУ и явной структуры? Можно придумать много способов. Например, помимо site: указывать фразу, которая есть только в шаблоне определенного раздела. Или наоборот – добавить слово со знаком минус, чтобы найти url, где оно не содержится.

Суть в том, чтобы а) покрыть разные части сайта и б) использовать достаточно сложный запрос, на который Гугл выдаст много результатов (см. предыдущую статью).

Каждый из запросов способен принести нам до 1000 новых url. Нужно выгрузить результаты по ним для сравнения со списком из карты сайта.

Как парсить выдачу?

Способов миллион. Два примера.

Можно воспользоваться Key Collector (куплен у каждого оптимизатора еще в прошлой жизни). Добавляем как фразы запросы с операторами:

Перед запуском настроим максимальное количество результатов в выдаче:

Теперь сам сбор данных:

Дожидаемся сбора и выгружаем список url (то же меню, “Экспортировать данные о поисковой выдаче”). Получаем csv-файл со множеством ссылок (у меня на 3 запроса – 136 url, половина сайта, добавив ключи по остальным рубрикам наверняка нашел бы почти все).

Можно ли справиться без Key Collector и вообще без платных программ? Конечно!

  1. Устанавливаете расширение gInfinity в Chrome (https://chrome.google.com/webstore/detail/ginfinity/dgomfdmdnjbnfhodggijhpbmkgfabcmn).
  2. Устанавливаете расширение Web Developer (http://chrispederick.com/work/web-developer/) – оно крайне полезно и для других нужд.

Первый плагин нам позволяет загружать в выдаче Google больше 100 результатов простой прокруткой.

Для формирования перечня ссылок нажимаем на значок Web Developer:

Запрос – зажатая кнопка PageDown – выгрузка.

Теперь нам остается только сравнить списки и вычленить url, которые есть в карте, но отсутствуют в выгрузках из выдачи.

Для сравнения можно использовать бесплатный онлайн-сервис: https://bez-bubna.com/free/compare.php (ну или Excel). Заодно, кстати, не помешает найти страницы, которые есть в выдаче и отсутствуют в карте сайта. Это признак либо неполной карты, либо генерации “мусорных” документов и неправильных настроек индексации.

Если вы корректно подобрали запросы, то наверняка нашли 90% проиндексированных url и сильно сократили объем работы. С оставшимися можно разобраться с помощью оператора info. Разумеется, не стоит это делать руками – можно использовать Rush Analytics. Анализ 100 ссылок будет стоить 5 рублей. Благодаря предыдущим операциям мы существенно экономим. Или можно собрать выдачу тем же Кейколлектором (тут уже правда уже может потребоваться антикапча).

Если хотите еще сократить список кандидатов на платную проверку, то можете также определить список страниц, приносивших трафик за последнюю неделю-две (уж они-то почти наверняка в индексе!) и отсеять найденные. О том, как выгружать url точек входа см. в статье об анализе страниц, потерявших трафик.

Как видите, с задачей поиска непроиндексированных страниц у небольших и средних (где-нибудь до 50 тысяч страниц) вполне можно справиться без возни с консолью, прокси, phyton-библиотеками и так далее. Достаточно иметь под рукой популярные инструменты, пригодные для множества других задач.

UPD: Виталий Шаповал резонно заметил, что:

Наверняка, есть публичный индекс и его непубличная часть, поэтому “непроиндексированные Google страницы” является терминологией вводящей в заблуждение. Корректно говорить об отсутствии в индексе, что меняет постановку вопроса почему такие страницы отсутствуют.

Согласен с этим уточнением; использовал термин из исходной статьи по инерции. Впрочем для практики разница небольшая – так или иначе результирующий список url требуется проработать, рассмотрев разные причины отсутствия (не было визита робота/запрещена индексация/неподходящий контент).

Долго копался в поисках ответа, решил оформить в виде инструкции для себя прежде всего.

Что имеем:

  • сайт videosites.ru,
  • в индексе Яндекса — 131 страница,
  • в индексе Google — 283.

Разница. Первый вопрос — откуда?

Для ответа посмотрим количество страниц в карте сайтаhttps://videosites.ru/sitemap.xml — 97 страниц.

В моем случае Яндекс ухватил лишние страницы, Google — взял страниц значительно больше.

Робот изучает страницы сайта

  • Анализ на проиндексированность страниц в Яндекс согласно карте сайта

Начнем с этого этапа, узнаем есть ли проблемы с индексацией некоторых страниц(в данном случае я проверяю свой блог, на других сайтах проблем куда выше).
Для проверки я нашел по крайней мере два инструмента бесплатный и не бесплатный.

  • Бесплатный способ проверки на индексацию страниц сайта через YCCY

«Поиск» подсказал эту программку, с ней все очень просто. Качаете архив, распаковываете — запускаете и выбираете «Indexator«.
В Excel я копирую содержимое карты сайта https://videosites.ru/sitemap.xml
содержимое карты сайта
Выделяю первую колонку и закидываю ее в YCCY в левое окошко. А дальше все просто — жмем на «Начать проверку» предварительно выбрав Яндекс.
Окошко программы Indexator
Позже получаем список страниц Не проиндексированных в Яндекс в отдельном окне. Так же можно проверить на другие поисковые системы. Программа кривоватая — возникают «Глюк какой-то.» и она останавливается. Поэтому я пользуюсь платным вариантом через Allsubmitter.

  • Платный способ проверки на индексацию страниц сайта через Allsubmitter

Платный — потому что программу нужно приобрести, попробуйте на Демке сделать — возможно все и так получится.

Довольно странно, но я так и не нашел инструкции по работе через Аллсабмиттер, поэтому пришлось поковыряться.
Запускаем программу и переходим в режим — Анализатор бирж Sape.ru, Linkfeed.ru.
Allsubmitter окно Анализатора Бирж
Проваливаемся в «Учетные записи»-«Добавить свои данные» Вставляем Название, URL, и через Обзор выбираем файл для списка ссылок(в текстовой файл сохраняем список страниц из карты сайта, по аналогии с Excel — описано выше). И жмем «Создать» и закрываем окошко.
В Левом меню выбираем наш проект.
Окно проекта в Allsubmitter
Обращаем внимание на подчеркнутое и обведенное. Слева — «Определить параметры сайтов» — именно на нее и нажимаем и выбираем параметр «YAP» и нажимаем «ОК». Запустится процесс анализа страниц вашего сайта на индексацию.
Окно анализа ссылок Allsubmitter
После через фильтр выбираем «YAP», «нет», и жмем на красный «фильтр».
Окно фильтра Allsubmitter
Получаем всего лишь одну страницу — которая не проиндексирована.
Не проиндексированная страница видна через Allsubmitter

  • А дальше анализируем почему так случилось что Яндекс ее не «скушал».

Можно проверить уникальность статьи через ETXT например. Но в данном случае она состоит из двух предложений — я про нее давным давно забыл =)). Вот про такие забытые страницы легко вспомнить прогнав их таким способом.

Например, у вы прогнали и получили список из 1000 страниц.

  • Первые что бы я сделал, загнал бы их в индекс — мало ли — может робот так и не дошел.

Для этого я использую seobudget — и через «Инструменты → Добавление страниц сайта в индекс» — за копейки можно закинуть весь этот список. Через пару АПов уже копать сам сайт, и искать — что не так со страницами.

Данные манипуляции можно проводить и с Google — для этого нужно выбрать просто другую поисковую систему во время анализа. Но как обычно он кушает все — даже то что закрыто от индексации.

Если кто-то предложит варианты как упросить все — с радостью выслушаю, сам потратил пол дня на поиски.

Как проверить индексацию для неподтвержденного сайта мы рассказали ранее. Сейчас же расскажем о проверке с помощью данных, которые предоставляет Яндекс Вебмастер и Google Search Console.

Список проиндексированных страниц

Для того чтобы получить полный список проиндексированных страниц в Яндексе, необходимо зайти в раздел Индексация > Страницы в поиске > вкладка «Все страницы».

Ниже представлен список всех страниц, находящихся в поиске, и возможность выгрузить таблицу в XLS и CSV.

В новой версии Google Search Console также появилась возможность увидеть список всех проиндексированных страниц. Для этого нужно зайти в отчет «Покрытие» (в разделе «Индекс»).

В списке ниже представлена информация о страницах, о которых известно поисковой системе и дополнительная информация по ним.

Детальный список проиндексированных страниц можно получить из списка со статусом «Страница без ошибок».

Проверка индексации

Чтобы обнаружить «мусорные страницы», нужно следовать следующему алгоритму:

  • Получаем полный список страниц, которые должны быть проиндексированы. Для этого мы используем программу Screaming Frog SEO Spider. При правильной настройке файла robots.txt спарсится список всех доступных для индексации страниц.
  • Выгружаем индексируемые страницы сайта из Вебмастеров.
  • Сравниваем попарно получившиеся списки с помощью инструмента «Условное форматирование» в Excel, подсветив все уникальные значения.

В ходе сравнения могут возникнуть следующие ситуации:

  • подсветка страниц, которые есть только в списке парсера. В таком случае нужно диагностировать причину, почему страница не находится в индексе. Если она должна индексироваться, то отправляем ее на переобход.
  • подсветка страниц, которые есть только в индексе. В данном случае пытаемся понять, почему ее нет в списке всех страниц сайта. Возможно, это страница с кодом 404, которая так и не была удалена поисковым роботом или деактивированный элемент, у которого неверно настроен код ответа.

Для удаления страниц в Вебмастере существует инструмент «Удаление страниц из поиска», позволяющий единовременно удалить до 500 отдельных страниц или группу страниц по префиксу в url. Главное, чтобы страницы были закрыты от индексации.

Инструмента для принудительного удаления страниц у Google нет, но можно временно удалить свои URL из результатов поиска.

Для этого необходимо зайти в старую версию Search Console и в левом меню выбрать «Индекс Google» > «Удалить URL-адреса».

Далее указываем URL страницы, которую вы хотите скрыть. Выбираем из списка необходимое действие и отправляем запрос.

Ждите новые заметки в блоге или ищите на нашем сайте.

  1. Значок   / Очков: 5

    28.07.2011 21:21

    Думка вне форума

    Старый оптимист Аватар для Думка

    • Репутация: 367
    • Webmoney BL: ?

    Золотой пост

    Решил отметиться тут полезным «мануальчиком» для форумчан…
    В общем многие задаются вопросом как найти сайты, которые Яндекс не проиндексировал.
    Как в дальнейшем использовать эту инфу спросите вы? Отвечу — в большинстве случаев это тонны контента для ваших будущих сайтов :)

    Начнем.
    Многие знают, что Гугл индексит гораздо больше сайтов чем Яша. Этим мы и воспользуемся.
    Берем вот тут парсер гугла (описание прожки тут)

    Задаем нужные вопросы и собираем выдачу.
    Далее полученный список загоняем в эту программу (описание тут), выставляем проверку проиндексированности в Яше.

    Вуаля — мы получили список сайтов, которые не проиндексированы в Яндексе.
    Пользуйтесь :)

    • 35

    Спасибо сказали:

    Artoha

    (15.09.2011), Asin(29.07.2011), audit(02.10.2014), b00mer(28.01.2012), Cyberflow(30.01.2012), CyCJIuK(10.09.2014), dev1(17.03.2012), Eardor(28.07.2011), Event(15.09.2011), exclus(21.01.2012), feuer81(01.02.2012), Gaya(27.01.2012), genesis33(06.08.2013), grazer(02.09.2011), hromov(26.01.2012), hronny(14.01.2012), intern(31.08.2011), koysara(31.12.2011), Krez(19.12.2011), levko(02.09.2011), lexa82(28.12.2011), maXdonalds(28.07.2011), OKyJIucT(25.09.2011),

    procsi

    (20.02.2012), semyon(01.09.2011), Seopublic(06.12.2013), ShadowCaster(23.12.2012), sinneren(27.12.2011), Tipatot(02.09.2011), vefaro(16.06.2016), VictorSamus(23.12.2012), viczzz(13.11.2012), web31(30.01.2012), Xalson(20.01.2014), zhurik(08.05.2013), Андреев(03.09.2011), Вадим(31.08.2011),

  2. Значок   / Очков: 5 Значок   / Очков: 5 Значок   / Очков: 5

    28.07.2011 21:28

    likos вне форума

    Banned

    • Репутация: 243
    • Webmoney BL: ?

    я писал статью у себя на блоге и анонсировал ее в дайджесте, что проще искать такие сайты на разных биржах ссылок, например в сапе можно выбрать сайты которые под фильтром яндекса и это сделать можно не только в сапе, этот способ намного проще.

    • 1

    Спасибо сказали:

  3. Значок   / Очков: 5

    28.07.2011 21:32

    Думка вне форума

    Старый оптимист Аватар для Думка

    • Репутация: 367
    • Webmoney BL: ?

    в сапе по «запросу» труднее найти нужное, проще и правильнее пользоваться напрямую поисковиками

    • 1

    Спасибо сказали:

  4. Значок   / Очков: 5 Значок   / Очков: 5 Значок   / Очков: 5

    28.07.2011 21:35

    likos вне форума

    Banned

    • Репутация: 243
    • Webmoney BL: ?

    там тоже можно вбить нужные кеи и будет список только с тематических сайтов, но сапа — это для примера, еще куча подобных бирж.

    • 0
  5. Значок   / Очков: 5

    28.07.2011 21:37

    Думка вне форума

    Старый оптимист Аватар для Думка

    • Репутация: 367
    • Webmoney BL: ?

    likos, а подумать? сапа откуда нужные нам данные берет?
    Ответ очевиден :)
    Так что проще и ПРАВИЛЬНЕЕ исключать всегда разных «посредников» :)

    • 0
  6. Значок   / Очков: 5 Значок   / Очков: 5 Значок   / Очков: 5

    28.07.2011 21:48

    likos вне форума

    Banned

    • Репутация: 243
    • Webmoney BL: ?

    сапа выдает сайты из своей базы, из сайтов которые добавлены в систему.
    А по поводу выдачи. Гугл индексирует все, но это не значит, что любой сайт будет в топе, обычно сайты которые банит яндекс, гугл тоже не любит ( бывают исключения ) и вот эти сайты гугл кидает под фильтр, обычно этот фильтр — сопли и такие сайты находятся не в основной выдаче и их обычно не найти на первой сотни страниц.

    • 0
  7. Значок   / Очков: 5

    28.07.2011 21:53

    Думка вне форума

    Старый оптимист Аватар для Думка

    • Репутация: 367
    • Webmoney BL: ?

    сравни базу сапы и гугла :)
    каждый метод имеет место быть, хотя… я считаю, что мой дает гораздо больше нужных результатоd :)

    • 0

    Спасибо сказали:

    Jast(27.01.2012),

  8. Значок   / Очков: 5 Значок   / Очков: 5 Значок   / Очков: 5

    28.07.2011 21:55

    likos вне форума

    Banned

    • Репутация: 243
    • Webmoney BL: ?

    Цитата Сообщение от Думка Посмотреть сообщение

    дает гораздо больше нужных результатоd

    я уже выше обьяснил, что результатов будет больше, но вот нужных — меньше.

    • 0
  9. Значок   / Очков: 5

    28.07.2011 21:57

    Думка вне форума

    Старый оптимист Аватар для Думка

    • Репутация: 367
    • Webmoney BL: ?

    К чему спор? Давай послушаем мнение форумчан, которые и рассудят нас :)

    • 0
  10. 28.07.2011 22:16

    Eardor вне форума

    Дипломник Аватар для Eardor

    • Репутация: 32

    Я, конечно, не судья, но мне кажется, что метод likos более простой, так как отнимает меньше времени.
    Но тут еще один момент забыли упомянуть. Если сайт забанен Яшей, то вряд ли у него будет уникальный, мегаинтересный контент. Скорее всего обычный копипаст или даже синонимайз. Поэтому еще надо все сайты на уникальность контента проверять. А так, спасибо.

    • 4

Индексация — это процесс анализа страниц сайта поисковыми системами и внесение информации о них в индекс (базу данных) для последующего использования её в ранжировании и формировании результатов поиска. Индексация осуществляется с помощью краулера (поискового робота).

Раздуванием индекса называют занесение в индекс поисковой системы большого количества страниц, которые не представляют ценности для пользователей и могут отрицательно сказаться на ранжировании сайта. Это, например:

  • служебные и технические страницы (страницы команд, тестовые страницы и др.);
  • страницы тегов блога (в WordPress);
  • страницы категорий блога;
  • страницы авторов блога;
  • страницы архивов;
  • старые новости и пресс-релизы;
  • тощие целевые страницы (менее 50 слов);
  • автоматически созданные профили пользователей;
  • страницы с благодарностями;
  • страницы результатов поиска по сайту и т.д.

Раздуванием индекса

Проблема раздутого индекса часто встречается на сайтах электронной коммерции с большим количеством товаров и категорий, с фильтрами и сортировкой. Технические ошибки могут привести к появлению множества дублей страниц. В этом случае генерируется большое количество комбинаций URL-адресов, которые в итоге попадают в индекс.

Например, известен случай, когда из-за неправильной настройки программного обеспечения и фильтров каталога 500 карточек товаров дали более 30 тысяч дубликатов. Добавление в корзину, различное отображение каталога, сравнение товаров, сортировка и постраничная разбивка многократно умножали все варианты показа одной и той же информации.

Почему важно знать о раздувании индекса?

Раздутый индекс заставляет поисковых роботов тратить слишком много времени на сканирование ненужных страниц вместо того, чтобы индексировать полезные для вашего бизнеса страницы, которые могут так и не попасть в результаты поиска. В итоге замедляется обработка сайта поисковыми системами, впустую расходуется ценный краулинговый бюджет (лимит, выделенный на индексацию конкретного веб-ресурса), а сайт теряет позиции в результатах поиска.

Кроме того, это создает неудобства для пользователей — они попадают на страницы низкого качества и не получают нужной информации. Это, в свою очередь, приводит к ухудшению поведенческих факторов, снижению продаж и других целевых действий.

Как обнаружить проблему?

Начните с проверки общего количества проиндексированных страниц. Сервис Labrika покажет в отчете по сводному техническому аудиту сайта количество его страниц, включенных в индекс Google или другой поисковой системы, которую вы указали в настройках сервиса. Динамика показателей отображается на графике.

Как обнаружить проблему

При клике по ссылке “Перейти” откроется страница результатов поиска по запросу site:website.com, где будут указаны URL-адреса сайта, которые находятся в индексе данной поисковой системы.

Как обнаружить проблему

Если вы замечаете резкое увеличение количества проиндексированных страниц на своем сайте, это может быть признаком проблемы раздутого индекса.

Чтобы выявить неэффективные страницы, воспользуйтесь отчетом «Страницы без трафика» в разделе поведенческих факторов. Он показывает страницы, на которые пользователи не заходили в течение 6 месяцев. Посмотрите их – это могут быть страницы с ошибкой 404 или другими техническими проблемами, дубли, страницы с малополезным контентом.

Чтобы выявить неэффективные страницы

Проверьте наличие на сайте так называемых «тощих» страниц. Тощими называются страницы с очень маленьким объемом текста (менее 150 слов) или даже совсем без текста, которые поисковые системы могут посчитать бесполезными. Такие страницы имеют низкую ценность и практически не ранжируются.

Кроме этого, они дают большой процент ухода пользователей с сайта. Исключениями могут быть страницы с видео или страницы из портфолио дизайнерских компаний.

Найти тощие страницы можно с помощью соответствующего отчета в разделе «SEО-аудит» на Labrika.

Найти тощие страницы

Вы можете перейти по каждой ссылке и проверить отображаемые в отчете страницы на информативность и полезность. Например, если при нажатии на картинку она открывается в увеличенном виде на новой странице — такие страницы не нужны.

Как исправить раздувание индекса?

После того, как вы определили малоэффективные страницы, которые могут раздувать индекс, у вас есть несколько вариантов решения проблемы.

Удалите ненужные страницы и сделайте переадресацию

Если у вас на сайте большое количество устаревших или тощих страниц с малополезным содержимым, которые вы больше не используете, которые не генерируют трафик и не приводят к конверсиям, удалите их и настройте переадресацию (через 301-й редирект) на другие страницы с подходящим контентом.

Так вы не потеряете авторитет от обратных ссылок, ведущих на удаленные страницы, и уменьшите количество ошибок 404, которые отдают несуществующие страницы.

Заблокируйте индексацию страниц, не подходящих для отображения в результатах поиска

Не все страницы вашего сайта подходят для индексации. Как правило, от поисковых систем закрывают не предназначенную для пользователей информацию, которую не следует показывать в поисковой выдаче.

Чаще всего запрещают индексировать разного рода техническую, служебную и конфиденциальную информацию, При продвижении коммерческого сайта оптимизаторы закрывают от индексации личные кабинеты пользователей, корзину, сравнение товаров, дубли страниц, результаты внутреннего поиска по сайту и т. п.

Как предотвратить индексацию страниц

Запретить индексировать страницы вашего сайта можно по-разному — ниже приводятся несколько простых способов.

Используйте атрибут noindex в метатеге robots

Чтобы заблокировать индексацию страницы, поместите метатег robots с этим атрибутом в раздел <head> HTML-кода страницы, например:

<!DOCTYPE html>

<html><head>

<meta name="robots" content="noindex" />

(…)

</head>

<body>(…)</body>

</html>

Значение name «robots» в приведенном примере указывает, что директива не индексировать страницу применяется ко всем поисковым роботам.

Чтобы предотвратить индексирование вашей страницы только роботом Googlebot, запишите тег следующим образом:

<meta name="googlebot" content="noindex" />

Укажите канонические страницы

Каноническая страница — это страница сайта, которая является предпочтительной для индексации в поисковых системах. Для указания поисковым системам канонической страницы применяется атрибут rel="canonical". То есть, когда поисковый робот находит этот атрибут на какой-либо странице, он индексирует не её, а ту страницу, прописанную в атрибуте.

Указание канонической страницы необходимо, когда документы с идентичным содержанием можно найти по разным адресам – это позволяет избежать точных дублей в индексе поисковой системы. Например, если товар имеет несколько размеров и полностью совпадающее описание, убедитесь, что на карточках с вариантами продукта указана предпочтительная для индексации каноническая страница.

Прописывается атрибут rel="canonical" в блоке <head> HTML-кода страницы следующим образом:

<link rel=”canonical” href=”канонический URL” />

Где «канонический URL» – это полный адрес страницы, которую вы считаете предпочтительной для индексации. Например:

<link rel=”canonical” href=”http://site.ru/razdel/document/"/>

Подробнее о канонических URL вы можете прочитать в отдельной статье нашего сайта.

Добавьте в файл robots.txt директиву «Disallow»

Robots.txt — это специальный файл в корневом каталоге сайта, в котором приводятся рекомендации для поисковых роботов о том, какие страницы можно сканировать, а какие не следует.

Чтобы заблокировать страницу в robots.txt, необходимо воспользоваться директивой «Disallow», указав страницу после косой черты:

User-agent: *

Disallow: /private_file.html

Можно запретить сканирование определенной группы страниц и файлов. Например, чтобы заблокировать индексацию страниц и файлов, начинающихся с ‘/cart’, следует прописать:

Disallow: /cart

URL-адреса, запрещенные файлом robots.txt, могут индексироваться и отображаться в поиске и без сканирования. Например, поисковые системы могут по-прежнему ссылаться на заблокированные вами URL-адреса (показывая только URL, без заголовка или описания), если где-то в Интернете есть ссылки на эти страницы.

Заблокируйте ссылки, которые ведут на страницу

Закройте переход краулера по ссылке на страницу при помощи атрибута nofollow:

<a href="/page" rel="nofollow">текст ссылки</a>

Имейте в виду, что страница будет закрыта от индексации, только если все ссылки на неё будут заблокированы. При наличии хотя бы одной незакрытой ссылки краулер поисковой системы перейдет по ней и проиндексирует страницу.

Воспользуйтесь инструментом удаления URL-адресов в Google Search Console

Добавление директивы noindex может не дать быстрого результата, и Google еще какое-то время будет индексировать страницы. В этом случае целесообразно воспользоваться инструментом удаления URL-адресов. Хотя данный метод носит временный характер, при его использовании страницы удаляются из индекса Google быстро (обычно в течение нескольких часов в зависимости от количества запросов).

Обновите полезные страницы, получающие мало трафика

Чтобы в индексе находились только полезные страницы, нужно также исправить те, которые имеют ценное содержимое, но не получают трафика. Например, можно принять следующие меры:

  • оптимизировать мета-теги Title и Description, заголовки и контент, чтобы страница лучше соответствовала запросу;
  • исправить на странице грубые технические и SEO ошибки;
  • объединить с другими страницами, посвященными той же теме;
  • добавить ссылки с подходящих по тематике авторитетных страниц вашего сайта – например, со страниц товарных категорий, с карточек похожих или дополняющих товаров и т. п.;
  • организовать навигацию на сайте таким образом, чтобы направить больше трафика на нужные страницы.

Убедитесь, что на всех проиндексированных страницах есть ценное для пользователей уникальное содержимое. Если в индекс поисковой системы попадет множество страниц с тощим или одинаковым контентом, это может привести к пессимизации сайта.

Отправьте сайт на переиндексацию

Как переиндексировать сайт в Яндексе

Чтобы изменения вашего сайта быстрее отразились в результатах поиска Яндекса, сообщите об этом индексирующему роботу с помощью инструмента Яндекс.Вебмастер:

  1. В боковом меню Яндекс.Вебмастера на выберите раздел «Индексирование» → «Переобход страниц».
  2. В поле укажите адрес обновленной страницы.
  3. Нажмите кнопку «Отправить».

Яндекс.Вебмастер

Робот Яндекса посетит указанный вами адрес в приоритетном порядке при следующем обращении к сайту. Если вы отправили на переобход страницу, которая ранее уже была в индексе, изменения отобразятся в результатах поиска при очередном обновлении поисковой базы — в течение двух недель.

Отправка на переобход (переиндексацию) страницы в Google Search Console

Переобход страниц в Google Search Console позволяет при наличии изменений на странице отправить их в поисковую систему Google путем повторного сканирования.

Для этого выберите на левой панели сервиса раздел «Проверка URL» и введите URL-адрес нужной страницы в поисковое поле сверху. Затем необходимо кликнуть на кнопку «Запросить индексирование».

Проверка URL

Инструмент проверит страницу на наличие проблем с индексированием. Если таковые не обнаружатся, страница будет добавлена в очередь на индексирование.

Инструмент проверит страницу на наличие проблем с индексированием

После этого в течение 1-2 дней робот вновь просканирует отправленный на переобход URL и внесет изменения в базу.

Чтобы ваш сайт оставался функциональным и полезным ресурсом, регулярно проводите аудит его состояния, проверяйте актуальность контента. Следите, чтобы в индекс не попадали ненужные документы. Это позволит поисковым системам быстро находить те страницы, которые вы продвигаете, улучшить оценку качества вашего сайта и повысить его позиции в результатах поиска.

Понравилась статья? Поделить с друзьями:
  • Как составить цели на год чек лист
  • Как найти свой краденный телефон
  • Как найти время для мужа
  • Как можно найти работу по казахстану
  • Как найти уровень инфляции через ввп