Как найти страницы сайта в поиске Яндекса
Опубликовано: 13.09.2019г.
Летом 2019 года Яндекс модифицировал фильтр по результатам поиска, который отображается кнопкой справа от поисковой строки. В итоге функция «Поиск по сайту» стала недоступна. Яндекс убрал ее из фильтра, но сам оператор поиска по сайту site был сохранен.
Любой пользователь может получить список страниц сайта используя простые действия.
Метод 1. Модификация GET запроса с использованием параметра site
Используем несложную модификацию стандартного запроса к результатам поиска Яндекса
https://yandex.ru/search/?lr=54&text=[запрос]
добавив оператор site через амперсанд & в конец строки
https://yandex.ru/search/?lr=54&text=[запрос]&site=[домен сайта]
Метод 2. Добавление оператора site в поисковую строку
Этот метод более удобен рядовым пользователям. Он не требует вносить изменения в строку запроса, а достаточно просто в поисковой строке к основному запросу добавить через пробел site:[домен сайта].
Полученнный результат ничем не будет отличаться от результата, полученного при использованиии первого метода.
Получение списка всех страниц в поиске
Если есть задача получить список всех страниц сайта, то достаточно в поисковой строке ввести оператор site без запроса.
Получение списка страниц с нескольких сайтов
Для того, чтобы получить результаты поиска с нескольких сайтов, можно воспользоваться дополнительным оператором ИЛИ (|) и круглыми скобками для группировки.
[запрос] ( site:domen1.ru | site:domen2.ru )
В этом случае, поисковый запрос будет выглядеть следующим образом:
Данный метод отлично позволяет оценить уровень ранжирования сайта по запросу в сравнении с другими сайтами.
Как найти свой сайт в поисковой системе
На первый взгляд, проблема поиска своего сайта в интернете кажется бессмысленной. Однако это не так, ведь от позиции сайта в поисковых системах по определенным ключевыми словам определяется авторитетность сайта и количество пользователей сети интернет, переходящих на ваш сайт.
Инструкция
Поисковые системы индексируют, т.е. добавляют в свой каталог, как одностраничные статические сайты, так и огромные порталы и динамические форумы и интернет-магазины. Для того чтобы поисковая система заметила новый адрес в интернете – домен, его необходимо добавить в поисковую машину через так называемую Add Url.Google: http://www.google.com/addurl/Яндекс: http://webmaster.yandex.ru/addurl.xmlRambler: http://www.rambler.ru/doc/add_site_form.shtmlАпорт: http://catalog.aport.ru/rus/add/AddUrl.aspxYahoo!: http://siteexplorer.search.yahoo.com/submitBing! (MSN, Live Search Microsoft): http://www.bing.com/docs/submit.aspxПосле того, как домен был добавлен в Add Url, поисковой машине потребуется от нескольких часов до 2-3 недель, чтобы принять сайт и начать его индексацию. При этом, на сайте, конечно же, должен быть какой-либо текстовый контент.
Если вы хотите анализировать позиции сайта по ключевым словам и фразам и узнать, на какой странице в выдаче находится ваш ресурс при вводе пользователем того или иного запроса, необходимо воспользоваться специальным сервисом. Один из них — «Сеумка» — вычисляет позицию вашего домена в выбранной поисковой системе по заданным ключевикам. «Сеумка» находится по адресу: http://seumka.ru/. Данный сервис, как и многие качественные сервисы по предоставлению SEO-информации, является платным.
Еще один интересный сервис под названием SetLinks является биржой ссылок, которая бесплатно предоставляет услугу мониторинга позиций интернет-ресурса в поисковых машинах. Сайт SEMRush также может показать вам положение страниц вашего сайта в популярных поисковых системах. Сервис расположен по ссылке: http://ru.semrush.com/ru/?db=ru
Некоторую информацию о позициях сайта в поисковых системах по сильным запросам предоставляет сервис Cy-Pr.com: http://www.cy-pr.com/analysis/. Часть информации по сайту предоставляется бесплатно, часть – за деньги.
Войти на сайт
или
Забыли пароль?
Еще не зарегистрированы?
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Воспользоваться функционалом расширенного поиска, например, Гугла. Задать поисковый запрос в Гугле, затем при получении результата зайти в «Настойки — Расширенный поиск»:
Затем на открывшейся странице в соответствующем поле ввести тот сайт, на котором не удосужились сделать функционал поиска, или даже прикрепить чужой:
Будет выполняться поиск только на указанном сайте. Можно указать просто домен для поиска — иногда это удобно, если вы помните, например, что сайт был в домене .net, но простым поиском не можете его найти на первых страницах.
Как поиск находит страницу сайта? Описание процесса индексации страниц сайта
- 05.03.2018
-
Eye
3 467 -
Chatbubbles
0 -
Categories
SEO, Яндекс
Интересные факты
В поисковой базе индексирующего робота на текущий момент содержатся триллионы адресов различных сайтов, ежедневно из этого триллиона робот скачивает миллиарды документов. И во всем этом большом и постоянном процессе очень важно то, как индексирующий робот проиндексирует именно ваш сайт, и как он включит его в результаты поиска.
Что такое индексирование?
Что такое процесс индексирования сайтов? Это процесс получения информации о какой-либо странице, процесс получения контента, и включение этих данных в результаты поиска.
Процесс индексирования
Первый этап – это создание вашего сайта. Вы создали сайт, разместили его на сервере, заполнили каким-либо контентом, сделали ваш сайт доступным для посетителей и для индексирующего робота. Для того, чтобы ваш сайт начал индексироваться, робот прежде всего должен узнать о его существовании.
После того, как появилась информация о том, что в Интернете разместили новый сайт, робот планирует посещение вашего сайта, отправляет определенные запросы к вашему серверу, получает контент от сервера и полученный контент в будущем добавляет в поисковую базу и в результаты поиска. Давайте рассмотрим более подробно.
Откуда робот узнает о страницах:
- с ссылок на других страницах в Интернете;
- с сайта Я.Вебмастер (webmaster.yandex.ru);
- с внутренних ссылок;
- с карты сайта (sitemap);
- с других источников, например, Я.Метрики.
Во-первых, откуда индексирующий робот узнает о страницах, о сайте в целом. Если ваш сайт существует уже некоторое время, уже давно, скорее всего на него присутствуют какие-либо ссылки в Интернете. Например, пользователи часто на форумах обмениваются мнением о покупках в интернет-магазине, еще что-то, пересылают ссылки между собой. Если робот обнаружит такие ссылки, он начнет индексировать ваш сайт.
Но если ваш сайт был создан совсем недавно, скорее всего ссылки на него отсутствуют и поэтому робот не знает о его существовании. Для таких случаев есть сервис Яндекс.Вебмастер, в частности инструмент «сообщить о новом сайте», в который можно добавить адрес вашего нового сайта, и робот начнет его индексировать.
Если мы говорим о внутренних страницах какого-либо ресурса, то естественным считается процесс обнаружения доступных ссылок на те или иные страницы. В частности, робот посещает главную страницу вашего сайта, обнаруживает какие-то доступные ссылки на внутренние страницы и добавляет так же информацию о них в свою базу и начинает также их индексировать.
Существует специальный файл, файл sitemap, который позволяет передавать роботу информацию о страницах вашего сайта.
Так же робот может получать информацию о страницах из других источников. Например, если в Яндекс.Метрике разрешили роботу Метрики передавать индексирующему роботу какие-либо данные, робот может получать информацию, например, о новых страницах, и так же добавлять их в свою базу, индексировать, включать в поиск.
От чего зависит скорость индексирования
От чего зависит то, насколько быстро индексирующий робот включит вашу страницу поисковую выдачу? На самом деле, весь процесс индексирования полностью автоматически проходит, и робот посещает все страницы вашего сайта, каждую отдельную страничку в соответствии со своими внутренними политиками планирования.
Эти политики планирования строятся на основании машинного обучения и зависят от различных факторов. Со временем эти политики в отношении определенного сайта или определенной страницы могут меняться, также основываясь на показаниях q-факторов.
Несколько факторов, которые мне бы хотелось для вас выделить.
Во-первых, это загруженность сервера, на котором находится ваш конкретный сайт. Если на вашем сайте находится большое количество других ресурсов, если сервер не справляется со всеми запросами индексирующего робота, робот начинает посещать ваш сайт реже, поэтому времени потребуется больше для включения страницы в результаты поиска.
Второй фактор, который хочется отметить – это частота обновления вашего сайта в целом и конкретных каких-либо страниц, разделов. Что подразумевается здесь? Если индексирующий робот видит, что на вашем сайте часто добавляется какой-либо новый контент, то есть информация обновляется регулярно, робот начинает посещать эти страницы чаще, потому что считает, что сейчас, спустя какое-то время, он придет опять на сайт и опять контент будет обновлен.
И обратное действие, если какая-либо страница на вашем сайте не менялась уже несколько лет, скорее всего она будет посещаться роботом реже, потому что он приходит один, два, три, несколько раз, видит, что контент совсем не изменился, изменяет политики планирования и к этой страничке вернется уже не через месяц, через неделю, а вернется через полгода, может быть больше, в зависимости от того сколько времени прошло.
Еще один фактор, который мне хотелось бы здесь выделить – это интерес посетителей вашего сайта к материалу, который вы размещаете на нем. Если новости или какие-либо страницы, информационные статьи, которые вы размещаете, интересны посетителям, то они задерживаются на вашем сайте, просматривают материал, продолжают переходить дальше по каким-либо внутренним страницам, робот тоже обращает на это внимание и так же может пересмотреть политики планирования, которые использует при посещении вашего ресурса.
Запрос и получение контента
Мы узнали о вашей странице, положили информацию о ней, о ее существовании в свою базу, запланировали ее, теперь нужно получить ее с сервера. Во-первых, перед началом каждого индексирования робот запрашивает файл robots.txt. Обычно это происходит, примерно, один-два раза в сутки.
По какой причине? Как правило, этот файл нечасто меняется, обновлять его чаще не нужно. Зачем нужно скачивать его каждые десять минут перед загрузкой каких-то страниц? После чего происходит запрос уже конкретной страницы. Это видно по определенным заголовкам, которые отсылает индексирующий робот, среди них хочется выделить несколько.
Это Accept-Language, который указывает на то, какие языки поддерживает индексирующий робот.
Accept-Encoding, который указывает на поддерживаемые форматы сжатия.
User-Agent – это заголовок, который показывает какой именно индексирующий робот к вам пришел. Это может быть обычный индексирующий робот, как в данном случае, это может быть робот-зеркальщик, робот картинок.
Практически у каждого сервиса есть свой робот, их очень много. Именно этот заголовок User-Agent и покажет вам какой робот пришел и запросил эту страницу.
После того, как мы отправили запрос на ваш сервер, сервер возвращает какой-либо ответ. Начинается этот ответ с таких же HTTP заголовков. В зависимости от настроек сервера их может быть больше или меньше. Хочется выделить несколько обязательных.
Во-первых, это HTTP код ответа, который показывает роботу на то, в каком статусе находится запрашиваемая страница. Content-Type покажет роботу на то, какой документ, какой тип будет сейчас передаваться документа, и Content-Encoding, собственно, сжатие страниц, которые используются.
Распространенные HTTP-коды
Помимо HTTP-200 существуют еще и другие HTTP-коды.
Давайте рассмотрим их более подробно.
- HTTP-200 покажет роботу, что страница доступна, можно индексировать, включать в результаты поиска.
- HTTP-301 прямо укажет роботу на то, что страница переехала по какому-либо адресу и необходимо включать именно страницу по новому адресу в результаты поиска.
- Существует близкий по смыслу, но немножко отличается в обработке робота – это HTTP-302, временный редирект. Такое же временное перенаправление 303, они обрабатываются немножко роботом иначе. Если в 301 редиректе робот включает у нас конечную цель, то в данном случае робот будет включать наиболее короткий адрес из всей этой пары редиректов. Если окажется, что, например, старый адрес короче, чем новый адрес, на который происходит перенаправление, робот включит именно страницу по старому адресу.
- HTTP-304, 304 код ответа покажет роботу, что страница не менялась с момента последнего обращения к ней, и контент передаваться не будет, то есть робот получит только HTTP-ответ.
- HTTP-404 говорит о том, что страница была удалена с сайта, больше ее посещать не нужно.
- HTTP-503 сообщает о недоступности сервера в определенный момент времени. Например, если вы проводите какие-то профилактические работы, обновляете CMS, то есть ваш сайт в настоящий момент не доступен.
Добавление контента в базу
Помимо HTTP-ответа, возвращаемого вашим сервером, естественно, сервер должен вернуть еще и содержимое самой страницы. Так страница выглядит для обычного посетителя.
Красивенько, картиночки, какой-то текст, но в глазах робота все выглядит иначе.
Это начало контента, примерно маленькая часть, мы даже до текстового содержимого здесь не дошли. Видно, что куча скриптов находится, различных мета-тегов, информации. Из всего этого робот делает определенную выжимку и забирает только то, что необходимо ему, и что будет использоваться при ранжировании вашего сайта и отображении его в результатах поиска.
Робот получает HTTP-код, чтобы узнать, в каком статусе находится страница, получает текстовое содержимое, выделяет из этого содержимого различные мета-теги и получает так же дополнительные исходящие ссылки на какие-то внутренние и внешние страницы, которые так же нужно будет индексировать, если робот о них только узнал.
Индексирующий робот
После того, как получили контент от вашего сервера, его нужно включить в результаты поиска. В зависимости от того, какой индексирующий робот посещает ваш сайт, ваш сайт или ваша страница могут появиться в разное время. Здесь зависит от типа робота.
Условно можно разделить этих роботов на два типа:
- Быстрый индексирующий робот, который посещает страницы, как правило, новостных ресурсов, ресурсов, у которых информация быстро теряет свою актуальность, то есть те страницы, которые нужно проиндексировать именно сейчас и включить их в результаты поиска. Быстрый робот обходит не все ресурсы, не все страницы и не все страницы попадают в поисковую выдачу, но, если страница была проиндексирована быстрым роботом, как правило, она попадает в поиск в течение от нескольких минут до нескольких часов.
- Основной индексирующий робот посещает все страницы, которые ему известны, запрашивает весь контент и включает эти странички в результаты поисковой выдачи. Единственное, что это происходит медленнее и это происходит с обновлениями поисковой базы, как правило, на это требуется около двух недель.
Два робота, в зависимости от того, кто посетил, ваша страничка появилась в результатах поиска.
Как узнать, что страница в поиске
Как узнать, что та или иная страница появилась в поисковой выдаче? Лично я рекомендую использовать сервис Яндекс.Вебмастер, в частности инструмент «Проверить URL». Потому что помимо данных о том, что страница находится в выдаче, можно получить информацию и о том, когда робот последний раз посещал эту страницу, какой документ находится в результатах поиска, если страница отсутствует в выдаче, а также узнать по каким причинам она отсутствует в выдаче, будут ли какие-то рекомендации как ускорить процесс обхода и обновления данных.
Так же можно использовать несколько операторов для поисковой выдачи.
Первый оператор – это оператор url:, с помощью которого можно узнать, находится та или иная страница в результатах поиска. То есть сделали запрос вида url:*адрес страницы*, вставили в поисковую строку, нажали кнопочку «поиск» и получили результат. Если есть страница, значит страница находится в поиске. Все просто.
Так же есть оператор site:, с помощью которого можно узнать сколько страниц вообще вашего ресурса проиндексировано, какие страницы находятся в поиске. Здесь все то же самое. Вставили адрес сайта и оператор site:, ввели в строку запроса, нажали кнопку «поиск» и посмотрели результаты поисковой выдачи.
Источник — Александр Смирнов.
К вашим услугам кеш поисковиков, интернет-архивы и не только.
Если, открыв нужную страницу, вы видите ошибку или сообщение о том, что её больше нет, ещё не всё потеряно. Мы собрали сервисы, которые сохраняют копии общедоступных страниц и даже целых сайтов. Возможно, в одном из них вы найдёте весь пропавший контент.
Поисковые системы
Поисковики автоматически помещают копии найденных веб‑страниц в специальный облачный резервуар — кеш. Система часто обновляет данные: каждая новая копия перезаписывает предыдущую. Поэтому в кеше отображаются хоть и не актуальные, но, как правило, довольно свежие версии страниц.
1. Кеш Google
Чтобы открыть копию страницы в кеше Google, сначала найдите ссылку на эту страницу в поисковике с помощью ключевых слов. Затем кликните на стрелку рядом с результатом поиска и выберите «Сохранённая копия».
Есть и альтернативный способ. Введите в браузерную строку следующий URL: http://webcache.googleusercontent.com/search?q=cache:lifehacker.ru
. Замените lifehacker.ru на адрес нужной страницы и нажмите Enter.
Сайт Google →
2. Кеш «Яндекса»
Введите в поисковую строку адрес страницы или соответствующие ей ключевые слова. После этого кликните по стрелке рядом с результатом поиска и выберите «Сохранённая копия».
Сайт «Яндекса» →
3. Кеш Bing
В поисковике Microsoft тоже можно просматривать резервные копии. Наберите в строке поиска адрес нужной страницы или соответствующие ей ключевые слова. Нажмите на стрелку рядом с результатом поиска и выберите «Кешировано».
Сайт Bing →
4. Кеш Yahoo
Если вышеупомянутые поисковики вам не помогут, проверьте кеш Yahoo. Хоть эта система не очень известна в Рунете, она тоже сохраняет копии русскоязычных страниц. Процесс почти такой же, как в других поисковиках. Введите в строке Yahoo адрес страницы или ключевые слова. Затем кликните по стрелке рядом с найденным ресурсом и выберите Cached.
Сайт Yahoo →
Специальные архивные сервисы
Указав адрес нужной веб‑страницы в любом из этих сервисов, вы можете увидеть одну или даже несколько её архивных копий, сохранённых в разное время. Таким образом вы можете просмотреть, как менялось содержимое той или иной страницы. В то же время архивные сервисы создают новые копии гораздо реже, чем поисковики, из‑за чего зачастую содержат устаревшие данные.
Чтобы проверить наличие копий в одном из этих архивов, перейдите на его сайт. Введите URL нужной страницы в текстовое поле и нажмите на кнопку поиска.
1. Wayback Machine (Web Archive)
Сервис Wayback Machine, также известный как Web Archive, является частью проекта Internet Archive. Здесь хранятся копии веб‑страниц, книг, изображений, видеофайлов и другого контента, опубликованного на открытых интернет‑ресурсах. Таким образом основатели проекта хотят сберечь культурное наследие цифровой среды.
Сайт Wayback Machine →
2. Arhive.Today
Arhive.Today — аналог предыдущего сервиса. Но в его базе явно меньше ресурсов, чем у Wayback Machine. Да и отображаются сохранённые версии не всегда корректно. Зато Arhive.Today может выручить, если вдруг в Wayback Machine не окажется копий необходимой вам страницы.
Сайт Arhive.Today →
3. WebCite
Ещё один архивный сервис, но довольно нишевый. В базе WebCite преобладают научные и публицистические статьи. Если вдруг вы процитируете чей‑нибудь текст, а потом обнаружите, что первоисточник исчез, можете поискать его резервные копии на этом ресурсе.
Сайт WebCite →
Другие полезные инструменты
Каждый из этих плагинов и сервисов позволяет искать старые копии страниц в нескольких источниках.
1. CachedView
Сервис CachedView ищет копии в базе данных Wayback Machine или кеше Google — на выбор пользователя.
Сайт CachedView →
2. CachedPage
Альтернатива CachedView. Выполняет поиск резервных копий по хранилищам Wayback Machine, Google и WebCite.
Сайт CachedPage →
3. Web Archives
Это расширение для браузеров Chrome и Firefox ищет копии открытой в данный момент страницы в Wayback Machine, Google, Arhive.Today и других сервисах. Причём вы можете выполнять поиск как в одном из них, так и во всех сразу.
Читайте также 💻🔎🕸
- 3 специальных браузера для анонимного сёрфинга
- Что делать, если тормозит браузер
- Как включить режим инкогнито в разных браузерах
- 6 лучших браузеров для компьютера
- Как установить расширения в мобильный «Яндекс.Браузер» для Android