Как найти совпадение на сайте


Загрузить PDF


Загрузить PDF

Практически в каждом веб-браузере есть инструмент «Найти», с помощью которого на веб-страницах можно искать слова или фразы. Также можно пользоваться операторами поисковой системы Google, чтобы искать слова или фразы на всех страницах определенного сайта. Операторами можно пользоваться вместе с инструментом «Найти», чтобы найти слово на любом сайте.

  1. Изображение с названием Search for a Word on a Webpage Step 1

    1

    Нажмите Ctrl+F (в Windows) или Command+F (в Mac OS X). В большинстве браузеров откроется поисковая строка. Также можно нажать «Правка» > «Найти» (в Internet Explorer) или «☰» > «Найти» (в Chrome и Firefox).

    • В мобильном браузере опция «Найти» находится в меню браузера. Эта опция может называться «Найти на странице».
    • Если вы пользуетесь Safari для iOS, удалите адрес, который находится в адресной строке, и введите в ней слово, которое нужно найти. В результатах поиска выберите «На этой странице».[1]
  2. Изображение с названием Search for a Word on a Webpage Step 2

    2

    Введите слово, которое нужно найти на странице. Браузер найдет совпадения по мере ввода слова или фразы. Регистр букв не учитывается, когда вы пользуетесь инструментом «Найти».

  3. Изображение с названием Search for a Word on a Webpage Step 3

    3

    Переместитесь по найденным совпадениям. Для этого нажимайте кнопки «Следующее» или «Предыдущее» у строки поиска. Так вы переместитесь к следующему или предыдущему совпадению, которое будет выделено.[2]

    Реклама

  1. Изображение с названием Search for a Word on a Webpage Step 4

    1

    Откройте сайт Google в браузере. С помощью Google можно искать слова и фразы на всех страницах конкретного сайта. Так вы найдете совпадения на больших или сложных веб-сайтах.

  2. Изображение с названием Search for a Word on a Webpage Step 5

    2

    Введите site:адрес_сайта в поисковой строке Google. Этот оператор сообщает Google, что поиск будет осуществлен только на страницах указанного сайта.

  3. Изображение с названием Search for a Word on a Webpage Step 6

    3

    Введите слово или фразу, которую вы хотите найти, после адреса сайта. Можно ввести одно слово или фразу. Чтобы Google искал точное слово (или фразу), заключите его в кавычки.[3]

    • Чтобы найти слово «банан» на любой странице сайта ru.wikihow.com, введите site:ru.wikihow.com банан. Чтобы найти точную фразу «есть банан» на любой странице сайта ru.wikihow.com, введите site:ru.wikihow.com "есть банан".
  4. Изображение с названием Search for a Word on a Webpage Step 7

    4

    Перейдите на страницу из результатов поиска и воспользуйтесь инструментом «Найти». Google найдет все страницы, соответствующие вашему поисковому запросу, но когда вы перейдете на страницу, совпадающие слова или фразы выделены не будут. Поэтому нужно воспользоваться инструментом «Найти», чтобы переместиться к нужному слову или фразе.

    • Про инструмент «Найти» можно узнать в первом разделе этой статьи.

    Реклама

Об этой статье

Эту страницу просматривали 44 281 раз.

Была ли эта статья полезной?

Как находить только нужную информацию.

Каждый день во всемирной паутине генерируются миллионы новых документов, фото, видео и других данных. Искать в сети с каждым годом все сложнее, то и дело попадаешь на что-то ненужное, устаревшее или протянутое рекламщиками.

Поисковая система Google давно предлагает использовать специальные операторы поиска для более точного совпадения, кроме того, поисковый гигант может самостоятельно давать ответы на некоторые вопросы без переадресации на другие сайты.

Вспоминаем забытые способы поиска и узнаем новые вместе:

1. Поиск точного совпадения

Зачем: для того, чтобы поисковик не искал каждую часть нашего запроса по отдельности, используем кавычки. Например, вы помните название статьи, песни или фильма, которые ищите. Поиск будет осуществляться по точному совпадению фразы с заданным порядком слов.

Как: заключаем весь запрос в кавычки

GoogleSearch_1

2. Исключаем слово из поиска

Зачем: чтобы убрать ненужные данные в выдаче можно запретить искать определенные слова. Для этого после ввода самого запроса перечисляем признаки, которые нам не нужны.

Как: перед каждым из них ставим тире без пробела.

GoogleSearch_2

3. Ищем на определенном сайте

Зачем: чтобы начать поиск на нужном сайте без перехода на него, следует воспользоваться оператором поиска “site:”. Обратите внимание, что адрес сайта должен быть указан полностью.

Как: поисковый_запрос site:полный_адрес_сайта

GoogleSearch_3

4. Поиск похожего сайта

Зачем: понравился определенный ресурс и захотелось найти нечто подобное, воспользуйтесь оператором “related:”. Google найдет главные страницы похожих сайтов без рекламной мишуры, и накрученных результатов.

Как: related:полный_адрес_сайта

GoogleSearch_4

5. Поиск по типу файлов

Зачем: если хотите получить данные именно в определенном формате. Например, фотографию в *.png, книгу в *.fb2, ролик в *.mp4 и т.д

Как: поисковый_запрос filetype:формат_файла

GoogleSearch_5

6. Поиск в диапазоне

Зачем: если ищем что-то, связанное с цифрами, и хотим ограничить круг поиска. Нас могут интересовать данные о датах, цене, времени, координатах и т.д. Чтобы не получать в выдаче лишнюю информацию – ограничиваем поиск.

Как: поисковый_запрос число_от..число_до

GoogleSearch_6

7. Поиск забытого слова

Зачем: забыли часть слова или фразы, не можете вспомнить цитату или отгадать кроссворд. Лучший способ поиска по фразе, с недостающими словами – использование оператора “*”

Как: пишем * вместо каждого неизвестного слова

GoogleSearch_7

8. Поиск любого из вариантов

Зачем: чтобы ввести запрос один раз для поиска по нескольким критериям. Если нам не обязательно искать два, три или более вариантов, а нужен один из них.

Как: используем оператор OR

GoogleSearch_8

9. Поиск с наличием всех вариантов

Зачем: если нужны данные о нескольких объектах, упоминающихся в одном контексте. В случае такого поиска будут выведены варианты только с наличием всех искомых слов.

Как: искомое_слово_1 & искомое_слово_2

GoogleSearch_9

10. Поиск профилей в социальных сетях

Зачем: так можно сразу найти страницы искомого человека, сайта или бренда. Поиск будет проводиться по профилям с указанным именем.

Как: @искомое_имя

GoogleSearch_10

11. Поиск записей с хештегом

Зачем: так можно увидеть самые популярные записи на определенную тему, разумеется, среди тех, кто проставляет указанный в поиске тег.

Как: #хештег

GoogleSearch_11

12. Время в любом городе

Зачем: чтобы быстро узнать, спит ваш друг по WOT из Америки или уже проснулся, посмотреть, когда начинается рабочий день у иностранных партнеров или просто из любопытства.

Как: время Город

GoogleSearch_12

13. Погода в любом городе

Зачем: аналогичный поисковый запрос, но уже с погодой в указанном регионе.

Как: погода Город

GoogleSearch_13

14. Время заката или рассвета

Зачем: у каждого могут быть свои специфические причины узнавать время заката или рассвета в своем городе или любом другом населенном пункте на Земле.

Как: восход/закат Город

GoogleSearch_14

15. Котировки акций

Зачем: для тех, кто играет на бирже, следит за новостями или просто интересуется, как обстоят дела у Apple или Tesla.

Как: акции Бренд

GoogleSearch_15

16. Курс валюты

Зачем: сейчас данный вопрос интересует многих. Так почему бы не искать эту информацию быстро и просто без лишних сайтов.

Как: курс Валюта (отображается курс иностранной валюты к местной)

GoogleSearch_16

17. Конвертер величин

Зачем: можно использовать приложения для iPhone и iPad, но проще – избавиться от ненужных программ на устройстве и использовать конвертацию от Google. Тут же можно узнавать курсы любых валют, а не только местной.

Как: единица_1 единица_2

GoogleSearch_17

18. Калькулятор

Зачем: еще один способ быстро заменить соответствующее приложение на смартфоне, программу на компьютере или виджет в центре уведомлений. После первого поиска получим удобный онлайн-калькулятор.

Как: используем любые математические знаки +,-,*,/ с цифрами

GoogleSearch_18

19. Значение слова

Зачем: конечно, этот способ не заменит емкую и полезную заметку из толкового словаря, но быстро найти нужное значение, понять о чем идет речь или узнать ударение можно.

Как: значение искомое_слово

GoogleSearch_19

20. Перевод слова на иностранный изык

Зачем: простой способ перевести слово с русского на английский. После первого запроса откроется онлайн-переводчик от Google, в котором можно будет выбирать любые направления перевода, прослушать произношение или использовать голосовой ввод.

Как: translate искомое_слово_на_русском_языке

GoogleSearch_20

Бесполезные поисковые запросы

Программисты Google – тоже люди, им тоже свойственно веселиться и разыгрывать пользователей. Вот они и добавили несколько «пасхалок» в стандартный поиск Google. Попробуйте осуществить поиск по таким запросам:

  • do a barrel roll;
  • askew;
  • zerg rush;
  • atari breakout (на странице поиска картинок);

Конечно, это – далеко не все поисковые возможности Google и скрытые послания от разработчиков. С удовольствием выслушаем другие полезные и интересные варианты.

1 Звезд2 Звезды3 Звезды4 Звезды5 Звезд (10 голосов, общий рейтинг: 5.00 из 5)

🤓 Хочешь больше? Подпишись на наш Telegram.

undefined

iPhones.ru


Как находить только нужную информацию. Каждый день во всемирной паутине генерируются миллионы новых документов, фото, видео и других данных. Искать в сети с каждым годом все сложнее, то и дело попадаешь на что-то ненужное, устаревшее или протянутое рекламщиками. Поисковая система Google давно предлагает использовать специальные операторы поиска для более точного совпадения, кроме того, поисковый гигант…

  • Google,
  • Это интересно

Артём Суровцев avatar

Артём Суровцев

@artyomsurovtsev

Люблю технологии и все, что с ними связано. Верю, что величайшие открытия человечества еще впереди!

Самый простой способ выполнить поиск на странице в браузере — комбинация клавиш, позволяющие быстро вызвать интересующий инструмент. С помощью такого метода можно в течение двух-трех секунд найти требуемый текст на странице или отыскать определенное слово. Это удобно, когда у пользователя перед глазами большой объем информации, а поиск необходимо осуществить в сжатые сроки.

Горячие клавиши для поиска на странице для браузеров

Лучший помощники в вопросе поиска в браузере — горячие клавиши. С их помощью можно быстро решить поставленную задачу, не прибегая к сбору требуемой информации через настройки или иными доступным способами. Рассмотрим решения для популярных веб-обозревателей.

Internet Explorer

Пользователи Internet Explorer могут выполнить поиск по тексту с помощью комбинации клавиш Ctrl+ F. В появившемся окне необходимо ввести интересующую фразу, букву или словосочетание.

Google Chrome

Зная комбинацию клавиш, можно осуществить быстрый поиск текста в браузере на странице.  Это актуально для всех веб-проводников, в том числе Google Chrome. Чтобы найти какую-либо информацию на страничке, необходимо нажать комбинацию клавиш Ctrl+F.

Mozilla Firefox

Для поиска какой-либо информации на странице жмите комбинацию клавиш Ctrl+F. В нижней части веб-обозревателя появляется поисковая строка. В нее можно ввести фразу или предложение, которое будет подсвечено в тексте на странице. Если необходимо найти ссылку через панель быстрого поиска, нужно войти в упомянутую панель, прописать символ в виде одиночной кавычки и нажать комбинацию клавиш Ctrl+G.

Opera

Теперь рассмотрим особенности поиска на странице в браузере Опера (сочетание клавиш). Для нахождения нужной информации необходимо нажать на Ctrl+F. Чтобы найти следующее значение, используется комбинация клавиш Ctrl+G, а предыдущее — Ctrl+Shift+G.

Yandex

Для поиска какой-либо информации через браузер Яндекс, необходимо нажать комбинацию клавиш Ctrl+F. После этого появляется окно, с помощью которого осуществляется поиск слова или фразы. При вводе система находит все слова с одинаковым или похожим корнем. Чтобы увидеть точные совпадения по запросу, нужно поставить отметку в поле «Точное совпадение».

Safari

Теперь рассмотрим, как открыть в браузере Сафари поиск по словам на странице. Для решения задачи жмите на комбинацию клавиш Command+F. В этом случае появляется окно, в которое нужно ввести искомое слово или словосочетание. Для перехода к следующему вхождению жмите на кнопку Далее с левой стороны.

Промежуточный вывод

Как видно из рассмотренной выше информации, в большинстве веб-проводников комбинации клавиш для вызова поиска идентична. После появления поискового окна необходимо прописать слово или нужную фразу, а далее перемещаться между подсвеченными элементами. Принципы управления немного отличаются в зависимости от программы, но в целом ситуация похожа для всех программ.

Как найти слова или фразы через настройки в разных браузерах?

Если под рукой нет информации по комбинациям клавиш, нужно знать, как включить поиск в браузере по словам через меню. Здесь также имеются свои особенности для каждого из веб-проводников.

Google Chrome

Чтобы осуществить поиск какого-либо слова или фразы на странице, можно использовать комбинацию клавиш (об этом мы говорили выше) или воспользоваться функцией меню. Для поиска на странице сделайте такие шаги:

  • откройте Гугл Хром;
  • жмите значок Еще (три точки справа вверху);
  • выберите раздел Найти;

  • введите запрос и жмите на Ввод;
  • совпадения отображаются желтой заливкой (в случае прокрутки страницы эта особенность сохраняется).

Если нужно в браузере открыть строку поиска, найти картинку или фразу, сделайте такие шаги:

  • откройте веб-проводник;
  • выделите фразу, слово или картинку;
  • жмите на выделенную область правой кнопкой мышки;
  • осуществите поиск по умолчанию (выберите Найти в Гугл или Найти это изображение).

Применение этих инструментов позволяет быстро отыскать требуемые сведения.

Обратите внимание, что искать можно таким образом и в обычной вкладе и перейдя в режим инкогнито в Хроме.

Mozilla Firefox

Чтобы в браузере найти слово или фразу, можно задействовать комбинацию клавиш (об этом упоминалось выше) или использовать функционал меню. Для поиска текста сделайте следующее:

  • жмите на три горизонтальные полоски;
  • кликните на ссылку Найти на этой странице;
  • введите поисковую фразу в появившееся поле (система сразу подсвечивает искомые варианты);
  • выберите одно из доступных действий — Х (Закрыть поисковую панель), Следующее или Предыдущее (стрелки), Подсветить все (указываются интересующие вхождения), С учетом регистра (поиск становится чувствительным к регистру) или Только слова целиком (указывается те варианты, которые полностью соответствуют заданным).

Если браузер не находит ни одного варианта, он выдает ответ Фраза не найдена.

Выше мы рассмотрели, как найти нужный текст на странице в браузере Mozilla Firefox. Но бывают ситуации, когда требуется отыскать только ссылку на странице. В таком случае сделайте следующее:

  1. наберите символ одиночной кавычки, которая открывает панель быстрого поиска ссылок;
  2. укажите нужную фразу в поле Быстрый поиск (выбирается первая ссылка, содержащая нужную фразу);
  3. жмите комбинацию клавиш Ctrl+G для подсветки очередной ссылки с поисковой фразы.

Чтобы закрыть указанную панель, выждите некоторое время, а после жмите на кнопку Esc на клавиатуре или жмите на любое место в браузере.

Возможности Firefox позволяют осуществлять поиск на странице в браузере по мере набора фразы. Здесь комбинация клавиш не предусмотрена, но можно использовать внутренние возможности веб-проводника. Для начала нужно включить эту функцию. Сделайте следующее:

  • жмите на три горизонтальные полоски и выберите Настройки;
  • войдите в панель Общие;
  • перейдите к Просмотру сайтов;
  • поставьте отметку в поле Искать текст на странице по мере набора;
  • закройте страничку.

Теперь рассмотрим, как искать в браузере по словам в процессе ввода. Для этого:

  1. наберите поисковую фразу при просмотре сайта;
  2. обратите внимание, что первое совпадение выделится;
  3. жмите Ctrl+G для получения следующего совпадения.

Закрытие строки поиска происходит по рассмотренному выше принципу — путем нажатия F3 или комбинации клавиш Ctrl+G.

Opera

Если нужно что-то найти на странице, которая открыта в Опере, можно воспользоваться комбинацией клавиш или кликнуть на значок «О» слева вверху. Во втором случае появится список разделов, в котором необходимо выбрать Найти. Появится поле, куда нужно ввести слово или фразу для поиска. По мере ввода система сразу осуществляет поиск, показывает число совпадений и подсвечивает их. Для перемещения между выявленными словами необходимо нажимать стрелочки влево или вправо.

Yandex

Иногда бывают ситуации, когда нужен поиск по буквам, словам или фразам в браузере Yandex. В таком случае также можно воспользоваться комбинацией клавиш или встроенными возможностями. Сделайте такие шаги:

  • жмите на три горизонтальные полоски;
  • войдите в раздел Дополнительно;
  • выберите Найти.

В появившемся поле введите информацию, которую нужно отыскать. Если не устанавливать дополнительные настройки, система находит грамматические формы искомого слова. Для получения точного совпадения нужно поставить отметку в соответствующем поле. Браузер Яндекс может переключать раскладку поискового запроса в автоматическом режиме. Если он не выполняет этих действий, сделайте следующее:

  • жмите на три горизонтальные полоски;
  • войдите в Настройки;

  • перейдите в Инструменты;
  • жмите на Поиск на странице;
  • проверьте факт включения интересующей опции (поиск набранного запроса в другой раскладке, если поиск не дал результатов).

Safari

В этом браузере доступна опция умного поиска. Достаточно ввести одну или несколько букв в специальном поле, чтобы система отыскала нужные фрагменты.

Итоги

Владея рассмотренными знаниями, можно скачать любой браузер и выполнить поиск нужного слова на странице. Наиболее удобный путь — использование комбинации клавиш, но при желании всегда можно использовать внутренние возможности веб-проводника.

Отличного Вам дня!

Как массово проверить уникальность страниц между собой?

Время на прочтение
4 мин

Количество просмотров 2.6K

Вопрос определения дубликатов страниц и уникальности текстов внутри сайта является одним из важнейших в списке работ по техническому аудиту. От наличия дублей страниц зависит как общее самочувствие сайта, так и распределение краулингового бюджета поисковых систем, возможно расходуемого впустую, да и в целом ранжирование сайта может испытывать трудности из-за большого числа дублированного контента.

image

И если для проверки уникальности отдельных текстов в интернете можно легко найти большое количество сервисов и программ, то для проверки уникальности группы определенных URL между собой подобных сервисов существует немного, хотя сама по себе проблема является важной и актуальной.

Какие варианты проблем с не уникальным контентом могут быть на сайте?

1. Одинаковый контент по разным URL

Обычно это страница с параметрами и та же самая страница, но в виде ЧПУ (человеко-понятный УРЛ).

Пример:

  • site.ru/index.php?page=contacts
  • site.ru/contacts/

Это достаточно распространенная проблема, когда после настройки ЧПУ, программист забывает настроить 301 редирект со страниц с параметрами на страницы с ЧПУ.

Данная проблема легко решается любым веб-краулером, которой сравнив все страницы сайта, обнаружит, что у двух из них одинаковые хеш-коды (MD5), и сообщит об этом оптимизатору, которому останется поставить задачу, все тому же программисту, на установку 301 редиректов на страницы с ЧПУ.

image

Однако не все бывает так однозначно.

2. Частично совпадающий контент

Подобный контент образуется, когда мы имеем разные страницы, но, по сути, с одинаковым или схожим содержанием.

Пример 1

На сайте по продаже пластиковых окон, в новостном разделе, копирайтер год назад написал поздравление с 8 марта на 500 знаков и дал скидку на установку пластиковых окон в 15%.

А в этом году контент-менеджер решил «схалтурить», и не мудрствуя лукаво, нашел ранее размещенную новость со скидками, скопировал ее, и заменил размер скидки с 15 на 12% + дописал от себя 50 знаков с дополнительными поздравлениями.

Таким образом, в итоге мы имеем два практически идентичных текста, схожих на 90%, которые сами по себе являются нечеткими дубликатами, одному из которых по хорошему требуется срочный рерайт.

image

При этом, для сервисов технического аудита данные две новости будут разными, так как ЧПУ на сайте уже настроены, и контрольные суммы у страниц не совпадут, как ни крути.

В итоге, какая из страниц будет ранжироваться лучше – большой вопрос…

Но новости они такие – имеют свойство быстро устаревать, поэтому возьмем пример поинтереснее.

Пример 2

image

У вас на сайте есть статейный раздел, либо вы ведете личную страничку по своему хобби / увлечению, например это «кулинарный блог».

И, к примеру, в вашем блоге набралось уже порядком статей за все время, более 100, а то и вовсе несколько сотен. И вот вы подобрали тему и написали новую статью, разместили, а впоследствии каким-то образом обнаружилось, что аналогичная статья уже была написана 3 года назад. Хотя, казалось бы, перед написанием контента вы пробежались по всем названиям, открыли Excel со списком размещенных тем, но не учли, что прошлое содержимое статьи «Как приготовить горячий шоколад в домашних условиях» сильно совпадает с только что написанным материалом. А при проверке этих двух статей в одном из онлайн-сервисов получается, что они уникальны между собой на 78%, что, конечно же, не хорошо, так как из-за частичного дублирования возникает канибализация поисковых запросов между этими страницами, а у поисковой системы возникают вопросы и сложности при ранжировании подобных дублей.

image

Само собой, каждый копирайтер после написания статьи должен проверять ее на уникальность в одном из известных сервисов, а каждый СЕОшник обязан проверять новый контент при размещении на сайте в тех же сервисах.

Но, что делать, если к вам только-только пришел сайт на продвижение и вам нужно оперативно проверить все его страницы на дубли? Либо, на заре открытия своего блога вы написали кучу однотипных статей, а теперь, скорее всего из-за них сайт начал проседать. Не проверять же руками 100500 страниц в онлайн сервисах, добавляя на проверку каждую статью руками и затрачивая на это уйму времени.

BatchUniqueChecker

Именно для этого мы и создали программу BatchUniqueChecker, предназначенную для пакетной проверки группы URL на уникальность между собой.

image

Принцип работы BatchUniqueChecker прост: по заранее подготовленному списку URL программа скачивает их содержимое, получает PlainText (текстовое содержимое страницы без блока HEAD и без HTML-тегов), а затем при помощи алгоритма шинглов сравнивает их друг с другом.

Таким образом, при помощи шинглов мы определяем уникальность страниц и можем вычислить как полные дубли страниц с 0% уникальностью, так и частичные дубли с различными степенями уникальности текстового содержимого.

image

В настройках программы есть возможность ручной установки размера шингла (шингл – это количество слов в тексте, контрольная сумма которых попеременно сравнивается с последующими группами внахлест). Мы рекомендуем установить значение = 4. Для больших объемов текста от 5 и выше. Для относительно небольших объемов – 3-4.

image

Значимые тексты

Помимо полнотекстового сравнения контента, в программу заложен алгоритм «умного» вычленения так называемых «значимых» текстов.

То есть, из HTML-кода страницы мы получаем только лишь контент, содержащийся в тегах H1-H6, P, PRE и LI. За счет этого мы как бы отбрасываем все «не значимое», например, контент из меню навигации сайтов, текст из футера либо бокового меню.

В результате подобных манипуляций мы получаем только «значимый» контент страниц, который при сравнении покажет более точные результаты уникальности с другими страницами.

image

Список страниц для их последующего анализа можно добавить несколькими способами: вставить из буфера обмена, загрузить из текстового файла, либо импортировать из Sitemap.xml с диска вашего компьютера.

Программа BatchUniqueChecker бесплатна, занимает всего 4 Мб в архиве и не требует установки.

Таким образом, благодаря многопоточной работе, проверка сотни и более URL может занять всего несколько минут, на что в ручном режиме, через онлайн-сервисы, мог бы уйти день или более.

Все это поможет существенно сэкономить время сео-специалиста на поиск дубликатов и облегчить анализ качества текстов внутри вашего сайта.

Вопрос определения дубликатов страниц и уникальности текстов внутри сайта является одним из важнейших в списке работ по техническому аудиту.

От наличия дублей страниц зависит как общее самочувствие сайта, так и распределение краулингового бюджета поисковых систем, возможно расходуемого впустую, да и в целом ранжирование сайта может испытывать трудности из-за большого числа дублированного контента.

И если для проверки уникальности отдельных текстов в интернете можно легко найти большое количество сервисов и программ, то для проверки уникальности группы определенных URL между собой подобных сервисов существует не много, хотя сама по себе проблема является важной и актуальной.

Какие варианты проблем с не уникальным контентом могут быть на сайте?

1. Одинаковый контент по разным URL.

Обычно это страница с параметрами и та же самая страница, но в виде ЧПУ (человеко-понятный УРЛ).

Пример:

  • https://site.ru/index.php?page=contacts
  • https://site.ru/contacts/

Это достаточно распространенная проблема, когда после настройки ЧПУ, программист забывает настроить 301 редирект со страниц с параметрами на страницы с ЧПУ.

Данная проблема легко решается любым веб-краулером, которой сравнив все страницы сайта, обнаружит, что у двух из них одинаковые хеш-коды (MD5), и сообщит об этом оптимизатору, которому останется поставить задачу, все тому же программисту, на установку 301 редиректов на страницы с ЧПУ.

Однако не все бывает так однозначно.

2. Частично совпадающий контент.

Подобный контент образуется, когда мы имеем разные страницы, но, по сути, с одинаковым или схожим содержанием.

Пример 1

На сайте по продаже пластиковых окон, в новостном разделе, копирайтер год назад написал поздравление с 8 марта на 500 знаков и дал скидку на установку пластиковых окон в 15%.

А в этом году контент-менеджер решил «схалтурить», и не мудрствуя лукаво, нашел ранее размещенную новость со скидками, скопировал ее, и заменил размер скидки с 15 на 12% + дописал от себя 50 знаков с дополнительными поздравлениями.

Таким образом, в итоге мы имеем два практически идентичных текста, схожих на 90%, которые сами по себе являются нечеткими дубликатами, одному из которых по хорошему требуется срочный рерайт.

При этом, для сервисов технического аудита данные две новости будут разными, так как ЧПУ на сайте уже настроены, и контрольные суммы у страниц не совпадут, как ни крути.

В итоге, какая из страниц будет ранжироваться лучше – большой вопрос…

Но новости они такие – имеют свойство быстро устаревать, поэтому возьмем пример поинтереснее.

Пример 2

У вас на сайте есть статейный раздел, либо вы ведете личную страничку по своему хобби / увлечению, например это «кулинарный блог».

И, к примеру, в вашем блоге набралось уже порядком статей за все время, более 100, а то и вовсе несколько сотен. И вот вы подобрали тему и написали новую статью, разместили, а впоследствии каким-то образом обнаружилось, что аналогичная статья уже была написана 3 года назад. Хотя, казалось бы, перед написанием контента вы пробежались по всем названиям, открыли Excel со списком размещенных тем, но не учли, что прошлое содержимое статьи «Как приготовить горячий шоколад в домашних условиях» сильно совпадает с только что написанным материалом. А при проверке этих двух статей в одном из онлайн-сервисов получается, что они уникальны между собой на 78%, что, конечно же, не хорошо, так как из-за частичного дублирования возникает канибализация поисковых запросов между этими страницами, а у поисковой системы возникают вопросы и сложности при ранжировании подобных дублей.

Само собой, каждый копирайтер после написания статьи должен проверять ее на уникальность в одном из известных сервисов, а каждый СЕОшник обязан проверять новый контент при размещении на сайте в тех же сервисах.

Но, что делать, если к вам только-только пришел сайт на продвижение и вам нужно оперативно проверить все его страницы на дубли? Либо, на заре открытия своего блога вы написали кучу однотипных статей, а теперь, скорее всего из-за них сайт начал проседать. Не проверять же руками 100500 страниц в онлайн сервисах, добавляя на проверку каждую статью руками и затрачивая на это уйму времени.

BatchUniqueChecker

Именно для этого мы и создали программу BatchUniqueChecker, предназначенную для пакетной проверки группы URL на уникальность между собой.

Принцип работы BatchUniqueChecker прост: по заранее подготовленному списку URL программа скачивает их содержимое, получает PlainText (текстовое содержимое страницы без блока HEAD и без HTML-тегов), а затем при помощи алгоритма шинглов сравнивает их друг с другом.

Таким образом, при помощи шинглов мы определяем уникальность страниц и можем вычислить как полные дубли страниц с 0% уникальностью, так и частичные дубли с различными степенями уникальности текстового содержимого.

В настройках программы есть возможность ручной установки размера шингла (шингл – это количество слов в тексте, контрольная сумма которых попеременно сравнивается с последующими группами внахлест). Мы рекомендуем установить значение = 4. Для больших объемов текста от 5 и выше. Для относительно небольших объемов – 3-4.

Значимые тексты

Помимо полнотекстового сравнения контента, в программу заложен алгоритм «умного» вычленения так называемых «значимых» текстов.

То есть, из HTML-кода страницы мы получаем только лишь контент, содержащийся в тегах H1-H6, P, PRE и LI. За счет этого мы как бы отбрасываем все «не значимое», например, контент из меню навигации сайтов, текст из футера либо бокового меню.

В результате подобных манипуляций мы получаем только «значимый» контент страниц, который при сравнении покажет более точные результаты уникальности с другими страницами.

Список страниц для их последующего анализа можно добавить несколькими способами: вставить из буфера обмена, загрузить из текстового файла, либо импортировать из Sitemap.xml с диска вашего компьютера.

Программа BatchUniqueChecker бесплатна, занимает всего 4 Мб в архиве и не требует установки.

Таким образом, благодаря многопоточной работе, проверка сотни и более URL может занять всего несколько минут, на что в ручном режиме, через онлайн-сервисы, мог бы уйти день или более.

Все это поможет существенно сэкономить время сео-специалиста на поиск дубликатов и облегчить анализ качества текстов внутри вашего сайта.

Понравилась статья? Поделить с друзьями:
  • Как найти девочку в пензе
  • 0x0040fb80 samp как исправить
  • Как найти лучшего друга в контакте
  • Как найти многоугольник в миллиметрах
  • Как найти определенную фразу в ворде