Загрузить PDF
Загрузить PDF
Практически в каждом веб-браузере есть инструмент «Найти», с помощью которого на веб-страницах можно искать слова или фразы. Также можно пользоваться операторами поисковой системы Google, чтобы искать слова или фразы на всех страницах определенного сайта. Операторами можно пользоваться вместе с инструментом «Найти», чтобы найти слово на любом сайте.
-
1
Нажмите Ctrl+F (в Windows) или ⌘ Command+F (в Mac OS X). В большинстве браузеров откроется поисковая строка. Также можно нажать «Правка» > «Найти» (в Internet Explorer) или «☰» > «Найти» (в Chrome и Firefox).
- В мобильном браузере опция «Найти» находится в меню браузера. Эта опция может называться «Найти на странице».
- Если вы пользуетесь Safari для iOS, удалите адрес, который находится в адресной строке, и введите в ней слово, которое нужно найти. В результатах поиска выберите «На этой странице».[1]
-
2
Введите слово, которое нужно найти на странице. Браузер найдет совпадения по мере ввода слова или фразы. Регистр букв не учитывается, когда вы пользуетесь инструментом «Найти».
-
3
Переместитесь по найденным совпадениям. Для этого нажимайте кнопки «Следующее» или «Предыдущее» у строки поиска. Так вы переместитесь к следующему или предыдущему совпадению, которое будет выделено.[2]
Реклама
-
1
Откройте сайт Google в браузере. С помощью Google можно искать слова и фразы на всех страницах конкретного сайта. Так вы найдете совпадения на больших или сложных веб-сайтах.
-
2
Введите site:адрес_сайта в поисковой строке Google. Этот оператор сообщает Google, что поиск будет осуществлен только на страницах указанного сайта.
-
3
Введите слово или фразу, которую вы хотите найти, после адреса сайта. Можно ввести одно слово или фразу. Чтобы Google искал точное слово (или фразу), заключите его в кавычки.[3]
- Чтобы найти слово «банан» на любой странице сайта ru.wikihow.com, введите site:ru.wikihow.com банан. Чтобы найти точную фразу «есть банан» на любой странице сайта ru.wikihow.com, введите site:ru.wikihow.com "есть банан".
-
4
Перейдите на страницу из результатов поиска и воспользуйтесь инструментом «Найти». Google найдет все страницы, соответствующие вашему поисковому запросу, но когда вы перейдете на страницу, совпадающие слова или фразы выделены не будут. Поэтому нужно воспользоваться инструментом «Найти», чтобы переместиться к нужному слову или фразе.
- Про инструмент «Найти» можно узнать в первом разделе этой статьи.
Реклама
Об этой статье
Эту страницу просматривали 44 281 раз.
Была ли эта статья полезной?
Как находить только нужную информацию.
Каждый день во всемирной паутине генерируются миллионы новых документов, фото, видео и других данных. Искать в сети с каждым годом все сложнее, то и дело попадаешь на что-то ненужное, устаревшее или протянутое рекламщиками.
Поисковая система Google давно предлагает использовать специальные операторы поиска для более точного совпадения, кроме того, поисковый гигант может самостоятельно давать ответы на некоторые вопросы без переадресации на другие сайты.
Вспоминаем забытые способы поиска и узнаем новые вместе:
1. Поиск точного совпадения
Зачем: для того, чтобы поисковик не искал каждую часть нашего запроса по отдельности, используем кавычки. Например, вы помните название статьи, песни или фильма, которые ищите. Поиск будет осуществляться по точному совпадению фразы с заданным порядком слов.
Как: заключаем весь запрос в кавычки
2. Исключаем слово из поиска
Зачем: чтобы убрать ненужные данные в выдаче можно запретить искать определенные слова. Для этого после ввода самого запроса перечисляем признаки, которые нам не нужны.
Как: перед каждым из них ставим тире без пробела.
3. Ищем на определенном сайте
Зачем: чтобы начать поиск на нужном сайте без перехода на него, следует воспользоваться оператором поиска “site:”. Обратите внимание, что адрес сайта должен быть указан полностью.
Как: поисковый_запрос site:полный_адрес_сайта
4. Поиск похожего сайта
Зачем: понравился определенный ресурс и захотелось найти нечто подобное, воспользуйтесь оператором “related:”. Google найдет главные страницы похожих сайтов без рекламной мишуры, и накрученных результатов.
Как: related:полный_адрес_сайта
5. Поиск по типу файлов
Зачем: если хотите получить данные именно в определенном формате. Например, фотографию в *.png, книгу в *.fb2, ролик в *.mp4 и т.д
Как: поисковый_запрос filetype:формат_файла
6. Поиск в диапазоне
Зачем: если ищем что-то, связанное с цифрами, и хотим ограничить круг поиска. Нас могут интересовать данные о датах, цене, времени, координатах и т.д. Чтобы не получать в выдаче лишнюю информацию – ограничиваем поиск.
Как: поисковый_запрос число_от..число_до
7. Поиск забытого слова
Зачем: забыли часть слова или фразы, не можете вспомнить цитату или отгадать кроссворд. Лучший способ поиска по фразе, с недостающими словами – использование оператора “*”
Как: пишем * вместо каждого неизвестного слова
8. Поиск любого из вариантов
Зачем: чтобы ввести запрос один раз для поиска по нескольким критериям. Если нам не обязательно искать два, три или более вариантов, а нужен один из них.
Как: используем оператор OR
9. Поиск с наличием всех вариантов
Зачем: если нужны данные о нескольких объектах, упоминающихся в одном контексте. В случае такого поиска будут выведены варианты только с наличием всех искомых слов.
Как: искомое_слово_1 & искомое_слово_2
10. Поиск профилей в социальных сетях
Зачем: так можно сразу найти страницы искомого человека, сайта или бренда. Поиск будет проводиться по профилям с указанным именем.
Как: @искомое_имя
11. Поиск записей с хештегом
Зачем: так можно увидеть самые популярные записи на определенную тему, разумеется, среди тех, кто проставляет указанный в поиске тег.
Как: #хештег
12. Время в любом городе
Зачем: чтобы быстро узнать, спит ваш друг по WOT из Америки или уже проснулся, посмотреть, когда начинается рабочий день у иностранных партнеров или просто из любопытства.
Как: время Город
13. Погода в любом городе
Зачем: аналогичный поисковый запрос, но уже с погодой в указанном регионе.
Как: погода Город
14. Время заката или рассвета
Зачем: у каждого могут быть свои специфические причины узнавать время заката или рассвета в своем городе или любом другом населенном пункте на Земле.
Как: восход/закат Город
15. Котировки акций
Зачем: для тех, кто играет на бирже, следит за новостями или просто интересуется, как обстоят дела у Apple или Tesla.
Как: акции Бренд
16. Курс валюты
Зачем: сейчас данный вопрос интересует многих. Так почему бы не искать эту информацию быстро и просто без лишних сайтов.
Как: курс Валюта (отображается курс иностранной валюты к местной)
17. Конвертер величин
Зачем: можно использовать приложения для iPhone и iPad, но проще – избавиться от ненужных программ на устройстве и использовать конвертацию от Google. Тут же можно узнавать курсы любых валют, а не только местной.
Как: единица_1 единица_2
18. Калькулятор
Зачем: еще один способ быстро заменить соответствующее приложение на смартфоне, программу на компьютере или виджет в центре уведомлений. После первого поиска получим удобный онлайн-калькулятор.
Как: используем любые математические знаки +,-,*,/ с цифрами
19. Значение слова
Зачем: конечно, этот способ не заменит емкую и полезную заметку из толкового словаря, но быстро найти нужное значение, понять о чем идет речь или узнать ударение можно.
Как: значение искомое_слово
20. Перевод слова на иностранный изык
Зачем: простой способ перевести слово с русского на английский. После первого запроса откроется онлайн-переводчик от Google, в котором можно будет выбирать любые направления перевода, прослушать произношение или использовать голосовой ввод.
Как: translate искомое_слово_на_русском_языке
Бесполезные поисковые запросы
Программисты Google – тоже люди, им тоже свойственно веселиться и разыгрывать пользователей. Вот они и добавили несколько «пасхалок» в стандартный поиск Google. Попробуйте осуществить поиск по таким запросам:
- do a barrel roll;
- askew;
- zerg rush;
- atari breakout (на странице поиска картинок);
Конечно, это – далеко не все поисковые возможности Google и скрытые послания от разработчиков. С удовольствием выслушаем другие полезные и интересные варианты.
(10 голосов, общий рейтинг: 5.00 из 5)
🤓 Хочешь больше? Подпишись на наш Telegram.
iPhones.ru
Как находить только нужную информацию. Каждый день во всемирной паутине генерируются миллионы новых документов, фото, видео и других данных. Искать в сети с каждым годом все сложнее, то и дело попадаешь на что-то ненужное, устаревшее или протянутое рекламщиками. Поисковая система Google давно предлагает использовать специальные операторы поиска для более точного совпадения, кроме того, поисковый гигант…
- Google,
- Это интересно
Артём Суровцев
@artyomsurovtsev
Люблю технологии и все, что с ними связано. Верю, что величайшие открытия человечества еще впереди!
Самый простой способ выполнить поиск на странице в браузере — комбинация клавиш, позволяющие быстро вызвать интересующий инструмент. С помощью такого метода можно в течение двух-трех секунд найти требуемый текст на странице или отыскать определенное слово. Это удобно, когда у пользователя перед глазами большой объем информации, а поиск необходимо осуществить в сжатые сроки.
Горячие клавиши для поиска на странице для браузеров
Лучший помощники в вопросе поиска в браузере — горячие клавиши. С их помощью можно быстро решить поставленную задачу, не прибегая к сбору требуемой информации через настройки или иными доступным способами. Рассмотрим решения для популярных веб-обозревателей.
Internet Explorer
Пользователи Internet Explorer могут выполнить поиск по тексту с помощью комбинации клавиш Ctrl+ F. В появившемся окне необходимо ввести интересующую фразу, букву или словосочетание.
Google Chrome
Зная комбинацию клавиш, можно осуществить быстрый поиск текста в браузере на странице. Это актуально для всех веб-проводников, в том числе Google Chrome. Чтобы найти какую-либо информацию на страничке, необходимо нажать комбинацию клавиш Ctrl+F.
Mozilla Firefox
Для поиска какой-либо информации на странице жмите комбинацию клавиш Ctrl+F. В нижней части веб-обозревателя появляется поисковая строка. В нее можно ввести фразу или предложение, которое будет подсвечено в тексте на странице. Если необходимо найти ссылку через панель быстрого поиска, нужно войти в упомянутую панель, прописать символ в виде одиночной кавычки и нажать комбинацию клавиш Ctrl+G.
Opera
Теперь рассмотрим особенности поиска на странице в браузере Опера (сочетание клавиш). Для нахождения нужной информации необходимо нажать на Ctrl+F. Чтобы найти следующее значение, используется комбинация клавиш Ctrl+G, а предыдущее — Ctrl+Shift+G.
Yandex
Для поиска какой-либо информации через браузер Яндекс, необходимо нажать комбинацию клавиш Ctrl+F. После этого появляется окно, с помощью которого осуществляется поиск слова или фразы. При вводе система находит все слова с одинаковым или похожим корнем. Чтобы увидеть точные совпадения по запросу, нужно поставить отметку в поле «Точное совпадение».
Safari
Теперь рассмотрим, как открыть в браузере Сафари поиск по словам на странице. Для решения задачи жмите на комбинацию клавиш Command+F. В этом случае появляется окно, в которое нужно ввести искомое слово или словосочетание. Для перехода к следующему вхождению жмите на кнопку Далее с левой стороны.
Промежуточный вывод
Как видно из рассмотренной выше информации, в большинстве веб-проводников комбинации клавиш для вызова поиска идентична. После появления поискового окна необходимо прописать слово или нужную фразу, а далее перемещаться между подсвеченными элементами. Принципы управления немного отличаются в зависимости от программы, но в целом ситуация похожа для всех программ.
Как найти слова или фразы через настройки в разных браузерах?
Если под рукой нет информации по комбинациям клавиш, нужно знать, как включить поиск в браузере по словам через меню. Здесь также имеются свои особенности для каждого из веб-проводников.
Google Chrome
Чтобы осуществить поиск какого-либо слова или фразы на странице, можно использовать комбинацию клавиш (об этом мы говорили выше) или воспользоваться функцией меню. Для поиска на странице сделайте такие шаги:
- откройте Гугл Хром;
- жмите значок Еще (три точки справа вверху);
- выберите раздел Найти;
- введите запрос и жмите на Ввод;
- совпадения отображаются желтой заливкой (в случае прокрутки страницы эта особенность сохраняется).
Если нужно в браузере открыть строку поиска, найти картинку или фразу, сделайте такие шаги:
- откройте веб-проводник;
- выделите фразу, слово или картинку;
- жмите на выделенную область правой кнопкой мышки;
- осуществите поиск по умолчанию (выберите Найти в Гугл или Найти это изображение).
Применение этих инструментов позволяет быстро отыскать требуемые сведения.
Обратите внимание, что искать можно таким образом и в обычной вкладе и перейдя в режим инкогнито в Хроме.
Mozilla Firefox
Чтобы в браузере найти слово или фразу, можно задействовать комбинацию клавиш (об этом упоминалось выше) или использовать функционал меню. Для поиска текста сделайте следующее:
- жмите на три горизонтальные полоски;
- кликните на ссылку Найти на этой странице;
- введите поисковую фразу в появившееся поле (система сразу подсвечивает искомые варианты);
- выберите одно из доступных действий — Х (Закрыть поисковую панель), Следующее или Предыдущее (стрелки), Подсветить все (указываются интересующие вхождения), С учетом регистра (поиск становится чувствительным к регистру) или Только слова целиком (указывается те варианты, которые полностью соответствуют заданным).
Если браузер не находит ни одного варианта, он выдает ответ Фраза не найдена.
Выше мы рассмотрели, как найти нужный текст на странице в браузере Mozilla Firefox. Но бывают ситуации, когда требуется отыскать только ссылку на странице. В таком случае сделайте следующее:
- наберите символ одиночной кавычки, которая открывает панель быстрого поиска ссылок;
- укажите нужную фразу в поле Быстрый поиск (выбирается первая ссылка, содержащая нужную фразу);
- жмите комбинацию клавиш Ctrl+G для подсветки очередной ссылки с поисковой фразы.
Чтобы закрыть указанную панель, выждите некоторое время, а после жмите на кнопку Esc на клавиатуре или жмите на любое место в браузере.
Возможности Firefox позволяют осуществлять поиск на странице в браузере по мере набора фразы. Здесь комбинация клавиш не предусмотрена, но можно использовать внутренние возможности веб-проводника. Для начала нужно включить эту функцию. Сделайте следующее:
- жмите на три горизонтальные полоски и выберите Настройки;
- войдите в панель Общие;
- перейдите к Просмотру сайтов;
- поставьте отметку в поле Искать текст на странице по мере набора;
- закройте страничку.
Теперь рассмотрим, как искать в браузере по словам в процессе ввода. Для этого:
- наберите поисковую фразу при просмотре сайта;
- обратите внимание, что первое совпадение выделится;
- жмите Ctrl+G для получения следующего совпадения.
Закрытие строки поиска происходит по рассмотренному выше принципу — путем нажатия F3 или комбинации клавиш Ctrl+G.
Opera
Если нужно что-то найти на странице, которая открыта в Опере, можно воспользоваться комбинацией клавиш или кликнуть на значок «О» слева вверху. Во втором случае появится список разделов, в котором необходимо выбрать Найти. Появится поле, куда нужно ввести слово или фразу для поиска. По мере ввода система сразу осуществляет поиск, показывает число совпадений и подсвечивает их. Для перемещения между выявленными словами необходимо нажимать стрелочки влево или вправо.
Yandex
Иногда бывают ситуации, когда нужен поиск по буквам, словам или фразам в браузере Yandex. В таком случае также можно воспользоваться комбинацией клавиш или встроенными возможностями. Сделайте такие шаги:
- жмите на три горизонтальные полоски;
- войдите в раздел Дополнительно;
- выберите Найти.
В появившемся поле введите информацию, которую нужно отыскать. Если не устанавливать дополнительные настройки, система находит грамматические формы искомого слова. Для получения точного совпадения нужно поставить отметку в соответствующем поле. Браузер Яндекс может переключать раскладку поискового запроса в автоматическом режиме. Если он не выполняет этих действий, сделайте следующее:
- жмите на три горизонтальные полоски;
- войдите в Настройки;
- перейдите в Инструменты;
- жмите на Поиск на странице;
- проверьте факт включения интересующей опции (поиск набранного запроса в другой раскладке, если поиск не дал результатов).
Safari
В этом браузере доступна опция умного поиска. Достаточно ввести одну или несколько букв в специальном поле, чтобы система отыскала нужные фрагменты.
Итоги
Владея рассмотренными знаниями, можно скачать любой браузер и выполнить поиск нужного слова на странице. Наиболее удобный путь — использование комбинации клавиш, но при желании всегда можно использовать внутренние возможности веб-проводника.
Отличного Вам дня!
Как массово проверить уникальность страниц между собой?
Время на прочтение
4 мин
Количество просмотров 2.6K
Вопрос определения дубликатов страниц и уникальности текстов внутри сайта является одним из важнейших в списке работ по техническому аудиту. От наличия дублей страниц зависит как общее самочувствие сайта, так и распределение краулингового бюджета поисковых систем, возможно расходуемого впустую, да и в целом ранжирование сайта может испытывать трудности из-за большого числа дублированного контента.
И если для проверки уникальности отдельных текстов в интернете можно легко найти большое количество сервисов и программ, то для проверки уникальности группы определенных URL между собой подобных сервисов существует немного, хотя сама по себе проблема является важной и актуальной.
Какие варианты проблем с не уникальным контентом могут быть на сайте?
1. Одинаковый контент по разным URL
Обычно это страница с параметрами и та же самая страница, но в виде ЧПУ (человеко-понятный УРЛ).
Пример:
- site.ru/index.php?page=contacts
- site.ru/contacts/
Это достаточно распространенная проблема, когда после настройки ЧПУ, программист забывает настроить 301 редирект со страниц с параметрами на страницы с ЧПУ.
Данная проблема легко решается любым веб-краулером, которой сравнив все страницы сайта, обнаружит, что у двух из них одинаковые хеш-коды (MD5), и сообщит об этом оптимизатору, которому останется поставить задачу, все тому же программисту, на установку 301 редиректов на страницы с ЧПУ.
Однако не все бывает так однозначно.
2. Частично совпадающий контент
Подобный контент образуется, когда мы имеем разные страницы, но, по сути, с одинаковым или схожим содержанием.
Пример 1
На сайте по продаже пластиковых окон, в новостном разделе, копирайтер год назад написал поздравление с 8 марта на 500 знаков и дал скидку на установку пластиковых окон в 15%.
А в этом году контент-менеджер решил «схалтурить», и не мудрствуя лукаво, нашел ранее размещенную новость со скидками, скопировал ее, и заменил размер скидки с 15 на 12% + дописал от себя 50 знаков с дополнительными поздравлениями.
Таким образом, в итоге мы имеем два практически идентичных текста, схожих на 90%, которые сами по себе являются нечеткими дубликатами, одному из которых по хорошему требуется срочный рерайт.
При этом, для сервисов технического аудита данные две новости будут разными, так как ЧПУ на сайте уже настроены, и контрольные суммы у страниц не совпадут, как ни крути.
В итоге, какая из страниц будет ранжироваться лучше – большой вопрос…
Но новости они такие – имеют свойство быстро устаревать, поэтому возьмем пример поинтереснее.
Пример 2
У вас на сайте есть статейный раздел, либо вы ведете личную страничку по своему хобби / увлечению, например это «кулинарный блог».
И, к примеру, в вашем блоге набралось уже порядком статей за все время, более 100, а то и вовсе несколько сотен. И вот вы подобрали тему и написали новую статью, разместили, а впоследствии каким-то образом обнаружилось, что аналогичная статья уже была написана 3 года назад. Хотя, казалось бы, перед написанием контента вы пробежались по всем названиям, открыли Excel со списком размещенных тем, но не учли, что прошлое содержимое статьи «Как приготовить горячий шоколад в домашних условиях» сильно совпадает с только что написанным материалом. А при проверке этих двух статей в одном из онлайн-сервисов получается, что они уникальны между собой на 78%, что, конечно же, не хорошо, так как из-за частичного дублирования возникает канибализация поисковых запросов между этими страницами, а у поисковой системы возникают вопросы и сложности при ранжировании подобных дублей.
Само собой, каждый копирайтер после написания статьи должен проверять ее на уникальность в одном из известных сервисов, а каждый СЕОшник обязан проверять новый контент при размещении на сайте в тех же сервисах.
Но, что делать, если к вам только-только пришел сайт на продвижение и вам нужно оперативно проверить все его страницы на дубли? Либо, на заре открытия своего блога вы написали кучу однотипных статей, а теперь, скорее всего из-за них сайт начал проседать. Не проверять же руками 100500 страниц в онлайн сервисах, добавляя на проверку каждую статью руками и затрачивая на это уйму времени.
BatchUniqueChecker
Именно для этого мы и создали программу BatchUniqueChecker, предназначенную для пакетной проверки группы URL на уникальность между собой.
Принцип работы BatchUniqueChecker прост: по заранее подготовленному списку URL программа скачивает их содержимое, получает PlainText (текстовое содержимое страницы без блока HEAD и без HTML-тегов), а затем при помощи алгоритма шинглов сравнивает их друг с другом.
Таким образом, при помощи шинглов мы определяем уникальность страниц и можем вычислить как полные дубли страниц с 0% уникальностью, так и частичные дубли с различными степенями уникальности текстового содержимого.
В настройках программы есть возможность ручной установки размера шингла (шингл – это количество слов в тексте, контрольная сумма которых попеременно сравнивается с последующими группами внахлест). Мы рекомендуем установить значение = 4. Для больших объемов текста от 5 и выше. Для относительно небольших объемов – 3-4.
Значимые тексты
Помимо полнотекстового сравнения контента, в программу заложен алгоритм «умного» вычленения так называемых «значимых» текстов.
То есть, из HTML-кода страницы мы получаем только лишь контент, содержащийся в тегах H1-H6, P, PRE и LI. За счет этого мы как бы отбрасываем все «не значимое», например, контент из меню навигации сайтов, текст из футера либо бокового меню.
В результате подобных манипуляций мы получаем только «значимый» контент страниц, который при сравнении покажет более точные результаты уникальности с другими страницами.
Список страниц для их последующего анализа можно добавить несколькими способами: вставить из буфера обмена, загрузить из текстового файла, либо импортировать из Sitemap.xml с диска вашего компьютера.
Программа BatchUniqueChecker бесплатна, занимает всего 4 Мб в архиве и не требует установки.
Таким образом, благодаря многопоточной работе, проверка сотни и более URL может занять всего несколько минут, на что в ручном режиме, через онлайн-сервисы, мог бы уйти день или более.
Все это поможет существенно сэкономить время сео-специалиста на поиск дубликатов и облегчить анализ качества текстов внутри вашего сайта.
Вопрос определения дубликатов страниц и уникальности текстов внутри сайта является одним из важнейших в списке работ по техническому аудиту.
От наличия дублей страниц зависит как общее самочувствие сайта, так и распределение краулингового бюджета поисковых систем, возможно расходуемого впустую, да и в целом ранжирование сайта может испытывать трудности из-за большого числа дублированного контента.
И если для проверки уникальности отдельных текстов в интернете можно легко найти большое количество сервисов и программ, то для проверки уникальности группы определенных URL между собой подобных сервисов существует не много, хотя сама по себе проблема является важной и актуальной.
Какие варианты проблем с не уникальным контентом могут быть на сайте?
1. Одинаковый контент по разным URL.
Обычно это страница с параметрами и та же самая страница, но в виде ЧПУ (человеко-понятный УРЛ).
Пример:
- https://site.ru/index.php?page=contacts
- https://site.ru/contacts/
Это достаточно распространенная проблема, когда после настройки ЧПУ, программист забывает настроить 301 редирект со страниц с параметрами на страницы с ЧПУ.
Данная проблема легко решается любым веб-краулером, которой сравнив все страницы сайта, обнаружит, что у двух из них одинаковые хеш-коды (MD5), и сообщит об этом оптимизатору, которому останется поставить задачу, все тому же программисту, на установку 301 редиректов на страницы с ЧПУ.
Однако не все бывает так однозначно.
2. Частично совпадающий контент.
Подобный контент образуется, когда мы имеем разные страницы, но, по сути, с одинаковым или схожим содержанием.
Пример 1
На сайте по продаже пластиковых окон, в новостном разделе, копирайтер год назад написал поздравление с 8 марта на 500 знаков и дал скидку на установку пластиковых окон в 15%.
А в этом году контент-менеджер решил «схалтурить», и не мудрствуя лукаво, нашел ранее размещенную новость со скидками, скопировал ее, и заменил размер скидки с 15 на 12% + дописал от себя 50 знаков с дополнительными поздравлениями.
Таким образом, в итоге мы имеем два практически идентичных текста, схожих на 90%, которые сами по себе являются нечеткими дубликатами, одному из которых по хорошему требуется срочный рерайт.
При этом, для сервисов технического аудита данные две новости будут разными, так как ЧПУ на сайте уже настроены, и контрольные суммы у страниц не совпадут, как ни крути.
В итоге, какая из страниц будет ранжироваться лучше – большой вопрос…
Но новости они такие – имеют свойство быстро устаревать, поэтому возьмем пример поинтереснее.
Пример 2
У вас на сайте есть статейный раздел, либо вы ведете личную страничку по своему хобби / увлечению, например это «кулинарный блог».
И, к примеру, в вашем блоге набралось уже порядком статей за все время, более 100, а то и вовсе несколько сотен. И вот вы подобрали тему и написали новую статью, разместили, а впоследствии каким-то образом обнаружилось, что аналогичная статья уже была написана 3 года назад. Хотя, казалось бы, перед написанием контента вы пробежались по всем названиям, открыли Excel со списком размещенных тем, но не учли, что прошлое содержимое статьи «Как приготовить горячий шоколад в домашних условиях» сильно совпадает с только что написанным материалом. А при проверке этих двух статей в одном из онлайн-сервисов получается, что они уникальны между собой на 78%, что, конечно же, не хорошо, так как из-за частичного дублирования возникает канибализация поисковых запросов между этими страницами, а у поисковой системы возникают вопросы и сложности при ранжировании подобных дублей.
Само собой, каждый копирайтер после написания статьи должен проверять ее на уникальность в одном из известных сервисов, а каждый СЕОшник обязан проверять новый контент при размещении на сайте в тех же сервисах.
Но, что делать, если к вам только-только пришел сайт на продвижение и вам нужно оперативно проверить все его страницы на дубли? Либо, на заре открытия своего блога вы написали кучу однотипных статей, а теперь, скорее всего из-за них сайт начал проседать. Не проверять же руками 100500 страниц в онлайн сервисах, добавляя на проверку каждую статью руками и затрачивая на это уйму времени.
BatchUniqueChecker
Именно для этого мы и создали программу BatchUniqueChecker, предназначенную для пакетной проверки группы URL на уникальность между собой.
Принцип работы BatchUniqueChecker прост: по заранее подготовленному списку URL программа скачивает их содержимое, получает PlainText (текстовое содержимое страницы без блока HEAD и без HTML-тегов), а затем при помощи алгоритма шинглов сравнивает их друг с другом.
Таким образом, при помощи шинглов мы определяем уникальность страниц и можем вычислить как полные дубли страниц с 0% уникальностью, так и частичные дубли с различными степенями уникальности текстового содержимого.
В настройках программы есть возможность ручной установки размера шингла (шингл – это количество слов в тексте, контрольная сумма которых попеременно сравнивается с последующими группами внахлест). Мы рекомендуем установить значение = 4. Для больших объемов текста от 5 и выше. Для относительно небольших объемов – 3-4.
Значимые тексты
Помимо полнотекстового сравнения контента, в программу заложен алгоритм «умного» вычленения так называемых «значимых» текстов.
То есть, из HTML-кода страницы мы получаем только лишь контент, содержащийся в тегах H1-H6, P, PRE и LI. За счет этого мы как бы отбрасываем все «не значимое», например, контент из меню навигации сайтов, текст из футера либо бокового меню.
В результате подобных манипуляций мы получаем только «значимый» контент страниц, который при сравнении покажет более точные результаты уникальности с другими страницами.
Список страниц для их последующего анализа можно добавить несколькими способами: вставить из буфера обмена, загрузить из текстового файла, либо импортировать из Sitemap.xml с диска вашего компьютера.
Программа BatchUniqueChecker бесплатна, занимает всего 4 Мб в архиве и не требует установки.
Таким образом, благодаря многопоточной работе, проверка сотни и более URL может занять всего несколько минут, на что в ручном режиме, через онлайн-сервисы, мог бы уйти день или более.
Все это поможет существенно сэкономить время сео-специалиста на поиск дубликатов и облегчить анализ качества текстов внутри вашего сайта.