Вебархива как найти сайт - Исправление недочетов и поиск решений вместе с Examum.ru

Если вы знаете URL нужной страницы, то задача очень простая. Просто введите этот URL в после поиска в ВебАрхиве. В календаре будут видны сохранения этого URL. Если ничего не покажет, значит данный URL никогда не был сохранен.

Если URL не известен, то по ключевым словам найти будет крайне сложно. У Веб-Архива есть поиск по тексту, но он настолько плохо работает, что покажет единичные результаты вхождения на очень древних сохраненных страницах. Но чаще не найдет ничего, как сильно не сужай параметры в поиске.

Если ключевые слова содержатся в ЧПУ, то можно открыть таблицу сохраненных урлов:
https://web.archive.org/web/*/habr.com/*
Внимание, у больших сайтов таблица будет загружаться долго, подгрузит лишь 100 000 урлов. Дождитесь загрузки таблицы. Сверху справа над таблицей после её подгрузки можно ввести часть ЧПУ которая отфильтрует результаты.

О том, как работает ВебАрхив и как работать с его инструментами можно посмотреть видео здесь:
Как работать с Веб-Архивом

Источник

Поиск в веб-архиве сайтов по нужной тематике!

На сайте с 14.09.2010

Offline

29 августа 2011, 09:34

6167

Добрый день коллеги форумчане!

Сейчас делаю новый сайт и мне необходимо огромное количество уникального контента.

Самому писать очень долго, а покупать несколько тысяч статей тоже не хочется, поэтому решился поискать материал в веб-архиве.

Проблема состоит в том, что не знаю как найти в архиве сайты по нужной тематике ?

На сайте dnhunter нашел недавно освобожденные домены, но уникальных статей на них нет, один плагиат. Проверяю плагиат с помощью Advego и Etxt.

Существует какой-нибудь сервис для поиска по веб-архиву по ключевым словам или по тематике?

Filan

На сайте с 26.05.2011

Offline

119

29 августа 2011, 10:43

alfacasting, На какую тематику будет написан ресурс?

На сайте с 12.12.2010

Offline

108

29 августа 2011, 10:51

Иными словами, всё надо, но работать не хочу. ТС, так и спросил бы, дайте кнопку бабло.

На сайте с 14.09.2010

Offline

29 августа 2011, 10:59

Filan:
alfacasting, На какую тематику будет написан ресурс?

Тематика — туризм и путешествия

alfacasting добавил 29.08.2011 в 15:01

webeditor:
Иными словами, всё надо, но работать не хочу. ТС, так и спросил бы, дайте кнопку бабло.

Нет, дело не в том, что работать не хочу. А в том, что написание нескольких тысяч статей займет как минимум пару лет. Я всегда ищу легкие способы.

На сайте с 29.01.2006

Offline

404

29 августа 2011, 11:05

мне необходимо огромное количество уникального контента

уникальных статей на них нет, один плагиат

Думал, один такой умный?

mr-faq

На сайте с 03.09.2007

Offline

114

29 августа 2011, 11:18

alfacasting:
Я всегда ищу легкие способы.

Самый легкий способ — заказать рерайт и не парить себе мозги.

На сайте с 01.05.2010

Offline

644

29 августа 2011, 11:25

Ой, зря вы эту тему завели… Я когда пришёл, тоже такой умный был 😂

Мигом осадили.

На сайте с 14.09.2010

Offline

29 августа 2011, 11:44

DenisVS:
Ой, зря вы эту тему завели… Я когда пришёл, тоже такой умный был 😂

Мигом осадили.

Почему зря?

Сегодня утром уже таким способом нашел две статьи — уникальные на 100 %.

А то , что здесь люди не знают способ или знают, но не хотят говорить — это уже другой вопрос.

На сайте с 29.01.2006

Offline

404

29 августа 2011, 11:48

alfacasting,

Сегодня утром уже таким способом нашел две статьи

А долго искал? Может, быстрее было написать или отрерайтить?

На сайте с 14.09.2010

Offline

29 августа 2011, 11:58

Scaryer:
alfacasting,

А долго искал? Может, быстрее было написать или отрерайтить?

Я пробовал и рерайтить и самому писать и переводить с других языков, но на хорошую статью уходит целый день с утра до ночи. На следующий день уже нет желания этим заниматься. Это очень выматывает.

Нет, искал не долго. За 30 минут нашел 2 сайта, на каждом по одной уникальной статье. И в течении часа они уже были на моем сайте с картинками. Поэтому этот способ самый быстрый по наполнению. Ведь не просто так я его выбрал ?!

На сайте с 29.01.2006

Offline

404

29 августа 2011, 12:04

#10

За 30 минут нашел 2 сайта, на каждом по одной уникальной статье.

Тогда хорошо.

Поэтому этот способ самый быстрый по наполнению.

Если удастся найти ещё несколько тысяч статей;-)

Источник

Как добыть уникальный контент из вебархива

Февраль 16, 2015 18 комментариев

Всем привет =) Сегодня хочется вам рассказать, как можно совершенно бесплатно добывать уникальный контент для своих проектов! Сразу скажу, этот способ я подглядел на одном из форумов, но немного модифицировал его под себя, чем и хочу поделиться с читателями.

Для начала пару слов о WebArchive. Это глобальный архив интернет сайтов. Боты вебархива периодически обходят глобальную паутину и сохраняют на свои сервера все что смогли найти. Потом это все хранится для потомков 😉

Адрес ВебАрхива — http://archive.org/web/ На главной странице, на момент написания статьи, написано — 452 billion web pages saved over time. По-русски говоря, 452 миллиарда страниц закачал себе этот сервис. Этим мы и будем пользоваться.

Суть этого метода проста — мы ищем уже неработающие сайты, которые были закачаны вебархивом и стараемся найти там уникальные статьи, которые уже давно не в индексе поисковых систем.

Итак, поехали, первый способ, прочитанный на форуме:

Идем сюда — nic.ru

Скачиваем список освобождающихся доменов в зоне .ru Можно брать и другие зоны, но там не так много доменов…

Полученный файл открываем с помощью Excel и жмем «ctrl+F», в поиске вводим ключевое слово, в моем примере это «Forex».

Нажали «найти все» и перед нами появился список нужных ячеек

Теперь нужно получить из этого списка сайты в архиве.

Первый вариант — бесплатный сервис, проверяет только 30 ссылок за раз

Но этого вполне хватает, ведь по вашей теме не будет слишком много доменов, да и можно проверять пачками.

Второй вариант, это купить недорогую прогу, которая проверяет по 2000 ссылок за пару минут. Купить можно на форуме.

Вот и все, найденные страницы в вебархиве, через сервис или программу, мы мониторим уже глазками и ищем в куче файлов страницу со статьями или главную. Обязательно проверяйте домен на работоспособность, так как владельцы могли уже успеть продлить его.

Сервис показывает количество документов в вебархиве, цифры ниже 10 нас не интересуют. Старайтесь проверять как можно бОльшие цифры. К примеру, недавно я нашел сайт в вебархиве, нужной мне тематики, с 22000 документов, ох я и накопал оттуда хороших статеек!

Вот так выглядят файлы в вебархиве.

Стараемся попасть на сайте на главную страницу или найти карту сайта. Далее методично открываем статьи и проверяем их на уникальность. Я делаю это антиплагиатором от eTXT.

Второй способ, которым ищу именно я. Суть остается прежней, просто я беру домены ТУТ.

Самый жирный плюс этого сервиса в том, что мы можем пройтись по разным датам, а не качать домены освобождающиеся только в один день. Чем дальше по датам мы уходим, тем больше вероятность того, что домены не продлили.

В это сервисе все проще — выбираем дату, жмем Ctrl+A — копируем все что есть на странице и вставляем в NotePad++, так же жмем Ctrl+F и вводим нужный нам ключ и жмем — Найти ВСЕ в текущем документе.

После поиска это выглядит так:

Вот и все =) Советую вам не париться с эксель и работать в нотпаде, а так же юзать сервис доменов по датам. Данным способом я нашел больше сотни отличных и уникальных статей на нужную мне тематику. На эти статьи, если бы я их заказал, у меня бы ушла не одна тысяча рублей… Всем благ и большого профита!

Источник

15 минут назад, vituson сказал:

В вебархиве часто битые страницы, отсутствуют картинки, разные версии сайта и т.д. Лучше восстанавливать полные версии дроп-сайтов через сервис mydrop. Тут немного про этот сервис есть — https://sitedrop.ru/

Сомневаюсь, что сервисы качественно восстановят. Достаточно знать немного примеров комбинации find и sed, чтоб почистить самостоятельно.

Примеры:

1. Убираем различные блоки, в том числе счётчики и прочий мусор:

find site.ru/ -type f -name '*.html' -exec sed -i '/<p align="left">/,/</p>/d' {} ;

2. Убираем битую ссылку:

find site.ru/ -type f -iname '*.html' -exec sed -i 's|<img height=1 width=1 border=0 src="http://www.googleadservices.com/pagead/conversion/1058209190/imp.gif?value=1&label=pageview&script=0">||g' {} ;

3. Считаем сколько однотипных файлов в каталоге:

find . -type f -name "*.html" | wc -l

4. Если нужно добавить текст в конец каждой строки:

sed 's/^/echo "test"  | mail -s "test"/' file

5. Если нужно перекодировать из CP1251 в UTF8:

ПЕРЕКОДИРОВАТЬ РЕКУРСИВНО ИЗ CP1251 В UTF8
find . -name '*.*' -exec enconv -L russian -x UTF-8 {} ;
for FILE in $(find gsbeton.ru -name '*.html'); do mv $FILE{,.orig} && iconv -c -t UTF8 $FILE.orig -o $FILE; done
удаление файлов *.orig:
for FILE in $(find forexmoscow.ru -name '*.orig'); do rm $FILE; done
Игнорировать непонятные символы:
iconv -c

6. Если нужно добавить текст в конец каждого файла:

for FILE in $(find site.ru -name '*.html?.*'); do echo "</tr></table></body></html>">> $FILE; done

Спиcки битых и внешних ссылок выгружает программа Screaming Frog SEO Spider. Если на сайте тысячи битых ссылок, можно автозаменой в блокноте типа notepad++ подставить вышеуказанные команды и получиться список команд на удаление всех ненужных ссылок. Я так одному клиенту целых пол года делал сетку сателлитов из Вебархива. А для массовых замен по всем файлам отлично подходят Notepad++, Doublecmd и CodeLobsterIDE !

Изменено 2 октября 2019 пользователем softuser

Добавил примеры

Источник

Сервисы и трюки, с которыми найдётся ВСЁ.

Зачем это нужно: с утра мельком прочитали статью, решили вечером ознакомиться внимательнее, а ее на сайте нет? Несколько лет назад ходили на полезный сайт, сегодня вспомнили, а на этом же домене ничего не осталось? Это бывало с каждым из нас. Но есть выход.

Всё, что попадает в интернет, сохраняется там навсегда. Если какая-то информация размещена в интернете хотя бы пару дней, велика вероятность, что она перешла в собственность коллективного разума. И вы сможете до неё достучаться.

Поговорим о простых и общедоступных способах найти сайты и страницы, которые по каким-то причинам были удалены.

1. Кэш Google, который всё помнит

Google специально сохраняет тексты всех веб-страниц, чтобы люди могли их просмотреть в случае недоступности сайта. Для просмотра версии страницы из кэша Google надо в адресной строке набрать:

http://webcache.googleusercontent.com/search?q=cache:https://www.iphones.ru/

Где https://www.iphones.ru/ надо заменить на адрес искомого сайта.

2. Web-archive, в котором вся история интернета

Во Всемирном архиве интернета хранятся старые версии очень многих сайтов за разные даты (с начала 90-ых по настоящее время). На данный момент в России этот сайт заблокирован.

3. Кэш Яндекса, почему бы и нет

К сожалению, нет способа добрать до кэша Яндекса по прямой ссылке. Поэтому приходиться набирать адрес страницы в поисковой строке и из контекстного меню ссылки на результат выбирать пункт Сохраненная копия. Если результат поиска в кэше Google вас не устроил, то этот вариант обязательно стоит попробовать, так как версии страниц в кэше Яндекса могут отличаться.

4. Кэш Baidu, пробуем азиатское

Когда ищешь в кэше Google статьи удаленные с habrahabr.ru, то часто бывает, что в сохраненную копию попадает версия с надписью «Доступ к публикации закрыт». Ведь Google ходит на этот сайт очень часто! А китайский поисковик Baidu значительно реже (раз в несколько дней), и в его кэше может быть сохранена другая версия.

Иногда срабатывает, иногда нет. P.S.: ссылка на кэш находится сразу справа от основной ссылки.

5. CachedView.com, специализированный поисковик

На этом сервисе можно сразу искать страницы в кэше Google, Coral Cache и Всемирном архиве интернета. У него также еcть аналог cachedpages.com.

6. Archive.is, для собственного кэша

Если вам нужно сохранить какую-то веб-страницу, то это можно сделать на archive.is без регистрации и смс. Еще там есть глобальный поиск по всем версиям страниц, когда-либо сохраненных пользователями сервиса. Там есть даже несколько сохраненных копий iPhones.ru.

7. Кэши других поисковиков, мало ли

Если Google, Baidu и Yandeх не успели сохранить ничего толкового, но копия страницы очень нужна, то идем на seacrhenginelist.com, перебираем поисковики и надеемся на лучшее (чтобы какой-нибудь бот посетил сайт в нужное время).

8. Кэш браузера, когда ничего не помогает

Страницу целиком таким образом не посмотришь, но картинки и скрипты с некоторых сайтов определенное время хранятся на вашем компьютере. Их можно использовать для поиска информации. К примеру, по картинке из инструкции можно найти аналогичную на другом сайте. Кратко о подходе к просмотру файлов кэша в разных браузерах:

Safari

Ищем файлы в папке ~/Library/Caches/Safari.

Google Chrome

В адресной строке набираем chrome://cache

Opera

В адресной строке набираем opera://cache

Mozilla Firefox

Набираем в адресной строке about:cache и находим на ней путь к каталогу с файлами кеша.

9. Пробуем скачать файл страницы напрямую с сервера

Идем на whoishostingthis.com и узнаем адрес сервера, на котором располагается или располагался сайт:

После этого открываем терминал и с помощью команды curl пытаемся скачать нужную страницу:

Что делать, если вообще ничего не помогло

Если ни один из способов не дал результатов, а найти удаленную страницу вам позарез как надо, то остается только выйти на владельца сайта и вытрясти из него заветную инфу. Для начала можно пробить контакты, связанные с сайтом на emailhunter.com:

О других методах поиска читайте в статье 12 способов найти владельца сайта и узнать про него все.

А о сборе информации про людей читайте в статьях 9 сервисов для поиска информации в соцсетях и 15 фишек для сбора информации о человеке в интернете.

(30 голосов, общий рейтинг: 4.80 из 5)

🤓 Хочешь больше? Подпишись на наш Telegram.

iPhones.ru

Сервисы и трюки, с которыми найдётся ВСЁ. Зачем это нужно: с утра мельком прочитали статью, решили вечером ознакомиться внимательнее, а ее на сайте нет? Несколько лет назад ходили на полезный сайт, сегодня вспомнили, а на этом же домене ничего не осталось? Это бывало с каждым из нас. Но есть выход. Всё, что попадает в интернет,…

Google,
полезный в быту софт,
хаки

Источник