Донецкий техникум промышленной автоматики

Webarchive ᐈ як користуватися веб архівом і подивитися історію сайту

зміст:   Webarchive - історія всього інтернету на одному сайті   Практичне використання веб-архіву   Історія web

зміст:

Webarchive - історія всього інтернету на одному сайті

Практичне використання веб-архіву

Історія web.archive.org

Відкриття мертвих посилань

Відновлення сайту без «бекапа» і пошук потрібного архіву

Унікальний контент з «мертвих» сайтів

підсумки

Сайт web.archive.org має за собою велику і майже нездійсненну місію - зберегти всю історію інтернету. Причому інформація в архіві виглядає як стандартна веб-сторінка. Даний ресурс може зберегти велику кількість копій одного сайту за весь час його існування. Так що по амбіціях цей ресурс не поступається знаменитій Вікіпедії.

В першу чергу цей архів інтернету корисний тим, хто з яких-небудь причин не зробив копію власного ресурсу. У такому випадку при непередбачених обставин збережеться можливість відновити свій сайт тільки за допомогою веб-архіву. Для цього необхідно буде скасувати всі посилання від прив'язки до веб-архіву і зробити їх прямими для вашого сайту.

Також web.archive.org може бути корисний тим, хто шукає якийсь унікальний контент. Оскільки за час існування інтернету «померло» безліч різноманітних сторінок, на просторах архіву можна буде відшукати дійсно корисну інформацію, яка з легкістю зможе пройти перевірку на унікальність. Основна проблема полягає в тому, що відшукати потрібний контент у величезних «нетрях» archive.org досить важко. Необхідно чітко уявляти, що і де шукати.

Очевидно, що через веб архів сайтів можливо пройти по «мертвим» посиланнях, навіть якщо вони вже зникли з кеша Гугла або Яндекса.

Ну і для любителів поностальгувати існує можливість дізнатися, як змінювалася історія будь-якого сайту, який існував за час роботи web.archive.org. Адже archive.org - це своєрідна «машина часу», в якій доступна історія всього інтернету. Своєрідний погляд в минуле.

Даний сервіс почав своє існування в 1996 році. Але, що цікаво, сам себе archive.org вніс в базу лише в наступному році.

Так виглядала стартова сторінка ресурсу в той час

Архів використовує неймовірний обсяг пам'яті (більше тисячі терабайт), включаючи аудіо- та відеофайли, а також сторінки відсканованих книг. Можна відшукати не тільки веб-сторінки ресурсів (яких уже налічується більше ста мільярдів), а й переглянути телепередачі, яких уже давно немає в ефірі. Така функція називається «Waybackmachine»

Як потрапити в веб-архів

Фактично потрапити в базу даних цього ресурсу дуже просто. Сайт не повинен містити в своєму файлі robot.txt заборона на його індексацію роботом архіву. Найчастіше така заборона відображається так:

User-agent: ia_archiver Disallow: /

Також деякі сайти archive.org може просто не знайти, оскільки вони відсутні в базах даних. Щоб підвищити ймовірність попадання в них, посилання на ваш сайт повинні бути розміщені на інших ресурсах, які вже є в базі даних архіву.

Веб архів не враховує прямі зміни на сайті, оскільки він робить зліпки будь-якого ресурсу беручи за основу власні таймери і алгоритми. Саме тому використовувати сервіс як доступ до тимчасово непрацюючим посиланням марно. Тим більше, що як Google, так і Yandex надає можливість перегляду збереженої копії з кеша.

Даний сервіс є цінністю саме для тих людей, які хочуть подивитися вже неіснуючу сторінку.

По архівах можна переміщатися за допомогою календарного меню у верхній частині сторінки. Синім кружком позначені дати, коли зроблені зліпки. Натиснувши на нього, можна побачити точний час створення зліпка і їх кількість в заданий день. Ця робиться з метою уникнення втрати інформації, оскільки дані в сховищах з часом можуть зіпсуватися, а також окремі копії можуть бути битими.

Натиснувши на перегляд будь-якого зліпка, ви перейдете на повністю робочу сторінку ресурсу. Тобто, всі внутрішні посилання працюватимуть. Однак, сервіс може неідеально відтворити оформлення, а також можуть зникнути деякі елементи меню. Панікувати не варто, оскільки код сторінки ідентичний вашому. Але простим копіюванням коду відновити втрачену інформацію не вдасться. Оскільки веб сховище саме генерує посилання всередині кожного зліпка, інакше ви б перейшли на актуальну версію, а не на історію сайту.

Щоб змусити всі працювати, потрібно видалити вступну частину посилання. Однак, щоб уникнути рутинної роботи сервіс має інструмент заміни внутрішніх посилань на оригінальні. Щоб скористатися ним, потрібно скопіювати веб-адресу сторінки з потрібним зліпком і в кінці дати додати конструкцію «id_».

Адреса повинен мати такий вигляд

https://web.archive.org/web/20090206215515/http://football.ua:80/

Вставляємо конструкцію «id_»

https://web.archive.org/web/20090206215515id_/http://football.ua:80/

Далі повертаємо веб-адреса в рядок і натискаємо Enter. Очевидно, що відновлення ресурсу таким чином займе просто неймовірна кількість часу. Але коли виходу немає - вибирати не доводиться. Щоб ніколи не користуватися таким незручним способом відновлення - краще робіть бекапи свого сайту по кілька разів на день. Це допоможе вберегти ваші нерви від зайвого стресу.

Якщо вам потрібно відобразити всі сторінки необхідного сайту, введіть такий веб-адреса в рядок браузера:

https://web.archive.org/web/*/football.ua

На сторінці, яка відкрилася, існує можливість відфільтрувати файли за різними форматами.

Кожен день з інтернету зникають десятки і навіть сотні різноманітних сайтів. Варто відзначити, що абсолютна більшість не представляє особливої ​​цінності, але в кожній річці можна знайти багато крупинок золота. Головне, щоб корисні сайти мали хоча б один працюючий зліпок в archive.org.

Оскільки інформація з померлих сайтів поступенно перестає індексуватися пошуковими системами, такий контент стає унікальним (звичайно, якщо він не був «сплагіачен» до цього). Виставивши цю інформацію на свій ресурс, ви станете її правовласником або першоджерелом для пошукових систем. Головне, попередньо перевірити її на унікальність, щоб не порушити нічий копірайт. Але як саме відшукати подібні ресурси серед гір сміття?

На щастя, існує один спосіб.

За допомогою реєстратора домену nic.ru можна отримати список доменів, які звільнилися або звільняться незабаром. В такому списку можна побачити кількість архівів в Archive.org для кожного зниклого домену, однак перевірити наявність домену можна і в декількох онлайн-сервісах. Наприклад, в цьому, http://www.seogadget.ru/wa або це http://r-tools.org/page/tools/webarchive_checker .

Перевірити наявність домена іноземного веб-адреси можна, скачавши файл за посиланням: http://www.pool.com/Downloads/PoolDeletingDomainsList.zip

Після цього потрібно всього лише переглядати інформацію Webarchive з кожного ресурсу, який вас зацікавив. Безумовно, такий метод передбачає наявність уважності, а також терпіння, оскільки якість більшості даного контенту буде низькопробним.

Як бачимо, ресурс Archive.org має не тільки практичну користь, у вигляді пошуку унікального контенту і подальшої можливості відновити власну сторінку. Для деяких людей цей сервіс - шанс дізнатися, як виглядав інтернет раніше. Відшукати і зайти на улюблений сайт дитинства простіше простого за допомогою даного сервісу. Archive.org може показати абсолютно новий і незнайомий світ.

Але як саме відшукати подібні ресурси серед гір сміття?