Донецкий техникум промышленной автоматики

Чому відновлювати сайти з Веб Архіву - це дичину

  1. висновок

Як тільки мова заходить про дроп і відновлення сайтів на них, чомусь всі думають тільки про Веб Архіві (   web

Як тільки мова заходить про дроп і відновлення сайтів на них, чомусь всі думають тільки про Веб Архіві ( web.archive.org ). І поки не наб'ють шишки на парі десятків сайтах, відновлених через Веб Архів, на жаль, не починають дивитися в інші сторони. Нижче я описав основні причини - чому відновлення сайтів через Веб Архів - це погано.

Причина # 1 - Кількість сторінок і файлів набагато менше, ніж було на оригінальному сайті. Краулер Веб Архіву зберігає сторінки за власним алгоритмом і у нього немає мети зберегти весь сайт на своїх серверах. Виходить, що при відновленні сайту з Веб Архіву ви отримуєте сайт, на якому буде не вистачати великої кількості сторінок (не завжди, але приблизно в 90% випадків).

  • Менше сторінок, відповідно, якась частина сторінок, які не отримували трафік загубляться, і після відновлення
  • На сторінки, які не збереглися в Веб Архіві вели посилання зі всього сайту. Відповідно, при відновленні отримуємо сайт з великою кількістю битих посилань.

Для порівняння, взяв кілька сайтів, які відновлював через MyDrop.io в грудня 2017 і порівняв реальне кількість сторінок з тим, які збереглися в Веб Архіві.

Навіть незважаючи на те, що ще не всі сторінки у відновлених дропов увійшли в індекс, видно, що тільки для останнього сайту збігається кількість сторінок з Веб Архіву з тим, що реально є на сайті.

Причина # 2 - URL'и в Веб Архіві можуть не відповідати тому, що було на сайті насправді. Веб Архів зберігає всі сторінки в вигляді статики, від чого можуть бути проблеми при переносі цих сторінок на ваш сервіс. Дві найпоширеніші помилки:

  • Якщо в URL використовуються параметри, то кінцева сторінка змінить URL і втратить вагу. Наприклад, якщо на восстанавливаемом сайт була сторінка з URL'ом «page.php? Param = 1 & param = 2», то на ваш сервер / хостинг вона збережеться як папка «page.php_param = 1_param = 2» з файлом index.htm всередині, на якому і буде контент кінцевої сторінки.
  • Багато сторінок зберігаються як папки. Якщо на початковому файлі URL був відмінним від htm або html (тобто не було явно зазначено, що розширення сторінки html), вона буде збережена як папка, або розширення буде приписано автоматично.

Для тих, хто не зрозумів, до яких наслідків це несе проблема нових урлов:

  1. Для пошукових систем це будуть абсолютно нові сторінки і урли, відповідно ні про який повернення трафіку на них не варто мріяти. Як тільки ви міняєте в URL хоча б на один символ, пошукова система починає сприймати сторінку як нову (тільки якщо не склеїти зі старою). Склеювання старих і нових урлов для сайтів з Веб Архіву - велика проблема, тому що вам потрібно буде відновити велику кількість патернів для редиректів в htaccess, що тільки доповнює проблеми при відновленні.
  2. Якщо на ці сторінки стояли якісь урли, то потрібно забути про те, що у сторінок відновиться «контрольний вагу» (він же Page Rank).
  3. Через нові урлов в відновлених через Веб Архів сайтах, може зламатися (і часто так воно і є) перелинковка всередині сайту.

Причина # 3 - Актуальність даних залишає бажати кращого. Сторінки, збережені Веб Архівом, в кращому випадку викачуються по кілька разів на рік. У гіршому, якісь сторінки можуть бути завантажені 3-5 років тому. У підсумку, не рідкісні ситуації, коли сторінки скачав сайту матимуть різний дизайн або якісь елементи інтерфейсу (меню, або блоки).

висновок

Вдавайтеся до скачування даних з Веб Архіву тільки в крайньому випадку. Для того, щоб нормально силу поставити сайт, і Веб Архіву потрібно витратити не мало часу.

Php?