papilio

Как скачать полностью блог

Я уже как-то писал, как скачать полностью сайт с помощью программы Wget. Но когда я попытался скачать блог на WordPress с включённой функцией т.н. чистых ссылок (permalink), то у меня не скачивались статьи.

Почему же так получалось? Всё просто. Для начала рассмотрим стандартный вид адреса статьи в блоге:

/2009/02/10/merge-google-contacts.html

— Wget будет скачивать и /2009/02, что является страницей архива всех записей за данный период, и саму статью. Первую страницу он сохранит в файл 02 в директории 2009, но куда же сохранить статью, если уже не получится создать директории с тем же именем 02? Именно в этом и была у меня проблема.

Всё решается просто: достаточно указать флаг -E в параметрах запуска Wget, чтобы он все страницы сохранял с расширением .html. Теперь страница с архивом будет сохранена как 02.html в директории 2009, так что Wget сможет создать директории 02, чтобы сохранить запись.

Итак, итоговая строка запуска Wget с параметрами будет выглядеть так:

wget -r -l20 -k -E -c http://www.site.ru

где r — рекурсивно,
l — глубина рекурсии,
c — с возможностью докачки,
k — конвертация ссылок в абсолютные по окончанию закачки,
E — сохранять страницы с расширением .html.

Я пробовал другие программы, но Wget всё равно лучше и проще.

Связанные записи:

  1. Как полностью скачать целый сайт легко и быстро У вас когда-нибудь была необходимость полностью скачать (то есть целиком)...

Метки: , , , ,



Есть комментарии (4):

  1. Reisei @ 16/03/2009 в 00:58

    Решение оказалось простым и изящным :-)

  2. Evgeny Pavlov @ 16/03/2009 в 09:08

    Да… я сам удивился, когда понял, что так вот всё просто.

  3. Громов @ 17/01/2010 в 00:09

    С Wget-ом никогда не работал. Можно ли подобный фокус провернуть в Телепорте или все таки проще установить Wget?

  4. Andrej @ 28/01/2010 в 11:24

    Вот первая ссылка не работает ужо как скачать полностью сайт с помощью программы Wget. =[

Оставить комментарий