papilio

Записи с меткой «wget»

Как скачать полностью блог

Я уже как-то писал, как скачать полностью сайт с помощью программы Wget. Но когда я попытался скачать блог на WordPress с включённой функцией т.н. чистых ссылок (permalink), то у меня не скачивались статьи.

Почему же так получалось? Всё просто. Для начала рассмотрим стандартный вид адреса статьи в блоге:

/2009/02/10/merge-google-contacts.html

— Wget будет скачивать и /2009/02, что является страницей архива всех записей за данный период, и саму статью. Первую страницу он сохранит в файл 02 в директории 2009, но куда же сохранить статью, если уже не получится создать директории с тем же именем 02? Именно в этом и была у меня проблема.

Всё решается просто: достаточно указать флаг -E в параметрах запуска Wget, чтобы он все страницы сохранял с расширением .html. Теперь страница с архивом будет сохранена как 02.html в директории 2009, так что Wget сможет создать директории 02, чтобы сохранить запись.

Итак, итоговая строка запуска Wget с параметрами будет выглядеть так:

wget -r -l20 -k -E -c http://www.site.ru

где r — рекурсивно,
l — глубина рекурсии,
c — с возможностью докачки,
k — конвертация ссылок в абсолютные по окончанию закачки,
E — сохранять страницы с расширением .html.

Я пробовал другие программы, но Wget всё равно лучше и проще.

Метки: , , , ,

Как полностью скачать целый сайт легко и быстро

У вас когда-нибудь была необходимость полностью скачать (то есть целиком) какой-нибудь сайт? Я думаю, что да. Мне-то точно требовалось.

И как это можно сделать? Есть несколько способов, но в основном они, к сожалению, платные (Teleport Pro, например). Но, как всегда, есть бесплатные альтернативы:

Но я хочу рассказать вам о простой консольной программе wget, которая умеет скачивать целые сайты.

В любом линуксе эта программа уже есть, но если же вы пользуетесь Windows, то можно воспользоваться полнофункциональной портированной версией wget.exe. Просто скопируйте в необходимый вам каталог, а потом выполняйте в командной строке (Пуск→Выполнить→cmd):

c:\путь\до\каталога\wget.exe ключи_и_параметры

Итак, чтобы скачать файл, необходимо ввести команду со следующими ключами:

wget -r -l20 -k http://www.site.ru

— где рекурсивно с глубиной 20 необходимо скачать страницы с сайта и поменять абсолютные ссылки на относительные (-k).

Если загрузка была прервана, то можно воспользоваться ключом -c. А место, куда сохранять, с помощью ключа -P. Например:

wget -r -l20 -k http://www.site.ru -P c:\Temp

Очень удобно и быстро! Материалы по теме:

Метки: , , , , ,