2009-05-19 2 views
0

Мне нужно перенести наш сайт с проприетарной CMS, которая использует активные серверные страницы. Есть ли инструмент или техника, которые помогут загрузить ресурсы с существующего сайта? Наверное, я ищу инструмент, который сканирует и очищает весь сайт.Как перенести ресурсы с проприетарной CMS?

Дополнительная проблема заключается в том, что сайт использует SSL и защищен аутентификацией на основе форм. У меня есть необходимые учетные данные, и я могу захватить cookie, который проверяет сеанс, но я не уверен, куда идти отсюда, и я не хочу изобретать велосипед, если существующие инструменты могут мне помочь.

EDIT - Я использую ОС Windows

ответ

3

Wget может быть хорошим инструментом для использования

wget --load-cookies cookies.txt --mirror --page-requisites http://example.com/ 

add -convert-links, если вы хотите сделать его более подходящим для локального архива, а не того, что вы можете повторно загрузить где-нибудь.

под управлением Windows версии Wget доступна из проекта gnuwin32 на sourceforge.net http://gnuwin32.sourceforge.net/packages/wget.htm

1
wget --http-user:username --http-pass:password -r http://yoursite.com 

Это будет получать весь сайт (рекурсивно). Если вы находитесь в окнах, вы захотите установить cygwin или что-то подобное, чтобы использовать его, хотя я считаю, что есть версии Windows/клоны wget, которые вы можете скачать.

1

Если вы знаете Perl, вам может понравиться WWW::Mechanize. Зависит от уровня автоматизации, который вы пытаетесь достичь - wget, вероятно, будет в порядке.

1

У вас есть много вариантов. Следует учитывать, насколько сложна аутентификация. Кроме wget, вы можете посмотреть на curl (очень надежный вариант с креплениями для разных языков), в Python urllib, Apache HttpClient, WWW-Mechanize и т.д.