2015-09-21 4 views
2

Предположим, есть веб-сайт, защищенный паролем, который я хочу получить, чтобы очистить некоторую информацию от него и поместить его в электронную таблицу. Например, это может быть моя личная страница учетной записи кредитной карты, и я буду разбирать информацию о последних транзакциях.Какие инструменты Python можно использовать для записи скребка защищенной паролем веб-страницы?

Отклонение этого было бы, если бы сайт разрешил загружать информацию о транзакции в виде файла CSV, и в этом случае я хотел бы загрузить этот файл.

Если я хочу написать такой скребок в Python, какие пакеты я должен использовать для задачи? Это зависит от того, как реализован конкретный веб-сайт, т. Е. Мне может понадобиться один инструмент для очистки одного сайта и другого инструмента для очистки другого.

Спасибо

ответ

1

я действительно сделал что-то очень похожее на это, но в узле. Вы определенно хотите сделать это в Python?

Если вы хотите придерживаться Python, взгляните на эти модули:

BeautifulSoup

requests

Кто-то написал действительно удивительный модуль комбинирования вышеуказанных двух модулей:

Robobrowser

Если вы хотите спуститься по узловому маршруту , Посмотрите на это:

nightmarejs

+0

'nightmarejs' звучит ... перспективным :-) Сейчас я хочу придерживаться питона, так что я буду определенно проверить ваши ссылки. Можете попробовать узел позже. Спасибо –