В настоящее время у меня есть код Ruby, используемый для очистки некоторых веб-сайтов. Я использовал Ruby, потому что в то время, когда я использовал Ruby on Rails для сайта, это имело смысл.Какую чистую библиотеку Python я должен использовать для очистки веб-сайта?
Теперь я пытаюсь перенести это на Google App Engine и продолжаю застревать.
Я портировал Python Mechanize для работы с Google App Engine, но он не поддерживает проверку DOM с помощью XPATH.
Я пробовал встроенный ElementTree, но он задохнулся от первого HTML-блоба, который я дал ему, когда он столкнулся с «& mdash».
Должен ли я пытаться взломать ElementTree там, или я пытаюсь использовать что-то еще?
спасибо, Марк
Duplicate из всех этих: http://stackoverflow.com/search?q=%5Bpython%5D+html+parse –
Мне, возможно, придется пойти с помощью scrapy, могу ли я использовать XPath с красивым супом? – MStodd
На самом деле мне, возможно, придется идти ни с чем, так как я не уверен, что красивый суп работает с xpath, и похоже, что у scrapy есть бинарная зависимость. – MStodd