2009-04-17 17 views
3

Я хотел бы знать, что является лучшей библиотекой исходного eopen для сканирования и анализа веб-сайтов. Одним из примеров может быть агент агентства искателя, где я хотел бы получить информацию с нескольких сайтов и заполнить их на моем собственном сайте. Для этого мне нужно обходить сайты и извлекать объявления о недвижимости.Лучшая библиотека с открытым исходным кодом или приложение для обхода и обработки данных на веб-сайтах

ответ

8

Я делаю много царапин, используя превосходные пакеты python urllib2, mechanize и BeautifulSoup.

Я также предлагаю посмотреть на lxml и Scrapy, хотя я не использую их в настоящее время (по-прежнему планирую попробовать скрипит).

На языке Perl также имеются прекрасные возможности для очистки.

+0

Perl является фантастическим, вы можете написать искателю в очень немногих линий с использованием UserAgent :: somethingorother. Как вы анализируете html/javascript, это другая проблема. – nflacco

1

PHP/Curl очень мощная комбинация, особенно если вы хотите использовать результаты непосредственно в веб-страницы ...

1

Совместно с г-ном Морозовым я совсем немного выскабливание тоже, в основном, из работы места. Мне никогда не приходилось прибегать к механизации, если это помогает любому. Beautifulsoup в сочетании с urllib2 всегда были достаточными.

Я использовал lxml, и это здорово. Тем не менее, я считаю, что он может быть недоступен в приложениях Google несколько месяцев назад, когда я его пробовал, если вам это нужно.

Огромное спасибо господину Морозову за упоминание Scrapy. Не слышал об этом.