Я хотел бы знать, что является лучшей библиотекой исходного eopen для сканирования и анализа веб-сайтов. Одним из примеров может быть агент агентства искателя, где я хотел бы получить информацию с нескольких сайтов и заполнить их на моем собственном сайте. Для этого мне нужно обходить сайты и извлекать объявления о недвижимости.Лучшая библиотека с открытым исходным кодом или приложение для обхода и обработки данных на веб-сайтах
ответ
Я делаю много царапин, используя превосходные пакеты python urllib2, mechanize и BeautifulSoup.
Я также предлагаю посмотреть на lxml и Scrapy, хотя я не использую их в настоящее время (по-прежнему планирую попробовать скрипит).
На языке Perl также имеются прекрасные возможности для очистки.
PHP/Curl очень мощная комбинация, особенно если вы хотите использовать результаты непосредственно в веб-страницы ...
Совместно с г-ном Морозовым я совсем немного выскабливание тоже, в основном, из работы места. Мне никогда не приходилось прибегать к механизации, если это помогает любому. Beautifulsoup в сочетании с urllib2 всегда были достаточными.
Я использовал lxml, и это здорово. Тем не менее, я считаю, что он может быть недоступен в приложениях Google несколько месяцев назад, когда я его пробовал, если вам это нужно.
Огромное спасибо господину Морозову за упоминание Scrapy. Не слышал об этом.
Кроме Scrapy, вы также должны смотреть на Parselets
Perl является фантастическим, вы можете написать искателю в очень немногих линий с использованием UserAgent :: somethingorother. Как вы анализируете html/javascript, это другая проблема. – nflacco