Лучшая библиотека с открытым исходным кодом или приложение для обхода и обработки данных на веб-сайтах

Я хотел бы знать, что является лучшей библиотекой исходного eopen для сканирования и анализа веб-сайтов. Одним из примеров может быть агент агентства искателя, где я хотел бы получить информацию с нескольких сайтов и заполнить их на моем собственном сайте. Для этого мне нужно обходить сайты и извлекать объявления о недвижимости.Лучшая библиотека с открытым исходным кодом или приложение для обхода и обработки данных на веб-сайтах

источник

2009-04-17 gyurisc

Я делаю много царапин, используя превосходные пакеты python urllib2, mechanize и BeautifulSoup.

Я также предлагаю посмотреть на lxml и Scrapy, хотя я не использую их в настоящее время (по-прежнему планирую попробовать скрипит).

На языке Perl также имеются прекрасные возможности для очистки.

источник

2009-04-17 07:43:57

Perl является фантастическим, вы можете написать искателю в очень немногих линий с использованием UserAgent :: somethingorother. Как вы анализируете html/javascript, это другая проблема. – nflacco

PHP/Curl очень мощная комбинация, особенно если вы хотите использовать результаты непосредственно в веб-страницы ...

источник

2009-06-02 14:13:16 kal3v

Совместно с г-ном Морозовым я совсем немного выскабливание тоже, в основном, из работы места. Мне никогда не приходилось прибегать к механизации, если это помогает любому. Beautifulsoup в сочетании с urllib2 всегда были достаточными.

Я использовал lxml, и это здорово. Тем не менее, я считаю, что он может быть недоступен в приложениях Google несколько месяцев назад, когда я его пробовал, если вам это нужно.

Огромное спасибо господину Морозову за упоминание Scrapy. Не слышал об этом.

источник

2009-07-01 14:57:00

Кроме Scrapy, вы также должны смотреть на Parselets

источник

2009-10-15 22:16:37

Лучшая библиотека с открытым исходным кодом или приложение для обхода и обработки данных на веб-сайтах

ответ

Смежные вопросы