2014-02-21 1 views
-1

Я хочу обходить индийские новостные сайты и их архивы (например, thehindu.com, indianexpress.com и timesofindia.com).Как сканировать новостные сайты (только контент)?

Я слышал о библиотеке шаблонов в Java, используемой для извлечения содержимого. Но есть ли какая-нибудь библиотека в python для этого и как это сделать?

Если это вопрос повторения, пожалуйста, помогите мне указать.

+2

Название вашего вопроса дает некоторые довольно хорошие указатели на [Google] (https://www.google.com/search?q=How+to+crawl+ новости + сайты + (содержание + только) + питон) – lanzz

ответ