-1
Я хочу обходить индийские новостные сайты и их архивы (например, thehindu.com, indianexpress.com и timesofindia.com).Как сканировать новостные сайты (только контент)?
Я слышал о библиотеке шаблонов в Java, используемой для извлечения содержимого. Но есть ли какая-нибудь библиотека в python для этого и как это сделать?
Если это вопрос повторения, пожалуйста, помогите мне указать.
Название вашего вопроса дает некоторые довольно хорошие указатели на [Google] (https://www.google.com/search?q=How+to+crawl+ новости + сайты + (содержание + только) + питон) – lanzz