Получение метаданных из ссылок с помощью BeautifulSoup

Я пытаюсь очистить ссылки, чтобы получить заголовок, описание и изображение, чтобы дать небольшой обзор статьи или веб-страницы. В настоящее время у меня есть og: title, получая мета-свойство через BeautifulSoup. Это отлично подходит для новостных статей.Получение метаданных из ссылок с помощью BeautifulSoup

if tag.get("property", None) == "og:title":  
     scraper.title = tag.get("content", None)

Однако links for an Amazon Echo for example, не тянуть любые изображения или название продукта. Как я могу это сделать с помощью BeautifulSoup и Python и вытащить первое найденное изображение и название с любого сайта - возможно, не только одного, поддерживаемого opengraph?

источник

2016-12-31 Viji123

unicontent - это библиотека, пытающаяся достичь этого. Он получит теги opengraph или теги HTML или другие типы тегов. Я не думаю, что он может получить первое изображение внутри страницы.

источник

2017-02-21 02:52:37 jreid

Получение метаданных из ссылок с помощью BeautifulSoup

ответ

Смежные вопросы