0

Я пытаюсь очистить ссылки, чтобы получить заголовок, описание и изображение, чтобы дать небольшой обзор статьи или веб-страницы. В настоящее время у меня есть og: title, получая мета-свойство через BeautifulSoup. Это отлично подходит для новостных статей.Получение метаданных из ссылок с помощью BeautifulSoup

if tag.get("property", None) == "og:title":  
     scraper.title = tag.get("content", None) 

Однако links for an Amazon Echo for example, не тянуть любые изображения или название продукта. Как я могу это сделать с помощью BeautifulSoup и Python и вытащить первое найденное изображение и название с любого сайта - возможно, не только одного, поддерживаемого opengraph?

ответ

0

unicontent - это библиотека, пытающаяся достичь этого. Он получит теги opengraph или теги HTML или другие типы тегов. Я не думаю, что он может получить первое изображение внутри страницы.