Неполный результат при вызове функции Find() BeautifulSoup

Я пытаюсь просканировать эту url для научно-исследовательских целей, но я получил неполную результат:Неполный результат при вызове функции Find() BeautifulSoup

opener = urllib.request.build_opener() 
opener.addheaders = [('User-Agent', 'Mozilla/5.0')] 
response = opener.open(url) 
soup = BeautifulSoup(response, 'html.parser') 
article = soup.find("div", { "class" : "entry" }) 
print(article)

Это даст мне этот результат:

<div class="entry"> 
<header><strong>Racial Forensics in an Age of Race Denial</strong></header></div>

Но когда я смотрю на исходный код страницы можно увидеть гораздо больше:

<div class="entry"> 
<header><strong>Racial Forensics in an Age of Race Denial</strong></p> 
</header> 
<p>Austen Layard<br/> 
<a href="http://www.theoccidentalobserver.net/2014/01/racial-forensics-in-an-age-of-race-denial/"><strong>Occidental Observer</strong></a><br/> 
February 3, 2014</p> 
.... 
</div>

T разница между этим URL-адресом и множеством других, которые я обработала, - это наличие тега header.

Это тег происхождения моей проблемы? Как я могу получить всю совокупность содержимого тега div?

источник

2017-02-15 mel

@ MYGz не работает ни – mel

soup = BeautifulSoup(response, 'lxml')

html.parser нестабильна и очень unrecommended, по умолчанию, BS4 использовать lxml, давайте останемся с дефолтом.

источник

2017-02-16 03:44:41

Неполный результат при вызове функции Find() BeautifulSoup

ответ

Смежные вопросы