2017-02-15 16 views
0

Я пытаюсь просканировать эту url для научно-исследовательских целей, но я получил неполную результат:Неполный результат при вызове функции Find() BeautifulSoup

opener = urllib.request.build_opener() 
opener.addheaders = [('User-Agent', 'Mozilla/5.0')] 
response = opener.open(url) 
soup = BeautifulSoup(response, 'html.parser') 
article = soup.find("div", { "class" : "entry" }) 
print(article) 

Это даст мне этот результат:

<div class="entry"> 
<header><strong>Racial Forensics in an Age of Race Denial</strong></header></div> 

Но когда я смотрю на исходный код страницы можно увидеть гораздо больше:

<div class="entry"> 
<header><strong>Racial Forensics in an Age of Race Denial</strong></p> 
</header> 
<p>Austen Layard<br/> 
<a href="http://www.theoccidentalobserver.net/2014/01/racial-forensics-in-an-age-of-race-denial/"><strong>Occidental Observer</strong></a><br/> 
February 3, 2014</p> 
.... 
</div> 

T разница между этим URL-адресом и множеством других, которые я обработала, - это наличие тега header.

Это тег происхождения моей проблемы? Как я могу получить всю совокупность содержимого тега div?

+0

@ MYGz не работает ни – mel

ответ

1
soup = BeautifulSoup(response, 'lxml') 

html.parser нестабильна и очень unrecommended, по умолчанию, BS4 использовать lxml, давайте останемся с дефолтом.

 Смежные вопросы

  • Нет связанных вопросов^_^