Я пытаюсь загрузить текст с новостного сайта. HTML является:Сканировать новостной сайт и получать новостной контент
<div class="pane-content">
<div class="field field-type-text field-field-noticia-bajada">
<div class="field-items">
<div class="field-item odd">
<p>"My Text" target="_blank">www.injuv.cl</a></strong></p> </div>
вывод должен быть: My Text Я использую следующий код питона:
try:
from BeautifulSoup import BeautifulSoup
except ImportError:
from bs4 import BeautifulSoup
html = "My URL"
parsed_html = BeautifulSoup(html)
p = parsed_html.find("div", attrs={'class':'pane-content'})
print(p)
Но выход кода не является: «Нет». Вы знаете, что не так с моим кодом?
Даже если вы проанализировали HTML, а не URL-адрес, HTML-код недействителен. Вы не можете разобрать это с помощью BeautifulSoup. – tobltobs
@tobltobs 'BeautifulSoup' пытается исправить разбитый HTML; Он может анализировать, что HTML просто отлично. – That1Guy