Я пытаюсь сделать две вещи с Beautiful Soup:Как лишить персонажей, мешающих Beautiful Soup, возвращать ссылки с указанным текстом?
- найти и печать дивы с определенным классом
- Найти и напечатать ссылки, которые содержат определенный текст
Первая часть работает. Вторая часть возвращает пустой список, то есть []
. В попытке устранить это, я создал следующее, который работает как задумано:
from bs4 import BeautifulSoup
def my_funct():
content = "<div class=\"class1 class2\">some text</div> \
<a href='#' title='Text blah5454' onclick='blahblahblah'>Text blah5454</a>"
soup = BeautifulSoup(content)
thing1 = soup("div", "class1 class2")
thing2 = soup("a", text="Text")
print thing1
print thing2
my_funct()
Посмотрев на источник исходного содержания (в моей фактической реализации) в SciTE редакторе. Тем не менее, одна разница в том, что есть LF
и четыре ->
«s на новой линии между Text
и blah5454
в тексте ссылки, например:
И поэтому я думаю, что причина того, что я я получаю пустой []
.
Мои вопросы:
- Является ли это вероятной причиной?
- Если это так, это лучшее решение для «разметки» этих символов, и если да, то что это лучший способ сделать это?
большое спасибо, что работал, привет. – user1063287