У меня есть ссылки в HTML видаКакая красивая супная строка regex для использования?
<a href="/downloadsServlet?docid=abc" target="_blank">Report 1</a>
<a href="/downloadsServlet?docid=ixyz" target="_blank">Fetch Report 2 </a>
Я могу получить список ссылок вышеуказанной формы с использованием BeautifulSoup
Мой код выглядит следующим образом
from bs4 import BeautifulSoup
html_page = urllib2.urlopen(url)
soup = BeautifulSoup(html_page)
listOfLinks = list(soup.findall('a'))
Однако, Я хочу найти ссылки, которые имеют слово «Fetch» в тексте, ссылающемся на ссылку.
Я попробовал форму
soup.findAll('a', re.compile(".*Fetch.*"))
Но это не работает. Как выбрать только теги a, у которых есть href, а текстовая часть имеет в нем слово «Fetch»?
Отлично! Я отредактировал его как функцию лямбда. Благодаря ! – DrBug
Используется soup.findAll (тег lambda: tag.has_attr ('href') и re.search ('Fetch', tag.text)) – DrBug