2017-01-23 11 views
0

Извините, скорее всего, был задан вопрос, но я не могу найти ответ на стек/из поисковой системы.Получить href в таблице

Я пытаюсь очистить некоторые данные из таблицы, но есть ссылки href, которые мне нужно получить. Html следующим образом:

<table class="featprop results"> 
<tr> 
**1)**<td class="propname" colspan="2"><a href="/lettings-search-results?task=View&amp;itemid=136" rel="nofollow"> West Drayton</a></td> 
</tr> 
<tr><td class="propimg" colspan="2"> 

    <div class="imgcrop"> 
    **2)**<a href="/lettings-search-results?task=View&amp;itemid=136" rel="nofollow"><img src="content/images/1/1/641/w296/858.jpg" alt=" Ashford" width="148"/></a> 


    <div class="let">&nbsp;</div> 
    </div> 
</td></tr> 

<tr><td class="proprooms"> 

До сих пор я использовал следующее:

for table in soup.findAll('table', {'class': 'featprop results'}): 
    for tr in table.findAll('tr'): 
     for a in tr.findAll('a'): 
      print(a) 

Который возвращается как 1 и 2 в приведенном выше HTML, может кто-нибудь помочь мне вырезать только HREF ссылку?

+1

Что о 'в [ 'HREF'] '? –

ответ

1
for table in soup.findAll('table', {'class': 'featprop results'}): 
    for tr in table.findAll('tr'): 
     for a in tr.findAll('a'): 
      print(a['href']) 

из:

/lettings-search-results?task=View&itemid=136 
/lettings-search-results?task=View&itemid=136 

Attributes

EDIT:

links = set() # set will remove the dupilcate 
for a in tr.findAll('a', href=re.compile(r'^/lettings-search-results?')): 
    links.add(a['href']) 

regular expression

+0

Спасибо! Хотя это работает, я нахожу некоторые ссылки, которые я не хочу, можно только возвращать ссылки, которые начинаются с '/ allowtings-search-results?' – Maverick

+0

Это сработало, но вернуло 3 из каждой ссылки. Поэтому мне нужно работать над удалением дубликатов. Спасибо! – Maverick

+1

@Maverick помещает все ссылки в набор(), это удалит дубликат. –

1

Это обеспечит вам массив тегов под элем ent выбранного имени класса.

result = soup.select(".featprop a"); 
for a in result: 
    print(a['href']) 

Дай вам результат ниже:

/lettings-search-results?task=View&itemid=136 
/lettings-search-results?task=View&itemid=136