У меня есть таблица, в которой я хочу забрать все ссылки, перейдите по ссылке и очистите элементы в пределах td class = horse.Скребок таблицы для ссылок, ссылки и данные scrape
домашняя страница, где таблица со всеми ссылками имеет следующий код:
<table border="0" cellspacing="0" cellpadding="0" class="full-calendar">
<tr>
<th width="160"> </th>
<th width="105"><a href="/FreeFields/Calendar.aspx?State=NSW">NSW</a></th>
<th width="105"><a href="/FreeFields/Calendar.aspx?State=VIC">VIC</a></th>
<th width="105"><a href="/FreeFields/Calendar.aspx?State=QLD">QLD</a></th>
<th width="105"><a href="/FreeFields/Calendar.aspx?State=WA">WA</a></th>
<th width="105"><a href="/FreeFields/Calendar.aspx?State=SA">SA</a></th>
<th width="105"><a href="/FreeFields/Calendar.aspx?State=TAS">TAS</a></th>
<th width="105"><a href="/FreeFields/Calendar.aspx?State=ACT">ACT</a></th>
<th width="105"><a href="/FreeFields/Calendar.aspx?State=NT">NT</a></th>
</tr>
<tr class="rows">
<td>
<p><span>FRIDAY 13 JAN</span></p>
</td>
<td>
<p>
<a href="/FreeFields/Form.aspx?Key=2017Jan13,NSW,Ballina">Ballina</a><br>
<a href="/FreeFields/Form.aspx?Key=2017Jan13,NSW,Gosford">Gosford</a><br>
</p>
</td>
<td>
<p>
<a href="/FreeFields/Form.aspx?Key=2017Jan13,VIC,Ararat">Ararat</a><br>
<a href="/FreeFields/Form.aspx?Key=2017Jan13,VIC,Cranbourne">Cranbourne</a><br>
</p>
</td>
<td>
<p>
<a href="/FreeFields/Form.aspx?Key=2017Jan13,QLD,Doomben">Doomben</a><br>
</p>
</td>
Я в настоящее время есть код, чтобы посмотреть на таблицу и распечатать ссылки
from selenium import webdriver
import requests
from bs4 import BeautifulSoup
#path to chromedriver
path_to_chromedriver = '/Users/Kirsty/Downloads/chromedriver'
#ensure browser is set to Chrome
browser = webdriver.Chrome(executable_path= path_to_chromedriver)
#set browser to Racing Australia Home Page
url = 'http://www.racingaustralia.horse/'
r = requests.get(url)
soup=BeautifulSoup(r.content, "html.parser")
#looks up to find the table & prints link for each page
table = soup.find('table',attrs={"class" : "full-calendar"}). find_all('a')
for link in table:
print link.get('href')
интересно, если любой может помочь в том, как я могу получить код, чтобы щелкнуть по всем ссылкам, находящимся в таблице &, на каждую из страниц сделать следующее:
g data = soup.findall("td",{"class":"horse"})
for item in g_data:
print item.text
Заранее спасибо
Что вы подразумеваете под "Нажмите на ссылки"? Значит, перейдя на страницу ссылки, а затем соскабливая все ссылки там? – Signal
Да, так что таблица состоит из данных, такие как ниже, <таблицы границы = "0" CELLSPACING = "0" CELLPADDING = "0" класса = "полный календарь"> \t \t \t <тра класса = "строки «> \t \t \t
Пятница 13 января
\t \t \tBallina
\t \t \t \t \t \t \t \t \t \t \t \t \t \t \t Gosford
\t \t \t \t \t \t \t
\t \t \t \t \t \t Ararat
\t \t \t \t \t \t \t \t \t \t \t \t \t \t \t Cranbourne
@KirstyDent Пожалуйста, поставьте все соответствующие данные, такие как HTML, в свой комментарий выше, в самом вопросе так что для более поздних читателей это проще найти. – JeffC