Скребок в Интернете, чтобы получить стол, используя Beautiful soup
и Pandas
. Один из столбцов получил некоторые URL-адреса. Когда я передаю html в pandas, href
теряются.как сохранить ссылки при очистке стола с красивым супом и пандами
есть ли способ сохранить ссылку на URL только для этой колонки?
Пример данных (отредактированы для лучшего костюма Ral случае):
<html>
<body>
<table>
<tr>
<td>customer</td>
<td>country</td>
<td>area</td>
<td>website link</td>
</tr>
<tr>
<td>IBM</td>
<td>USA</td>
<td>EMEA</td>
<td><a href="http://www.ibm.com">IBM site</a></td>
</tr>
<tr>
<td>CISCO</td>
<td>USA</td>
<td>EMEA</td>
<td><a href="http://www.cisco.com">cisco site</a></td>
</tr>
<tr>
<td>unknown company</td>
<td>USA</td>
<td>EMEA</td>
<td></td>
</tr>
</table>
</body>
</html>
Мой питон код:
file = open(url,"r")
soup = BeautifulSoup(file, 'lxml')
parsed_table = soup.find_all('table')[1]
df = pd.read_html(str(parsed_table),encoding='utf-8')[0]
df
Output (экспорт в CSV):
customer;country;area;website
IBM;USA;EMEA;IBM site
CISCO;USA;EMEA;cisco site
unknown company;USA;EMEA;
выход ФР ok, но ссылка потеряна. Мне нужно сохранить ссылку. URL по крайней мере.
любая подсказка?
вы можете помочь мне с вопросом У меня с beautifulsoup? – Nobi
@Nobi: Возможно, я не знаю ответа, но если вы опубликуете вопрос, я посмотрю. – unutbu
ладно спасибо, я сделаю сразу – Nobi