В python, использующем библиотеку lxml, как читать таблицы td таблиц html? Я попробовал прочитать таблицу xpath, но я не могу найти правильный параметр, чтобы вернуть значения td. Спасибо всем, я ценю это.Python - Читать таблицу
import sys
from glob import *
from lxml import etree, html
import requests
#Scan directory (current) and scrape the html files
dirScan = glob('html/*.*')
fileCount = 0
while(fileCount < len(dirScan)):
fileName = dirScan[fileCount]
page = open(fileName)
tree = html.fromstring(page.read())
tables = tree.xpath('//table')
print("Tables:",tables)
page.html
<table style="width:100%">
<tr align="right"><td>1</td><td>John</td><td>Smith</td>
<tr align="right"><td>2</td><td>Tody</td><td>Miller</td>
</table>
Вы знаете, как использовать XPath? –
Не совсем, и я не могу найти на нем хорошую документацию. Im tyring, чтобы захватить все значения td, которые после tr align = "right", но я не могу получить синтаксис справа. – John
http://www.w3schools.com/xml/xpath_intro.asp 'xpath (" // table/tr [@ align = 'right']/td ")' –