Я ищу способ для чистого преобразования HTML-таблиц в читаемый простой текст.Чистое решение python для преобразования HTML-таблиц в читаемый простой текст
I.e. дали вход:
<table>
<tr>
<td>Height:</td>
<td>200</td>
</tr>
<tr>
<td>Width:</td>
<td>440</td>
</tr>
</table>
Я ожидаю выход:
Height: 200
Width: 440
Я предпочел бы не использовать внешние инструменты, например w3m -dump file.html
, потому что они (1) зависят от платформы, (2) Я хочу иметь некоторый контроль над процессом и (3) Я предполагаю, что он выполним только с Python с дополнительными модулями или без них.
Мне не нужна ни одна слоновая упаковка или регулируемая ширина разделителя ячеек. Наличие вкладок в качестве разделителей ячеек будет достаточно хорошим.
Благодарим вас за код, но проблема в том, что он обрабатывает только один специальный случай, и мой фактический ввод немного сложнее и содержит много colspans, поэтому он не будет отображать данные так, как я этого хочу. Вот пример фактических данных: http://pastebin.com/yRQvz2Ww На данный момент ни один из параметров, которые я пробовал (elementree, lxml, BeautifulSoup), не приближается к выходу 'w3m -dump' со входом, который я имею , – ccpizza
Это совершенно другой вопрос - я имею в виду * данный ввод * и * ожидаемый результат * не то, что вы просили. Для чего вы сначала спросили, мой ответ работает. –
Мой оригинальный пример - * generic *, и предпочтительный ответ в идеале должен быть * generic *. Решение, которое вы предлагаете, решает простейший случай, но недостаточно * generic *. – ccpizza