Я работаю с большим набором html-документов. Одна из моих задач - извлечь весь текст из документов. Я получил довольно далеко, но теперь я сбитый с толку из-за использования таблиц в качестве контейнеров/структур форматирования для информации, которая не является числовой по своей природе.Классифицировать таблицу в lxml
Моя цель - игнорировать - оставить позади - не извлекать «таблицу», если она является таблицей числовых полей
Я готов к реализации основанного на грубом правиле подхода, взяв таблицу, и если более чем некоторый процент от td.text_content() можно классифицировать как цифры, я буду решать, что таблица таблица числовых значений
Мне интересно, может ли кто-то другой предложить лучший подход
Определить «таблицу числовых полей» - все поля содержат цифры? Большинство полей могут быть проанализированы с помощью 'int()'? ...? – delnan
Да, не уверен, что большинство ((> 50%) является правильным порогом, но в принципе да – PyNEwbie