2010-09-04 3 views
0

Я работаю с большим набором html-документов. Одна из моих задач - извлечь весь текст из документов. Я получил довольно далеко, но теперь я сбитый с толку из-за использования таблиц в качестве контейнеров/структур форматирования для информации, которая не является числовой по своей природе.Классифицировать таблицу в lxml

Моя цель - игнорировать - оставить позади - не извлекать «таблицу», если она является таблицей числовых полей

Я готов к реализации основанного на грубом правиле подхода, взяв таблицу, и если более чем некоторый процент от td.text_content() можно классифицировать как цифры, я буду решать, что таблица таблица числовых значений

Мне интересно, может ли кто-то другой предложить лучший подход

+2

Определить «таблицу числовых полей» - все поля содержат цифры? Большинство полей могут быть проанализированы с помощью 'int()'? ...? – delnan

+0

Да, не уверен, что большинство ((> 50%) является правильным порогом, но в принципе да – PyNEwbie

ответ

0

Я бы предложил анализ контекстуальных данных, например, реализованный IBM's Watson, но, я полагаю, в противном случае классифицировать таблицу невозможно. Не могли бы вы разместить html-примеры числовой и нечисловой таблицы? Я буду обновлять свой ответ, когда они будут опубликованы.