Извлечь текст статьи HTML со встроенным CSS

Я хочу извлечь текст с обходных веб-страниц html. Я использую превосходную библиотеку с открытым исходным кодом Boilerpipe, чтобы сделать именно это. Однако, с Boilerpipe я получаю только сырой текст. В дополнение к необработанному тексту, мне нужно захватить текст с исходной информацией форматирования исходного кода, указав всю информацию о стиле css.Извлечь текст статьи HTML со встроенным CSS

Есть ли способ сделать это с помощью Boilerpipe или любой другой java-библиотеки, предпочтительно с открытым исходным кодом?

источник

2012-06-10 cosmos

Причина понижения? Конечно, я искал Google для информации. Вышел через jericho html parser, который, похоже, имеет возможность встроить все CSS. Однако, захотите придерживаться Boilerpipe. Даже указатель на то, как выработать новый экстрактор с этой возможностью, поможет. :) – cosmos

Начну с того, что я никогда не использовал Boilerpipe ... или даже не слышал об этом до сих пор.

Но, глядя на веб-сайт и javadocs, я бы сказал, что вы не можете использовать его для извлечения текста со стилем. Основная концептуальная проблема заключается в том, как этот стиль будет/может быть представлен. Например, интерфейс BoilerpipeExtractor имеет методы 4 getText, и каждый из этих методов возвращает извлеченный текст в виде строки. Как вы представляете стиль в String? Вы должны были бы вставить какую-разметку, но ...

какие наценки и
как бы вы это совместить с описанием интерфейса, в котором говорится, что возвращать методы «текст «... не« текст с разметкой ».

Итак, моя оценка заключается в том, что использование Boilerpipe для извлечения текста с помощью стилей является полным без стартера. Поэтому переходите к другим альтернативам, которые вы уже определили.

источник

2012-06-10 03:58:52

Извлечь текст статьи HTML со встроенным CSS

ответ

Смежные вопросы