Я хочу извлечь текст с обходных веб-страниц html. Я использую превосходную библиотеку с открытым исходным кодом Boilerpipe, чтобы сделать именно это. Однако, с Boilerpipe я получаю только сырой текст. В дополнение к необработанному тексту, мне нужно захватить текст с исходной информацией форматирования исходного кода, указав всю информацию о стиле css.Извлечь текст статьи HTML со встроенным CSS
Есть ли способ сделать это с помощью Boilerpipe или любой другой java-библиотеки, предпочтительно с открытым исходным кодом?
Причина понижения? Конечно, я искал Google для информации. Вышел через jericho html parser, который, похоже, имеет возможность встроить все CSS. Однако, захотите придерживаться Boilerpipe. Даже указатель на то, как выработать новый экстрактор с этой возможностью, поможет. :) – cosmos