Как получить основное содержание статьи из HTML с помощью шаблона?

Я пытаюсь получить основное содержание статьи из HTML с использованием кода boilerpipe.Как получить основное содержание статьи из HTML с помощью шаблона?

Скачанные последние баночки от here.

Я пытаюсь использовать следующий код:

String article = ""; 
try { 
    article = ArticleExtractor.INSTANCE.getText(url); 
    System.out.println("Article ++++ >>" + article);  
} catch (BoilerpipeProcessingException e) { 
    // TODO Auto-generated catch block 
    e.printStackTrace(); 
}

Но это возвращает пустую строку для каждого URL. Может ли кто-нибудь помочь мне в этом?

источник

2016-10-10 Pritam Banerjee

А что происходит? –

@MarkusMitterauer Возвращает пустую строку! –

Чтобы задать [хороший вопрос] (http://stackoverflow.com/help/how-to-ask), вы должны включить эту информацию и запрос, который вы запрашиваете при описании своей проблемы, создать [минимальный, полный и проверенный пример] (http://stackoverflow.com/help/mcve), –

Вы пытались передать сам HTML вместо URL-адреса? Или, может быть, есть проблема с тем, как форматируются ваши строки URL.

источник

2016-10-10 07:18:31

Как получить основное содержание статьи из HTML с помощью шаблона?

ответ

Смежные вопросы