2016-10-10 8 views
1

Я пытаюсь получить основное содержание статьи из HTML с использованием кода boilerpipe.Как получить основное содержание статьи из HTML с помощью шаблона?

Скачанные последние баночки от here.

Я пытаюсь использовать следующий код:

String article = ""; 
try { 
    article = ArticleExtractor.INSTANCE.getText(url); 
    System.out.println("Article ++++ >>" + article);  
} catch (BoilerpipeProcessingException e) { 
    // TODO Auto-generated catch block 
    e.printStackTrace(); 
} 

Но это возвращает пустую строку для каждого URL. Может ли кто-нибудь помочь мне в этом?

+0

А что происходит? –

+0

@MarkusMitterauer Возвращает пустую строку! –

+2

Чтобы задать [хороший вопрос] (http://stackoverflow.com/help/how-to-ask), вы должны включить эту информацию и запрос, который вы запрашиваете при описании своей проблемы, создать [минимальный, полный и проверенный пример] (http://stackoverflow.com/help/mcve), –

ответ

2

Вы пытались передать сам HTML вместо URL-адреса? Или, может быть, есть проблема с тем, как форматируются ваши строки URL.