Я пытаюсь использовать boilerpipe для извлечения новостей из неанглийского текста. Я уже видел this и его не работает для меня. Я сделал следующие изменения: 1) Изменен HTMLfetcher.java. Добавив следующие строки до конца метода выборкиBoilerpipe для извлечения неанглийских статей новостей
byte[] utf8 = new String(data, cs.displayName()).getBytes("UTF-8"); //new one (convertion)
cs = Charset.forName("UTF-8"); //set the charset to UFT-8
/или затем 2) Изменение кода в классе с использованием UTF-8 кодировку с Inuts
`URL url = new URL(urls);
InputSource is = new InputSource();
is.setEncoding("ISO-8859-1");
is.setByteStream(url.openStream());
text = ArticleExtractor.INSTANCE.getText(is);`
Тем не менее он не работает Test URL: http://www.sandesh.com/article.aspx?newsid=2905443 Текст: મુંબઈ, 30 જાન્યુઆરી
સલમાન ખાને ગુજરાતમાં આવીને નરેન્દ્ર મોદી ા વખાણ શુ કર્યા તેની મુસીબતોમાં ખૂબ વધારો થઈ ગયો છે. સલમાન ખાન ફિલ્મ 'જય હો'ના પ્રમોશન માટે ઉત્તરાયણમાં અમદાવાદ આવ્યા હોવાથી અને તે સમયે તેણે નરેન્દ્ર વખાણ ફિલ્મ હોવાથી હો હો હો હો હો હો હો હો હવે આવ્યો આવ્યો સામે ફતવો જાહેર જાહેર આવ્યો આવ્યો આવ્યો આવ્યો આવ્યો આવ્યો છે.
Пожалуйста, помогите мне.
Я полностью согласен с вами. Но мой вопрос был с кодировкой, где я получаю все ??????? вместо неанглийского текста. Хотя труба работает лучше всего для английского текста, но я также получаю хороший результат и для текста, не являющегося английским. –
Где вы получаете ??????? Это не показано в вашем исходном вопросе. – Luke
Откровенно говоря, его плохое намерение состоит в том, чтобы получить извлечение с помощью того же неанглийского языка вместо символов (вопросительных знаков или символов мусора) в качестве вывода. Проверьте мой вопрос в связанной теме [link] (http://stackoverflow.com/questions/9260010/using-boilerpipe-to-extract-non-english-articles) –