2016-12-29 8 views
1

Я ожидаю, что это довольно простой: «?»HtmlUnit: Кодирование для китайского веб-сайта

При загрузке страницы с китайского сайта, все китайские символы отображаются в виде в сохраненном файле (viw java NIO Files.write).

Я знаю, что китайская веб-страница извлекается как UTF-8 (page.getPageEncoding() возвращает «UTF-8»), но что-то не так в моей сохранности веб-страницы.

Мой код выглядит следующим образом:

final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_45); 
    webClient.getOptions().setThrowExceptionOnScriptError(false); 
    webClient.getOptions().setTimeout(15000); 
    final HtmlPage page = webClient.getPage(urlNow); 





    pageAsXml = page.asXml(); 

    NioLog.getLogger().debug(page.getPageEncoding()); 





    Files.write(Paths.get(outputPath + File.separator + fileNameTruncated + TXT), pageAsXml.getBytes()); 

ответ

1

Ответ заключается в следующем:

  barrayXml = page.asXml().getBytes(Charset.forName("UTF-8")); 



      Files.write(Paths.get(outputPath + File.separator + fileNameTruncated + TXT), barrayXml); 

 Смежные вопросы

  • Нет связанных вопросов^_^