1
Я ожидаю, что это довольно простой: «?»HtmlUnit: Кодирование для китайского веб-сайта
При загрузке страницы с китайского сайта, все китайские символы отображаются в виде в сохраненном файле (viw java NIO Files.write).
Я знаю, что китайская веб-страница извлекается как UTF-8 (page.getPageEncoding() возвращает «UTF-8»), но что-то не так в моей сохранности веб-страницы.
Мой код выглядит следующим образом:
final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_45);
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setTimeout(15000);
final HtmlPage page = webClient.getPage(urlNow);
pageAsXml = page.asXml();
NioLog.getLogger().debug(page.getPageEncoding());
Files.write(Paths.get(outputPath + File.separator + fileNameTruncated + TXT), pageAsXml.getBytes());