Я хочу, чтобы все пользовательские комментарии с этого сайта: http://www.consumercomplaints.in/?search=chevroletКак получить все комментарии пользователей с сайта?
Проблема в том, что комментарии просто отображаются частично, и чтобы увидеть полный комментарий, я должен нажать на заголовок над ним, и этот процесс должен быть повторен для всех комментариев.
Другая проблема заключается в том, что существует много страниц комментариев.
Поэтому я хочу сохранить все полные комментарии на листе excel с указанного выше сайта. Возможно ли это? Я подумываю использовать crawler4j и jericho вместе с Eclipse.
Моего код для метода visitPage:. @Override общественных недействительного посещения (страница Page) {
Строки URL = page.getWebURL() GetURL(); System.out.println ("URL:" + url);
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
String html = htmlParseData.getHtml();
// Set<WebURL> links = htmlParseData.getOutgoingUrls();
// String text = htmlParseData.getText();
try
{
String CrawlerOutputPath = "/DA Project/HTML Source/";
File outputfile = new File(CrawlerOutputPath);
//If file doesnt exists, then create it
if(!outputfile.exists()){
outputfile.createNewFile();
}
FileWriter fw = new FileWriter(outputfile,true); //true = append file
BufferedWriter bufferWritter = new BufferedWriter(fw);
bufferWritter.write(html);
bufferWritter.close();
fw.write(html);
fw.close();
}catch(IOException e)
{
System.out.println("IOException : " + e.getMessage());
e.printStackTrace();
}
System.out.println("Html length: " + html.length());
}
}
Заранее благодарен. Любая помощь будет оценена по достоинству.
Возможный дубликат [Как получить информацию с веб-сайта и сохранить ее на листе Excel) (http://stackoverflow.com/questions/27797927/how-to-retrieve-information-from- a-website-and-store-it-in-a-excel-sheet) – pnuts