2015-01-07 2 views
0

Я хочу, чтобы все пользовательские комментарии с этого сайта: http://www.consumercomplaints.in/?search=chevroletКак получить все комментарии пользователей с сайта?

Проблема в том, что комментарии просто отображаются частично, и чтобы увидеть полный комментарий, я должен нажать на заголовок над ним, и этот процесс должен быть повторен для всех комментариев.

Другая проблема заключается в том, что существует много страниц комментариев.

Поэтому я хочу сохранить все полные комментарии на листе excel с указанного выше сайта. Возможно ли это? Я подумываю использовать crawler4j и jericho вместе с Eclipse.

Моего код для метода visitPage:. @Override общественных недействительного посещения (страница Page) {
Строки URL = page.getWebURL() GetURL(); System.out.println ("URL:" + url);

  if (page.getParseData() instanceof HtmlParseData) { 
        HtmlParseData htmlParseData = (HtmlParseData) page.getParseData(); 

        String html = htmlParseData.getHtml(); 

    //    Set<WebURL> links = htmlParseData.getOutgoingUrls(); 
    //    String text = htmlParseData.getText(); 

        try 
        { 
         String CrawlerOutputPath = "/DA Project/HTML Source/"; 
         File outputfile = new File(CrawlerOutputPath); 

         //If file doesnt exists, then create it 
         if(!outputfile.exists()){ 
          outputfile.createNewFile(); 
         } 

         FileWriter fw = new FileWriter(outputfile,true); //true = append file 
         BufferedWriter bufferWritter = new BufferedWriter(fw); 
         bufferWritter.write(html); 
         bufferWritter.close(); 
         fw.write(html); 
         fw.close(); 

        }catch(IOException e) 
        { 
         System.out.println("IOException : " + e.getMessage()); 
         e.printStackTrace(); 
        } 

        System.out.println("Html length: " + html.length()); 
      } 
    } 

Заранее благодарен. Любая помощь будет оценена по достоинству.

+0

Возможный дубликат [Как получить информацию с веб-сайта и сохранить ее на листе Excel) (http://stackoverflow.com/questions/27797927/how-to-retrieve-information-from- a-website-and-store-it-in-a-excel-sheet) – pnuts

ответ

0

Да, это возможно.

  • Начало ползать на вашем поисковом сайте (http://www.consumercomplaints.in/?search=chevrolet)
  • Используйте метод visitPage из crawler4j только следовать комментарии и текущие страницы.
  • Возьмите HTML Содержания от crawler4j и засунуть его в Иерихон
  • отфильтровать содержимое, которое необходимо сохранить и записать ее в какой-то .csv или файл .xls (я предпочел бы .csv)

Надеюсь, это вам поможет

+0

Привет, Тобиас ... Спасибо за ответ. Но мне нужно немного больше твоей помощи. Не могли бы вы помочь мне написать метод visitpage crawler4j. –

+0

Я связал свой код метода visitPage в вопросе. Не могли бы вы посоветовать мне, как отредактировать мой код, чтобы просто получать комментарии от обходных данных. Спасибо –

+0

Прежде всего, я бы использовал метод shouldVisit для фильтрации страниц. Некоторое регулярное выражение следует только «http://www.consumercomplaints.in/?search=chevrolet [.......]» и «http://www.consumercomplaints.in [...... заканчивается -c + some number] должен делать все правильно. Теперь зайдите в visitPage, будет ли его страница с комментарием или нет, и отфильтруйте комментарий. (Подсказка: класс является «текстовым».) –