2015-05-19 2 views
1

Привет Я звоню controller внутри for-loop, потому что у меня есть более 100 URL-адресов, поэтому у меня есть все в списке, и я буду перебирать и crawl страницу, я установил этот URL для setCustomData также, потому что он не должен покидать домен.вызов контроллера (crawler4j-3.5) внутри цикла

for (Iterator<String> iterator = ifList.listIterator(); iterator.hasNext();) { 
    String str = iterator.next(); 
    System.out.println("cheking"+str); 
    CrawlController controller = new CrawlController(config, pageFetcher, 
     robotstxtServer); 
    controller.setCustomData(str); 
    controller.addSeed(str); 
    controller.startNonBlocking(BasicCrawler.class, numberOfCrawlers); 
    controller.waitUntilFinish(); 
} 

, но если я бегу выше кода, после первого URL пополз отлично после этого второго URL начать и ошибки печати, как показано ниже.

50982 [main] INFO edu.uci.ics.crawler4j.crawler.CrawlController - Crawler 1 started. 
51982 [Crawler 1] DEBUG org.apache.http.impl.conn.PoolingClientConnectionManager - Connection request: [route: {}->http://www.connectzone.in][total kept alive: 0; route allocated: 0 of 100; total allocated: 0 of 100] 
60985 [Thread-2] INFO edu.uci.ics.crawler4j.crawler.CrawlController - It looks like no thread is working, waiting for 10 seconds to make sure... 
70986 [Thread-2] INFO edu.uci.ics.crawler4j.crawler.CrawlController - No thread is working and no more URLs are in queue waiting for another 10 seconds to make sure... 
80986 [Thread-2] INFO edu.uci.ics.crawler4j.crawler.CrawlController - All of the crawlers are stopped. Finishing the process... 
80987 [Thread-2] INFO edu.uci.ics.crawler4j.crawler.CrawlController - Waiting for 10 seconds before final clean up... 
91050 [Thread-2] DEBUG org.apache.http.impl.conn.PoolingClientConnectionManager - Connection manager is shutting down 
91051 [Thread-2] DEBUG org.apache.http.impl.conn.PoolingClientConnectionManager - Connection manager shut down 

, пожалуйста, помогите мне решить вышеупомянутое решение, мой interating для запуска и работы контроллера внутри цикла, потому что я имею много URL в списке.

ПРИМЕЧАНИЕ: ** Я использую ** crawler4j-3.5.jar и их зависимости.

ответ

0

Try:

for(String url : urls) { 
    controller.addSeed(url); 
} 

и переопределить shouldVisit(WebUrl) так, что она не может оставить домены.