2016-09-11 2 views
0

Когда я попробовать быстрый старт в Crawler4j example,Как изменить значение crawlStorageFolder по умолчанию в Crawler4j?

в controller.java

Я предполагаю, что это то место, которое я должен изменить результат сохранить место.

`public class Controller { 
    public static void main(String[] args) throws Exception { 
     String crawlStorageFolder = "/data/crawl/root"; 
     int numberOfCrawlers = 7; 

     CrawlConfig config = new CrawlConfig(); 
     config.setCrawlStorageFolder(crawlStorageFolder);` 

Во-первых, я не знаю, что это файл словаря "/data/crawl/root".

Тогда я пытаюсь изменить к "C:\Fraps\try" .Это создает папку с именем границы с неизвестным файлом, как je.lck, je.info.0 ...

В моем понимании, crawler4j может работать с поиском внешних связей и анализа содержимого.

Это означает, что в этом crawlStorageFolder должно быть указано много разных файлов html, содержащих содержимое веб-сайта?

Другими словами, я могу загрузить html-файлы (текст внутри) через crawler4j? Или что я должен скачать через crawler4j?

ответ

2

crawlStorageFolder - это папка, в которой хранятся промежуточные данные обхода. Это не папка для хранения любого вида разобранного и загруженного содержимого HTML.

Проверьте информацию о конфигурации, относящейся к объекту this.

Если вы хотите загрузить и сохранить извлеченные данные, вы должны реализовать это поведение в своей пользовательской реализации искателя, которая должна расширять WebCrawler.

Посмотрите пример на GitHub.

 Смежные вопросы

  • Нет связанных вопросов^_^