Когда я попробовать быстрый старт в Crawler4j example,Как изменить значение crawlStorageFolder по умолчанию в Crawler4j?
в controller.java
Я предполагаю, что это то место, которое я должен изменить результат сохранить место.
`public class Controller {
public static void main(String[] args) throws Exception {
String crawlStorageFolder = "/data/crawl/root";
int numberOfCrawlers = 7;
CrawlConfig config = new CrawlConfig();
config.setCrawlStorageFolder(crawlStorageFolder);`
Во-первых, я не знаю, что это файл словаря "/data/crawl/root"
.
Тогда я пытаюсь изменить к "C:\Fraps\try"
.Это создает папку с именем границы с неизвестным файлом, как je.lck, je.info.0 ...
В моем понимании, crawler4j
может работать с поиском внешних связей и анализа содержимого.
Это означает, что в этом crawlStorageFolder
должно быть указано много разных файлов html
, содержащих содержимое веб-сайта?
Другими словами, я могу загрузить html-файлы (текст внутри) через crawler4j
? Или что я должен скачать через crawler4j
?