2017-01-03 27 views
0

Я хочу сканировать сайт с помощью Apache Nutch 1.12 и индексировать данные в Apache Solr. Я следил за этим tutorial.Nutch Crawl не работает

Моего seed.txt файл имеет этот адрес http://nutch.apache.org/

В моем регулярном выражении фильтра URL Я имею как эти +^http://([a-z0-9] *.) * Nutch.apache.org/

когда я пытаюсь принести data Я получаю только URL-адрес в файле seed.txt.

Fetcher: starting at 2017-01-03 09:56:23 
Fetcher: segment: crawl/segments/20170103095613 
Fetcher: threads: 10 
Fetcher: time-out divisor: 2 
QueueFeeder finished: total 2 records + hit by time limit :0 
Using queue mode : byHost 
Using queue mode : byHost 
Using queue mode : byHost 
fetching http://nutch.apache.org/ (queue crawl delay=5000ms) 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=2 
Using queue mode : byHost 
Using queue mode : byHost 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=2 
Using queue mode : byHost 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=2 
Using queue mode : byHost 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=2 
Using queue mode : byHost 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=2 
Using queue mode : byHost 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=2 
Using queue mode : byHost 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=2 
Fetcher: throughput threshold: -1 
Fetcher: throughput threshold retries: 5 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=2 
robots.txt whitelist not configured. 
robots.txt whitelist not configured. 
-activeThreads=2, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=2 
Thread FetcherThread has no more work available 
Thread FetcherThread has no more work available 
-finishing thread FetcherThread, activeThreads=1 
-finishing thread FetcherThread, activeThreads=0 
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=0 
-activeThreads=0 

Что мне здесь не хватает.

+0

Попробуйте рекурсивно, сгенерируйте> Fetch> Parse> Updb. см. записи в журналах для получения более подробной информации. –

ответ

0

Я попытался выполнить операцию выборки еще раз, когда получаю ожидаемые результаты.

 Смежные вопросы

  • Нет связанных вопросов^_^