2013-03-27 1 views
0

Я пытаюсь использовать crawler4j для сканирования веб-сайтов. Я смог следовать инструкциям на веб-сайте crawler4j. Когда это будет сделано, создается папка с двумя разными файлами .lck, одним файлом .jdb и одним файлом .info.0.Что такое .lck-файл и почему я не могу прочитать его с помощью буферизованного считывателя?

Я попытался прочитать в файле, используя код, который я предоставил в this, для чтения в файле, но он продолжает терпеть неудачу. Я использовал ту же функцию для чтения текстовых файлов, поэтому я знаю, что код работает.

Я также found кто-то другой, который задал один и тот же вопрос несколько месяцев назад. У них не было ответа.

Почему я не могу использовать свой код для открытия и чтения этих .lck-файлов в память?

+0

«он продолжает терпеть неудачу» безнадежно расплывчато. Что происходит? –

ответ

1

Crawler4j использует BerkeleyDB для хранения информации об обходе. См. Здесь в источнике.

Из командной строки вы можете использовать DB utils для доступа к данным. Уже описано в SO here.

Если вы хотите получить доступ к данным в вашем Java-коде, вы просто импортируете библиотеку BerkeleyDB (инструкция Maven там) и следуйте за tutorial on how to open the DB.

+0

Спасибо, я смотрел вокруг сайта crawler4j, ища, что делать с этими файлами, но я ничего не нашел. –