2010-04-06 3 views
-1

Я могу успешно запустить команду обхода через cygwin на windows xp. и я также могу сделать веб-поиск с помощью tomcat.как разобрать (только текст) веб-сайты при обходе

, но я также хочу, чтобы сохранить разобранные страницы во время обхода событий

поэтому, когда я начинаю кишит, как этот

бен/Nutch ползать URLs -dir пополз -depth 3

я также хочу сохранить сгенерированные HTML файлы в текстовые файлы

я имею в виду в течение этого периода, который я начал с выше командами

Nutch, когда выборка ред страница будет также автоматически сохранять эту страницу разобран (только текст) в текстовые файлы

эти файлы имена могут быть неправдоподобным URL

я действительно нужна помощь об этом

это будет использоваться в моем университете определение языка проект

ти

ответ

1

искателем страницы хранятся в сегментах. У вас может быть доступ к ним путем сброса содержимого сегмента:

nutch readseg -dump crawl/segments/20100104113507/ dump 

Вам нужно будет сделать это для каждого сегмента.