Я могу успешно запустить команду обхода через cygwin на windows xp. и я также могу сделать веб-поиск с помощью tomcat.как разобрать (только текст) веб-сайты при обходе
, но я также хочу, чтобы сохранить разобранные страницы во время обхода событий
поэтому, когда я начинаю кишит, как этот
бен/Nutch ползать URLs -dir пополз -depth 3
я также хочу сохранить сгенерированные HTML файлы в текстовые файлы
я имею в виду в течение этого периода, который я начал с выше командами
Nutch, когда выборка ред страница будет также автоматически сохранять эту страницу разобран (только текст) в текстовые файлы
эти файлы имена могут быть неправдоподобным URL
я действительно нужна помощь об этом
это будет использоваться в моем университете определение языка проект
ти