Как загрузить текст, содержащийся в файлах JavaScript через crawler4j?

Я пытаюсь использовать crawler4j для извлечения текста с некоторых веб-сайтов. Однако, в то время как я изменил фильтры, чтобы расширения с JS следующим образомКак загрузить текст, содержащийся в файлах JavaScript через crawler4j?

private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|gif|jpg" 
     + "|png|mp3|mp3|zip|gz))$");

Я не знаю, как сохранить этот текст в файл (если есть другой способ сделать это для текста в JS файлы в отличие от обычного текста)

источник

2015-06-16 Aurelius

«visit» вызывается после того, как страница успешно обработана веб-гусеницей . Содержимое затем содержится в этом объекте.

Я предлагаю, чтобы затем вы могли использовать предоставленные методы для записи вашего содержимого с обходным javascript, например. разбор двоичного содержимого.

@Override 
public void visit(Page page) { 
    //parse the binary content contained in the page object 
}

Пример (ну это связано с изображениями, но путь в основном то же самое) можно найти здесь: https://github.com/yasserg/crawler4j/blob/master/src/test/java/edu/uci/ics/crawler4j/examples/imagecrawler/ImageCrawler.java

источник

2015-07-20 17:09:21 rzo

Как загрузить текст, содержащийся в файлах JavaScript через crawler4j?

ответ

Смежные вопросы