некоторую информацию о сопоставлении с образцом в веб-crwaler Java с использованием crawler4j библиотеки

Я хочу, чтобы реализовать очень простой веб-сканер с использованием Java, и я нашел эту библиотеку: crawler4j: http://code.google.com/p/crawler4j/некоторую информацию о сопоставлении с образцом в веб-crwaler Java с использованием crawler4j библиотеки

мне нужен искатель, который сделать следующее вещь:

Start из URL (specificated мной) и признает, если на текущей странице есть specifici слово, такие как собственное имя или название компании (также это слово указано мной)

Если найти это слово, текущий URL-адрес страницы должен быть сохранен в базе данных.

Таким образом, нет никакого семантического анализа, но только sintattic анализа (Crowler должны попытаться соответствовать содержанию веб-страницы с помощью какой-то знак, указанный мной)

Я бы знать, если этот маркер исследования (найти, если слово содержатся в текущей странице) это функция реализуется абстрактным классом Webcrawler спос craler4j или если я должен реализовать самого

TNX

Andrea

источник

2013-02-21 AndreaNobili

Как отметил пользователь1887511, он прост в применении. Адаптировано от here.

static String wordToFind = "..."; 
    public void visit(Page page) {   
      if (page.getParseData() instanceof HtmlParseData) { 
        HtmlParseData htmlParseData = (HtmlParseData) page.getParseData(); 
        String text = htmlParseData.getText(); 
        if(text.indexOf(wordToFind)!=-1) 
          saveToDB(page.getWebURL().getURL()): 
      } 
    }

источник

2013-03-29 14:29:19 Julien

Вы должны реализовать его самостоятельно, отправной точкой в коде будет подкласс/метод посещения(), который вызывается при посещении страницы ... и анализируется вам, тогда вы можете делать все, что хотите, со страницы -text ... например, с использованием шаблонов регулярных выражений.

источник

2013-02-28 10:51:37 user1887511

некоторую информацию о сопоставлении с образцом в веб-crwaler Java с использованием crawler4j библиотеки

ответ

Смежные вопросы