2013-02-21 1 views
0

Я хочу, чтобы реализовать очень простой веб-сканер с использованием Java, и я нашел эту библиотеку: crawler4j: http://code.google.com/p/crawler4j/некоторую информацию о сопоставлении с образцом в веб-crwaler Java с использованием crawler4j библиотеки

мне нужен искатель, который сделать следующее вещь:

Start из URL (specificated мной) и признает, если на текущей странице есть specifici слово, такие как собственное имя или название компании (также это слово указано мной)

Если найти это слово, текущий URL-адрес страницы должен быть сохранен в базе данных.

Таким образом, нет никакого семантического анализа, но только sintattic анализа (Crowler должны попытаться соответствовать содержанию веб-страницы с помощью какой-то знак, указанный мной)

Я бы знать, если этот маркер исследования (найти, если слово содержатся в текущей странице) это функция реализуется абстрактным классом Webcrawler спос craler4j или если я должен реализовать самого

TNX

Andrea

ответ

1

Как отметил пользователь1887511, он прост в применении. Адаптировано от here.

static String wordToFind = "..."; 
    public void visit(Page page) {   
      if (page.getParseData() instanceof HtmlParseData) { 
        HtmlParseData htmlParseData = (HtmlParseData) page.getParseData(); 
        String text = htmlParseData.getText(); 
        if(text.indexOf(wordToFind)!=-1) 
          saveToDB(page.getWebURL().getURL()): 
      } 
    } 
1

Вы должны реализовать его самостоятельно, отправной точкой в ​​коде будет подкласс/метод посещения(), который вызывается при посещении страницы ... и анализируется вам, тогда вы можете делать все, что хотите, со страницы -text ... например, с использованием шаблонов регулярных выражений.