2016-12-02 7 views
0

Я пытаюсь получить конкретную информацию из обходного содержимого. Поскольку nutch сбрасывает весь текст веб-сайта, мне сложно получить конкретный контент. Я хочу добавить разделитель к обтекаемому текстовому контенту, который я индексирую в эластичном поиске.Добавление разделителя в содержимом обхода ореха

См., Например, при сканировании данных http://example.com/ данных, которые получают проиндексированы в elasticsearch является

 

Example Domain Example Domain This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. More information... 

Я хочу, чтобы быть в формате

 

Example Domain | Example Domain | This domain is established to be used for illustrative examples in documents. You may use this domain in examples without prior coordination or asking for permission. | More information... 

Можем ли мы определить этот разделитель где-то в Nutch конфигурации?

ответ

0

В принципе, вы хотите, чтобы у вас были отдельные поля для хранения различных частей веб-страницы, например, на веб-сайте электронной торговли, который вы хотите, чтобы страница продукта имела цену, рейтинг, описание в разных полях. В Nutch 1.x это делается путем написания настраиваемого плагина, который выполняет синтаксический анализ загруженного контента.

Ваш плагин должен будет имплицировать интерфейс HtmlParseFilter и IndexingFilter, а затем в Solr/ES определить поля/сопоставление.

Если вы собираетесь написать свой собственный плагин, проверьте плагин headings, который позволяет извлекать теги hN.

Еще одна возможность - взглянуть на https://issues.apache.org/jira/browse/NUTCH-1870, который позволит вам указать, какой контент вы хотите извлечь, указав выражения xpath.

+0

Thanks.That было полезно – vibhash

+0

Рад, что это помогло! –