2016-02-05 4 views
1

У меня есть установка Nutch 2.3 с HBase в качестве бэкэнд, и я запускаю сканирование, которое включает в себя индекс для дедупликации Solr и Solr.Как настроить Apache Nutch 2.3 для выполнения метатага роботов?

Я недавно заметил, что индекс Solr содержит нежелательные веб-страницы.

Для того, чтобы получить Nutch игнорировать эти веб-страниц, я установил следующий метатег:

<meta name="robots" content="noindex,follow"> 

я посетил официальный сайт апач Nutch и объясняет следующее:

Если вы не имеют разрешение на редактирование файла /robots.txt на вашем сервере, вы все равно можете сказать роботам, чтобы они не индексировали ваши страницы или не следили за вашими ссылками. Стандартный механизм для этого является роботы META тегов

Поиск в Интернете для ответов, я нашел рекомендации установить Protocol.CHECK_ROBOTS или установить protocol.plugin.check.robots как свойство в Nutch-site.xml. Ни один из них не работает.

В настоящее время Nutch 2.3 игнорирует правило noindex, поэтому индексирует содержимое внешнего хранилища данных, то есть Solr.

Вопрос в том, как настроить Nutch 2.3 для выполнения метатегов роботов?

Также, если ранее Nutch 2.3 был настроен на игнорирование метатага робота и во время предыдущего цикла обхода индексировал эту веб-страницу. Правильные правила для метатага роботов правильны, приведет ли это к тому, что страница будет удалена из индекса Solr в будущих обходах?

ответ

1

Я создал плагин для решения проблемы Apache Nutch 2.3 НЕ соблюдая правило метатага роботов noindex. Плагин metarobots заставляет Nutch отбрасывать квалификационные документы во время индекса. Это предотвращает индексирование квалификационных документов на ваш внешний хранилище данных, то есть Solr.

Обратите внимание: Этот плагин предотвращает индекс документов, содержащих правила роботы метатега noindex, он не удаляет любые документы, которые ранее были проиндексированы на внешний датасторе.

Visit this link for instructions