У меня есть установка Nutch 2.3 с HBase в качестве бэкэнд, и я запускаю сканирование, которое включает в себя индекс для дедупликации Solr и Solr.Как настроить Apache Nutch 2.3 для выполнения метатага роботов?
Я недавно заметил, что индекс Solr содержит нежелательные веб-страницы.
Для того, чтобы получить Nutch игнорировать эти веб-страниц, я установил следующий метатег:
<meta name="robots" content="noindex,follow">
я посетил официальный сайт апач Nutch и объясняет следующее:
Если вы не имеют разрешение на редактирование файла /robots.txt на вашем сервере, вы все равно можете сказать роботам, чтобы они не индексировали ваши страницы или не следили за вашими ссылками. Стандартный механизм для этого является роботы META тегов
Поиск в Интернете для ответов, я нашел рекомендации установить Protocol.CHECK_ROBOTS
или установить protocol.plugin.check.robots
как свойство в Nutch-site.xml. Ни один из них не работает.
В настоящее время Nutch 2.3 игнорирует правило noindex
, поэтому индексирует содержимое внешнего хранилища данных, то есть Solr.
Вопрос в том, как настроить Nutch 2.3 для выполнения метатегов роботов?
Также, если ранее Nutch 2.3 был настроен на игнорирование метатага робота и во время предыдущего цикла обхода индексировал эту веб-страницу. Правильные правила для метатага роботов правильны, приведет ли это к тому, что страница будет удалена из индекса Solr в будущих обходах?