Я внедрил глушитель Nutch с глубиной 3. Теперь, когда я беру данные в cassandra, у меня есть таблица с URL-адресом и данными из этого конкретный URL. Так что я могу отслеживать путь к собственному URL-адресу, с которого этот URL-адрес обхода глубины был обновлен в файле seed.txt и сканирован.Проследите путь к базовому URL-адресу, из которого была просканирована внешняя ссылка в гайке
0
A
ответ
0
Итак, вы хотите знать, из какого семенного URL-адреса (в вашем файле seed.txt
) появляется конкретный URL-адрес? Если это так, то в основном легко, файл seed.txt
поддерживает добавление custom metadata key/vale pair after the URL. В основном просто использовать следующий формат:
URL <tab> key=value
, например, что-то вроде:
http://my-news-site.com source=news
После этого вы должны будете использовать и настраивать urlmeta
плагин для распространения этих метаданных во все внешние ссылки семени URL. Это приведет к тому, что вы получите поле source
в своем индексе для исходного URL-адреса и всех его исходящих ссылок.
Будет ли это помогать мне с внутренними ссылками, а также с внешними ссылками? Например, если у конкретного URL-адреса есть другой URL-адрес, связанный с ним из другого домена? @Jorge Luis – user7140275
Да @ user7140275 это будет распространять метаданные, которые вы хотите (включая метаданные, указанные в файле 'seed.txt'), в КАЖДОЙ аутлинк, обнаруженный на веб-странице. На данный момент есть открытый билет Jira [NUTCH-1872] (https://issues.apache.org/jira/browse/NUTCH-1872) о фильтрации, по которой распространяются метаданные –