2016-12-20 10 views
0

Я могу увидеть тег _redirTo в статусе индекса ElasticSearch. Несколько вопросов относительно перенаправления следующим образом:Есть ли ограничение на переадресацию в StormCrawler?

  1. Любой предел перенаправления? так что он не должен заканчиваться в петле перенаправления?
  2. Сколько редиректов выбранного URL-адреса? Я вижу только один переадресация в теге _redirTo, который является немедленным. Не удается получить количество перенаправлений, если есть две или три переадресации URL?

ответ

1

Вы можете установить предел глубине из семени, см. MaxDepth URL filter, но не прямо на число последовательных перенаправлений.

Как вы заметили, мы отслеживаем только URL-адрес, на который перенаправлен данный документ.

Если вы хотите контролировать количество повторов, независимо от расстояния от семени, одним из способов было бы продлить или изменить MetadataTransfer или обработать повторы в рамках реализации протокола, а недостатком является то, что это не будет проверять, URL уже получен.

UPDATE Существует элемент конфигурации, называемый «redirections.allowed» со значением по умолчанию true. Я просто подтолкнул исправление для SimpleFetcherBolt, поскольку он не обрабатывался должным образом.

+0

Что я заметил в своих экспериментах, что StormCrawler не следит за перенаправленным URL-адресом, значит, он не сканирует дальше по указанному перенаправленному URL-адресу. я прав ? или любой флаг, который мне нужно сделать правдой? так что он сканирует перенаправленный URL-адрес? – superB

+0

Неверное изображение. SC должен следовать перенаправлениям, если один из фильтров URL не предотвратит это, например. глубину или другое. Пожалуйста, откройте вопрос о GH с воспроизводимым примером, если вы считаете, что это не так, и я буду смотреть на него как можно скорее. Благодаря! –

+0

Возможно, удалите все фильтры URL, чтобы узнать, разрешает ли он проблему redir. –

 Смежные вопросы

  • Нет связанных вопросов^_^