Я пытаюсь выполнить сканирование веб-сайта, а именно Google Site
с использованием ManifoldCF
, который имеет аутентификацию SAML и индексирует обходные данные в Apache Solr. Но по мере того, как я просматриваю URL-адрес, он дает мне 302
перенаправление на страницу входа, а затем говорит RESPONSECODENOTINDEXABLE
.Как сканировать веб-сайт с аутентификацией SAML с помощью ManifoldCF или nutch?
Я не уверен, правильно ли я аутентифицирован. В multicCF мы имеем опции для проверки подлинности HTTP basic
, NTLM authentication
и Session-based
метод аутентификации доступа к учетным данным. Я использовал метод проверки подлинности Session based
, который больше похож на проверку подлинности на основе формы, а не на проверку подлинности SAML
.
Кто-нибудь сканировал веб-сайт, используя collectCF, у которого есть SAML
аутентификация? И если не manifoldCF
, смог ли кто-нибудь выполнить это через Apache Nutch, потому что я боюсь, он также предоставляет только HTTP
basic, Digest
и NTLM
аутентификацию.
Любое понимание было бы полезно. Можете предоставить дополнительную информацию о проблеме, если кто-то здесь думает, что ее можно легко выполнить. В основном, когда я сканирую https://sites.google.com/a/my-sub-domain.com, он перенаправляется на страницу входа в систему SSO, и искатель отказывается выполнять обход, давая 302 ошибку. Это веб-сайт, основанный на интрасети.