2016-08-08 7 views
18

Я пытаюсь выполнить сканирование веб-сайта, а именно Google Site с использованием ManifoldCF, который имеет аутентификацию SAML и индексирует обходные данные в Apache Solr. Но по мере того, как я просматриваю URL-адрес, он дает мне 302 перенаправление на страницу входа, а затем говорит RESPONSECODENOTINDEXABLE.Как сканировать веб-сайт с аутентификацией SAML с помощью ManifoldCF или nutch?

Я не уверен, правильно ли я аутентифицирован. В multicCF мы имеем опции для проверки подлинности HTTP basic, NTLM authentication и Session-based метод аутентификации доступа к учетным данным. Я использовал метод проверки подлинности Session based, который больше похож на проверку подлинности на основе формы, а не на проверку подлинности SAML.

Кто-нибудь сканировал веб-сайт, используя collectCF, у которого есть SAML аутентификация? И если не manifoldCF, смог ли кто-нибудь выполнить это через Apache Nutch, потому что я боюсь, он также предоставляет только HTTP basic, Digest и NTLM аутентификацию.

Любое понимание было бы полезно. Можете предоставить дополнительную информацию о проблеме, если кто-то здесь думает, что ее можно легко выполнить. В основном, когда я сканирую https://sites.google.com/a/my-sub-domain.com, он перенаправляется на страницу входа в систему SSO, и искатель отказывается выполнять обход, давая 302 ошибку. Это веб-сайт, основанный на интрасети.

ответ

0

Не уверен, помогает ли это, просто попробуйте. В nutch мы можем предоставить учетные данные для входа на страницу, у нас есть файл httpclient-auth.xml в каталоге conf. Там вы можете указать имя своего хоста вместе с учетными данными.

<auth-configuration> 
    <credentials username="admin" password="admin123"> 
     <authscope host="hostname" realm="login"/> 
     <default/> 
    </credentials> 
</auth-configuration> 

Аналогичным образом вы можете добавить любое количество учетных данных в эту конфигурацию.

Чтобы обходить сайт https, измените plugin.includes свойство from protocol-http на protocol-httpclient в nutch-conf.xml

 Смежные вопросы

  • Нет связанных вопросов^_^