В настоящее время собираем информацию, где я должен использовать Nutch с Solr (домен - вертикальный поиск в Интернете).Nutch versus Solr
Не могли бы вы предложить мне?
В настоящее время собираем информацию, где я должен использовать Nutch с Solr (домен - вертикальный поиск в Интернете).Nutch versus Solr
Не могли бы вы предложить мне?
Nutch - это основа для создания веб-гусеничных машин и поисковых систем. Nutch может сделать весь процесс от сбора веб-страниц до построения инвертированного индекса. Он также может подталкивать эти индексы к Solr.
Solr - это в основном поисковая система с поддержкой фасетных поисков и многих других опрятных функций. Но Solr не извлекает данные, вы должны их кормить.
Так что, может быть, первое, что вы должны задать, чтобы выбрать между двумя, - это то, что у вас есть уже проиндексированные данные (в XML, в CMS или в базе данных). В этом случае вам, вероятно, следует просто использовать Solr и передать эти данные. С другой стороны, если вам нужно извлечь данные из Интернета, вы, вероятно, лучше с Nutch.
Мне нужно получить данные из Интернета, но более сложным способом, чем это делает искатель Nutch. И, как я знаю, очень сложно модифицировать искатель Nutch (например, игнорировать файл robots.txt, обнаруживать js-перенаправления и т. Д.). Мой выбор - Solr? Что Solr может сделать, что Nutch не может? – Jeriho
Как я уже сказал, Solr - поисковая система. В этом нет ничего, чтобы ползать в Интернете. Но если у вас есть проприетарный искатель, который хорошо работает для вас, вам должно быть легко нажать данные в Solr. –