2017-02-02 7 views
0

Мы делаем некоторый poc с solr, и один из путей, который мы рассматриваем, - это сделать первый раз индексирование набора данных с lucene. Затем сделайте solr, прочитав этот индекс, и любую последующую меньшую индексацию с помощью solr. Рациональное существо, что solr, веб-серверу придется переносить этот набор данных по http, который может быть узким местом. Размер набора данных составляет около 500 ГБ. Больше, чем об этом, мне интересно узнать, нужно ли нам даже пытаться это сделать.Должен ли я использовать библиотеку lucene для индексации моего набора данных в первый раз?

Спасибо за ваше время.

+0

Вы хотите сделать индекс 500 ГБ на 1 сервере Solr? Кроме того, странно, почему транспортировка http будет узким местом, но lucene будет делать добро в этом случае? – Mysterion

+0

Почему бы просто не запустить локальный экземпляр Solr для начального шага индекса? Написав отдельное приложение, используя библиотеку lucene для создания индекса, получив его в экземпляр solr и убедившись, что все это согласуется с вашей схемой solr ... это звучит намного больше, чем просто ждать немного дольше, чтобы завершить процесс. – femtoRgon

+0

@Mysterion Я планирую увидеть производительность на 1 сервере и сделать больше тестов, разбившись на осколки. В документации solr говорится, что на 1 сервере можно индексировать 2 миллиарда документов. Надеясь, этого хватит. Я понимаю, что lucene - это библиотека, которая будет индексировать данные на диск, поэтому я бы не имел дело с передачей данных по http. Надеюсь, что это объяснение лучше. – Aj05

ответ

0

Если вы выполняете POC на Solr, вам нужно сделать индексацию, используя Solr, чтобы вы узнали больше о Solr, это уменьшает вашу задачу индексирования, для которой вам нужно написать код Java. Если вы хотите повысить релевантность, вы можете реализовать пользовательские плагины с помощью lucene, а затем развернуть его в Solr.

Если бы индексация с помощью Lucene было бы достаточно быстро, но с большим набором данных приходят различные вещи, как высокая доступность, производительность и т.д.

Так что я хотел бы предложить вам сделать индексацию с помощью Solr в standalone и Solrcloud, тогда вы можете сравнить тот подход, который вы хотели бы принять.

 Смежные вопросы

  • Нет связанных вопросов^_^