Мы делаем некоторый poc с solr, и один из путей, который мы рассматриваем, - это сделать первый раз индексирование набора данных с lucene. Затем сделайте solr, прочитав этот индекс, и любую последующую меньшую индексацию с помощью solr. Рациональное существо, что solr, веб-серверу придется переносить этот набор данных по http, который может быть узким местом. Размер набора данных составляет около 500 ГБ. Больше, чем об этом, мне интересно узнать, нужно ли нам даже пытаться это сделать.Должен ли я использовать библиотеку lucene для индексации моего набора данных в первый раз?
Спасибо за ваше время.
Вы хотите сделать индекс 500 ГБ на 1 сервере Solr? Кроме того, странно, почему транспортировка http будет узким местом, но lucene будет делать добро в этом случае? – Mysterion
Почему бы просто не запустить локальный экземпляр Solr для начального шага индекса? Написав отдельное приложение, используя библиотеку lucene для создания индекса, получив его в экземпляр solr и убедившись, что все это согласуется с вашей схемой solr ... это звучит намного больше, чем просто ждать немного дольше, чтобы завершить процесс. – femtoRgon
@Mysterion Я планирую увидеть производительность на 1 сервере и сделать больше тестов, разбившись на осколки. В документации solr говорится, что на 1 сервере можно индексировать 2 миллиарда документов. Надеясь, этого хватит. Я понимаю, что lucene - это библиотека, которая будет индексировать данные на диск, поэтому я бы не имел дело с передачей данных по http. Надеюсь, что это объяснение лучше. – Aj05