Я должен индексировать около 400 миллиардов документов для solr 6.3. Я использую pysolr
для анализа данных csv перед индексацией. Как я могу ускорить мою индексацию. Для того, чтобы индексировать документ в Solr, он использовал метод добавления, который следующий синтаксис bydefaultУказатель 400 миллиардов документов в solr 6.3
add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, handler='update')
один базисный вариант, что я должен сделать и совершить softcommit ложь для быстрой индексации. Правильно ли это?
Любые другие варианты перекодирования быстрой индексации?
Вы можете получить хороший совет в http://stackoverflow.com/questions/12328969/speed-up-solr-indexing – AR1
Почему вы не можете отправить CSV прямо в партии? Обработчик CSV с партиями обычно представляет собой довольно быструю комбинацию. – MatsLindh
Я не знаю, как отправить CSV непосредственно в партии. Pleae делится некоторыми деталями – Shafiq