2017-01-25 10 views
1

Я должен индексировать около 400 миллиардов документов для solr 6.3. Я использую pysolr для анализа данных csv перед индексацией. Как я могу ускорить мою индексацию. Для того, чтобы индексировать документ в Solr, он использовал метод добавления, который следующий синтаксис bydefaultУказатель 400 миллиардов документов в solr 6.3

add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, handler='update') 

один базисный вариант, что я должен сделать и совершить softcommit ложь для быстрой индексации. Правильно ли это?

Любые другие варианты перекодирования быстрой индексации?

+0

Вы можете получить хороший совет в http://stackoverflow.com/questions/12328969/speed-up-solr-indexing – AR1

+0

Почему вы не можете отправить CSV прямо в партии? Обработчик CSV с партиями обычно представляет собой довольно быструю комбинацию. – MatsLindh

+0

Я не знаю, как отправить CSV непосредственно в партии. Pleae делится некоторыми деталями – Shafiq

ответ

1

Посмотрите, можете ли вы совершить в одиночку, это будет очень дорого. Поэтому лучший вариант, чтобы совершить в партии, так что я хотел бы предложить, чтобы сохранить количество переменных

if(count == 10000) 
{ 
perform solr commit operation 
} 

Кроме того, сделать индексирование скрипт многопоточный для Fastly полных эти партии.