Размер партии не так важен, 1000, вероятно, хорошо, хотя я бы не стал больше этого. Это зависит от размера документов, количества байтов текста индексируются для каждого из них.
Вы совершаете после каждой партии? Это может быть медленным. Я загружаю индекс документа 23M с одним фиксатором в конце. Документы небольшие, метаданные для книг, и это занимает около 90 минут. Чтобы получить эту скорость, мне нужно было использовать один SQL-запрос для загрузки. Использование любых подзапросов привело к замедлению на 10X.
Я использую поддержку JDBC в DataInputHandler, хотя я могу перейти к некоторому настраиваемому коду, который делает запрос БД и отправляет партии.
Я слышал, что обработчик ввода CSV очень эффективен, поэтому он может сбрасывать ваши данные в CSV, а затем загружать его с помощью этого обработчика.