2012-04-03 3 views
3

Я только что установил Solr в моем приложении Rails (с использованием солнечного пятна).Solr - Reindex рекомендованный размер партии

Я хочу, чтобы solr повторно проиндексировал пару столбцов на одной из моих таблиц, таблицы довольно большие (~ 50M записей).

Каков рекомендуемый размер партии для использования? в настоящее время я использую 1000 и работает более суток.

Любые идеи?

ответ

2

Размер партии не так важен, 1000, вероятно, хорошо, хотя я бы не стал больше этого. Это зависит от размера документов, количества байтов текста индексируются для каждого из них.

Вы совершаете после каждой партии? Это может быть медленным. Я загружаю индекс документа 23M с одним фиксатором в конце. Документы небольшие, метаданные для книг, и это занимает около 90 минут. Чтобы получить эту скорость, мне нужно было использовать один SQL-запрос для загрузки. Использование любых подзапросов привело к замедлению на 10X.

Я использую поддержку JDBC в DataInputHandler, хотя я могу перейти к некоторому настраиваемому коду, который делает запрос БД и отправляет партии.

Я слышал, что обработчик ввода CSV очень эффективен, поэтому он может сбрасывать ваши данные в CSV, а затем загружать его с помощью этого обработчика.