У нас есть solrcloud (с 11 осколками на 4 машинах, 1 zookeeper). Мы хотим проиндексировать более 100 миллионов документов. Мы вытаскиваем документы из базы данных, готовим xml-файлы и отправляем их в solrcloud.Переключение с нескольких машин на одиночный zookeeper
Поскольку большая часть времени потрачена на подготовку xml-файлов, мы распределяем эту задачу на нескольких машинах. Таким образом, мы готовим XML-файлы на нескольких компьютерах, и все эти машины размещение XML-файлы в том же зоопарк (solrcloud)
Это решение работает быстро для нас, чтобы подготовить XML-файлы, но иногда мы получаем ошибку о том, что
503 Услуга недоступна: {"responseHeader": {"status": 503, "QTime": 412}, "error": {"msg": "Невозможно поговорить с ZooKeeper - Обновления отключены.", "Code": 503
Имея несколько зоопарков, вы решите эту проблему? Есть ли другой способ исправить это?
Проверьте это, если вы еще не [Zookeeper проблем, связанных с SolrCloud] (https://issues.apache.org/jira/browse/SOLR-3274). – YoungHobbit
Есть ли причина, почему у вас есть только один зоопарк? Этот вид поражает всю цель создания ZooKeeper и SolrCloud, поскольку ZooKeeper обрабатывает все махинации при сбое и метаинформацию о узлах. Как вы индексируете? SolrJ - это кластер, знакомый с помощью Zookeeper, позволяющий индексировать его прямо к правильному узлу. – MatsLindh
Нет никакой конкретной причины, почему у нас есть только один зоопарк. Мы не знаем, будет ли иметь несколько зоопарков улучшить наше индексирование и время поиска в нашем случае. Мы также не знаем, сколько зоопарков мы должны иметь. Мы хотим понять, что мы. Мы отправляем XML-документ в узел zookeeper для индексации. –