Я использую Spark для записи большого количества данных в Elasticsearch. Но некоторые (иногда большинство) из них являются дублированными документами, которые имеют одинаковый идентификатор в этом контексте. Поскольку запись данных в ES занимает много времени, я хочу знать, как пропустить индексацию, если идентификатор документа уже существует в ES?Как пропустить индексный документ, если такой документ существует?
нравится:
if doc.id in ES:
continue
else
doc.index(ES)
Спасибо очень много, «Единственная проблема» действительно большая проблема для меня. Вы знаете какой-либо метод подавления исключения? – Mazz
@Mazz Я бы посмотрел, как подавить ошибку на клиенте, так как ES просто вернет конкретное тело json. –