Я использую hbase для дедуплирования потока большого объема. Я думал, что он работает хорошо, используя уникальный идентификатор из каждого сообщения в потоке для использования в качестве ключа строки. Но конечный пользователь все еще видит дубликаты данных из создаваемого потока. Единственная возможная причина - одновременное использование дублированных сообщений.дедупликация против hbase с данными большого объема
У меня около 50 потоков, потребляющих одну и ту же очередь, которая заполняется из потока отдельным процессом. Есть ли способ гарантировать, что это не происходит, или более лучший способ выполнить надлежащую дедукцию? Процесс включает выполнение GET перед вставкой новой записи.