У меня проблема хранения 50 ГБ журналов каждый день в распределенной среде. Я посмотрел Hadoop HDFS, но поскольку у него проблемы с инфраструктурой Windows, отсутствие API многоязыковой файловой системы мне не очень хорошо. С другой стороны, Cassandra очень легко развертывать на любой платформе. Единственная большая проблема, с которой я сталкиваюсь, - это использование дискового пространства. Вот цифры:Кассандра подходит для хранения журналов в условиях использования дискового пространства?
- Оригинальный размер журнала 224MB
- файл данных Cassandra является 557Mb
- Cassandra индекс файла 109Mb
Так что я получил почти 2х накладных расходов при сохранении строк журналов из журнальный файл.
Возможно ли каким-либо образом настроить Кассандру, чтобы он не мог съесть столько места на диске для очень простых сценариев?
Мамы, пожалуйста, прочитайте http://stackoverflow.com/questions/2359175/cassandra-file-structure-how-are-the-files-used/2359282#2359282 – Schildmeijer