2016-11-30 3 views
0

Я запускаю свой код для чтения/записи в семействах столбцов cassandra. Я заметил, что размер моего стола составляет около 10 ГБ, но пространство на диске потребляется файлами db для одной и той же таблицы - около 400 ГБ с разными версиями файлов.Несколько версий db-файлов в папке данных Cassandra

  • ла-2749-биг-Statistics.db ла-2750-биг-Index.db ла-2750-биг-Filter.db ла-2750-биг-Summary.db ла-2750-big- Data.db ла-2750-биг-Digest.adler32 ла-2750-биг-CRC.db ла-2750-биг-TOC.txt ла-2750-большой Statistics.db

  • ла-2751-большой -Filter.db la-2751-big-Index.db la-2751-big-Summary.db
    la-2751-big-Data.db la-2751-big-Digest.adler32 la-2751-big-CRC. db
    la-2751-big-Statistics.db la-2751-big-TOC.txt

  • la-2752-big-Index.db la-2752-big-Filter.db la-2752-big-Summary.db
    la-2752-big-Data.db la-2752-big-Digest.adler32 la -2752-большой CRC.db
    ла-2752-биг-TOC.txt ла-2752-большой Statistics.db

хотел бы понять, если последняя версия набора файлов имеет все данные требуется и можно удалить старые версии? Предоставляет ли cassandra возможность скопировать удаление таких файлов?

ответ

1

Номер, на который вы ссылаетесь, является номером SSTable (я думаю, что это технически называется поколение). В частности, формат файла является:

CFName-Generation-SSTableFormat-ComponentFile 

В вас так:

CFName = la 
Generation = 275x 
SSTableFormat = BIG 
ComponentFile = Data.db, TOC.txt, etc... 

Вы не можете сказать, если последний SSTable содержит все необходимые вам данные. Пространство на диске, потребляемое старыми поколениями, может быть освобождено только , если данные больше не упоминаются (моментальные снимки приходят на ум), а их возраст надгробия больше, чем gc_grace_seconds.

Вы должны сначала проверить, есть ли у вас снимки, и в конечном итоге использовать nodetool, чтобы удалить их. Затем вы должны исследовать, как ваши надгробия распределены между этими SSTables, и в этом случае у вас может возникнуть большая проблема для решения, если надгробные камни не могут быть уплотнены (например, реорганизация схемы или перенос данных в новый кластер).