В последнее время я работаю над большими наборами данных (более 400 тысяч строк). До сих пор я использовал формат XTS, который отлично работал для «небольших» наборов данных в несколько десятых тысяч элементов.Ограничение размера XTS
Теперь, когда проект растет, R просто сбрасывается при извлечении данных для базы данных и помещении в XTS.
Насколько я понимаю, R должен иметь векторы размером до 2^32-1 элементов (или 2^64-1 по версии). Следовательно, я пришел к выводу, что XTS может иметь некоторые ограничения, но я не мог найти ответ в документе. (возможно, я был немного самоуверен в своем понимании теоретического возможного размера вектора).
Подводя итог, я хотел бы знать, если:
- XTS действительно имеет ограничение на размере
- Что вы думаете это самый умный способ справиться с большим временным рядом? (Я думал о разделении анализа на несколько меньших наборов данных).
- Я не получаю сообщение об ошибке, R просто выключается автоматически. Это известное поведение?
РЕШЕНИЕ
- Так же, как R, и это зависит от вида используемой памяти (64bits, 32 бит). Это в любом случае чрезвычайно велико.
- Данные Chuncking действительно хорошая идея, но она не нужна.
- Эта проблема возникла из-за ошибки ошибка в R 2.11.0, которая была разрешена в R 2.11.1. Возникла проблема с вектором длинных дат (здесь индексы XTS).
R 3.0.0 позволит векторам с> 2^32 - 1 элементами. Планируется, что он будет официально выпущен в апреле, но до тех пор попробуйте версию r-devel R. –