Я пытаюсь импортировать кадр, создавая рамку h2o из файла паркета искры. Файл 2GB имеет около 12M строк и разреженных векторов с 12k cols. Он не такой большой в паркетном формате, но импорт берет навсегда. В h2o это фактически указано как сжатый размер 447mb. Довольно мало.h2o сверкающая вода сохранить рамку на диск
Я делаю это неправильно, и когда я фактически заканчиваю импорт (занял 39мин), есть ли какая-либо форма в h2o, чтобы сохранить кадр на диск для быстрой загрузки в следующий раз?
Я понимаю, что h2o делает некоторую магию за сценой, которая занимает так много времени, но я нашел только вариант загрузки csv, который является медленным и огромным для разрешенных данных 11k x 1M, и я сомневаюсь, что он быстрее импортируется.
Я чувствую, что часть отсутствует. Любая информация о ввозе/экспорте данных h2o приветствуется. Сохранение/загрузка модели отлично работает, но загрузка данных поезда/вали/теста кажется неоправданно медленной процедурой.
Я получил 10 искрообразователей по 10 г каждый и дал водителю 8г. Этого должно быть много.
(Я не использовал этот подход с Spark, поэтому я просто проверяю одного из разработчиков, если есть какая-то причина, по которой он не может быть использован ...) –