2015-08-25 3 views
3

Каков правильный способ создания dask.dataframe из списка файлов HDF5? Я в принципе хочу, чтобы это сделать, но с dataframeСоздание dask dataframe из списка файлов HDF5

dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')] 
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets] 
x = da.stack(arrays, axis=0) 

ответ

1

Вкратце, если ваши отдельные файлы могут быть считаны с pd.read_hdf, то вы можете сделать это с dd.read_hdf и dd.concat.

import dask.dataframe as dd 
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')] 
df = dd.concat(dfs) 

Но было бы полезно (и легко), чтобы поддержать эту идиому в dd.read_hdf непосредственно. Я создал an issue для этого и постараюсь добраться до него в ближайшие пару дней.