我已经从多个源hdf5文件构建了一个庞大的dask阵列。
假设,数据仅来自一个hdf5文件:
import dask.array as da
import h5py
import xarray as xr
h5_data = h5py.File(path_to_file,"r")
dask_arr = da.from_array(h5_data,chunks=chunksize)
然后,我将该数组中的切片(惰性)排列到一个xarray数据集中
xr_data = xr.DataArray(dask_arr[0:1000])
# Note: In reality,xr_data and dask[0:1000] aggregation is much more complex and needs quite long to process
现在,我想序列化xr_data对象,因此不需要每次都计算它。
xarray DataArray中的数据通过dask延迟映射到hdf5文件。 如何在“惰性映射”持续存在的情况下进行序列化(点刺?netcdf?...)以能够重新加载xarray对象?
谢谢你!