-
Dask 中 set_index 方法使用具有重复项的列的行为
我有一个关于 Dask 中使用具有重复项的单列的 <code>set_index()</code> 方法的问题。我知道有一些顺序变化, -
如何设置Dask分布式内存限制
有谁知道 Dask Distributed 中的内存限制参数是否应该根据可用 RAM、RAM + 磁盘空间或两者的变体除以进程数 -
如何使用 Chunk 读取大文件(大于 10 亿)
我有一个超过 10 亿行的数据集,我想按 10 万行读取它。首先,我尝试使用 nrows 阅读它,如下所示: -
从连续产生的分散数据更新 dask 数组
我正在执行一项“连续”生成数据的分析,该分析旨在更新 dask 数组。 您将在下面找到一个旨在说明工 -
使用 df.iterrows() 进行 Dask 并行化
我想并行迭代 dask 数据帧这些代码: <pre><code> from dask import dataframe dataset_df = dataframe.read_csv('i -
使用 dask 或其他方法缩放 xgboost 或 sklean 模型
我想知道如何/是否可以使用 dask 或任何其他具体方法为大型数据集运行 sklearn 模型/xgboost 训练。 我也明 -
为什么 eofs.xarray.Eof 在应用于分块数组时会抛出错误?
我有一个带有空间和时间坐标的分块数组 <code>v</code>,它沿时间维度分块,我希望计算其经验正交函数 -
ModuleNotFoundError:没有名为“dask_geopandas”的模块
我安装了 dask、dask-core 和 dask geopandas,如图所示: <pre><code>dask 2021.7.1 pyhd8ed1ab -
如何使用 dask 从同一目录中读取多个 .csv 文件?
我一直在尝试读取同一文件夹中的多个 .csv 文件,但在图像中出现错误,我做错了什么? <a href="htt -
在 Dask 中排队工人 具有 dask.delayed 的依赖期货期货集合.as_completed()
我需要使用 Dask 调度程序和工作器解决以下场景: <ul> <li>Dask 程序有 N 个循环调用的函数(N 个由 -
使用Dask阅读时如何按日期时间列过滤Parquet文件?
我想在使用 Dask 读取 Parquet 文件时对其进行过滤,但我无法正确处理并不断收到相同的错误。 <pre><cod -
导入 dask_geopandas 导致“无法从 'dask.dataframe.utils' 导入名称 '_nonempty_index'”
在尝试导入 dask_geopandas 时,我遇到如下错误消息: <块引用> <块引用> <块引用> 导入 dask_geopandas 回 -
在 Dask 中使用 numpy default_rng?
我想知道如何在 Dask 中使用 numpy 默认随机数生成器。 文档例如<a href="https://docs.dask.org/en/latest/genera -
在 Dask Distributed
我一直在努力解决这个问题 - 任何帮助将不胜感激。我不确定从这里开始到底要去哪里。 我正在使 -
如何使用 Dask 和 Arima 并行化一个简单的功能?
我正在尝试使用 Dask 并行化一个简单的函数,以尝试使事情更快……但我很挣扎!有人可以帮忙吗?这 -
为 N 个点插入一个 xarray DataArray 并获取使用 dask
对不起,如果标题不是很描述,但我想要的是以下内容。 我有一个 <code>DataArray</code>,坐标为 <code> -
Qi:如何设置兼容SLURM 20.02.3的dask和dask_ml配置
每当使用 dask_ml 和 dask 包时,我们都会遇到并行处理问题。我们观察到的现象是:dask无法被Slurm作业管