-
如何在Dask中写入Elastic db?
如何将计算后的数据写入Dask中的Elastic DB? 就像我需要在SQL DB和Elasticsearch中输出计算结果一样。 -
Dask-如何取消和重新提交已暂停的任务?
我经常遇到一个问题,Dask在几个任务上随机停顿,通常与从网络上其他节点读取数据有关(下面有更多 -
Dask:如何在“分组依据”-“ agg”块中重命名列?
在Dask中,如何重命名聚合块中的列? <h2> sample_file:</h2> <pre><code>id, class, student 1, 1grade, john 1, 1grade, -
在Google Compute Engine上设置dask和jupyter
旨在在由dask和jupyterlab组成的Google Compute Engine上建立生态系统,其中可以为jupyterlab中的给定任务动态配 -
达斯克(Dask):凸矩阵优化
我目前正在尝试实现Dask进行凸矩阵优化。目标是对内存不足矩阵执行矩阵优化(分解)。以一个高矩阵 -
我是否必须使用jupyter notebook / lab / hub在Kubernetes集群上运行Dask?
我正在测试dask.distributed,用于大数据和与机器学习有关的事情。我看过视频,阅读博客页面,并试图了 -
最好在分组上应用功能的最佳做法
我在hdf5文件上存储了一个大型数据集,我需要执行一些操作。 <pre><code> sku cente units 0 103896 1 -
检查一个Dask数据框中的值是否在另一个Dask数据框中
我在此帖子<a href="https://stackoverflow.com/a/50449144/12322794">for pandas dataframe</a> 中找到了答案 但是当我 -
Dask不会清理Docker容器中的上下文
我们有一个Dask管道,其中我们基本上使用<code>LocalCluster</code>作为进程池。即我们使用<code>LocalCluster(proce -
有没有一种方法可以将dask read_sql_table中的列设置为null?
我正在连接到oracle数据库,并试图提供一个约有7700万行的表。刚开始,我尝试在pandas中使用chunksize,但 -
快手:无法正确共享大型块状xarray数据集的amogst worker
<h1>情况</h1> 我有一个很大的NetCDF文件,其中包含一些Earth System模型数据。我通过<code>xarray</code>访问文 -
估计熊猫数据框大小,而无需加载到内存中
是否有一种方法可以估计数据帧的大小而无需将其加载到内存中?我已经知道我没有足够的内存来存储 -
将150万张图像加载到dask群集中的最快方法
我试图将150万张图像作为快闪阵列持久存储到快闪集群中,然后获得一些摘要统计信息。我正在关注<a hr -
轻松的机会缓存(或其他方式)避免io的策略
我有一个问题,当索引到由3D tiffs文件夹构建的dask数组时,如何减少文件io的<code>dask.delayed</code>几乎完 -
Dask Scheduler退出,并在“ ddf.persist()”上输出“ Killed”
我对DASK相当陌生,这可能真的很明显。 我正在尝试运行一个分布式dask设置,其中调度程序有1个节点, -
与多个工作人员同时计算多个任务
我有2名工作人员(<code>A</code>和<code>B</code>),他们的工资为<code>df</code>,我正在尝试通过以下任务来计 -
sklearn dbscan如何使用多核?
我正在尝试通过<code>dbscan</code>处理大量数据,并希望使用计算机上可用的所有内核来加快计算速度。我 -
如何修复超过一亿行的数据库表的Dask内存错误
我正在使用dask.dataframe.read_sql_table连接到Oracle数据库,以尝试访问一些更大的表,其中一些表的行数超过 -
字符串索引器是否有任何简便的方法
我正在用熊猫做这件事,它给了我想要的输出,但是我如何使用dask库实现呢? <pre><code>import pandas as -
如何验证dask正在使用多个处理器?
已安装<code>dask</code>,我想验证<code>dask</code>确实在使用多个处理器来计算内容。 <ol> <li>如何确定有 -
不同大小的数组(锯齿状数组)的Python集合,Dask?
我有多个不同大小的1-D numpy数组,表示音频数据。 由于它们的大小不同(例如<code>(13246,)</code>,<code>(615 -
使用glob字符串从Google Cloud读取时,Dask解析为无文件错误
我刚刚将Dask更新为2.8.0,gcsfs为0.4.0。我在dask 2.5上没有这个问题 我正在尝试使用glob字符串从Google -
如何在groupby操作熊猫上应用dask
我有一个大数据框,我需要应用groupby,然后在其上应用dask 由于数据集很大,在这种情况下是否有办法 -
如何使用dask或parallel python在多个列之间使用函数
假设我有一个要应用于多个列的函数。但是,我们不是并行执行此操作,而是并行执行此操作。钻进兔 -
在dask.distributed集群中的计算机之间共享python模块
我有一个ssh <code>dask.distributed</code>群集,其中一台主计算机包含我脚本的所有模块,而另一台只有几个 -
Dask-是否有等效于pandas df.values.tolist()的dask数据框?
我正在读取2500万行和4列(纬度,经度,国家/地区和水平)的CSV文件。过滤掉我不想要的内容后,剩下 -
使用Dask和Psycog2连接到远程PostGreSql Server
我能够使用pandas和psycopg2连接到远程PostgreSQL服务器。现在,由于知道熊猫读取数据库的速度很慢,我认 -
dask.array.apply_along_axis:使用dask.array的每一行作为另一个函数的输入失败,因为有附加元素([1])
我有一个形状为<code>arr</code>的大数组(<code>(62000000, 2)</code>),每行代表两个整数索引,我希望将它们 -
fsspec + Dask:访问html zip文件
<strong>动机:</strong>:在相对较小的区域内下载遥感数据,但是具有较长的时间范围。因此,我想避免 -
将Dask延迟任务中的工作进度传达回客户端线程
我想使用Dask <code>delayed</code>任务来调用一个外部程序,该程序将其进度输出到<code>STDOUT</code>。在<code>del