dask - 前端之家

如何在Dask中写入Elastic db？

如何将计算后的数据写入Dask中的Elastic DB？就像我需要在SQL DB和Elasticsearch中输出计算结果一样。

前端之家
2022-08-15 • 问答
Dask-如何取消和重新提交已暂停的任务？

我经常遇到一个问题，Dask在几个任务上随机停顿，通常与从网络上其他节点读取数据有关（下面有更多

前端之家
2022-08-15 • 问答
Dask：如何在“分组依据”-“ agg”块中重命名列？

在Dask中，如何重命名聚合块中的列？ <h2> sample_file：</h2> <pre><code>id, class, student 1, 1grade, john 1, 1grade,

前端之家
2022-08-15 • 问答
在Google Compute Engine上设置dask和jupyter

旨在在由dask和jupyterlab组成的Google Compute Engine上建立生态系统，其中可以为jupyterlab中的给定任务动态配

前端之家
2022-08-14 • 问答
达斯克（Dask）：凸矩阵优化

我目前正在尝试实现Dask进行凸矩阵优化。目标是对内存不足矩阵执行矩阵优化（分解）。以一个高矩阵

前端之家
2022-08-14 • 问答
我是否必须使用jupyter notebook / lab / hub在Kubernetes集群上运行Dask？

我正在测试dask.distributed，用于大数据和与机器学习有关的事情。我看过视频，阅读博客页面，并试图了

前端之家
2022-08-14 • 问答
最好在分组上应用功能的最佳做法

我在hdf5文件上存储了一个大型数据集，我需要执行一些操作。 <pre><code> sku cente units 0 103896 1

前端之家
2022-08-14 • 问答
检查一个Dask数据框中的值是否在另一个Dask数据框中

我在此帖子<a href="https://stackoverflow.com/a/50449144/12322794">for pandas dataframe</a> 中找到了答案但是当我

前端之家
2022-08-14 • 问答
Dask不会清理Docker容器中的上下文

我们有一个Dask管道，其中我们基本上使用<code>LocalCluster</code>作为进程池。即我们使用<code>LocalCluster(proce

前端之家
2022-08-14 • 问答
有没有一种方法可以将dask read_sql_table中的列设置为null？

我正在连接到oracle数据库，并试图提供一个约有7700万行的表。刚开始，我尝试在pandas中使用chunksize，但

前端之家
2022-08-14 • 问答
快手：无法正确共享大型块状xarray数据集的amogst worker

<h1>情况</h1> 我有一个很大的NetCDF文件，其中包含一些Earth System模型数据。我通过<code>xarray</code>访问文

前端之家
2022-08-14 • 问答
估计熊猫数据框大小，而无需加载到内存中

是否有一种方法可以估计数据帧的大小而无需将其加载到内存中？我已经知道我没有足够的内存来存储

前端之家
2022-08-14 • 问答
将150万张图像加载到dask群集中的最快方法

我试图将150万张图像作为快闪阵列持久存储到快闪集群中，然后获得一些摘要统计信息。我正在关注<a hr

前端之家
2022-08-14 • 问答
轻松的机会缓存（或其他方式）避免io的策略

我有一个问题，当索引到由3D tiffs文件夹构建的dask数组时，如何减少文件io的<code>dask.delayed</code>几乎完

前端之家
2022-08-14 • 问答
Dask Scheduler退出，并在“ ddf.persist（）”上输出“ Killed”

我对DASK相当陌生，这可能真的很明显。我正在尝试运行一个分布式dask设置，其中调度程序有1个节点，

前端之家
2022-08-14 • 问答
与多个工作人员同时计算多个任务

我有2名工作人员（<code>A</code>和<code>B</code>），他们的工资为<code>df</code>，我正在尝试通过以下任务来计

前端之家
2022-08-14 • 问答
sklearn dbscan如何使用多核？

我正在尝试通过<code>dbscan</code>处理大量数据，并希望使用计算机上可用的所有内核来加快计算速度。我

前端之家
2022-08-14 • 问答
如何修复超过一亿行的数据库表的Dask内存错误

我正在使用dask.dataframe.read_sql_table连接到Oracle数据库，以尝试访问一些更大的表，其中一些表的行数超过

前端之家
2022-08-14 • 问答
字符串索引器是否有任何简便的方法

我正在用熊猫做这件事，它给了我想要的输出，但是我如何使用dask库实现呢？ <pre><code>import pandas as

前端之家
2022-08-14 • 问答
如何验证dask正在使用多个处理器？

已安装<code>dask</code>，我想验证<code>dask</code>确实在使用多个处理器来计算内容。 <ol> <li>如何确定有

前端之家
2022-08-14 • 问答
不同大小的数组（锯齿状数组）的Python集合，Dask？

我有多个不同大小的1-D numpy数组，表示音频数据。由于它们的大小不同（例如<code>(13246,)</code>，<code>(615

前端之家
2022-08-14 • 问答
使用glob字符串从Google Cloud读取时，Dask解析为无文件错误

我刚刚将Dask更新为2.8.0，gcsfs为0.4.0。我在dask 2.5上没有这个问题我正在尝试使用glob字符串从Google

前端之家
2022-08-14 • 问答
如何在groupby操作熊猫上应用dask

我有一个大数据框，我需要应用groupby，然后在其上应用dask 由于数据集很大，在这种情况下是否有办法

前端之家
2022-08-14 • 问答
如何使用dask或parallel python在多个列之间使用函数

假设我有一个要应用于多个列的函数。但是，我们不是并行执行此操作，而是并行执行此操作。钻进兔

前端之家
2022-08-14 • 问答
在dask.distributed集群中的计算机之间共享python模块

我有一个ssh <code>dask.distributed</code>群集，其中一台主计算机包含我脚本的所有模块，而另一台只有几个

前端之家
2022-08-14 • 问答
Dask-是否有等效于pandas df.values.tolist（）的dask数据框？

我正在读取2500万行和4列（纬度，经度，国家/地区和水平）的CSV文件。过滤掉我不想要的内容后，剩下

前端之家
2022-08-13 • 问答
使用Dask和Psycog2连接到远程PostGreSql Server

我能够使用pandas和psycopg2连接到远程PostgreSQL服务器。现在，由于知道熊猫读取数据库的速度很慢，我认

前端之家
2022-08-13 • 问答
dask.array.apply_along_axis：使用dask.array的每一行作为另一个函数的输入失败，因为有附加元素（[1]）

我有一个形状为<code>arr</code>的大数组（<code>(62000000, 2)</code>），每行代表两个整数索引，我希望将它们

前端之家
2022-08-13 • 问答
fsspec + Dask：访问html zip文件

<strong>动机：</strong>：在相对较小的区域内下载遥感数据，但是具有较长的时间范围。因此，我想避免

前端之家
2022-08-13 • 问答
将Dask延迟任务中的工作进度传达回客户端线程

我想使用Dask <code>delayed</code>任务来调用一个外部程序，该程序将其进度输出到<code>STDOUT</code>。在<code>del

前端之家
2022-08-13 • 问答