-
高效的内存方式将Pandas系列字符串列表转换为稀疏DataFrame
我想优化一个函数,该函数将用大文本字符串填充的Series作为参数,然后返回一个DataFrame,其中每个列 -
将带有图像列的Dask DataFrame保存到HDF5
我正在尝试将大小不同的图像加载到Dask DataFrame列中,并将数据帧保存为HDF5文件格式。 这是标准 -
将循环时间序列xarray坐标映射到一维时间序列dask数组
<h2>简短:</h2> 有可能创建一个具有2个不同(时间)坐标的xarray数据集,其中一个保存一维时间序列的 -
达斯-理解诊断-内存:列表
我正在开发一个使用Dask框架的相当复杂的应用程序,试图提高性能。为此,我正在研究诊断仪表板。我 -
在黄昏时,compute()会做什么?
我对dask还是陌生的,不了解compute()方法在dask中到底能做什么?它是一种在调用它的位置打印对象的 -
在AWS中写入s3 Bucket时将dask分区合并到一个文件中
我设法使用Dask以拼花格式将oracle数据库表写入AWS的s3存储桶中。但是,我希望能像在Pandas中那样写出单 -
我们如何在kubernetes上通过头盔运行的dask分布式中的每个工作者选择--nthreads和--nprocs?
我在Dask上运行一些I / O密集型Python代码,并希望增加每个工作线程的线程数。我已经部署了一个Kubernetes -
dask-mpi使用PBS job-script可以永远在HPC上运行
我最近开始使用dask,并试图将每月的天气数据重新采样为每日格式。我正在使用的数据集约为6GB。当我 -
达斯多处理
我正在尝试运行以下代码。如果在shell中执行,则可以工作,但是如果作为宏(py macro.py)执行,则崩溃 -
计算数据帧时出现CancelledError
我在不同的机器上安装了一个带有调度程序的容器和几个工作容器。 因此,我正在尝试运行下一个代码 -
使用Dask的资源管理器在集群上对独立Python脚本进行GPU感知调度
我正在寻找一个简单的资源管理器。我有一小组计算机,每台计算机都有不同的特征(内存大小和GPU数 -
dask jobqueue无法创建客户端调度程序和工作程序
我使用dask jobqueue以以下格式创建了作业脚本: <pre class="lang-py prettyprint-override"><code>import dask from dask. -
分析包含Dask并行化的Python
我已经实现了dask.delayed()来并行化我的项目,结果,我不再能够通过使用cProfile对项目进行性能分析来 -
如何将源文件传输到Dask工作者?
在dask jupyter节点上,我具有以下文件布局: <pre><code>main/ src/ subfolder/ file1.py file2.py -
dask-将read_json放入数据框ValueError
这里是一个最小的示例:我有一个json文件xaa.json,其内容如下所示(来自stackoverflow归档文件的两行):< -
python碎片数据熊猫
使用有什么区别 <pre><code>//DASK b = db.from_sequence(_query,npartitions=2) df = b.to_dataframe() df = df.compute() //PAND -
每个id连接,合并或连接多个Dask DataFrame,并具有不同的行和列数
我正在尝试联接,合并或连接多个dask数据帧,但我不知道如何正确地按id进行操作。 <strong> DataFra -
将字符串拆分为大量列
我有一个dask系列<code>X</code>,里面充满了包含很多文本的字符串,我想将其拆分为几列。这就是我正在 -
在Dask Dataframe中找出并分配列类型
当前,我正在使用Pandas数据框。我遍历行并根据将dtype分配给该列的数据类型的数量。假设我有一个如下 -
如何在自定义类中使用Dask
我正在用包装的C ++扩展在Python中构建分布式空间索引。我正在尝试使用Dask(第一次)而不是MPI。 当前 -
Dask Dataframe中的奇怪分区
我正在尝试学习和理解Dask数据框。我创建了一个熊猫数据框,并使用了<code>.from_pandas</code>。进行了转置 -
dtype映射参数中的键只能使用列名
我已经使用dask read_sql_table从oracle数据库成功引入了一个表。但是,当我尝试引入另一个表时,出现此错 -
将dask-jobqueue作业提交到计算节点
我正在尝试使用PBSCluster在cray计算节点上运行一些计算。 我编写了dask-jobqueue脚本,如下所示: <pre cl -
DASK中是否有任何方法可以在计算数据集中的不同值时创建并行性
我已经成功地从数据集中提取了特定单词的计数,但是这花费了太多时间。我是并行编程的新手。 如何 -
dask to_dataframe重复索引
我正在将文本文件列表加载到dask数据框中。每个文本文件都有多行字典(用换行符分隔)。对于文本文 -
有没有办法对Pandas DataFrame或Numpy ndarray中的多列进行并行正向填充?
我有一个pandas DataFrame,想找到一种方法来加快多列的填充和填充操作。有哪些方法可以对多列并行执行 -
是否可以在dask中批量处理csv的行?
我正在尝试处理dask中的csv行: 这个任务可以完成吗? <pre class="lang-py prettyprint-override"><code>batc -
为什么Dask读取实木复合地板文件的速度比熊猫读取相同实木复合地板文件的速度慢得多?
我正在测试使用Dask和python在镶木地板文件上的读取速度,我发现用pandas读取同一文件的速度明显比Dask快 -
Python 3.5支持的最新版本是什么?
在Conda Python 3.5环境中尝试升级dask时获取python软件包冲突。在为Python 3.5创建的虚拟环境中,默认值为0.19 -
打开和重新分块数据集时,xarray / dask中的分块性能 (案例1):打开沿station维度只有一个块的数据集(快速切片一次)(案例2):沿station维度打开具有很多大小= 1个块的数据集(切片一次很慢,切片一个很快)(案例3):尝试将station重新打包成一个块(一次切片仍然很慢,应该更快吗?)
在以下两个用例下,xarray / dask中的分块行为是否应类似? (a)使用<code>chunks</code>选项从netcdf文