pyarrow

ImportError：libarrow.so.14：无法打开共享库文件：没有这样的文件或目录|蟒蛇

当我尝试使用File（.tar.bz2）在库下面安装时，出现以下错误。我的hadoop群集中没有Internet连接，这就是我

前端之家
2022-08-16 • 问答
ImportError：无法使用Anaconda python找到共享库：libhdfs3.so

使用以下版本的Python： <pre><code> (base) [xxxx@xxx-xxx-000 lib]# python Python 3.7.3 (default, Mar 27 2019, 22:11:17)

前端之家
2022-08-16 • 问答
无法使用pyarrow从目录中读取实木复合地板文件

我正在使用pyarrow（0.12.1）从s3中读取实木复合地板对象这是我正在使用的代码： <pre><code>s3 = s

前端之家
2022-08-15 • 问答
在HDP群集中使用HDFS3库与Namenode连接时出错

将pyspark代码连接到Hadoop目录时出现错误。 <pre><code>>>> from hdfs3 import HDFileSystem >>> hdfs =

前端之家
2022-08-15 • 问答
如何将pyarrow实木复合地板数据写入s3存储桶？

我已经创建了一个数据框，并使用pyarrow（也提到了<a href="https://stackoverflow.com/questions/54669196/pandas-to-parque

前端之家
2022-08-15 • 问答
没有名为“ pyarrow._orc”的模块

我在Windows 10的Anaconda中使用pyarrow.orc模块时遇到问题。 <pre><code>import pyarrow.orc as orc </code></pre> 引

前端之家
2022-08-15 • 问答
使用日期类型将Pandas DataFrame保存到镶木地板的最佳方法

我正在尝试将具有日期类型列的DataFrame保存为镶木地板格式，以便以后在Athena中使用。据我了解，实木

前端之家
2022-08-14 • 问答
Pyarrow表从现有列创建列

有没有一种方法可以使用<code>spring.config.location</code>根据当前在pyarrow表中存在的列来创建列？我想使用

前端之家
2022-08-14 • 问答
尽管使用了过滤器，但在配置单元分区的S3数据集上，Pyarrow ParquetDataset.read（）仍然很慢

尽管使用了filters标志，但是尝试从大型实木复合地板数据集中读取一天的信息非常慢。我使用过滤器的

前端之家
2022-08-14 • 问答
pyarrow read_csv，每行具有不同的列数

我的CSV文件包含1400万行，并且列数可变。前27列将始终可用，并且一行最多可以再增加16列，总共43列。<

前端之家
2022-08-14 • 问答
使用partition_cols

我正在研究镶木地板文件，以了解它们是否适合我的目的。为此，我从一个csv文件加载了一个数据集并

前端之家
2022-08-14 • 问答
使用Pyarrow读取Spark编写的镶木地板文件会显着增加内存

我遇到了这个问题，当我尝试读取实木复合地板文件时，容器的内存使用量急剧增加。实木复合地板文

前端之家
2022-08-13 • 问答
如何序列化和无法序列化的对象？

我知道这是一个常见问题，但是我需要序列化一个对象，说该对象无法序列化。我正在使用外部库pyarrow

前端之家
2022-08-13 • 问答
Pyarrow 0.15.1将空文件上传到HDFS

嗨，我正在尝试使用pyarrow Hadoop File System Interface中的上载方法将csv文件上载到我的HDFS集群： <pre><code

前端之家
2022-08-13 • 问答
使用pyarrow将openCV图像流式传输到多个进程

我在python中使用openCV从摄像机加载视频流。我需要在此流上执行多个处理作业，因此，例如，我可能想

前端之家
2022-08-13 • 问答
是否有Spark Arrow Streaming =箭头流+ Spark结构化流？

当前，我们有火花结构化流式传输在箭头文档中，我发现了箭头流，我们可以在Python中创建一个

前端之家
2022-08-13 • 问答
ModuleNotFoundError：没有满足要求的名为“ pyarrow”的模块

我正在尝试在Jupyter Notebook中运行以下命令：import pyarrow，得到相同的错误：“ ModuleNotFoundError：没有名为

前端之家
2022-08-12 • 问答
python ray-pyarrow.lib.ArrowInvalid：超出最大大小（2GB）

我正在尝试使用ray加载和处理大型文件。我使用ray是为了对文件进行多处理并提高解决方案的速

前端之家
2022-08-11 • 问答
在S3上记录pyarrow创建的实木复合地板文件名

我们正在使用pyarrow将数据附加到存储在S3（分区）中的现有镶木地板数据集中。每小时在AWS lambda上运行

前端之家
2022-08-11 • 问答
pyarrow写Parquet文件保持覆盖现有数据集

我正在尝试写入存储在本地文件系统上的现有Parquet文件。但是当多次写入时，前一个会被覆盖而不是添

前端之家
2022-08-11 • 问答
熊猫的Arrow ListArray与尴尬的箭头数组的结构有很大不同？

我遇到了以下问题，并进行了一些测试，以证明纯pyarrow UDF在pyspark中的使用率要比始终通过大熊猫时高

前端之家
2022-08-11 • 问答
点安装Pyarrow Visual Studio Generator

当使用pip安装pyarrow模块时，尽管安装了唯一的版本，但cmake Visual Studio生成器会自动设置为Visual Studio 14 2

前端之家
2022-08-10 • 问答
错误：命令“ cmake”失败：没有这样的文件或目录

使用Python3.8在Pycharm中安装vaex时出错在Win-10 64位系统上运行此程序之前，我已经安装了以下程序： <p

前端之家
2022-08-10 • 问答
尝试在Spark中导入考拉

在pip安装考拉之后，我尝试使用下面的代码将其导入，并且它返回的错误信息远远超出了下面。有关如

前端之家
2022-08-08 • 问答
如何从Databricks连接到HDInsight Hadoop群集

您能帮我从Databricks笔记本中找到与HDInsight Hadoop集群（首先与HDFS进行交互）的正确方法吗？现在

前端之家
2022-08-05 • 问答
使用pyarrow从s3读取csv文件

我想使用pyarrow读取位于s3存储桶中的csv文件，并将其转换为镶木地板到另一个存储桶。我在从s3读取csv

前端之家
2022-08-05 • 问答
在大型数据集上运行Pandas UDF时出现问题

我目前正在研究一个项目，我很难理解PySpark中的Pandas UDF是如何工作的。我有一个Spark群集，其中

前端之家
2022-08-04 • 问答
pyarrow parquet-将数组编码为记录列表

我正在使用Pandas和pyarrow创建Parquet文件，然后使用Java（org.apache.parquet.avro.AvroParquetReader）读取这些文件的

前端之家
2022-08-04 • 问答
在dask中为行创建唯一的ID

我需要为dask数据框中的行添加一个id，我尝试做的第一件事是添加一个累积索引，如其他<a href="https://sta

前端之家
2022-08-02 • 问答
使用pyarrow读取aws s3中的已分区数据集不会添加分区列

我正在尝试读取aws s3中的分区数据集，看起来像： <pre><code>MyDirectory--code=1--file.parquet --code=2-

前端之家
2022-08-01 • 问答

首页

下一页
末页