pyarrow

pyarrow.lib.ArrowInvalid：（'无法转换Y类型的X：推断Arrow数据类型时无法识别Python值类型'）

使用<code> int_x = r * math.cos(angle) int_y = r * math.sin(angle) </code>通过以下代码将包含<code>pyarrow</code>个对

前端之家
2022-08-01 • 问答
将数据发送到不带模式的BigQuery时，“ pyarrow.lib.ArrowInvalid：从时间戳[ns]转换为时间戳[ms]会丢失数据”

我正在处理将数据帧发送到BigQuery的脚本： <pre><code>load_job = bq_client.load_table_from_dataframe( df, '.&#

前端之家
2022-07-31 • 问答
羽毛模块中的pyarrow问题加载

我一直在关注此问题的建议，但这并未解决我的问题 <a href="https://github.com/conda-forge/geopandas-feedstock/issues/

前端之家
2022-07-29 • 问答
Dask DataFrame将过时的镶木文件索引从datetime64转换为对象，为什么？

我非常努力地使用datetime64 ['ns'] dtype使用索引保存我的镶木地板文件。但是，当我随后在Dask Dataframe中读

前端之家
2022-07-29 • 问答
PySpark 2.4.4 toPandas失败，出现ValueError值不足以解压（预期3，得到2）

当我执行“ toPandas”时，在spark数据框上，我遇到此错误： <blockquote> pandas_df = spark_df.toPandas（）</p

前端之家
2022-07-28 • 问答
使用PyODBC创建Apache钻表

我正在尝试获取本地数据帧，并使用PyODBC库在Drill中将其创建为实木复合地板表。我了解PyDrill具有更好

前端之家
2022-07-24 • 问答
Python中的辅助内存中索引表示形式

我正在寻找一种有效的解决方案，以使用高级优化的数学程序包（例如numpy和arrow）在Python中构建二级内

前端之家
2022-07-24 • 问答
与Dask / Pandas和Pyspark的实木复合地板兼容

这是与<a href="https://stackoverflow.com/questions/48314880/are-parquet-file-created-with-pyarrow-vs-pyspark-compatible">here</a>相

前端之家
2022-07-23 • 问答
使用Dask Read Parquet读取具有不同数据类型（如十进制）的镶木文件时出现的问题

我有一些Parquet文件，这些文件是由Spark将AVRO文件转换为Parquet文件而创建的。这些镶木地板文件包含不同

前端之家
2022-07-19 • 问答
如何在Windows上为python 3.7正确设置pyarrow

我一直在尝试通过pip（<code>pip install pyarrow</code>，并按照Yagav：<code>py -3.7 -m pip install --user pyarrow</code>和co

前端之家
2022-07-18 • 问答
以pa.fields列表的格式生成pyarrow模式？

我有办法从熊猫DF生成这种格式的pyarrow模式吗？我有一些具有数百列的文件，所以我无法手动输入。

前端之家
2022-07-17 • 问答
我不能进口罂粟

当我尝试在python中导入pyarrow时，出现以下错误： <pre><code>File "<stdin>", line 1, in <module>

前端之家
2022-07-17 • 问答
PyArrow 0.15.1 ClassCastException-无法转换为org.apache.hadoop.shaded.com.google.protobuf.Message

当尝试从HDFS列出目录内容时，我遇到了PyArrow 0.15.1的问题。 PyArrow安装在Ubuntu 18.04 docker映像中。<

前端之家
2022-07-16 • 问答
用delta编码的coulmns编写镶木地板文件

我正在尝试编写具有增量编码的镶木地板文件。 <a href="https://github.com/apache/parquet-format/blob/master/Encodings.m

前端之家
2022-07-15 • 问答
是否可以通过timeindex切片pyarrow数据集？

是否可以按索引范围读取部分箭头数据集（在磁盘上）？如果它是日期时间索引，是否可以读取

前端之家
2022-07-14 • 问答
带有两个深度结构模式的Pyarrow表写引发“嵌套列分支有多个子代”

我正在尝试在镶木地板文件中使用pyarrow编写下表： <pre><code>In [61]: values = [{"field_a": {"square&#

前端之家
2022-07-14 • 问答
无法在AWS Glue python shell上安装pyarrow

我想在Python shell Glue脚本中导入<code>pyarrow</code>，因为我需要将数据框导出为实木复合地板（即使用<code>D

前端之家
2022-07-14 • 问答
Pyarrow Parquet分区，数据中不包含分区列

我看到spark [1]可以从镶木地板文件的实际数据中排除分区列。当我使用write_to_dataset与pyarrow进行分区时，

前端之家
2022-07-13 • 问答
Pyarrow表内存与原始csv大小相比

我有一个2GB的CSV文件，我用以下内容将其读入pyarrow表： <pre><code>from pyarrow import csv tbl = csv.read_csv(pat

前端之家
2022-07-13 • 问答
pandas to_parquet：在写入之前清理现有目录

我想了解如何重新写入现有的镶木地板商店。我目前正在将熊猫数据帧写入实木复合地板目录，

前端之家
2022-07-13 • 问答
带有Tensorflow的Apache Arrow：类型错误：Arrow类型不匹配：预期dtype = 2，但得到dtype = 9

我正在学习结合TensorFlow的Arrow，据此<a href="https://medium.com/tensorflow/tensorflow-with-apache-arrow-datasets-cdbcfe80a59f

前端之家
2022-07-13 • 问答
熊猫df.to_parquet write（）在忽略索引列时得到了意外的关键字参数'index'

我正在尝试使用以下命令将熊猫数据框导出为拼花格式：- <pre><code>df.to_parquet("codeset.parquet", ind

前端之家
2022-07-13 • 问答
PyArrow 0.16.0 fs.HadoopFileSystem抛出HDFS连接失败

我当前正在迁移旧的Arrow Filesystem Interface： <a href="http://arrow.apache.org/docs/python/filesystems_deprecated.htm

前端之家
2022-07-12 • 问答
Pandas pyarrow Parquet不保留未来日期年份3030的数据类型

我正在使用pandas-pyarrow组合将数据保存在实木复合地板文件中。我的专栏之一有将来的日期，例如3000-12-3

前端之家
2022-07-11 • 问答
PySpark：PandasUDFType.GROUPED_MAP以数据框为输入？

我有一个具有以下架构的Spark表<code>df</code>： <pre><code>root |-- sample: string (nullable = true) |-- zygocity: int

前端之家
2022-07-11 • 问答
如何找到2个pyarrow数据集架构不同的地方？

我有两个pyarrow数据集架构，由于某些原因它们即使应该相同也有所不同（我假设存储一个实木复合地板

前端之家
2022-07-11 • 问答
有没有办法用conda安装pyarrow每晚构建版本？

我正在尝试使用<code>arrow-nightlies</code>频道使用conda安装pyarrow的夜间构建，以在Github的master分支中试用最

前端之家
2022-07-10 • 问答
每天添加到镶木地板数据集中

我每天都会收到许多传入的数据提要。每个文件在10-150MB之间。对于每个文件，我都会将其附加到该文件

前端之家
2022-07-09 • 问答
在熊猫数据框中查找嵌套的列

我有一个大型数据集，其中包含许多（压缩的）JSON格式的列。我正在尝试将其转换为实木复合地板，以

前端之家
2022-07-07 • 问答
使用PandasUDF时PySpark 2.4.5：IllegalArgumentException

我正在尝试Pandas UDF并面临IllegalArgumentException。我还尝试从PySpark文档<a href="https://spark.apache.org/docs/latest/ap

前端之家
2022-07-07 • 问答