-
pyarrow.lib.ArrowInvalid:('无法转换Y类型的X:推断Arrow数据类型时无法识别Python值类型')
使用<code> int_x = r * math.cos(angle) int_y = r * math.sin(angle) </code>通过以下代码将包含<code>pyarrow</code>个对 -
将数据发送到不带模式的BigQuery时,“ pyarrow.lib.ArrowInvalid:从时间戳[ns]转换为时间戳[ms]会丢失数据”
我正在处理将数据帧发送到BigQuery的脚本: <pre><code>load_job = bq_client.load_table_from_dataframe( df, '.&# -
羽毛模块中的pyarrow问题加载
我一直在关注此问题的建议,但这并未解决我的问题 <a href="https://github.com/conda-forge/geopandas-feedstock/issues/ -
Dask DataFrame将过时的镶木文件索引从datetime64转换为对象,为什么?
我非常努力地使用datetime64 ['ns'] dtype使用索引保存我的镶木地板文件。但是,当我随后在Dask Dataframe中读 -
PySpark 2.4.4 toPandas失败,出现ValueError值不足以解压(预期3,得到2)
当我执行“ toPandas”时,在spark数据框上,我遇到此错误: <blockquote> pandas_df = spark_df.toPandas()</p -
使用PyODBC创建Apache钻表
我正在尝试获取本地数据帧,并使用PyODBC库在Drill中将其创建为实木复合地板表。我了解PyDrill具有更好 -
Python中的辅助内存中索引表示形式
我正在寻找一种有效的解决方案,以使用高级优化的数学程序包(例如numpy和arrow)在Python中构建二级内 -
与Dask / Pandas和Pyspark的实木复合地板兼容
这是与<a href="https://stackoverflow.com/questions/48314880/are-parquet-file-created-with-pyarrow-vs-pyspark-compatible">here</a>相 -
使用Dask Read Parquet读取具有不同数据类型(如十进制)的镶木文件时出现的问题
我有一些Parquet文件,这些文件是由Spark将AVRO文件转换为Parquet文件而创建的。这些镶木地板文件包含不同 -
如何在Windows上为python 3.7正确设置pyarrow
我一直在尝试通过pip(<code>pip install pyarrow</code>,并按照Yagav:<code>py -3.7 -m pip install --user pyarrow</code>和co -
以pa.fields列表的格式生成pyarrow模式?
我有办法从熊猫DF生成这种格式的pyarrow模式吗?我有一些具有数百列的文件,所以我无法手动输入。 -
我不能进口罂粟
当我尝试在python中导入pyarrow时,出现以下错误: <pre><code>File "<stdin>", line 1, in <module> -
PyArrow 0.15.1 ClassCastException-无法转换为org.apache.hadoop.shaded.com.google.protobuf.Message
当尝试从HDFS列出目录内容时,我遇到了PyArrow 0.15.1的问题。 PyArrow安装在Ubuntu 18.04 docker映像中。< -
用delta编码的coulmns编写镶木地板文件
我正在尝试编写具有增量编码的镶木地板文件。 <a href="https://github.com/apache/parquet-format/blob/master/Encodings.m -
是否可以通过timeindex切片pyarrow数据集?
是否可以按索引范围读取部分箭头数据集(在磁盘上)? 如果它是日期时间索引,是否可以读取 -
带有两个深度结构模式的Pyarrow表写引发“嵌套列分支有多个子代”
我正在尝试在镶木地板文件中使用pyarrow编写下表: <pre><code>In [61]: values = [{"field_a": {"square&# -
无法在AWS Glue python shell上安装pyarrow
我想在Python shell Glue脚本中导入<code>pyarrow</code>,因为我需要将数据框导出为实木复合地板(即使用<code>D -
Pyarrow Parquet分区,数据中不包含分区列
我看到spark [1]可以从镶木地板文件的实际数据中排除分区列。当我使用write_to_dataset与pyarrow进行分区时, -
Pyarrow表内存与原始csv大小相比
我有一个2GB的CSV文件,我用以下内容将其读入pyarrow表: <pre><code>from pyarrow import csv tbl = csv.read_csv(pat -
pandas to_parquet:在写入之前清理现有目录
我想了解如何重新写入现有的镶木地板商店。 我目前正在将熊猫数据帧写入实木复合地板目录, -
带有Tensorflow的Apache Arrow:类型错误:Arrow类型不匹配:预期dtype = 2,但得到dtype = 9
我正在学习结合TensorFlow的Arrow,据此<a href="https://medium.com/tensorflow/tensorflow-with-apache-arrow-datasets-cdbcfe80a59f -
熊猫df.to_parquet write()在忽略索引列时得到了意外的关键字参数'index'
我正在尝试使用以下命令将熊猫数据框导出为拼花格式:- <pre><code>df.to_parquet("codeset.parquet", ind -
PyArrow 0.16.0 fs.HadoopFileSystem抛出HDFS连接失败
我当前正在迁移旧的Arrow Filesystem Interface: <a href="http://arrow.apache.org/docs/python/filesystems_deprecated.htm -
Pandas pyarrow Parquet不保留未来日期年份3030的数据类型
我正在使用pandas-pyarrow组合将数据保存在实木复合地板文件中。我的专栏之一有将来的日期,例如3000-12-3 -
PySpark:PandasUDFType.GROUPED_MAP以数据框为输入?
我有一个具有以下架构的Spark表<code>df</code>: <pre><code>root |-- sample: string (nullable = true) |-- zygocity: int -
如何找到2个pyarrow数据集架构不同的地方?
我有两个pyarrow数据集架构,由于某些原因它们即使应该相同也有所不同(我假设存储一个实木复合地板 -
有没有办法用conda安装pyarrow每晚构建版本?
我正在尝试使用<code>arrow-nightlies</code>频道使用conda安装pyarrow的夜间构建,以在Github的master分支中试用最 -
每天添加到镶木地板数据集中
我每天都会收到许多传入的数据提要。每个文件在10-150MB之间。对于每个文件,我都会将其附加到该文件 -
在熊猫数据框中查找嵌套的列
我有一个大型数据集,其中包含许多(压缩的)JSON格式的列。我正在尝试将其转换为实木复合地板,以 -
使用PandasUDF时PySpark 2.4.5:IllegalArgumentException
我正在尝试Pandas UDF并面临IllegalArgumentException。我还尝试从PySpark文档<a href="https://spark.apache.org/docs/latest/ap