假设我有一个Spark DataFrame,其主体中包含字节作为字符串。 我想获取一个字符串,该字符串是实木复合地板文件中的一个单一Spark Dataframe。
- 列:parquet_bytes_string
- “ b'PAR ...””
- “ b'PAR ...””
这些字符串是实木复合地板字节,我能够在这样的循环中解析它们:
import pandas as pd
from io import BytesIO
for row in dfparquets:
dfparquet = pd.read_parquet(BytesIO(eval(row['parquet_bytes_string'])))
使用熊猫阅读它们非常简单。
在Pyspark上从一串字节中使用spark.read.parquet是什么选择?
我已经尝试使用pyspark.read.format("parquet")
,但是它们仅可直接用于文件。我想避免将这些字节写入FileStore,因为我已经安装了实木复合地板。