在Databricks / Pyspark上读取字节的实木复合地板字符串

2024-05-03 • 问答

假设我有一个Spark DataFrame，其主体中包含字节作为字符串。我想获取一个字符串，该字符串是实木复合地板文件中的一个单一Spark Dataframe。

这些字符串是实木复合地板字节，我能够在这样的循环中解析它们：

import pandas as pd
from io import BytesIO

for row in dfparquets:
    dfparquet = pd.read_parquet(BytesIO(eval(row['parquet_bytes_string'])))

使用熊猫阅读它们非常简单。

在Pyspark上从一串字节中使用spark.read.parquet是什么选择？

我已经尝试使用pyspark.read.format("parquet")，但是它们仅可直接用于文件。我想避免将这些字节写入FileStore，因为我已经安装了实木复合地板。

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

本文链接：https://www.f2er.com/3141518.html