在Databricks / Pyspark上读取字节的实木复合地板字符串

假设我有一个Spark DataFrame,其主体中包含字节作为字符串。 我想获取一个字符串,该字符串是实木复合地板文件中的一个单一Spark Dataframe。

  1. 列:parquet_bytes_string
  2. “ b'PAR ...””
  3. “ b'PAR ...””

这些字符串是实木复合地板字节,我能够在这样的循环中解析它们:

import pandas as pd
from io import BytesIO

for row in dfparquets:
    dfparquet = pd.read_parquet(BytesIO(eval(row['parquet_bytes_string'])))

使用熊猫阅读它们非常简单。

在Pyspark上从一串字节中使用spark.read.parquet是什么选择?

我已经尝试使用pyspark.read.format("parquet"),但是它们仅可直接用于文件。我想避免将这些字节写入FileStore,因为我已经安装了实木复合地板。

shong29 回答:在Databricks / Pyspark上读取字节的实木复合地板字符串

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3141518.html

大家都在问