rdd - 前端之家

如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数？

我有一个从 Case Class 创建的 Schema RDD。考虑到 Spark Scala 中的所有列和重复计数，我需要找到重复的条目

前端之家
2022-04-16 • 问答
将文件从 spark rdd 写入 hdfs

我正在尝试将 sparkrdd 的元素写入 hdfs 文件系统。特定 RDD 的类型为 RDD[List(String)] 所以在文件中我

前端之家
2022-04-16 • 问答
在 Pyspark 中使用 checkpoint 后程序运行速度更快，为什么？

我的火花设置是这样的： <pre><code> spark_conf = SparkConf().setAppName('app_name') \ .setMaster("local[4]

前端之家
2022-04-16 • 问答
通过 RDD 和缓存作用进行 Apache Spark 数据帧沿袭修剪

如何修剪 Apache Spark 数据帧沿袭有以下技巧，特别是对于迭代计算： <pre><code>def getCachedDataFrame(df: DataF

前端之家
2022-04-16 • 问答
如何将案例类RDD转换为RDD[String]？

我有一个模式 rdd。如果我打印那个 RDD，我会得到类似的输出 caseclass_name(col a, col b,col c) caseclass_name(col d,

前端之家
2022-04-16 • 问答
在 Spark Scala 中将 RDD[(String, String, String)] 转换为 RDD[(String, (String, String))]

有 2 个 rdds ，我正在尝试加入：当每个 rdd 中有 2 个参数时，它就会加入，但是当我在现有 GTIN rdd 中添

前端之家
2022-04-16 • 问答
Databricks Spark Pyspark RDD 重新分区 - “远程 RPC 客户端已断开关联。可能是由于容器超过阈值或网络问题。”

我的代码在小型数据集（几百万行）上运行良好，但在较大数据集（> 10 亿行）上运行失败。它抛出的错

前端之家
2022-04-16 • 问答
将案例类动态映射到 RDD[Result]

我正在尝试将来自 Hbase 的一个列族的数据映射为 Dataframe，如下所示 <pre><code>SPLIT</code></pre> 我可以

前端之家
2022-04-16 • 问答
根据对象中的字段之一将 JavaRDD 的每个对象存储到 S3

我有一个 Java 对象，如下所示： <pre><code>public class Obj { String id; String name; String date; } </code></pre

前端之家
2022-04-15 • 问答
PySpark - 读取检查点数据帧

我目前正在使用 pyspark 为机器学习应用程序执行一些数据清理。最后一个会话崩溃了，但我设置了一个

前端之家
2022-04-15 • 问答
Spark RDD 连接操作以 stackOverFlow 结束

使用 Scala，我尝试加入以下类型的 2 个 RDD： <pre><code>case class Posting(postingType: Int, id: Int, acceptedAnswer: O

前端之家
2022-04-15 • 问答
将 DataFrame 转换为 RDD 并将 RDD 动态拆分为与 DataFrame 相同数量的列

我正在尝试将 DataFrame 转换为 RDD 并根据 DataFrame 中的列数动态优雅地将它们拆分为特定数量的列即

前端之家
2022-04-15 • 问答

首页
上一页

末页