-
如何在 Spark Scala 中的 Schema RDD [从案例类中创建] 中查找重复项以及相应的重复计数?
我有一个从 Case Class 创建的 Schema RDD。考虑到 Spark Scala 中的所有列和重复计数,我需要找到重复的条目 -
将文件从 spark rdd 写入 hdfs
我正在尝试将 sparkrdd 的元素写入 hdfs 文件系统。 特定 RDD 的类型为 RDD[List(String)] 所以在文件中我 -
在 Pyspark 中使用 checkpoint 后程序运行速度更快,为什么?
我的火花设置是这样的: <pre><code> spark_conf = SparkConf().setAppName('app_name') \ .setMaster("local[4] -
通过 RDD 和缓存作用进行 Apache Spark 数据帧沿袭修剪
如何修剪 Apache Spark 数据帧沿袭有以下技巧,特别是对于迭代计算: <pre><code>def getCachedDataFrame(df: DataF -
如何将案例类RDD转换为RDD[String]?
我有一个模式 rdd。如果我打印那个 RDD,我会得到类似的输出 caseclass_name(col a, col b,col c) caseclass_name(col d, -
在 Spark Scala 中将 RDD[(String, String, String)] 转换为 RDD[(String, (String, String))]
有 2 个 rdds ,我正在尝试加入: 当每个 rdd 中有 2 个参数时,它就会加入,但是当我在现有 GTIN rdd 中添 -
Databricks Spark Pyspark RDD 重新分区 - “远程 RPC 客户端已断开关联。可能是由于容器超过阈值或网络问题。”
我的代码在小型数据集(几百万行)上运行良好,但在较大数据集(> 10 亿行)上运行失败。它抛出的错 -
将案例类动态映射到 RDD[Result]
我正在尝试将来自 Hbase 的一个列族的数据映射为 Dataframe,如下所示 <pre><code>SPLIT</code></pre> 我可以 -
根据对象中的字段之一将 JavaRDD 的每个对象存储到 S3
我有一个 Java 对象,如下所示: <pre><code>public class Obj { String id; String name; String date; } </code></pre -
PySpark - 读取检查点数据帧
我目前正在使用 pyspark 为机器学习应用程序执行一些数据清理。 最后一个会话崩溃了,但我设置了一个 -
Spark RDD 连接操作以 stackOverFlow 结束
使用 Scala,我尝试加入以下类型的 2 个 RDD: <pre><code>case class Posting(postingType: Int, id: Int, acceptedAnswer: O -
将 DataFrame 转换为 RDD 并将 RDD 动态拆分为与 DataFrame 相同数量的列
我正在尝试将 DataFrame 转换为 RDD 并根据 DataFrame 中的列数动态优雅地将它们拆分为特定数量的列 即