rdd - 前端之家

在一个 rdd 中执行和存储各种聚合

我有这样的数据： <pre><code>[('a',110), ('a',130), ('a',120), ('b',200), ('b',206

前端之家
2022-04-19 • 问答
如何对 spark scala RDD 中的元组列表/数组执行转换？

我有一个元组列表 - 如何对每个元组的整数值执行归约？ <pre><code>val student=List((1,"akshay",60),(2,&#

前端之家
2022-04-19 • 问答
语法 df.rdd.map(lambda row: row[0:]) 在 PySpark 中有什么作用？

我要求的语法如下： <pre><code>df_rdd = df.rdd.map(lambda row: row[0:]) </code></pre> 就在这里找到了，为什么还

前端之家
2022-04-18 • 问答
使用正则表达式过滤 pyspark.RDD

我有一个 pyspark.RDD，其中包含我想过滤掉的日期。日期以这种形式出现在我的 RDD 中：<br/> <code>data.

前端之家
2022-04-18 • 问答
使用 flatMapValues 时 pyspark 中的键错误

我想添加在 flatMapValues 中使用的“键”，但我总是弄错。这是<code>rdd.collect()</code> <pre><code>[{&#39

前端之家
2022-04-18 • 问答
Spark 中的 RDD：它们存储在哪里以及如何存储？

我一直听说 Spark 比经典的 Map Reduce 框架（如 Hadoop）快 100 倍。但最近我读到这只有在 RDD 被缓存时才成

前端之家
2022-04-18 • 问答
跨 Spark 集群分发 FlatMap

我不知道这是可能的，不可能的，或者只是一个可以更好的旧设计。我在 databricks spark 集群上运行

前端之家
2022-04-18 • 问答
PySpark 为 DecimalType 列创建直方图数据框

如何为具有以下架构的单列 DataFrame 创建均匀分布的 bin 计数： <pre class="lang-py prettyprint-override"><code>&g

前端之家
2022-04-18 • 问答
将 GraphX 数据保存到 Spark 的块管理器

我是 Apache GraphX 库和 Spark 框架的新手。我正在使用 GraphX 进行一个项目。我有以下格式的示例数据 <pr

前端之家
2022-04-18 • 问答
Spark 分区大小大于执行器内存

我有四个问题。假设在 spark 中我有 3 个工作节点。每个工作节点有 3 个执行程序，每个执行程序有 3 个

前端之家
2022-04-18 • 问答
RDD重新计算任务失败是否会导致重复数据处理？

当某个特定任务失败导致RDD从lineage重新计算（可能是通过再次读取输入文件）时，Spark如何确保没有重

前端之家
2022-04-18 • 问答
如何将 Spark/Scala RDD 合并/加入到列表中，以便 RDD 中的每个值都获得一个包含每个列表项的新行

假设我有一个 List[String] 并且我想将它与一个 RDD 对象合并，以便 RDD 中的每个对象都将列表中的每个值

前端之家
2022-04-18 • 问答
检查每个 RDD spark 内的数据

我正在使用火花流。接收器（凤凰）比源（kafka）慢。我正在使用 foreachRDD 来处理每个 rdd 中的数据。如

前端之家
2022-04-18 • 问答
RDD API Python 如何进行计数

我有一个包含以下元素的文件： 1,1_id,lucas,10 2,2_is,pierre,30 2,3_id,lucas,20 我想要这样

前端之家
2022-04-18 • 问答
将 Spark DataFrame 转换为 spark.rdd.RDD[(Array[Integer], Array[Integer]) 来计算平均精度

我有一个 Spark 数据帧： <img src="https://i.imgur.com/Yt6WJST.png" alt="DataFrame"/> 我必须使用 Spark 和 Scal

前端之家
2022-04-18 • 问答
如何在不保存火花流的情况下将 RDD 转换为 csv？

我有一个火花流管道 (scala)，想将 DF 或 RDD 转换为 csv 并通过 ftp 协议进行部署。部署必须是每个批次。

前端之家
2022-04-17 • 问答
从谷歌云存储读取 .txt 文件

我是谷歌云平台和 Spark 的新手。我正在尝试从谷歌云存储读取 .txt 文件。但是将其下载为 blob 对象后，

前端之家
2022-04-17 • 问答
结合 Spark 数据帧实现代码的更有效方法

有没有更有效的方法来组合 Spark 数据帧而不使用 for 循环？在 <a href="https://stackoverflow.com/questions/53165816/p

前端之家
2022-04-17 • 问答
如何在 PySpark 中有条件地加入 2 个 RDD

RDD1 的格式为： <pre><code>[ (('1234', 'word1'), 1), (('1234', 'word2'), 4), (('9876', &

前端之家
2022-04-17 • 问答
python中RDD中使用转换将word转换为(word, 1)的键/值对

数据就像 <code>[['my', 'name', 'is', 'lala'],['what', 'is', 'your','name&

前端之家
2022-04-17 • 问答
删除 RDD 中的停用词，Pyspark

我有一个包含从文本文件中读取的文本的 RDD。我想删除文本文件中的所有停用词。有一个 pyspark.ml.feature

前端之家
2022-04-17 • 问答
如何在 spark scala 中加入 2 rdd

我有 2 个 RDD 如下 <pre><code>val rdd1 = spark.sparkContext.parallelize(Seq((123, List(("000000011119",20),("0000000

前端之家
2022-04-17 • 问答
结合不同列数的 Spark 数据帧

在 <a href="https://stackoverflow.com/questions/53165816/pyspark-dynamic-union-of-dataframes-with-different-columns">this</a> 问题中

前端之家
2022-04-17 • 问答
Apache pyspark 删除停用词并计算

我有以下 .csv 文件（ID、书名、书名、作者等）： <a href="https://i.stack.imgur.com/83tXq.png" rel="nofollow nore

前端之家
2022-04-17 • 问答
在 spark rdd 中将 lambda 定义作为元组的一部分会导致大小的巨大增加

我正在维护一些仍然使用 RDD api 的旧 Spark 1.6 代码。我有这个 rdd 以 String 作为键和 lambda 作为值，lambda

前端之家
2022-04-17 • 问答
如何在过滤器pyspark RDD中过滤掉以“ URL”开头的行

我初始化了一个 pyspark sc。 <pre><code>task1 = (text.filter(lambda x: len(x)>0 )) # to filter empty lines task1.collect()

前端之家
2022-04-16 • 问答
如果列在另一个 Spark Dataframe 中，Pyspark 创建新列

如果列的行位于单独的数据帧中，我正在尝试在我的 Spark 数据帧中创建一个标记。这是我的主要 S

前端之家
2022-04-16 • 问答
如何产生RDD（pyspark）中每个条目的不同数据类型组件以计算不同

我有一个 RDD，它有两个由 TAB 分隔的组件。第一个是 <code>node id</code> ，第二个是一个字典，节点 id 作为

前端之家
2022-04-16 • 问答
pyspark：来自 rdd 的数据框，包含列表列表

我是 Spark 的新手（使用 Python），即使浏览了相关帖子也无法弄清楚这一点。我有一个 RDD。 RDD 的

前端之家
2022-04-16 • 问答
PySpark 函数基于多列数据框创建自定义输出

我有一个如下结构的源 pyspark 数据框： <div class="s-table-container"> <table class="s-table"> <头> <tr> <th style="tex

前端之家
2022-04-16 • 问答