-
在一个 rdd 中执行和存储各种聚合
我有这样的数据: <pre><code>[('a',110), ('a',130), ('a',120), ('b',200), ('b',206 -
如何对 spark scala RDD 中的元组列表/数组执行转换?
我有一个元组列表 - 如何对每个元组的整数值执行归约? <pre><code>val student=List((1,"akshay",60),(2,&# -
语法 df.rdd.map(lambda row: row[0:]) 在 PySpark 中有什么作用?
我要求的语法如下: <pre><code>df_rdd = df.rdd.map(lambda row: row[0:]) </code></pre> 就在这里找到了,为什么还 -
使用正则表达式过滤 pyspark.RDD
我有一个 pyspark.RDD,其中包含我想过滤掉的日期。日期以这种形式出现在我的 RDD 中:<br/> <code>data. -
使用 flatMapValues 时 pyspark 中的键错误
我想添加在 flatMapValues 中使用的“键”,但我总是弄错。 这是<code>rdd.collect()</code> <pre><code>[{' -
Spark 中的 RDD:它们存储在哪里以及如何存储?
我一直听说 Spark 比经典的 Map Reduce 框架(如 Hadoop)快 100 倍。但最近我读到这只有在 RDD 被缓存时才成 -
跨 Spark 集群分发 FlatMap
我不知道这是可能的,不可能的,或者只是一个可以更好的旧设计。 我在 databricks spark 集群上运行 -
PySpark 为 DecimalType 列创建直方图数据框
如何为具有以下架构的单列 DataFrame 创建均匀分布的 bin 计数: <pre class="lang-py prettyprint-override"><code>&g -
将 GraphX 数据保存到 Spark 的块管理器
我是 Apache GraphX 库和 Spark 框架的新手。我正在使用 GraphX 进行一个项目。我有以下格式的示例数据 <pr -
Spark 分区大小大于执行器内存
我有四个问题。假设在 spark 中我有 3 个工作节点。每个工作节点有 3 个执行程序,每个执行程序有 3 个 -
RDD重新计算任务失败是否会导致重复数据处理?
当某个特定任务失败导致RDD从lineage重新计算(可能是通过再次读取输入文件)时,Spark如何确保没有重 -
如何将 Spark/Scala RDD 合并/加入到列表中,以便 RDD 中的每个值都获得一个包含每个列表项的新行
假设我有一个 List[String] 并且我想将它与一个 RDD 对象合并,以便 RDD 中的每个对象都将列表中的每个值 -
检查每个 RDD spark 内的数据
我正在使用火花流。接收器(凤凰)比源(kafka)慢。我正在使用 foreachRDD 来处理每个 rdd 中的数据。如 -
RDD API Python 如何进行计数
我有一个包含以下元素的文件: 1,1_id,lucas,10 2,2_is,pierre,30 2,3_id,lucas,20 我想要这样 -
将 Spark DataFrame 转换为 spark.rdd.RDD[(Array[Integer], Array[Integer]) 来计算平均精度
我有一个 Spark 数据帧: <img src="https://i.imgur.com/Yt6WJST.png" alt="DataFrame"/> 我必须使用 Spark 和 Scal -
如何在不保存火花流的情况下将 RDD 转换为 csv?
我有一个火花流管道 (scala),想将 DF 或 RDD 转换为 csv 并通过 ftp 协议进行部署。部署必须是每个批次。 -
从谷歌云存储读取 .txt 文件
我是谷歌云平台和 Spark 的新手。我正在尝试从谷歌云存储读取 .txt 文件。但是将其下载为 blob 对象后, -
结合 Spark 数据帧实现代码的更有效方法
有没有更有效的方法来组合 Spark 数据帧而不使用 for 循环?在 <a href="https://stackoverflow.com/questions/53165816/p -
如何在 PySpark 中有条件地加入 2 个 RDD
RDD1 的格式为: <pre><code>[ (('1234', 'word1'), 1), (('1234', 'word2'), 4), (('9876', & -
python中RDD中使用转换将word转换为(word, 1)的键/值对
数据就像 <code>[['my', 'name', 'is', 'lala'],['what', 'is', 'your','name& -
删除 RDD 中的停用词,Pyspark
我有一个包含从文本文件中读取的文本的 RDD。我想删除文本文件中的所有停用词。有一个 pyspark.ml.feature -
如何在 spark scala 中加入 2 rdd
我有 2 个 RDD 如下 <pre><code>val rdd1 = spark.sparkContext.parallelize(Seq((123, List(("000000011119",20),("0000000 -
结合不同列数的 Spark 数据帧
在 <a href="https://stackoverflow.com/questions/53165816/pyspark-dynamic-union-of-dataframes-with-different-columns">this</a> 问题中 -
Apache pyspark 删除停用词并计算
我有以下 .csv 文件(ID、书名、书名、作者等): <a href="https://i.stack.imgur.com/83tXq.png" rel="nofollow nore -
在 spark rdd 中将 lambda 定义作为元组的一部分会导致大小的巨大增加
我正在维护一些仍然使用 RDD api 的旧 Spark 1.6 代码。 我有这个 rdd 以 String 作为键和 lambda 作为值,lambda -
如何在过滤器pyspark RDD中过滤掉以“ URL”开头的行
我初始化了一个 pyspark sc。 <pre><code>task1 = (text.filter(lambda x: len(x)>0 )) # to filter empty lines task1.collect() -
如果列在另一个 Spark Dataframe 中,Pyspark 创建新列
如果列的行位于单独的数据帧中,我正在尝试在我的 Spark 数据帧中创建一个标记。 这是我的主要 S -
如何产生RDD(pyspark)中每个条目的不同数据类型组件以计算不同
我有一个 RDD,它有两个由 TAB 分隔的组件。第一个是 <code>node id</code> ,第二个是一个字典,节点 id 作为 -
pyspark:来自 rdd 的数据框,包含列表列表
我是 Spark 的新手(使用 Python),即使浏览了相关帖子也无法弄清楚这一点。 我有一个 RDD。 RDD 的 -
PySpark 函数基于多列数据框创建自定义输出
我有一个如下结构的源 pyspark 数据框: <div class="s-table-container"> <table class="s-table"> <头> <tr> <th style="tex