rdd - 前端之家

在pyspaek中结合两个rdd

我在pyspark中有两个rdd <pre><code>rdd1=sc.parallelize(['a','b']) rdd2=sc.parallelize(['c','d'

前端之家
2022-08-14 • 问答
在pyspark

是否可以在pyspark中创建rdd的rdd？我尝试过 <pre><code>rdd1=sc.parallelize([1,2,3]) rdd2=sc.parallelize([4,5,6]) rdd3=s

前端之家
2022-08-14 • 问答
如何使用JavaRDD（Spark）中的3个变量

基本上我有一个csv文件，其中包含具有国家，年份，代码，商品等字段的商业交易，如下所示： <bloc

前端之家
2022-08-14 • 问答
Rdd到Dataframe，其中模式是基于标头以编程方式

我有以下RDD，很多都喜欢它： <pre><code>val csv = sc.parallelize(Array( "col1, col2, col3", "1, cat, dog&

前端之家
2022-08-14 • 问答
如何使用reduceByKey（pyspark）嵌套结构？

我正在对我要基于3个值进行分区并写回S3的数据集使用spark（pyspark）。数据集如下所示- customerId

前端之家
2022-08-14 • 问答
在pyspark的rdd中选择两个元素

我有rdd <pre><code>rdd1=sc.parallelize(['a','b','c','d']) </code></pre> 我想生成一个从

前端之家
2022-08-13 • 问答
RDD [（Long，Array [Byte]）]和具有Long字段的案例类的RDD之间的联接

我有两个RDD和一个case类，如下所示： <code>rdd1:RDD[(Long, Array[Byte])]</code> <code>case class Elem(id:

前端之家
2022-08-13 • 问答
在scala函数中传递RDD。输出数据框

说我有下面的csv，还有更多类似的东西。 <pre><code>val csv = sc.parallelize(Array( "col1, col2, col3", &

前端之家
2022-08-13 • 问答
尝试根据其movieId列组合两个RDD，但第二列的值来自错误的行

我正在尝试根据movieId中的值将具有不同分区数量的两个rdd组合在一起。我发现这个自定义函数有效，除

前端之家
2022-08-13 • 问答
pyspark rdd到具有自定义采样率的“无法还原（）空RDD”的数据帧

我有一个pyspark rdd，并尝试使用一些自定义采样率将其转换为数据帧。但是我遇到错误有时候</stron

前端之家
2022-08-13 • 问答
为什么在很多情况下，spark的历史日志显示RDD的“内存大小”为0？

我想通过火花历史服务器解析火花事件日志来分析火花阶段的性能。如以下代码所示，我发现许多RDD的<c

前端之家
2022-08-12 • 问答
线程“ JavaFX应用程序线程” Spark任务中的异常无法序列化：

我正试图运行一个ML算法，该算法在它自己的主类中可以很好地工作，但是当我将其添加到JavaFX Main Class

前端之家
2022-08-12 • 问答
对具有可变对象的rdds进行联接操作

我有一个问题，如果我有2对RDD： <pre><code>"${currentBuild.durationString.minus(' and counting')}"</code

前端之家
2022-08-12 • 问答
Jupyter Notebook PySpark OSError [WinError 123]文件名，目录名称或卷标签语法不正确：

系统配置： 作业系统：Windows 10 的Python版本：3.7 Spark版本：2.4.4 SPARK_HOME：C：\ spark \ spark-2.4.4-bin-ha

前端之家
2022-08-12 • 问答
在RDD Join（Spark）之后，如何计算元素具有2个相同字段的次数

我从2个RDD开始，一个是userID，然后是“ SHL ..”，然后是一个userID，以及其余的信息。因此，将2

前端之家
2022-08-12 • 问答
错误：值min不是（Int，Int）的成员

我正在尝试生成包含元组数组的RDD，该元组以国家/地区名称作为第一个元素，而元组的最小整数作为第

前端之家
2022-08-11 • 问答
Pyspark：获得列的最普遍价值？

我需要能够使用Pyspark获得列的最常见值。在本示例的<code>endpoints</code>列中，我想获得的结果是<co

前端之家
2022-08-11 • 问答
从RDD中删除以某些字符开头的元素

我正在使用RDD，它的行以＃开头。我想删除所有以＃开头的行，并保留其余的行。我试着删除= records.fi

前端之家
2022-08-11 • 问答
Pyspark：获取两列之间不同组合的数量

我需要能够在两个单独的列中获得不同组合的数量。在此示例中，“动物”和“颜色”列中的结

前端之家
2022-08-11 • 问答
Spark / Scala-用于传递任何类型/结构的RDD的通用参数类型

我正在尝试将数据加载到Hbase 唯一的区别是RDD的<code>Type</code>，其中一个具有timeStamp，另一个没有

前端之家
2022-08-11 • 问答
删除csv文件中包含scala中逗号的特定行？

我有一个名为 data.csv 的csv文件： 名称，动物和总数是文件的标题 <p

前端之家
2022-08-11 • 问答
匹配重复的RDD

想象有两个表： <pre><code>TABLE 1: des origin US Ireland US Germany Ireland US </code></pre> 表2：

前端之家
2022-08-11 • 问答
SparkSQL如何创建作业/阶段

我正在研究Spark的实现。我知道在Spark核心中，当在RDD上调用动作时，<code>sc.runJob</code>最终会被调用，它

前端之家
2022-08-11 • 问答
在两个Rdd上使用并集后，无法将Pyspark作业结果保存到单个文本文件

我有一个文本作为数据源文件，没有标题行，我对rdd进行了一些转换。之后，我使用parallelize创建了一个

前端之家
2022-08-11 • 问答
获取pyspark RDD行的前三列

我有一个源数据集，该数据为.dat格式。样本数据将是这样 1 :: Toy Story（1995）::动画|儿童|喜剧 

前端之家
2022-08-11 • 问答
连接两个RDD，其中一个只有键，没有值

给出两个大的RDD，<code>a</code>带有一组<code>(key, value)</code>对，而<code>b</code>仅带有<code>keys</code>，那么最

前端之家
2022-08-11 • 问答
Spark / Scala-如何将RDD [（String，Map [String，Map [...]]）]和其他类型的RDD转换为通用RDD [AnyRef]

要转换通用类型<code>RDD[AnyRef]</code>，请使用<code>asInstanceOf</code>，如下所示 <pre><code>val postProcessingRDD:

前端之家
2022-08-11 • 问答
如何在Spark RDD中执行Vlookup

我有两个rdd <pre><code>rdd1 =[('1', 3428), ('2', 2991), ('3', 2990), ('4', 2883), ('5',

前端之家
2022-08-11 • 问答
Spark RDD连接与合并排序连接

Spark rdd联接基于<code>reduceByKey</code>，该密钥按键随机排列。 Spark sql连接可以基于排序合并连接。如何使

前端之家
2022-08-10 • 问答
数据帧/数据集如何编译为RDD？

我一直在阅读DataFrames / Datasets与RDD相比的改进：钨行格式，代码生成等。一些文本似乎暗示着DataFrames / D

前端之家
2022-08-10 • 问答