-
在pyspaek中结合两个rdd
我在pyspark中有两个rdd <pre><code>rdd1=sc.parallelize(['a','b']) rdd2=sc.parallelize(['c','d' -
在pyspark
是否可以在pyspark中创建rdd的rdd? 我尝试过 <pre><code>rdd1=sc.parallelize([1,2,3]) rdd2=sc.parallelize([4,5,6]) rdd3=s -
如何使用JavaRDD(Spark)中的3个变量
基本上我有一个csv文件,其中包含具有国家,年份,代码,商品等字段的商业交易,如下所示: <bloc -
Rdd到Dataframe,其中模式是基于标头以编程方式
我有以下RDD,很多都喜欢它: <pre><code>val csv = sc.parallelize(Array( "col1, col2, col3", "1, cat, dog& -
如何使用reduceByKey(pyspark)嵌套结构?
我正在对我要基于3个值进行分区并写回S3的数据集使用spark(pyspark)。数据集如下所示- customerId -
在pyspark的rdd中选择两个元素
我有rdd <pre><code>rdd1=sc.parallelize(['a','b','c','d']) </code></pre> 我想生成一个从 -
RDD [(Long,Array [Byte])]和具有Long字段的案例类的RDD之间的联接
我有两个RDD和一个case类,如下所示: <code>rdd1:RDD[(Long, Array[Byte])]</code> <code>case class Elem(id: -
在scala函数中传递RDD。输出数据框
说我有下面的csv,还有更多类似的东西。 <pre><code>val csv = sc.parallelize(Array( "col1, col2, col3", & -
尝试根据其movieId列组合两个RDD,但第二列的值来自错误的行
我正在尝试根据movieId中的值将具有不同分区数量的两个rdd组合在一起。我发现这个自定义函数有效,除 -
pyspark rdd到具有自定义采样率的“无法还原()空RDD”的数据帧
我有一个pyspark rdd,并尝试使用一些自定义采样率将其转换为数据帧。但是我遇到错误<strong>有时候</stron -
为什么在很多情况下,spark的历史日志显示RDD的“内存大小”为0?
我想通过火花历史服务器解析火花事件日志来分析火花阶段的性能。如以下代码所示,我发现许多RDD的<c -
线程“ JavaFX应用程序线程” Spark任务中的异常无法序列化:
我正试图运行一个ML算法,该算法在它自己的主类中可以很好地工作,但是当我将其添加到JavaFX Main Class -
对具有可变对象的rdds进行联接操作
我有一个问题,如果我有2对RDD: <pre><code>"${currentBuild.durationString.minus(' and counting')}"</code -
Jupyter Notebook PySpark OSError [WinError 123]文件名,目录名称或卷标签语法不正确:
<b>系统配置:</b> 作业系统:Windows 10 的Python版本:3.7 Spark版本:2.4.4 SPARK_HOME:C:\ spark \ spark-2.4.4-bin-ha -
在RDD Join(Spark)之后,如何计算元素具有2个相同字段的次数
我从2个RDD开始,一个是userID,然后是“ SHL ..”,然后是一个userID,以及其余的信息。 因此,将2 -
错误:值min不是(Int,Int)的成员
我正在尝试生成包含元组数组的RDD,该元组以国家/地区名称作为第一个元素,而元组的最小整数作为第 -
Pyspark:获得列的最普遍价值?
我需要能够使用Pyspark获得列的最常见值。 在本示例的<code>endpoints</code>列中,我想获得的结果是<co -
从RDD中删除以某些字符开头的元素
我正在使用RDD,它的行以#开头。 我想删除所有以#开头的行,并保留其余的行。 我试着删除= records.fi -
Pyspark:获取两列之间不同组合的数量
我需要能够在两个单独的列中获得不同组合的数量。 在此示例中,“动物”和“颜色”列中的结 -
Spark / Scala-用于传递任何类型/结构的RDD的通用参数类型
我正在尝试将数据加载到Hbase 唯一的区别是RDD的<code>Type</code>,其中一个具有timeStamp,另一个没有 -
删除csv文件中包含scala中逗号的特定行?
我有一个名为<strong> data.csv </strong>的csv文件: <strong>名称,动物和总数</strong>是文件的标题 <p -
匹配重复的RDD
想象有两个表: <pre><code>TABLE 1: des origin US Ireland US Germany Ireland US </code></pre> 表2: -
SparkSQL如何创建作业/阶段
我正在研究Spark的实现。我知道在Spark核心中,当在RDD上调用动作时,<code>sc.runJob</code>最终会被调用,它 -
在两个Rdd上使用并集后,无法将Pyspark作业结果保存到单个文本文件
我有一个文本作为数据源文件,没有标题行,我对rdd进行了一些转换。之后,我使用parallelize创建了一个 -
获取pyspark RDD行的前三列
我有一个源数据集,该数据为.dat格式。样本数据将是这样 1 :: Toy Story(1995)::动画|儿童|喜剧<br/> -
连接两个RDD,其中一个只有键,没有值
给出两个大的RDD,<code>a</code>带有一组<code>(key, value)</code>对,而<code>b</code>仅带有<code>keys</code>,那么最 -
Spark / Scala-如何将RDD [(String,Map [String,Map [...]])]和其他类型的RDD转换为通用RDD [AnyRef]
要转换通用类型<code>RDD[AnyRef]</code>,请使用<code>asInstanceOf</code>,如下所示 <pre><code>val postProcessingRDD: -
如何在Spark RDD中执行Vlookup
我有两个rdd <pre><code>rdd1 =[('1', 3428), ('2', 2991), ('3', 2990), ('4', 2883), ('5', -
Spark RDD连接与合并排序连接
Spark rdd联接基于<code>reduceByKey</code>,该密钥按键随机排列。 Spark sql连接可以基于排序合并连接。如何使 -
数据帧/数据集如何编译为RDD?
我一直在阅读DataFrames / Datasets与RDD相比的改进:钨行格式,代码生成等。一些文本似乎暗示着DataFrames / D