频道导航

scala – Apache Spark中的Shuffled vs non-shuffled coalesce

2020-10-27 Scala 前端之家

前端之家收集整理的这篇文章主要介绍了scala – Apache Spark中的Shuffled vs non-shuffled coalesce，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

在将RDD写入文件之前执行以下转换之间有什么区别？

> coalesce(1,shuffle = true)
> coalesce(1,shuffle = false)

代码示例：

val input = sc.textFile(inputFile)
val filtered = input.filter(doSomeFiltering)
val mapped = filtered.map(doSomeMapping)

mapped.coalesce(1,shuffle = true).saveAsTextFile(outputFile)
vs
mapped.coalesce(1,shuffle = false).saveAsTextFile(outputFile)

它与collect()相比如何？我完全知道Spark保存方法会将它存储为HDFS风格的结构,但是我对collect()和shuffled / non-shuffled coalesce()的数据分区方面更感兴趣.

解决方法

shuffle = true和shuffle = false在结果输出中不会有任何实际差异,因为它们都会下降到单个分区.但是,当你将它设置为true时,你将进行一次无用的随机播放.使用shuffle = true,输出均匀分布在分区之间(如果需要,还可以增加分区数),但由于目标是1分区,所以一切都在一个分区中结束.

至于与collect()的比较,区别在于所有数据都存储在单个执行器而不是驱动程序上.

上一篇：scala – 使用ALS的OutOfBoundsExc 下一篇：scala – 模式匹配的字节数组

猜你在找的Scala相关文章

Scala的存在类型

Scala的存在类型存在类型也叫existential type，是对类型做抽象的一种方法。可以在你不知...

作者：前端之家时间：2020-12-21

Scala教程之:Option-Some-None

文章目录Option和SomeOption和NoneOption和模式匹配在java 8中，为了避免NullPointerExce...

作者：前端之家时间：2020-12-21

Scala教程之:静态类型

文章目录泛类型型变协变逆变不变类型上界类型下界内部类抽象类型复合类型自类型隐式参数隐...

作者：前端之家时间：2020-12-21

Scala的自定义类型标记

Scala的自定义类型标记 Scala中有很多千奇百怪的符号标记，看起来是那么的独特，就像是一杯...

作者：前端之家时间：2020-12-21

Scala教程之:面向对象的scala

文章目录面向对象的scalaUnified TypesClassesTraits 面向对象的scala 我们知道Scala是一种...

作者：前端之家时间：2020-12-21

Scala教程之:Enumeration

Enumeration应该算是程序语言里面比较通用的一个类型，在scala中也存在这样的类型，我们看...

作者：前端之家时间：2020-12-21

scala教程之:可见性规则

文章目录publicProtectedprivatescoped private 和 scoped protected 和java很类似，scala...

作者：前端之家时间：2020-12-21

Scala教程之:Either

在之前的文章中我们提到了Option，scala中Option表示存在0或者1个元素，如果在处理异常的时...

作者：前端之家时间：2020-12-21

Scala教程之:函数式的Scala

文章目录高阶函数强制转换方法为函数方法嵌套多参数列表样例类比较拷贝模式匹配密封类单例...

作者：前端之家时间：2020-12-21

Scala教程之:可扩展的scala

文章目录隐式类限制条件字符串插值s 字符串插值器f 插值器raw 插值器自定义插值器 Scala是...

作者：前端之家时间：2020-12-21

编程分类

Linux Windows CentOS Ubuntu Nginx WebService Scala Memcache Apache Redis Docker Bash Azure Tomcat LNMP Shell 数据结构服务器运维网络安全

最新文章