scala – .parallelize(…)在Apache Spark中是一个懒惰的操作吗?

前端之家收集整理的这篇文章主要介绍了scala – .parallelize(…)在Apache Spark中是一个懒惰的操作吗?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
并行化(和其他加载操作)是仅在执行Spark操作时执行还是在遇到它时立即执行?

请参见spark code中的def parallelize

请注意.textFile(…)的不同后果:延迟评估意味着虽然最初可能会保存一些内存,但每次执行操作时都必须读取文本文件,并且文本文件中的更改会影响改变后的所有行动.

解决方法

并行执行是懒惰的:请参阅引用代码的L726,说明“@note Parallelize懒惰地行动”.

只有在您调用操作时才会触发Spark中的执行,例如收集或计数.

因此与Spark一起:

>转换链由用户API(您)设置,例如并行化,映射,减少,……>一旦调用了一个动作,转换链就会“放入”Catalyst优化器中,进行优化然后执行.

猜你在找的Scala相关文章