AWS EMR Spark正在工作者节点上创建文件

我正在EMR上使用spark来处理数据。基本上,我从AWS S3读取数据,然后执行转换和转换后的工作,即将数据加载/写入oracle表。

最近我们发现hdfs(/ mnt / hdfs)的利用率过高。

我没有向hdfs(/ mnt / hdfs)写入任何数据,但是那是spark正在创建块并将数据写入其中。我们将所有的操作都存储在内存中。

为什么Spark仍将数据写入数据节点?

是否有将数据写入datanode(HDFS)的特定操作?

这是创建的hdfs目录。

* 15.4G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current/finalized/subdir1

129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current/finalized

129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current

129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812

129G / mnt / hdfs / current 129G / mnt / hdfs *

iCMS 回答:AWS EMR Spark正在工作者节点上创建文件

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2077341.html

大家都在问