AWS EMR Spark正在工作者节点上创建文件

2024-05-18 • 问答

我正在EMR上使用spark来处理数据。基本上，我从AWS S3读取数据，然后执行转换和转换后的工作，即将数据加载/写入oracle表。

最近我们发现hdfs（/ mnt / hdfs）的利用率过高。

我没有向hdfs（/ mnt / hdfs）写入任何数据，但是那是spark正在创建块并将数据写入其中。我们将所有的操作都存储在内存中。

为什么Spark仍将数据写入数据节点？

是否有将数据写入datanode（HDFS）的特定操作？

这是创建的hdfs目录。

* 15.4G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current/finalized/subdir1

129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current/finalized

129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current

129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812

129G / mnt / hdfs / current 129G / mnt / hdfs *