我正在EMR上使用spark来处理数据。基本上,我从AWS S3读取数据,然后执行转换和转换后的工作,即将数据加载/写入oracle表。
最近我们发现hdfs(/ mnt / hdfs)的利用率过高。
我没有向hdfs(/ mnt / hdfs)写入任何数据,但是那是spark正在创建块并将数据写入其中。我们将所有的操作都存储在内存中。
为什么Spark仍将数据写入数据节点?
是否有将数据写入datanode(HDFS)的特定操作?
这是创建的hdfs目录。
* 15.4G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current/finalized/subdir1
129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current/finalized
129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812/current
129G /mnt/hdfs/current/BP-6706123673-10.xx.xx.xxx-1588026945812
129G / mnt / hdfs / current 129G / mnt / hdfs *