在使用s3源运行spark作业时以及运行emrfs sync或emrfs import时,我一直收到不稳定错误。它运行了一定的时间(增加了10624 s3key),只是卡住了。另外,Spark读取不会运行,并且在等待几分钟后会引发不一致错误/异常。知道为什么会发生这种情况以及如何避免该问题吗?
用例:从s3读取大约20TB的数据,并执行排序和窗口操作。
执行的操作:
emrfs delete --metadata-name EmrFSMetaTbl s3:// bucket / prefix-to-read /
emrfs import-元数据名称EmrFSMetaTbl s3:// bucket / prefix-to-read /
试图删除元数据表,但仍然出现不一致错误。 我已经尝试过Emrfs file sync with s3 not working
中给出的方法