emrfs同步和导入卡住了,无法正常工作

在使用s3源运行spark作业时以及运行emrfs sync或emrfs import时,我一直收到不稳定错误。它运行了一定的时间(增加了10624 s3key),只是卡住了。另外,Spark读取不会运行,并且在等待几分钟后会引发不一致错误/异常。知道为什么会发生这种情况以及如何避免该问题吗?

用例:从s3读取大约20TB的数据,并执行排序和窗口操作。

执行的操作:

emrfs delete --metadata-name EmrFSMetaTbl s3:// bucket / prefix-to-read /

emrfs import-元数据名称EmrFSMetaTbl s3:// bucket / prefix-to-read /

试图删除元数据表,但仍然出现不一致错误。 我已经尝试过Emrfs file sync with s3 not working

中给出的方法
l2912503 回答:emrfs同步和导入卡住了,无法正常工作

当您从S3删除大量文件(我的文件几乎是数百万个很小的文件)时,使用以下命令将文件结构的元数据与DynamoDB同步,就会发生此问题。可以在URL

中查看其他命令
emrfs sync s3://elasticmapreduce/samples/cloudfront

如果此问题不断发生,请创建一个新集群并删除EMRFS dynamoDB表。这解决了我的问题

本文链接:https://www.f2er.com/3069674.html

大家都在问