emrfs同步和导入卡住了，无法正常工作

2024-05-19 • 问答

在使用s3源运行spark作业时以及运行emrfs sync或emrfs import时，我一直收到不稳定错误。它运行了一定的时间（增加了10624 s3key），只是卡住了。另外，Spark读取不会运行，并且在等待几分钟后会引发不一致错误/异常。知道为什么会发生这种情况以及如何避免该问题吗？

用例：从s3读取大约20TB的数据，并执行排序和窗口操作。

执行的操作：

emrfs delete --metadata-name EmrFSMetaTbl s3：// bucket / prefix-to-read /

emrfs import-元数据名称EmrFSMetaTbl s3：// bucket / prefix-to-read /

试图删除元数据表，但仍然出现不一致错误。我已经尝试过Emrfs file sync with s3 not working

中给出的方法

当您从S3删除大量文件（我的文件几乎是数百万个很小的文件）时，使用以下命令将文件结构的元数据与DynamoDB同步，就会发生此问题。可以在URL

中查看其他命令

emrfs sync s3://elasticmapreduce/samples/cloudfront

如果此问题不断发生，请创建一个新集群并删除EMRFS dynamoDB表。这解决了我的问题

本文链接：https://www.f2er.com/3069674.html