如何保证或检测flink中的数据完整性?

背景: 我们使用flink消耗来自kafka的数据,并在小时分区中将其写入HDFS。而且我们不设置水印,因为我们希望消耗所有记录。 所以我们得到像

这样的目录
/data/app1/day=2019-01-01/hour=01/
/data/app1/day=2019-01-01/hour=02/
...
/data/app1/day=2019-01-01/hour=23/

其他作业需要我们的数据作为输入,因此,即使某些迟到的数据甚至可能在数小时后到达,数据也不会保持完整,这会导致下游作业的结果不正确。

所以我的问题是如何保证或检测flink中的数据完整性?

za770722 回答:如何保证或检测flink中的数据完整性?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2952501.html

大家都在问