如何保证或检测flink中的数据完整性？

2024-05-29 • 问答

背景：我们使用flink消耗来自kafka的数据，并在小时分区中将其写入HDFS。而且我们不设置水印，因为我们希望消耗所有记录。所以我们得到像

这样的目录

/data/app1/day=2019-01-01/hour=01/
/data/app1/day=2019-01-01/hour=02/
...
/data/app1/day=2019-01-01/hour=23/

其他作业需要我们的数据作为输入，因此，即使某些迟到的数据甚至可能在数小时后到达，数据也不会保持完整，这会导致下游作业的结果不正确。

所以我的问题是如何保证或检测flink中的数据完整性？

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

本文链接：https://www.f2er.com/2952501.html