背景: 我们使用flink消耗来自kafka的数据,并在小时分区中将其写入HDFS。而且我们不设置水印,因为我们希望消耗所有记录。 所以我们得到像
这样的目录/data/app1/day=2019-01-01/hour=01/
/data/app1/day=2019-01-01/hour=02/
...
/data/app1/day=2019-01-01/hour=23/
其他作业需要我们的数据作为输入,因此,即使某些迟到的数据甚至可能在数小时后到达,数据也不会保持完整,这会导致下游作业的结果不正确。
所以我的问题是如何保证或检测flink中的数据完整性?