如何使用Spark Streaming识别Azure EventHub和HDFS blob的数据复制滞后

2024-05-03 • 问答

我当前正在使用Spark Streaming将近实时数据从Azure EventHub流式传输到HDFS Blob位置，此流式作业正在运行24/7，我想了解EventHub和HDFS是否存在任何数据复制滞后一滴我知道我可以轻松地在流分析中做到这一点，其中有一个水印窗口，可以告诉我直到有几个小时/分钟的数据滞后。但是有没有办法可以在Spark Streaming中实现这一目标，有没有我可以编写的代码片段来查看什么是数据滞后。请在这里指导我。希望我的问题清楚。

基本上我不想丢失任何在Azure EventHub中可用但在HDFS blob中不可用的数据，因为EventHub仅保存2天的数据，如果任何数据滞后超过2天，那么我肯定会丢失数据。

damit123 回答：如何使用Spark Streaming识别Azure EventHub和HDFS blob的数据复制滞后

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

apache-spark azure-eventhub spark-streaming

本文链接：https://www.f2er.com/3126057.html

如何使用Spark Streaming识别Azure EventHub和HDFS blob的数据复制滞后

damit123 回答：如何使用Spark Streaming识别Azure EventHub和HDFS blob的数据复制滞后

大家都在问