如何在Spark Streaming中跟踪数据滞后的EventHub和Blob

我正在研究Spark Streaming,基本上是从EventHub读取近实时数据并将其转储到Blob位置,我将需要实现水印处理以查看EventHub和blob的延迟(数据延迟)是什么位置。众所周知,EventHub仅保存2天的数据,因此我需要确保没有数据丢失,包括EventHub和blob位置。有没有办法可以在Spark结构化流媒体中实现这一目标。

toby_liao 回答:如何在Spark Streaming中跟踪数据滞后的EventHub和Blob

我认为您正在尝试在这里实现两件事

1。找到时间滞后。

2。查找数据丢失。

我建议至少考虑为此使用Azure流分析。它的查询语言与SQL非常相似。

本文链接:https://www.f2er.com/3154775.html

大家都在问