应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark,是否可以将数据从Spark RDD或数据帧直接加载到Druid?

我的蜂巢表中有数据。我想在将数据加载到德鲁伊之前应用一堆转换。所以有很多方法,但我不确定。  1.应用转换后保存该表,然后通过hadoop摄取方法批量加载。但我想避免在服务器上额外写入。  2.保持宁静。但这仅适用于Spark Streaming,仅适用于Scala和Java,不适用于Python。我对吗?

还有其他方法可以实现吗?

lulou215 回答:应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark,是否可以将数据从Spark RDD或数据帧直接加载到Druid?

您可以通过使用德鲁伊kafka集成来实现。

我认为您应该在spark Apply转换中从表中读取数据,然后将其写回到kafka流。 一旦设置了德鲁伊kafka集成,它将从kafka读取数据并推送到druid数据源。

以下是有关druid kafka集成https://druid.apache.org/docs/latest/tutorials/tutorial-kafka.html

的文档 ,

使用 rovio-ingest,您可以使用 Spark 将 Hive 表批量摄取到 Druid。这避免了额外的写入。

本文链接:https://www.f2er.com/3166725.html

大家都在问