应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark，是否可以将数据从Spark RDD或数据帧直接加载到Druid？

2024-05-07 • 问答

我的蜂巢表中有数据。我想在将数据加载到德鲁伊之前应用一堆转换。所以有很多方法，但我不确定。 1.应用转换后保存该表，然后通过hadoop摄取方法批量加载。但我想避免在服务器上额外写入。 2.保持宁静。但这仅适用于Spark Streaming，仅适用于Scala和Java，不适用于Python。我对吗？

还有其他方法可以实现吗？

您可以通过使用德鲁伊kafka集成来实现。

我认为您应该在spark Apply转换中从表中读取数据，然后将其写回到kafka流。一旦设置了德鲁伊kafka集成，它将从kafka读取数据并推送到druid数据源。

以下是有关druid kafka集成https://druid.apache.org/docs/latest/tutorials/tutorial-kafka.html

的文档 ,

使用 rovio-ingest，您可以使用 Spark 将 Hive 表批量摄取到 Druid。这避免了额外的写入。

应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark，是否可以将数据从Spark RDD或数据帧直接加载到Druid？

lulou215 回答：应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark，是否可以将数据从Spark RDD或数据帧直接加载到Druid？

大家都在问