我的蜂巢表中有数据。我想在将数据加载到德鲁伊之前应用一堆转换。所以有很多方法,但我不确定。 1.应用转换后保存该表,然后通过hadoop摄取方法批量加载。但我想避免在服务器上额外写入。 2.保持宁静。但这仅适用于Spark Streaming,仅适用于Scala和Java,不适用于Python。我对吗?
还有其他方法可以实现吗?
我的蜂巢表中有数据。我想在将数据加载到德鲁伊之前应用一堆转换。所以有很多方法,但我不确定。 1.应用转换后保存该表,然后通过hadoop摄取方法批量加载。但我想避免在服务器上额外写入。 2.保持宁静。但这仅适用于Spark Streaming,仅适用于Scala和Java,不适用于Python。我对吗?
还有其他方法可以实现吗?
您可以通过使用德鲁伊kafka集成来实现。
我认为您应该在spark Apply转换中从表中读取数据,然后将其写回到kafka流。 一旦设置了德鲁伊kafka集成,它将从kafka读取数据并推送到druid数据源。
以下是有关druid kafka集成https://druid.apache.org/docs/latest/tutorials/tutorial-kafka.html
的文档 ,使用 rovio-ingest,您可以使用 Spark 将 Hive 表批量摄取到 Druid。这避免了额外的写入。