我已经建立了一个从Kafka主题读取的Spark结构化流查询。 如果在运行Spark查询时更改了主题中的分区数,则Spark似乎不会注意到,并且新分区上的数据也不会被使用。
除了停止查询并重新启动查询之外,是否有办法告诉Spark在同一主题中检查新分区?
编辑: 我正在使用Spark 2.4.4。我从卡夫卡读到的内容如下:
spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers",kafkaURL)
.option("startingOffsets","earliest")
.option("subscribe",topic)
.option("failOnDataLoss",value = false)
.load()
经过一些处理后,我在Delta Lake表上写入HDFS。