我正在使用bigquery-spark-connector读取使用BigQuery Storage API的BigQuer。我的脚本(自动)从BigQuery Storage API请求多个分区,但收到警告:
WARN com.google.cloud.spark.bigquery.direct.DirectBigQueryRelation:请求了2个分区,但仅从BigQuery Storage API接收了1个分区
Spark作业花费很长时间,我认为这是因为它没有读取多个分区。如何确保BigQuery Storage API可以为我提供所有需要的分区?这里发生了什么,为什么无论我请求多少,它都只给我一个分区?
首先,我创建一个SparkSession:
SparkSession spark = SparkSession.builder()
.appName("XXX")
.getOrCreate();
这是引起警告的代码:
Dataset<Row> data = spark.read()
.format("bigquery")
.option("table","project.dataset.table")
.load()
.cache();