从Cassandra表读取的Pyspark代码需要近14分钟的时间来读取6 GB数据

火花群集我正在使用4个核心和4个执行程序实例。 过滤后的Cassandra表数据大小为6GB。 使用pyspark代码从此Cassandra表读取数据。 在分区键上应用过滤器(3个分区键) 推送过滤器发生了。 分区键筛选器之一是5000个值的列表。 这个简单的读本需要14多个薄荷糖。 这是预期时间还是我们可以在更短的时间内实现呢?

hopefulmousehaha 回答:从Cassandra表读取的Pyspark代码需要近14分钟的时间来读取6 GB数据

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3160001.html

大家都在问