从Cassandra表读取的Pyspark代码需要近14分钟的时间来读取6 GB数据

2024-05-01 • 问答

火花群集我正在使用4个核心和4个执行程序实例。过滤后的Cassandra表数据大小为6GB。使用pyspark代码从此Cassandra表读取数据。在分区键上应用过滤器（3个分区键）推送过滤器发生了。分区键筛选器之一是5000个值的列表。这个简单的读本需要14多个薄荷糖。这是预期时间还是我们可以在更短的时间内实现呢？

hopefulmousehaha 回答：从Cassandra表读取的Pyspark代码需要近14分钟的时间来读取6 GB数据

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

apache-spark cassandra pyspark

本文链接：https://www.f2er.com/3160001.html

从Cassandra表读取的Pyspark代码需要近14分钟的时间来读取6 GB数据

hopefulmousehaha 回答：从Cassandra表读取的Pyspark代码需要近14分钟的时间来读取6 GB数据

大家都在问