我想测量执行时间并从应用程序本身分析Pyspark结构化流。例如,我想使用以下命令执行Python脚本
from pyspark import SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType
import time
if __name__ == "__main__":
sc = SparkSession.builder.master('spark://localhost:7077').getOrCreate()
df = sc.readStream.schema(pq_schema).parquet('../data/parquet')
df.createOrReplaceTempView("vw_table")
exec_query = sc.sql("""
select sum(field_1),count(field_2),field_3 from vw_table group by field_3
""")
result_q = df_st.writeStream.outputMode("complete").format("console").start()
result_q.awaitTermination()
然后,我将文件复制到文件夹并检查每个文件时间。是否可以通过Python脚本来做到这一点?