我有一个pyspark数据框'pyspark_df',我想将数据分组并使用通用函数字符串名称(如以下之一)聚合数据:'avg','count','max','mean',' min”或“ sum”。
无论聚合类型如何,我都需要将生成的聚合名称“聚合”。 我已经能够做到如下。
seriesname = 'Group'
dateVar = 'as_of_date'
aggSeriesname = 'Balance'
aggType = 'sum'
name_to_be_Changed = aggType + '(' + aggSeriesname + ')'
group_sorted = pyspark_df.groupby(dateVar,seriesname).agg({aggSeriesname: aggType}).withColumnRenamed(name_to_be_Changed,'aggregated').toPandas()
但是,是否可以通过.alias()做到这一点?我见过这样使用
group_sorted = pyspark_df.groupby(dateVar,seriesname).agg(sum(aggSeriesname).alias('aggregated')).toPandas()
如何以不必键入'sum(aggSeriesname)'部分的方式使用别名?希望我很清楚。