因为在ml.stat模块中没有方法,所以在pyspark中是否可以执行学生t检验。
heshenzhi0622 回答:如何在pyspark中进行学生t测试?
我看不到pyspark API的t-test部分。如此处所提到的,它存在于Java版本中[1]
您可以在此处[2]中查看chisquared实现,从而在python中构建自己的t检验模型,在那里他们使用java api来构建python类。
2-{{3}}
,如果您只是想使用表示两个不同组的二进制变量进行均值比较,则可以只使用LinearRegression
中的pyspark.ml.regression
。将连续变量回归到二进制变量上,然后在拟合模型上调用summary.tValues
。这与在均值t检验中进行比较相同。