PySpark数据框样本描述

我有一个具有500万行的PySpark DataFrame,并且想要获得随机选择的子集的描述。

当我生成相同分数的两个不同样本时,我得到相同的结果。

  

sample_1 = df.sample(分数= 0.03,种子=无)

sample_1.describe().show(100)
+-------+--------------------+
|summary|            row_name|
+-------+--------------------+
|  count|              160933|
|   mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
|    min|            10111444|
|    max|            99955723|
+-------+--------------------+
  

sample_2 = df.sample(分数= 0.03,种子=无)

sample_2.describe().show(100)

+-------+--------------------+
|summary|            row_name|
+-------+--------------------+
|  count|              160933|
|   mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
|    min|            10111444|
|    max|            99955723|
+-------+--------------------+
sample_1 == sample_2
False

两个不同数据框的描述如何相同?

  

SparkContext()。version ='2.4.4'

xiangan2010 回答:PySpark数据框样本描述

我最初的猜测是seed是相同的。

如果您不关心重复性,则在每次采样时使用随机种子。 如果要获得可重复性,请为每个采样使用恒定但不同的种子。

关于相等性,Spark比较数据帧的方式可能在幕后发生。

运行类似的内容会发生什么情况

sample_1.except(sample_2).isEmpty
本文链接:https://www.f2er.com/3104000.html

大家都在问