我有一个具有500万行的PySpark DataFrame,并且想要获得随机选择的子集的描述。
当我生成相同分数的两个不同样本时,我得到相同的结果。
sample_1 = df.sample(分数= 0.03,种子=无)
sample_1.describe().show(100)
+-------+--------------------+
|summary| row_name|
+-------+--------------------+
| count| 160933|
| mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
| min| 10111444|
| max| 99955723|
+-------+--------------------+
sample_2 = df.sample(分数= 0.03,种子=无)
sample_2.describe().show(100)
+-------+--------------------+
|summary| row_name|
+-------+--------------------+
| count| 160933|
| mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
| min| 10111444|
| max| 99955723|
+-------+--------------------+
sample_1 == sample_2 False
两个不同数据框的描述如何相同?
SparkContext()。version ='2.4.4'