PySpark数据框样本描述

2024-05-04 • 问答

我有一个具有500万行的PySpark DataFrame，并且想要获得随机选择的子集的描述。

当我生成相同分数的两个不同样本时，我得到相同的结果。

sample_1 = df.sample（分数= 0.03，种子=无）

sample_1.describe().show(100)
+-------+--------------------+
|summary|            row_name|
+-------+--------------------+
|  count|              160933|
|   mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
|    min|            10111444|
|    max|            99955723|
+-------+--------------------+

sample_2 = df.sample（分数= 0.03，种子=无）

sample_2.describe().show(100)

+-------+--------------------+
|summary|            row_name|
+-------+--------------------+
|  count|              160933|
|   mean|2.921313376194685...|
| stddev| 3.50815577432219E13|
|    min|            10111444|
|    max|            99955723|
+-------+--------------------+

sample_1 == sample_2
False

两个不同数据框的描述如何相同？

SparkContext（）。version ='2.4.4'

xiangan2010 回答：PySpark数据框样本描述

我最初的猜测是seed是相同的。

如果您不关心重复性，则在每次采样时使用随机种子。如果要获得可重复性，请为每个采样使用恒定但不同的种子。

关于相等性，Spark比较数据帧的方式可能在幕后发生。

运行类似的内容会发生什么情况

sample_1.except(sample_2).isEmpty

pyspark pyspark-dataframes pyspark-sql

本文链接：https://www.f2er.com/3104000.html

PySpark数据框样本描述

xiangan2010 回答：PySpark数据框样本描述

大家都在问