如何将csv转换为RDD并在pyspark中使用RDD进行检测?

我目前正在研究心脏病检测,并且希望使用spark来处理大数据,因为这是我工作解决方案的一部分。但是我在将spark与python结合使用时遇到了困难,因为我无法掌握如何使用spark。将csv文件转换为RDD,然后我不明白如何使用RDD来实现分类算法,如knn,logistic回归等。 因此,如果有人可以帮助我,我将非常感激。

我试图了解Internet上的pyspark,但是可用的代码很少,有些可用的代码太容易或太难理解。我在pyspark上找不到任何适当的分类示例。

Sunny_Frankk 回答:如何将csv转换为RDD并在pyspark中使用RDD进行检测?

要将csv读入数据帧,您只需调用spark.read.option('header','true').csv('path/to/csv')

数据框将包含csv的列和行,您可以使用df.rdd将其转换为行的RDD。

本文链接:https://www.f2er.com/3130088.html

大家都在问