如何将csv转换为RDD并在pyspark中使用RDD进行检测？

2024-05-02 • 问答

我目前正在研究心脏病检测，并且希望使用spark来处理大数据，因为这是我工作解决方案的一部分。但是我在将spark与python结合使用时遇到了困难，因为我无法掌握如何使用spark。将csv文件转换为RDD，然后我不明白如何使用RDD来实现分类算法，如knn，logistic回归等。因此，如果有人可以帮助我，我将非常感激。

我试图了解Internet上的pyspark，但是可用的代码很少，有些可用的代码太容易或太难理解。我在pyspark上找不到任何适当的分类示例。

Sunny_Frankk 回答：如何将csv转换为RDD并在pyspark中使用RDD进行检测？

要将csv读入数据帧，您只需调用spark.read.option('header','true').csv('path/to/csv')。

数据框将包含csv的列和行，您可以使用df.rdd将其转换为行的RDD。

apache-spark machine-learning pyspark rdd

本文链接：https://www.f2er.com/3130088.html

如何将csv转换为RDD并在pyspark中使用RDD进行检测？

Sunny_Frankk 回答：如何将csv转换为RDD并在pyspark中使用RDD进行检测？

大家都在问