我目前正在研究心脏病检测,并且希望使用spark来处理大数据,因为这是我工作解决方案的一部分。但是我在将spark与python结合使用时遇到了困难,因为我无法掌握如何使用spark。将csv文件转换为RDD,然后我不明白如何使用RDD来实现分类算法,如knn,logistic回归等。 因此,如果有人可以帮助我,我将非常感激。
我试图了解Internet上的pyspark,但是可用的代码很少,有些可用的代码太容易或太难理解。我在pyspark上找不到任何适当的分类示例。
我目前正在研究心脏病检测,并且希望使用spark来处理大数据,因为这是我工作解决方案的一部分。但是我在将spark与python结合使用时遇到了困难,因为我无法掌握如何使用spark。将csv文件转换为RDD,然后我不明白如何使用RDD来实现分类算法,如knn,logistic回归等。 因此,如果有人可以帮助我,我将非常感激。
我试图了解Internet上的pyspark,但是可用的代码很少,有些可用的代码太容易或太难理解。我在pyspark上找不到任何适当的分类示例。
要将csv读入数据帧,您只需调用spark.read.option('header','true').csv('path/to/csv')
。
数据框将包含csv的列和行,您可以使用df.rdd
将其转换为行的RDD。