如何在R中的大型数据集（15GB）上运行监督的ML模型？

2024-05-25 • 问答

我有一个数据集（15 GB）：7200万条记录和26个功能。我想比较7个监督的ML模型（分类问题）：SVM，随机森林，决策树，朴素贝叶斯，ANN，KNN和XGBoosting。我创建了一个720万条记录的样本集（占整个记录集的10％）。在样本集上运行模型（甚至选择功能）已经是一个问题。它具有非常长的处理时间。我目前仅使用RStudio。

几天来我一直在寻找问题的答案。我尝试了以下操作： -data.table-仍不足以减少处理时间 -sparklyr-无法复制我的数据集，因为它太大了

我正在寻找一种无成本的解决方案。有人可以帮我吗？

您应该查看disk.frame软件包。

如果您有权使用Spark，则可以使用sparklyr直接读取CSV文件。

install.packages('sparklyr')
library(sparklyr)

## You'll have to connect to your Spark cluster,this is just a placeholder example
sc <- spark_connect(master = "spark://HOST:PORT")

## Read large CSV into Spark
sdf <- spark_read_csv(sc,name = "my_spark_table",path = "/path/to/my_large_file.csv")

## Take a look
head(sdf)

您可以使用dplyr函数来处理数据（docs）。要进行机器学习，您需要为SparkML（docs）使用sparklyr函数。您应该能够在sparklyr中找到几乎所有想要的东西。

尝试Google Colab。这可以帮助您运行数据集容易。

如何在R中的大型数据集（15GB）上运行监督的ML模型？

lingchuanhui 回答：如何在R中的大型数据集（15GB）上运行监督的ML模型？

大家都在问