如何在R中的大型数据集(15GB)上运行监督的ML模型?

我有一个数据集(15 GB):7200万条记录和26个功能。我想比较7个监督的ML模型(分类问题):SVM,随机森林,决策树,朴素贝叶斯,ANN,KNN和XGBoosting。我创建了一个720万条记录的样本集(占整个记录集的10%)。在样本集上运行模型(甚至选择功能)已经是一个问题。它具有非常长的处理时间。我目前仅使用RStudio。

几天来我一直在寻找问题的答案。我尝试了以下操作: -data.table-仍不足以减少处理时间 -sparklyr-无法复制我的数据集,因为它太大了

我正在寻找一种无成本的解决方案。有人可以帮我吗?

lingchuanhui 回答:如何在R中的大型数据集(15GB)上运行监督的ML模型?

您应该查看disk.frame软件包。

,

如果您有权使用Spark,则可以使用sparklyr直接读取CSV文件。

install.packages('sparklyr')
library(sparklyr)

## You'll have to connect to your Spark cluster,this is just a placeholder example
sc <- spark_connect(master = "spark://HOST:PORT")

## Read large CSV into Spark
sdf <- spark_read_csv(sc,name = "my_spark_table",path = "/path/to/my_large_file.csv")

## Take a look
head(sdf)

您可以使用dplyr函数来处理数据(docs)。要进行机器学习,您需要为SparkML(docs)使用sparklyr函数。您应该能够在sparklyr中找到几乎所有想要的东西。

,

尝试Google Colab。这可以帮助您运行数据集 容易。

本文链接:https://www.f2er.com/3129814.html

大家都在问