如何为test_train_split选择数据框中的数据列和目标列？

2024-05-05 • 问答

我正在尝试使用从csv读取到pandas数据帧中的数据设置test_train_split。我正在阅读的书说我应该分为x_train作为数据和y_train作为目标，但是我如何定义目标是哪一列和数据是哪几列呢？到目前为止，我有以下内容

import pandas as pd
from sklearn.model_selection import train_test_split
Data = pd.read_csv("Data.csv")

我已阅读过以以下方式进行拆分的方法，但是以下方法使用的是已定义data和target的方法：

X_train,X_test,y_train,y_test = train_test_split(businessleisure_data['data'],iris_dataset['target'],random_state=0)

sirfhg 回答：如何为test_train_split选择数据框中的数据列和目标列？

您可以这样做：

Data = pd.read_csv("Data.csv")    
X = Data.drop(['name of the target column'],axis=1).values
y = Data['name of the target column'].values
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

在大多数情况下，目标变量是数据集的最后一列，因此您也可以尝试以下操作：

Data = pd.read_csv("Data.csv")
X = Data.iloc[:,:-1]
y = Data.iloc[:,-1]
X_train,random_state=0)

machine-learning scikit-learn sklearn-pandas

本文链接：https://www.f2er.com/3165108.html

如何为test_train_split选择数据框中的数据列和目标列？

sirfhg 回答：如何为test_train_split选择数据框中的数据列和目标列？

大家都在问