train-test-split

如何解决Nameerror：在不降级scikit-learn 0.22版本的train_test_split中未定义名称'n'的问题？

我正在做情绪分析，并使用scikit学习train_test_split函数。但是我得到了Nameerror：即使我已经定义了'n'，也

前端之家
2022-07-12 • 问答
如何对单列使用分层

我在这个数据人员中非常新。这就是为什么，我可能不确定我该写什么。我试图表达我的问题尽可能简

前端之家
2022-07-11 • 问答
如何基于sklearn中的列值拆分数据

我有一个包含以下各列的数据文件 “客户”， 'calibrat'-校准样品= 1;验证样本= 0； '搅动'， 'churndep

前端之家
2022-07-09 • 问答
无需替换即可随机抽样，同时保持表格数据的自然顺序

我的时间序列数据并没有单调增加，因此根本就不需要调用sort / shuffle。我想随机抽取n％的数据

前端之家
2022-07-09 • 问答
在实践中何时使用验证集

在实践中，我仍然对使用训练，验证和测试集感到有些困惑，因为通常我只将训练/测试集中的任何一个

前端之家
2022-07-08 • 问答
机器学习模型Python的最优化拆分中的列不同

我正在训练机器学习模型以便预测建筑价格。其中一列是建筑物所在的城市。我有很多城市 <p

前端之家
2022-07-08 • 问答
如果y_test数据是预测结果，如何查看实际结果？

我正在尝试建立一个混淆矩阵，以确定我的模型的表现如何。我将模型分为x和y测试和训练集，但是，为

前端之家
2022-07-07 • 问答
关于用于机器学习的train_test_split的思考

我刚刚注意到，很多人甚至在处理丢失的数据之前就倾向于使用train_test_split，似乎他们在一开始就将数

前端之家
2022-07-06 • 问答
train_test_split和StratifiedShuffleSplit中的stratify参数

在sklearn的<code>stratify</code>函数中使用<code>train_test_split</code>参数与<code>StratifiedShuffleSplit</code>函数有什么

前端之家
2022-07-05 • 问答
TypeError：传递了无效的参数：{'n_samples'：16000}

我正在尝试使用scikit Learn软件包中的train_test_split，但参数遇到问题。这是我的代码 <pre><code>files = gl

前端之家
2022-07-02 • 问答
如何不使用功能train_test_split将数据分为测试和训练？

我目前正在进行时间序列预测，因此我必须将数据分为训练集和测试集。（将前70％的数据包含在训练

前端之家
2022-07-02 • 问答
TPOT：TPOTRegressor显示名称错误

这是我正在运行的有关<strong> TPOTRegressor </strong>的代码。 <pre><code>from tpot import TPOTRegressor from sklearn.d

前端之家
2022-07-02 • 问答
将大数据集拆分为分层的部分（10个部分），仅使用其中的一部分来训练和测试数据

我有一个包含400万行的大型数据集，在其上运行算法需要花费大量时间。我如何将数据分层分成10个相等

前端之家
2022-07-01 • 问答
基于组变量训练Test Split sklearn

我的X如下：编辑1： <pre><code>Unique ID. Exp start date. Value. Status. 001 01/01/2020. 4000. Clo

前端之家
2022-07-01 • 问答
列车测试拆分后对不平衡数据的欠采样

我是机器学习的新手，目前正在处理数据不平衡的项目。我想使用随机欠采样来平衡数据。我很困惑，

前端之家
2022-06-29 • 问答
如何以简单明了的方式将数据集正确分为训练验证测试集？我的问题是：

我有一个包含<code>100</code>个样本的数据集，我想分别将其分为Train Validate和Test的<code>75%</code>，<code>25%</c

前端之家
2022-06-28 • 问答
深度学习：为何在拆分为训练/有效/测试之前对数据进行混洗很重要的原因

我正在构建具有特定时间窗口的无状态<code>LSTM</code>，以预测时间序列价格图表。由于它是无状态的，因

前端之家
2022-06-28 • 问答
如何基于python中的权重和偏差获取预测值

<strong>我正在尝试使用X（trainT）函数使用X_trainT和X_testT预测测试和训练数据的输出。我收到以下列出的

前端之家
2022-06-26 • 问答
对R（Ranger）中的因子变量具有不同级别的同一测试集数据的不同预测

我有一个训练数据<code>train</code>，其中<code>distance</code>和<code>dest_zip_code</code>作为预测变量来预测<code>del

前端之家
2022-06-25 • 问答
使用列车测试拆分的尺寸问题

<pre class="lang-py prettyprint-override"><code>from sklearn.model_selection import train_test_split predictors=data.drop(['target'

前端之家
2022-06-25 • 问答
数据子集的分层拆分

我的整体数据集大小为10,000。我知道我可以使用分层拆分来创建训练和测试集，然后可以运行两次（第

前端之家
2022-06-24 • 问答
ValueError：找到样本数量不一致的输入变量：[60792，17]

这是我的代码： <pre><code>X = dataset.iloc[:,:-1].values.reshape(-1,1) y = dataset.iloc[:,-1].values.reshape(-1,1) labelenco

前端之家
2022-06-23 • 问答
训练和测试数据集中的组之间保持相同的比率

对于一个机器学习项目，我想将我的数据分为训练集和测试集，以保持特定组中各部分之间的一致性。

前端之家
2022-06-22 • 问答
如何确保来自特定组的所有样本在sklearn cross_val_predict中的训练/测试中都在一起？

我有一个数据框，其中每个样本都属于一个组。例如： <pre><code>df = a b c group 1 1 2 G1 1 6 1 G1

前端之家
2022-06-22 • 问答
numpy拆分数组，无需复制

我有一张非常大的图像数组（多个GB），并想使用numpy进行拆分。这是我的代码： <pre><code>images = ... #

前端之家
2022-06-22 • 问答
使用ImageDataGenerator和流程训练和测试拆分集

我正在尝试使用增强来建立网络。首先我将ImageDataGenerator与validate_split = 0.2。一起使用 <pre><code>

前端之家
2022-06-19 • 问答
面对IndexError：只有整数，切片（`：`），省略号（`...`），numpy.newaxis（`None`）和整数或布尔数组才是有效索引

我一直在研究链接预测问题，在该问题中，必须将数据集（一个numpy数组）解析并存储到另一个numpy数组

前端之家
2022-06-18 • 问答
sklearn train_test_split混乱

我在运行代码时遇到错误。可能是什么错误？ <pre><code>X = [['Item_Identifier', 'Item_Weight', '

前端之家
2022-06-17 • 问答
train_test_split中的random_state是否会影响模型的实际性能？

我明白了为什么每个random_state的模型得分都不同，但是确实希望最高得分和最低得分（从random_state 0-100

前端之家
2022-06-17 • 问答
找到样本数量不一致的输入变量：[799996，199999]

我要分割一个df，为什么它会在X_train和X_test中给出不一致的样本数（如果那是错误的意思）？ <pre><cod

前端之家
2022-06-15 • 问答