feature-engineering

使用word2vec编码分类特征是一个好主意吗？

我正面临一个二进制预测任务，并且具有一组所有功能都是分类的。因此，一个关键的挑战是将这些分

前端之家
2022-08-15 • 问答
如何使用DFS在Featuretools中制作“堆叠”功能

阅读文档，向上调整<code>max_depth</code>会导致复杂的“堆叠”功能。我发现将<code>max_depth</code>调

前端之家
2022-08-14 • 问答
数据集元数据的文件格式

我想知道并比较尽可能多的文件格式，这些文件格式可以存储要素，属性或字段的元数据属性的

前端之家
2022-08-14 • 问答
R如何滞后4000列50次

我有一个包含4000列的数据框，并且每日观察结果按<code>time</code>排序。我想创建新列，使其过去的所有

前端之家
2022-08-14 • 问答
二进制分类问题如何处理多标签分类特征？

我有类似的数据集： <pre><code> profile category target 0 1 [5, 10] 1 1 2 [1]

前端之家
2022-08-13 • 问答
验证浮点表示

我想以10为底进行编码-（263.125）。<br/> 我对其进行了编码，然后得出了以下解决方案： <pre><code>11000

前端之家
2022-08-13 • 问答
创建标志而不是指定值

我正在使用<a href="http://archive.ics.uci.edu/ml/datasets/Bank+Marketing#" rel="nofollow noreferrer">http://archive.ics.uci.edu/ml/d

前端之家
2022-08-13 • 问答
如何从文本中提取和转换特征以进行线性回归

这是问题所在：我接收文本作为输入并提取语音比率，唯一字数，句子矢量等特征，然后我建立了不同

前端之家
2022-08-12 • 问答
如何找到由0或1组成的给定数据集的规则？

我有一个包含300万行和81列的数据集。我有标签（0或1）。专栏描述了过去3个月中27种独特功能的用户数

前端之家
2022-08-11 • 问答
时间序列中目标和特征的协方差

我有一个目标变量，它是售票数，另一个特征是市场营销活动。我的索引是我的时间序列的日子

前端之家
2022-08-11 • 问答
适用于使用TensorFlow 2.0构建的深度神经网络模型的大数据处理解决方案？

当前，我正在使用Python，Numpy，pandas，scikit-learn进行数据预处理（<strong> LabelEncoder，MinMaxScaler，fillna等</s

前端之家
2022-08-11 • 问答
Sagemaker-随机砍伐森林-功能归一化？正在进行预处理吗？

我在理解RCF算法时遇到了麻烦，特别是它如何期望/预期数据或应该完成的预处理？例如，我具有大约50

前端之家
2022-08-10 • 问答
如何在R中归纳很多分类变量？

我在R中具有以下df： <pre><code>ID GENDER COUNTRY 1 M US 2 M UK 3

前端之家
2022-08-10 • 问答
在进行特征工程时如何确定新特征？

我正在一个项目中，我需要构建一个神经网络模型来补偿车辆GPS产生的错误。我的数据集包含4个功能：<

前端之家
2022-08-10 • 问答
将某些功能的派生或积分并添加为机器学习中的新功能是一个好主意吗？

我正在学习如何进行特征工程，并在脑海中遇到一些想法，这就是为什么我想问我是否有一些具有某些

前端之家
2022-08-09 • 问答
数据帧的剂量元数据可帮助构建ML算法的功能

最近，一个潜在的雇主给了我一项任务，要求我做以下事情： <pre><code>- transfer a data set to S3 - create me

前端之家
2022-08-09 • 问答
如何从此对象列表中提取嵌套字典及其数据？

如何从此对象列表中提取嵌套字典及其数据？我给了一个数据框，其中有多个列，这些列具有作

前端之家
2022-08-08 • 问答
LabelEncoding（）与OneHotEncoding（）（sklearn，pandas）建议

我的数据框中有3种类型的分类数据<code>df</code>。 <pre><code>df['Vehicles Owned'] = [1,2,3+,2,1,2,3+,2] df[&#

前端之家
2022-08-07 • 问答
ML中的多项式特征

我有10个功能，所有功能都是数字。多项式特征只能用于连续变量而不能用于离散变量吗？在创

前端之家
2022-08-04 • 问答
关于x和y之间关系的散点图的问题

我有一个问题。因此，我正在建立一个具有多个自变量和因变量的多元线性回归模型。在进行EDA

前端之家
2022-08-04 • 问答
相关性是无监督学习（聚类）中的重要因素吗？

我正在使用大小为（500，33）的数据集。特别是数据集包含9个特征，例如 <code>[X_High, X_medi

前端之家
2022-08-04 • 问答
有没有一种简单的方法可以在标签不是最后一列的情况下分离因变量和自变量？

我的数据有很多功能，标签不是最后一列。我不知道标签列的确切位置。我不想收集和复制功能名称并

前端之家
2022-08-04 • 问答
结合两个财务数据集，互动帐户余额随时间变化

我有一个与金融交易数据集有关的问题。我有两个数据集：第一个包含带有时间戳记的金融交易

前端之家
2022-08-02 • 问答
不平衡数据的特征工程

我正在训练有关分类问题的机器学习模型。我的数据集是具有<em> 37 </em>类别的<em> 10000 </em>个观测值。但

前端之家
2022-08-02 • 问答
R自动计算功能日志和多边形数据矩阵

<h1>背景</h1> 我正在编写我的自定义函数。该函数采用具有固定数量功能的数据框输入。此外，功能的类

前端之家
2022-07-30 • 问答
在回归建模之前，是否有任何标准程序/工具序列来处理高光谱表格数据？

在PLSR回归建模之前，是否有任何标准程序/工具序列来处理高光谱表格数据。工具的示例是1）解解析2）

前端之家
2022-07-29 • 问答
机器学习中的高级功能

我正在研究文本分类问题，在训练模型之前，我想为关键字或n-gram分配等级或权重。我知道基于树的模

前端之家
2022-07-28 • 问答
特征选择和时间序列数据的减少

我有一个使用25年左右的时间序列数据的用例，其中100多个功能会影响目标。目标是已经转换为分类价格

前端之家
2022-07-27 • 问答
为数据集中的要素选择数据类型

要查找最佳特征及其相关性，我想知道将列转换为哪种数据类型，并且我正在使用芝加哥犯罪数据集进

前端之家
2022-07-25 • 问答
为什么不应该使用sklearn LabelEncoder编码输入数据？ 1. OrdinalEncoder:2. Manual replacement:

sklearn.LabelEncoder的<a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html" rel="nofollow

前端之家
2022-07-24 • 问答

首页

下一页
末页