-
R无法处理某些数据
我正在尝试衡量威权主义与体力劳动者和非体力劳动者之间的关系。 我有一个6000名受访者的数据库。现 -
spark scala-将列中的类别数组转换为假人(启用多个类别)
我正在尝试将类别数组转换为假人。 类别列表是按先定义的,并且转换后的数据可能并不总是包含完整 -
在Python中获取假人?
您能解释一下下面的代码是什么意思吗?假人是什么意思? 然后从第二行代码可以实现什么呢? <a href=" -
具有自变量和1个标准偏差的线性回归
这肯定是一个非常简单的问题,尽管我不确定我是否正确执行: 我想执行多元线性回归,我想将 -
如何处理信息栏?
我有一个数据框,其中也包含信息列。如何根据信息列创建虚拟对象。我希望列中有“贷方”字,如果 -
稀疏列的DataFrameGroupby Cumsum函数行为
我需要对分组数据<a href="https://pandas.pydata.org/pandas-docs/version/0.21/generated/pandas.core.groupby.DataFrameGroupBy.cumsum -
在R中的“其他”中转换分类变量的低频繁级别
我有一个分类变量,我想将其转换为用于分类任务的虚拟变量。问题是某些水平仅出现几次,因此当我 -
从互斥虚拟变量创建分类变量
如何从互斥的虚拟变量(取值为0/1)创建分类变量? 基本上,我正在寻找与该解决方案完全相反 -
如何从R中的长数据帧变为宽数据帧,并用焦点列中的逗号分隔多个值
说我有他们的导演的电影清单。我想将这些导演转换为伪变量(即,如果导演执导电影,则他们自己的 -
如何使用多个伪变量在R中的混合数据类型中创建神经网络模型
我有一个包含10个变量的数据集,其中4个变量是连续的,而6个是分类的。因变量也是类别变量,其值为 -
如何在R中仅使用特定值过滤列? 数据
我有一个数据集,其中包含一些虚拟变量,这些虚拟变量被编码为1和2,而不是1和0。数据集很大,但是 -
虚拟变量陷阱,我删除哪个虚拟列有关系吗?
我刚刚了解了伪变量及其陷阱。因此,假设我有一个包含3个类别的类别列,例如: <pre><code>Dog Cat Bea -
根据Quanteda字典查找生成虚拟
我正在使用Quanteda创建字典并查找术语。 以下是我的数据的可复制示例: <pre><code> dput(tweets[ -
如果记录在快照中出现一次,则添加一个虚拟行
<pre><code> YY_MM_CD customerid pol_no type WE WP 2019-07 15680 1313145 new 3 89 2020-01 14672 1418080 renwd - -
大熊猫:从列内的值创建伪变量
我有一个数据框,其中的列称为<code>Actors</code>,其中每个单元格都包含一个类似<code>"Abigail Breslin, Gre -
在构建ML模型时,是否建议先缩放数字特征并虚拟化分类特征,或者反之亦然?
一旦对分类特征进行了虚拟化,它们会将每个类别转换为0或1。在对模型进行虚拟化后,如果我们对数据 -
当您在线性回归模型中包含分类变量的所有类别时,scikit-learn会在后台做什么?
通常,如果您有一个类别变量,例如Sex(男性/女性),并且将其虚拟为男性(男)为0,女性为1,则不 -
在不平衡面板的固定效果回归中解释年度效果假人的个人效果
我正在从事金融研究,并且正在运行<strong>不平衡面板固定效应回归</strong>。我的数据集包含101个单位( -
如何将列名提取到列表中
我是python的新手,如果有人可以提供帮助,我将不胜感激: 我想对数据帧应用一种热编码: <p -
使用熊猫使用不完整数据获取数据帧的get_dummies
我有一个同时包含分类数据和非分类数据的DataFrame,我想对它进行虚拟编码,但是并非所有我知道可能 -
从充满混乱的字符串列中获取伪变量
我是Python和数据科学领域不到一周的初学者,所以如果这些问题显而易见,请原谅我。 我已经在 -
用于虚拟变量回归分析的负系数
我正在解释多元回归分析,因变量是股票的回报率(ROR)。另外,我还包括一个虚拟变量,该变量代表 -
在R上创建假人,包括多个类别
我需要创建一个虚拟变量,如果原始变量等于3、4、5和0,则该虚拟变量的值为1。原始变量是一个从1缩 -
如何从R中的插入符号包中指定dummyVars中的用户定义的na?action?
我正在创建一个dummyVars模型,并对不同的数据进行预测。如果此数据的某列包含NA,则NA也将转换为稀疏 -
如何在R中将类别变量转换为多个伪变量?
在这里,我有一个数据集,其列名称为Age =(24或以下,25至34、35至44、45至54,25至34、24或以下,35至44、25 -
如何为大型数据集创建虚拟变量?
我喜欢使用伪变量,因为它比lm和glm函数中的选项具有更好的控制感。通常,我使用来自fastdummies包中的d -
将LDA中的主题添加为df中的列
我对数据框中的文档进行了LDA,提取了k个主题。我为这k个主题中的每个主题都创建了一个(虚拟)列。 -
获取大熊猫假人中类别值的频率
我正在此处对数据实施一种热编码 <pre><code>Version Cluster_Size Hardware_type 1.0.4 3 Aplha,Al -
使用fastDummies创建Year / Region虚拟变量
我编写了代码来创建年份(2014、2015、2016、2017或2018)和区域(编码为区域1、2、3或4)的虚拟变量,以 -
固定效果的GLM
我正在尝试为我的GLM添加固定效果。 我已经尝试了从虚拟固定效果到glmmML软件包中的glmmboost的多种想法