-
如何总结熊猫数据框中字符串的不一致值?
我可以使用什么代码来总结该数据帧中字符串的总不一致值? 我正在尝试查找缺失值的摘要(以 -
R-从其他行提取值
如标题所示,我想从其他行中提取值。 尤其是,请考虑以下数据集: <pre><code>id.in.group <- c( -
Apache NiFi:使用ExecuteScript处理器处理多个csv
我有一个70列的csv。第60列包含一个值,该值确定记录是<code>valid</code>还是<code>invalid</code>。如果第60列具 -
如何清理字符串列表
我正在尝试清除以下数据: <pre><code>from sklearn import datasets data = datasets.fetch_20newsgroups(categories=['re -
在两个不同的列中都有一个列的值时如何合并数据
我正在使用jupyter笔记本和python 3清理数据。我的数据框看起来类似于下面的数据框。 我想将“年龄”列 -
根据熊猫中的其他列,用良好的数据替换空字段
我有一个数据框<code>df</code>: <pre><code> A B C Value 0 10 aa MN 5 1 10 aa NaN 6 2 12 bb MN -
删除表中的几乎重复项
我有一个表,其中字符串1和2几乎是重复的-它们具有相同的值,但顺序相反。如何删除这些重复项? -
减少R中的数据集-过滤和分组?
我有一个看起来像这样的数据集: <pre><code> Country Partner Year Sector Value 1 AUT AUT 2005 -
如何在Python Pandas中用所需的内容替换特定列的子字符串?
<a href="https://i.stack.imgur.com/A0ejL.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/A0ejL.png" alt="enter image -
如何从Wikipedia文本中删除所有乳胶?
我从Wikipedia抓取了文本,现在我想对它们进行文本分析。我想从中取出所有乳胶。 我尝试了一些 -
如何使用pywsd.utils对.txt文件而不是句子进行定形?
我是Python的新手,我尝试学习它来进行基本的文本分析,主题建模等。 我编写了以下代码来清理 -
R代码可检测多个患者随时间变化的变量
我有一个数据集,每个病人有多行,其中每一行代表4个月的1周时间。有一个变量<code>grade</code>可以采用 -
如何根据类别值过滤掉类别值
我有一个名为category的数据框,其中包含所有类别变量。现在,我要从频率计数为1的类别变量值之一中 -
数据清理(地址)Python
我正在寻找一个包含61k行的数据集。我需要清理其街道地址列。目前,地址是一场噩梦。有时会写出完 -
如何添加重复的行,但在R中的一列中添加值
这是我正在处理的数据框。 如您所见,有重复的行具有完全相同的值。 我想知道如何将这些行合并为一 -
将gsub函数和文本文件配对以进行语料库清洁 具体示例
在分析之前,我尝试清理大量推文。我在一个数据帧中有一条推文,其中每个单元格都有一条推文的内 -
有条件地删除文档术语表(DTM)中的稀疏术语
我在文档术语矩阵(<code>corp_dtm</code>)中有一个twitter bios数据集,我想使用igraph将数据绘制为社交网络 -
整理凌乱的数据-将来自特定统计单位的所有观测值收集到一行
我在R中有一个很大的数据集,其中所有时间点的所有观察值都被分配为变量(列)。问题在于,对于一 -
在R中为主题建模预处理文本时获取奇怪的字符
我正在准备文档,以便在西班牙语的大型新闻文章数据框中运行<code>stm</code>。在使用函数<code>prepDocuments -
在R中删除格式为www的URL
我需要从数据框中删除一些网址。到目前为止,我已经能够消除使用模式<code>http://</code>的那些。但是, -
在R中应用正则表达式保持逗号 任务1-删除不需要的字符任务2-删除不需要的单词任务3-删除不需要的空格任务4-小写转换
我想对数据集使用正则表达式进行文本清理。但是,我想保留逗号,因为在清除文本后,需要根据逗号 -
Python-取决于独立列的值的两个单独条件(美国/加拿大邮政编码练习)
我正在尝试在数据集中创建一个新列,该列依赖于数据中的两个单独列(国家和邮政编码)。如果国家 -
Python Pandas-清洁数据列取决于多个条件
我使用以下代码创建包含美国和加拿大邮政编码的列 <pre><code>df = pd.read_csv(file1) usa = df['Region'] -
Python Pandas-新建列为每个唯一ID返回最早的数据
我有一个包含三列的数据集(客户ID,交易,日期)。客户ID与交易之间存在一对多的关系。我想添加一 -
Python-使用df.loc和str方法清除美国和加拿大的邮政编码
我使用以下代码创建包含美国和加拿大邮政编码的列 <pre><code>df = pd.read_csv(file1) usa = df['Region'] -
创建标志而不是指定值
我正在使用<a href="http://archive.ics.uci.edu/ml/datasets/Bank+Marketing#" rel="nofollow noreferrer">http://archive.ics.uci.edu/ml/d -
打开字母细化正则表达式
我只想编辑单元格中的字母字符 。 我做了什么 <pre><code>value.match(/.*?(\^[a-zA-Z]*$).*?/) </code></pre> 但 -
要替换数据框中的缺失日期,我应该使用零,最小日期还是平均值?
在以下情况下,我应将NaN替换为零,平均还是最小年份“ 1900”, 我试图在下面的示例数据帧中清 -
如何根据距已知参考轨迹的距离过滤出位置数据?
我有一个需要过滤的87288点数据集。数据集的过滤字段是X位置和Y位置(以经度和纬度表示)。绘制数据 -
不整洁的数据-在可变的溶胀持续时间下进行的月日混合观测
大家好 我有一个数据集,具有混合格式的溶胀观察持续时间变量,一些观察以月为单位,其他以天和年