data-cleaning

如何总结熊猫数据框中字符串的不一致值？

我可以使用什么代码来总结该数据帧中字符串的总不一致值？我正在尝试查找缺失值的摘要（以

前端之家
2022-08-16 • 问答
R-从其他行提取值

如标题所示，我想从其他行中提取值。尤其是，请考虑以下数据集： <pre><code>id.in.group <- c(

前端之家
2022-08-16 • 问答
Apache NiFi：使用ExecuteScript处理器处理多个csv

我有一个70列的csv。第60列包含一个值，该值确定记录是<code>valid</code>还是<code>invalid</code>。如果第60列具

前端之家
2022-08-16 • 问答
如何清理字符串列表

我正在尝试清除以下数据： <pre><code>from sklearn import datasets data = datasets.fetch_20newsgroups(categories=['re

前端之家
2022-08-16 • 问答
在两个不同的列中都有一个列的值时如何合并数据

我正在使用jupyter笔记本和python 3清理数据。我的数据框看起来类似于下面的数据框。我想将“年龄”列

前端之家
2022-08-16 • 问答
根据熊猫中的其他列，用良好的数据替换空字段

我有一个数据框<code>df</code>： <pre><code> A B C Value 0 10 aa MN 5 1 10 aa NaN 6 2 12 bb MN

前端之家
2022-08-16 • 问答
删除表中的几乎重复项

我有一个表，其中字符串1和2几乎是重复的-它们具有相同的值，但顺序相反。如何删除这些重复项？

前端之家
2022-08-15 • 问答
减少R中的数据集-过滤和分组？

我有一个看起来像这样的数据集： <pre><code> Country Partner Year Sector Value 1 AUT AUT 2005

前端之家
2022-08-15 • 问答
如何在Python Pandas中用所需的内容替换特定列的子字符串？

<a href="https://i.stack.imgur.com/A0ejL.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/A0ejL.png" alt="enter image

前端之家
2022-08-15 • 问答
如何从Wikipedia文本中删除所有乳胶？

我从Wikipedia抓取了文本，现在我想对它们进行文本分析。我想从中取出所有乳胶。我尝试了一些

前端之家
2022-08-15 • 问答
如何使用pywsd.utils对.txt文件而不是句子进行定形？

我是Python的新手，我尝试学习它来进行基本的文本分析，主题建模等。我编写了以下代码来清理

前端之家
2022-08-15 • 问答
R代码可检测多个患者随时间变化的变量

我有一个数据集，每个病人有多行，其中每一行代表4个月的1周时间。有一个变量<code>grade</code>可以采用

前端之家
2022-08-15 • 问答
如何根据类别值过滤掉类别值

我有一个名为category的数据框，其中包含所有类别变量。现在，我要从频率计数为1的类别变量值之一中

前端之家
2022-08-14 • 问答
数据清理（地址）Python

我正在寻找一个包含61k行的数据集。我需要清理其街道地址列。目前，地址是一场噩梦。有时会写出完

前端之家
2022-08-14 • 问答
如何添加重复的行，但在R中的一列中添加值

这是我正在处理的数据框。如您所见，有重复的行具有完全相同的值。我想知道如何将这些行合并为一

前端之家
2022-08-14 • 问答
将gsub函数和文本文件配对以进行语料库清洁具体示例

在分析之前，我尝试清理大量推文。我在一个数据帧中有一条推文，其中每个单元格都有一条推文的内

前端之家
2022-08-14 • 问答
有条件地删除文档术语表（DTM）中的稀疏术语

我在文档术语矩阵（<code>corp_dtm</code>）中有一个twitter bios数据集，我想使用igraph将数据绘制为社交网络

前端之家
2022-08-14 • 问答
整理凌乱的数据-将来自特定统计单位的所有观测值收集到一行

我在R中有一个很大的数据集，其中所有时间点的所有观察值都被分配为变量（列）。问题在于，对于一

前端之家
2022-08-14 • 问答
在R中为主题建模预处理文本时获取奇怪的字符

我正在准备文档，以便在西班牙语的大型新闻文章数据框中运行<code>stm</code>。在使用函数<code>prepDocuments

前端之家
2022-08-13 • 问答
在R中删除格式为www的URL

我需要从数据框中删除一些网址。到目前为止，我已经能够消除使用模式<code>http://</code>的那些。但是，

前端之家
2022-08-13 • 问答
在R中应用正则表达式保持逗号任务1-删除不需要的字符任务2-删除不需要的单词任务3-删除不需要的空格任务4-小写转换

我想对数据集使用正则表达式进行文本清理。但是，我想保留逗号，因为在清除文本后，需要根据逗号

前端之家
2022-08-13 • 问答
Python-取决于独立列的值的两个单独条件（美国/加拿大邮政编码练习）

我正在尝试在数据集中创建一个新列，该列依赖于数据中的两个单独列（国家和邮政编码）。如果国家

前端之家
2022-08-13 • 问答
Python Pandas-清洁数据列取决于多个条件

我使用以下代码创建包含美国和加拿大邮政编码的列 <pre><code>df = pd.read_csv(file1) usa = df['Region']

前端之家
2022-08-13 • 问答
Python Pandas-新建列为每个唯一ID返回最早的数据

我有一个包含三列的数据集（客户ID，交易，日期）。客户ID与交易之间存在一对多的关系。我想添加一

前端之家
2022-08-13 • 问答
Python-使用df.loc和str方法清除美国和加拿大的邮政编码

我使用以下代码创建包含美国和加拿大邮政编码的列 <pre><code>df = pd.read_csv(file1) usa = df['Region']

前端之家
2022-08-13 • 问答
创建标志而不是指定值

我正在使用<a href="http://archive.ics.uci.edu/ml/datasets/Bank+Marketing#" rel="nofollow noreferrer">http://archive.ics.uci.edu/ml/d

前端之家
2022-08-13 • 问答
打开字母细化正则表达式

我只想编辑单元格中的字母字符。我做了什么 <pre><code>value.match(/.*?(\^[a-zA-Z]*$).*?/) </code></pre> 但

前端之家
2022-08-13 • 问答
要替换数据框中的缺失日期，我应该使用零，最小日期还是平均值？

在以下情况下，我应将NaN替换为零，平均还是最小年份“ 1900”，我试图在下面的示例数据帧中清

前端之家
2022-08-13 • 问答
如何根据距已知参考轨迹的距离过滤出位置数据？

我有一个需要过滤的87288点数据集。数据集的过滤字段是X位置和Y位置（以经度和纬度表示）。绘制数据

前端之家
2022-08-13 • 问答
不整洁的数据-在可变的溶胀持续时间下进行的月日混合观测

大家好我有一个数据集，具有混合格式的溶胀观察持续时间变量，一些观察以月为单位，其他以天和年

前端之家
2022-08-12 • 问答

首页

下一页
末页