我有这样的数据框。
print(df)
[ ID ... Control
0 PDF-1 ... NaN
1 PDF-3 ... NaN
2 PDF-4 ... NaN
我只想获取ID列数。结果就是这样。
1
3
4
如何获取dataframe列的字符串之一?
我有这样的数据框。
print(df)
[ ID ... Control
0 PDF-1 ... NaN
1 PDF-3 ... NaN
2 PDF-4 ... NaN
我只想获取ID列数。结果就是这样。
1
3
4
如何获取dataframe列的字符串之一?
仅替换常见的PDF-
前缀怎么样?
df['ID'].str.replace('PDF-','')
,
请您尝试以下。
df['ID'].replace(regex=True,to_replace=r'([^\d])',value=r'')
一个人可以参考df.replace的文档
基本上使用正则表达式删除名为ID
的列中除数字以外的所有内容,其中\d
表示数字,当我们使用[^\d]
时表示分隔形式的数字匹配所有内容。
使用 Regex 的另一种可能性是:
df.ID.str.extract('(\d+)')
这避免了仅提取整数就更改原始数据。
对于以下简单示例:
import pandas as pd
df = pd.DataFrame({'ID':['PDF-1','PDF-2','PDF-3','PDF-4','PDF-5']})
print(df.ID.str.extract('(\d+)'))
print(df)
我们得到以下信息:
0
0 1
1 2
2 3
3 4
4 5
ID
0 PDF-1
1 PDF-2
2 PDF-3
3 PDF-4
4 PDF-5
,
找到“ PDF-”,然后将其替换为空
df['ID'] = df['ID'].str.replace('PDF-','')
然后打印您的要求,我将数据帧转换为没有索引的字符串。
print df['cleanID'].to_string(index=False)