很简单,我有一个csv文件,其中一列应仅包含整数。但是,并非全部都是整数,我想检查该文件(超过5 GB)并捕获行号和(最好是)非整数的值。我尝试了很多方法,例如使用口罩,但无济于事。
例如,我们有以下csv表:
ID
5342
76375
sdfg23
2342lslf
jfijfojwo
395-34425
abc-24523
afhfhue3224
我想知道第3、4、5、6、7和8行不是整数。输出看起来像(作为数据框/表的等效表):
+-------------+------+
| ID | Row |
+-------------+------+
| sdfg23 | 3 |
| 2342lslf | 4 |
| jfijfojwo | 5 |
| 395-34425 | 6 |
| abc-24523 | 7 |
| afhfhue3224 | 8 |
+-------------+------+
或者甚至只是将行号溢出以进行标准化也将很有帮助。
例如,我尝试使用sed
之类的东西:sed -n '/?![[:digit:]]=' csvfile.csv