bash – 使用awk进行无需替换的采样

前端之家收集整理的这篇文章主要介绍了bash – 使用awk进行无需替换的采样前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有很多看起来像这样的文本文件
  1. >ALGKAHOLAGGATACCATAGATGGCACGCCCT
  2. >BLGKAHOLAGGATACCATAGATGGCACGCCCT
  3. >HLGKAHOLAGGATACCATAGATGGCACGCCCT
  4. >DLGKAHOLAGGATACCATAGATGGCACGCCCT
  5. >ELGKAHOLAGGATACCATAGATGGCACGCCCT
  6. >FLGKAHOLAGGATACCATAGATGGCACGCCCT
  7. >JGGKAHOLAGGATACCATAGATGGCACGCCCT
  8. >POGKAHOLAGGATACCATAGATGGCACGCCCT

有没有办法在不使用awk替换的情况下进行采样?

例如,我有这8行,我只想在一个新文件随机抽样4个,而无需替换.
输出应该如下所示:

  1. >FLGKAHOLAGGATACCATAGATGGCACGCCCT
  2. >POGKAHOLAGGATACCATAGATGGCACGCCCT
  3. >ALGKAHOLAGGATACCATAGATGGCACGCCCT
  4. >BLGKAHOLAGGATACCATAGATGGCACGCCCT

提前致谢

对10%的线路进行随机抽样怎么样?
  1. awk 'rand()>0.9' yourfile1 yourfile2 anotherfile

我不确定你的意思是“替换”…这里没有替代,只是随机选择.

基本上,它只精确查看每个文件的每一行,并在0到1的间隔内生成一个随机数.如果随机数大于0.9,则输出该行.所以基本上它是为每一行滚动一个10面骰子,只有当骰子出现为10时才打印它.没有机会打印两次线 – 除非它在你的文件中出现两次,当然.

为了增加随机性(!),你可以按照@klashxx的建议在开头添加一个srand()

  1. awk 'BEGIN{srand()} rand()>0.9' yourfile(s)

猜你在找的Bash相关文章