Bash 并行爬虫

前端之家收集整理的这篇文章主要介绍了Bash 并行爬虫前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

Bash 并行下载脚本。1900 页,分 190 次下载完。

  1. for i in {0..190} ; do
  2. {
  3. let start=$i*10
  4. let end=$i*10+10
  5. for ((page=$start;page<$end;page++)) do
  6. {
  7. echo "down $page"
  8. curl "http://www.site.org/advice/index.asp?DjjIntPcnt=$page" -o src/$page.txt
  9. } &
  10. done
  11. wait
  12. echo "finish batch $i"
  13. sleep 1
  14. }
  15. done

如果遇到字符集问题,可下载完成后转换:

  1. find *.txt -exec sh -c "iconv -f GB18030 -t UTF8 {} > result/{}" \;

猜你在找的Bash相关文章