网络抓取动态页面-如何检查页面是否有效更新

我正在从事我的Webscraping业余爱好项目-我想从大约470页中获取数据,并且我有一个工作的python代码可以将其提取并写到csv文件中。特别是要约的股票交换表。

我所缺少的是-这些页面中的每个页面都可以随时更新其内容(新顺序,修改后的顺序,删除的顺序),我也想跟踪它们的每一次更改。

实施的最佳想法是什么?我可以想到:

  • 产生与页面一样多的线程(470)-听起来有点沉重,但是每个页面都可以自己更改
  • 每个线程获取带有http请求的页面并计算md5哈希。如果newHash!= oldHash,那么我将对其进行处理。

有没有更聪明的方法?

xy328545073 回答:网络抓取动态页面-如何检查页面是否有效更新

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3160863.html

大家都在问