我正在从事我的Webscraping业余爱好项目-我想从大约470页中获取数据,并且我有一个工作的python代码可以将其提取并写到csv文件中。特别是要约的股票交换表。
我所缺少的是-这些页面中的每个页面都可以随时更新其内容(新顺序,修改后的顺序,删除的顺序),我也想跟踪它们的每一次更改。
实施的最佳想法是什么?我可以想到:
- 产生与页面一样多的线程(470)-听起来有点沉重,但是每个页面都可以自己更改
- 每个线程获取带有http请求的页面并计算md5哈希。如果newHash!= oldHash,那么我将对其进行处理。
有没有更聪明的方法?