我的网络抓取程序中包含以下代码:
postbody = {'Submit': {},'czas_kon2': '','czas_pocz2': '','num_pacz': '','typ': 'wsz'}
post = requests.post(spolka,data=postbody)
data = post.text
我正在循环执行400多个网页,以使用多处理(8个进程)抓取数据。
data
应该包含整个html页面,以进行进一步的xml处理。
但是在400页中,我得到2页,但没有返回有意义的内容。我怀疑这是因为我造成了沉重的负担。我尝试过time.sleep(1),time.sleep(10)
,但这里没有运气。
如何确保data
或post
变量始终包含整个页面,例如398个工作页面?
我尝试了一个简单的while循环重试...但是在一次额外的尝试之后,它还远非完美(我能够从剩余的2页中获得1个)。
while len(data) < 1024:
postbody = {'Submit': {},'typ': 'wsz'}
post = requests.post(spolka,data=postbody)
data = post.text