抓取需要Python输入和重新捕获的网页

我正在尝试抓取a website that provides individual access to court cases in New Jersey county courts。我在弄清楚如何开始时遇到了很多麻烦。我之前刮过很多网站,但通常可以通过调整URL来传递搜索参数来开始。但是,当我访问此数据时,URL不会更改,因此我有点茫然。

此外,还有一项测试可以证明我不是机器人(有时会变成ReCaptcha)。

例如,在上面链接的网站上,输入为:

Case County==bergen,Docket Type==Landlord Tenant (LT),Docket Number==000001,and Docket Year==19

然后,我希望能够从下一页中提取被告姓名或其他任何内容。

有人对我应如何进行此操作有任何建议吗?

预先感谢

shz832003dky 回答:抓取需要Python输入和重新捕获的网页

可以使用Selenium来抓取“需要输入”的网站,Selenium可以评估javascript:然后,您的python代码将以“用户”身份执行页面(单击此处,在此处键入)。太慢了

或者,如果您查看页面详细信息,则可能会看到输入发生了什么,只需执行正确形成的结果GET或POST URL(例如,Forms通常会使用以下参数执行POST:代码并找出要发布的参数和URL,然后在python中执行该POST代码-您可能需要一个cookiejar来维护会话信息。

如何作为网站维护者,我对您的建议是不要尝试抓取该网站:它不想被抓取,并且重复尝试只会升级网站上的防御性活动所有者。您可能还会违反使用政策,州和/或联邦法律。

相反,寻找替代的API或替代的来源。 (新泽西法院可能有一个供计算机使用的替代API:向他们发送电子邮件!)

本文链接:https://www.f2er.com/3165430.html

大家都在问