抓取需要Python输入和重新捕获的网页

2024-05-02 • 问答

我正在尝试抓取a website that provides individual access to court cases in New Jersey county courts。我在弄清楚如何开始时遇到了很多麻烦。我之前刮过很多网站，但通常可以通过调整URL来传递搜索参数来开始。但是，当我访问此数据时，URL不会更改，因此我有点茫然。

此外，还有一项测试可以证明我不是机器人（有时会变成ReCaptcha）。

例如，在上面链接的网站上，输入为：

Case County==bergen,Docket Type==Landlord Tenant (LT),Docket Number==000001,and Docket Year==19。

然后，我希望能够从下一页中提取被告姓名或其他任何内容。

有人对我应如何进行此操作有任何建议吗？

预先感谢

可以使用Selenium来抓取“需要输入”的网站，Selenium可以评估javascript：然后，您的python代码将以“用户”身份执行页面（单击此处，在此处键入）。太慢了

或者，如果您查看页面详细信息，则可能会看到输入发生了什么，只需执行正确形成的结果GET或POST URL（例如，Forms通常会使用以下参数执行POST：代码并找出要发布的参数和URL，然后在python中执行该POST代码-您可能需要一个cookiejar来维护会话信息。

如何作为网站维护者，我对您的建议是不要尝试抓取该网站：它不想被抓取，并且重复尝试只会升级网站上的防御性活动所有者。您可能还会违反使用政策，州和/或联邦法律。

相反，寻找替代的API或替代的来源。（新泽西法院可能有一个供计算机使用的替代API：向他们发送电子邮件！）