页面未完全处理

2024-05-19 • 问答

我正在尝试从Yahoo财务中抓取新闻报道，为此，我想使用其站点地图页面https://finance.yahoo.com/sitemap/

我遇到的问题是，例如在链接https://finance.yahoo.com/sitemap/2015_04_02之后，scrapy不会处理整个页面-仅处理标题。因此，我无法访问不同文章的链接。我必须发送一些内部请求到页面吗？

在浏览器中禁用javascript仍然可以得到整个页面，并且我使用scrapy 1.6

谢谢。

某些网站采取了防御措施，以防止机器人抓取其网站。如果他们检测到您不是人类，则他们可能不会投放整个页面。但是，很可能会发生的事情是，当您在网络浏览器中查看页面时，会发生大量客户端渲染，而当您匆忙地请求同一页面时，将不会执行该渲染。

Yahoo！财务有API。使用它可能会为您提供更可靠的结果。

本文链接：https://www.f2er.com/3166281.html