页面未完全处理

我正在尝试从Yahoo财务中抓取新闻报道,为此,我想使用其站点地图页面https://finance.yahoo.com/sitemap/

我遇到的问题是,例如在链接https://finance.yahoo.com/sitemap/2015_04_02之后,scrapy不会处理整个页面-仅处理标题。因此,我无法访问不同文章的链接。 我必须发送一些内部请求到页面吗?

在浏览器中禁用javascript仍然可以得到整个页面,并且我使用scrapy 1.6

谢谢。

tingfeng0922 回答:页面未完全处理

某些网站采取了防御措施,以防止机器人抓取其网站。如果他们检测到您不是人类,则他们可能不会投放整个页面。但是,很可能会发生的事情是,当您在网络浏览器中查看页面时,会发生大量客户端渲染,而当您匆忙地请求同一页面时,将不会执行该渲染。

Yahoo!财务有API。使用它可能会为您提供更可靠的结果。

本文链接:https://www.f2er.com/3166281.html

大家都在问