熊猫read_html不等待页面加载

我正在尝试使用pandas read_html读取URL上的表,但是我感兴趣的表是在页面的其他部分之后加载的,所以我得到的数据框如下所示,而不是实际的内容:>

ColumnA     |     ColumnB

Still loading |    Still loading

那么有没有办法告诉read_html等待表完全加载然后再读取表?

hj5652545851 回答:熊猫read_html不等待页面加载

没有特定的代码示例,我们无法确定答案,但是您应该意识到, read_html在提供HTML的 static 版本时会对其进行爬网;因为HTML搜寻器完全不执行JavaScript,所以它不等待JavaScript执行(很可能在表“加载”时会在浏览器中看到)。

您还可以阅读有关使用熊猫here的常见HTML抓取技巧的更多信息,尽管它们与性能更相关,而不是等待二级页面更新。

如果您需要将Javascript更新合并到抓取中,则可能需要查看无头浏览器,例如Selenium [docs]或无头镶边[related question]。

本文链接:https://www.f2er.com/3134334.html

大家都在问