熊猫read_html不等待页面加载

2024-05-17 • 问答

我正在尝试使用pandas read_html读取URL上的表，但是我感兴趣的表是在页面的其他部分之后加载的，所以我得到的数据框如下所示，而不是实际的内容：>

ColumnA     |     ColumnB

Still loading |    Still loading

那么有没有办法告诉read_html等待表完全加载然后再读取表？

没有特定的代码示例，我们无法确定答案，但是您应该意识到， read_html在提供HTML的 static 版本时会对其进行爬网；因为HTML搜寻器完全不执行JavaScript，所以它不等待JavaScript执行（很可能在表“加载”时会在浏览器中看到）。

您还可以阅读有关使用熊猫here的常见HTML抓取技巧的更多信息，尽管它们与性能更相关，而不是等待二级页面更新。

如果您需要将Javascript更新合并到抓取中，则可能需要查看无头浏览器，例如Selenium [docs]或无头镶边[related question]。