我正在尝试使用pandas read_html读取URL上的表,但是我感兴趣的表是在页面的其他部分之后加载的,所以我得到的数据框如下所示,而不是实际的内容:>
ColumnA | ColumnB
Still loading | Still loading
那么有没有办法告诉read_html等待表完全加载然后再读取表?
我正在尝试使用pandas read_html读取URL上的表,但是我感兴趣的表是在页面的其他部分之后加载的,所以我得到的数据框如下所示,而不是实际的内容:>
ColumnA | ColumnB
Still loading | Still loading
那么有没有办法告诉read_html等待表完全加载然后再读取表?
没有特定的代码示例,我们无法确定答案,但是您应该意识到, read_html
在提供HTML的 static 版本时会对其进行爬网;因为HTML搜寻器完全不执行JavaScript,所以它不等待JavaScript执行(很可能在表“加载”时会在浏览器中看到)。
您还可以阅读有关使用熊猫here的常见HTML抓取技巧的更多信息,尽管它们与性能更相关,而不是等待二级页面更新。
如果您需要将Javascript更新合并到抓取中,则可能需要查看无头浏览器,例如Selenium [docs]或无头镶边[related question]。