我有一个 Python 脚本,可以根据一组 excel 文件进行数据分析。现在,我们正尝试通过定期搜索 mediawiki 服务器以查找任何最近上传的 excel 文件并应用我的脚本来自动执行此步骤。
我们正在尝试查看是否有任何方法可以至少获取 excel 文件的网址。
有人可以帮助我们吗?
我有一个 Python 脚本,可以根据一组 excel 文件进行数据分析。现在,我们正尝试通过定期搜索 mediawiki 服务器以查找任何最近上传的 excel 文件并应用我的脚本来自动执行此步骤。
我们正在尝试查看是否有任何方法可以至少获取 excel 文件的网址。
有人可以帮助我们吗?
要从 2021 年 4 月 4 日午夜起以 XML 格式将最多 100 个上传到英文维基百科,请发送 https://en.wikipedia.org/w/api.php?action=query&list=logevents&leaction=upload/upload&lestart=2021-04-04T00:00:00Z&lelimit=100&format=xml
。
要提取以 .xls
或 .xlsx
结尾的上传文件的名称,请使用 XPath 1 查询 (//item[ends-with(@title,'.xls')] | //item[ends-with(@title,'.xlsx')])/@title
。
要从图像页面的名称中获取实际图像 URL,请使用 https://en.wikipedia.org/w/api.php?action=query&titles=File:Limbo Royal Blood.jpg|File:Photo of Miriam Roth.jpg&prop=imageinfo&iilimit=100&iiprop=url
并应用 XPath //imageinfo/ii/@url
。