如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本以下载 WIkimedia Commons 文件夹中每张图片的最高分辨率？

2024-05-18 • 问答

所以，我是 Gustave Doré 的忠实粉丝，我想从整理整齐的 Wikimedia Commons 文件夹中下载他的所有版画。

因此，给定一个 Wikimedia Commons 文件夹，我需要以最高分辨率下载其中的所有图片。

我开始写一些东西，但我不是那么好，所以它只是一个模板：

import os,requests,bs4

url = 'URL OF THE WIKIMEDIA COMMONS FOLDER'

os.makedirs('NAME OF THE FOLDER',exist_ok=True)
for n in range(NUMber OF PICTURES IN THE PAGE - 1):
    print('I am downloading page number %s...' %(n+1))
    res = requests.get(url)
    res.raise_for_status()

    soup = bs4.BeautifulSoup(res.text,'html.parser')

    #STUFF I STILL NEED TO ADD
    
print('Done')

例如，我会将其作为文件夹的 URL 提供：

https://commons.wikimedia.org/wiki/Category:Crusades_by_Gustave_Dor%C3%A9

然后我想点击每个链接并转到图片页面，如下所示：

https://commons.wikimedia.org/wiki/File:Astonishment_of_the_Crusaders_at_the_Wealth_of_the_East.jpg

然后下载“原始文件”点击图片下方标有“原始文件”的链接。除了有时图片没有更高的分辨率，比如在这种情况下：

https://commons.wikimedia.org/wiki/File:Andel_krizaci.jpg

它只需要点击图片下方的链接即可下载。

我完全卡住了，提前感谢您的帮助！

如果图片在保存时在其页面中注明了名称，则加分

（例如，在第二个链接中，图片应保存为“东方财富的十字军惊奇.jpg”）

r = requests.get('https://commons.wikimedia.org/wiki/Category:Crusades_by_Gustave_Dor%C3%A9') soup = BeautifulSoup(r.text,'html.parser') links = [i.find('img').get('src') for i in soup.find_all('a',class_='image')] links = ['/'.join(i.split('/')[:-1]).replace('/thumb','') for i in links] for l in links: im = requests.get(l) with open(l.split('/')[-1],'wb') as f: f.write(im.content)

如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本以下载 WIkimedia Commons 文件夹中每张图片的最高分辨率？

a314068757 回答：如何在 Windows 上使用 BeautifulSoup 创建 Python 脚本以下载 WIkimedia Commons 文件夹中每张图片的最高分辨率？

大家都在问