图像下载程序beautifulsoup

2024-05-07 • 问答

我用python（我失去了赌注）为我的朋友制作了一个脚本，该脚本通过data-thumb_url标记下载了所有缩略图（约50张img，一个img大小为20 kB）。

此代码能否破坏网站或对网站造成严重影响（我的意思是DDOS或类似的东西）？我使用了10、20、30张img几次，效果很好，网站也正常工作（非常受欢迎的网站，它是世界上最流行的网站之一，并不是说该网站进行爬网是非法的，但是我需要知道它是否是安全代码。

from PIL import Image
from bs4 import BeautifulSoup
import requests 
import os
url = '' #(here is the url of website)
response = requests.get(url)

soup = BeautifulSoup(response.text,'html.parser')
images = soup.find_all('img')
listt = []
for i in images:
    try:
        listt.append(i['data-thumb_url'])
    except KeyError:
        pass 
for i in range(len(listt)):
    img = Image.open(requests.get(listt[i],stream = True).raw)
    img.save("image"+str(i)+".jpg")

我知道考虑每天80-100百万的网站访问量，例如免费的扩展程序/网站/程序以从网站下载图像，这是一个有点愚蠢的问题，但是我是bs的新手，并且是Python +中的请求我很着急。

首先，在您提供的代码中，您将URL列表在大多数地方都设为listt，但在添加时将其称为lista。

第二，不，您的代码不会破坏网站。因为您只是在单个线程中运行Python，所以它一次只会发出1个请求。如果您要非常谨慎，可以在最后一个time.sleep循环中添加一个for，但这并不是必须的。

如果即使睡眠也要访问多个URL，则该站点可能还有其他可能触发的安全措施（证明您是人类）。当您尝试访问其他页面时，这可能会导致脚本失败...

在没有看到您要访问的站点和页面数的情况下，很难确定。但是，Cargo23是正确的，就目前而言，您不会很快就破坏该站点。

图像下载程序beautifulsoup

DJJ980620 回答：图像下载程序beautifulsoup

大家都在问