带有域名的Python Web抓取

2024-05-06 • 问答

已为我提供了域名列表，并且需要使用这些域名提取相应公司的名称。我正在用漂亮的汤来刮擦网站，但是，我一直在猜测如何构造那些效果不佳的URL。是否有将域名正确转换为URL的软件包？我目前正在使用以下代码，并通过添加“ https://www”来构建URL。域名。

session = requests.Session()
session.headers.update({'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','accept-Language': 'pt-BR,pt;q=0.8,en-US;q=0.5,en;q=0.3','accept-Encoding': 'gzip,deflate','Connection': 'keep-alive','Pragma': 'no-cache','Cache-Control': 'no-cache'})

website = 'fpb.cc'
url = 'https://' + website

response = session.get(url)

soup = BeautifulSoup(response.content,'html.parser',parse_only=SoupStrainer('title'))

带有域名的Python Web抓取

zwx917 回答：带有域名的Python Web抓取

大家都在问