带有域名的Python Web抓取

已为我提供了域名列表,并且需要使用这些域名提取相应公司的名称。我正在用漂亮的汤来刮擦网站,但是,我一直在猜测如何构造那些效果不佳的URL。是否有将域名正确转换为URL的软件包?我目前正在使用以下代码,并通过添加“ https://www”来构建URL。域名。

session = requests.Session()
session.headers.update({'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','accept-Language': 'pt-BR,pt;q=0.8,en-US;q=0.5,en;q=0.3','accept-Encoding': 'gzip,deflate','Connection': 'keep-alive','Pragma': 'no-cache','Cache-Control': 'no-cache'})

website = 'fpb.cc'
url = 'https://' + website

response = session.get(url)

soup = BeautifulSoup(response.content,'html.parser',parse_only=SoupStrainer('title'))
zwx917 回答:带有域名的Python Web抓取

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3099243.html

大家都在问