已为我提供了域名列表,并且需要使用这些域名提取相应公司的名称。我正在用漂亮的汤来刮擦网站,但是,我一直在猜测如何构造那些效果不佳的URL。是否有将域名正确转换为URL的软件包?我目前正在使用以下代码,并通过添加“ https://www”来构建URL。域名。
session = requests.Session()
session.headers.update({'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.0','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','accept-Language': 'pt-BR,pt;q=0.8,en-US;q=0.5,en;q=0.3','accept-Encoding': 'gzip,deflate','Connection': 'keep-alive','Pragma': 'no-cache','Cache-Control': 'no-cache'})
website = 'fpb.cc'
url = 'https://' + website
response = session.get(url)
soup = BeautifulSoup(response.content,'html.parser',parse_only=SoupStrainer('title'))