某些字符无法解码，并由替换字符

2024-05-08 • 问答

我已经用Python编码了大约3个月了，我正在尝试为“ https://www.countyhealthrankings.org/app/alabama/2019/rankings/outcomes/”类的一个类项目做一些网络测试。但是，当我尝试提取html站点时出现错误，“某些字符无法解码，并被替换字符替换。” 我尝试了几种不同类型的解码，但是没有运气。我正在使用的代码如下。任何帮助将不胜感激。

代码：

myurl = "https://www.countyhealthrankings.org/app/alabama/2019/rankings/outcomes/"
website = uReq(myurl)
website_html = website.read() #.decode(encoding="iso-8859-1")
print(website_html)
print(type(website_html))
website.close()
site_soup = soup(website_html,"html.parser")#,from_encoding="utf-8)
print(type(site_soup))

html输出如下：

�}�WI��s��y��-H，��`m��6�� 5�J�Řf��ȭJ％！��r��cTU�DFFDƖ��？y��۾W，��9�� y7��5ju��N��{�

数据的字节版本将如下所示：

\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec}\xf9W\x1bI\xb2\xee\xefs\xce\xfb\x1f\xca\xeay\x83\xfd\x0

>> from urllib import request >>> import gzip >>> res = request.urlopen(url) >>> content = res.read() >>> content[:25] b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec}\xf9W\x1bI\xb2\xee\xefs\xce\xfb\x1f\xca\xea' >>> print(res.headers) ... Content-Encoding: gzip Content-Language: en Content-Type: text/html; charset=utf-8 ... >>> decompressed = gzip.decompress(content) >>> decompressed[:25] b'<!DOCTYPE html>\n<!--[if l'

某些字符无法解码，并由替换字符

hualushui1129 回答：某些字符无法解码，并由替换字符

大家都在问