在写爬虫的时候,有时候会遇到非utf-8的网页,可能会造成中文乱码问题,比如说遇到的是gb2312的编码。直接打印中文就会变成乱码
1.查看网页编码
document.characterSet
2.正确解码
网页使用的是gb2312编码
str = requests.get("")# data = str.content.decode('utf-8') 指定编码data = str.text.encode('latin1').decode('gbk')
时间:2022-10-07 16:22:33
在写爬虫的时候,有时候会遇到非utf-8的网页,可能会造成中文乱码问题,比如说遇到的是gb2312的编码。直接打印中文就会变成乱码
document.characterSet
网页使用的是gb2312编码
str = requests.get("")# data = str.content.decode('utf-8') 指定编码data = str.text.encode('latin1').decode('gbk')
python编码格式 兼容中文_python中文编码(汉字乱码问题解决方案)
2023-11-20
前端网页 php与mysql数据库字符编码(解决中文等乱码问题
2018-07-26