700字范文 > python3 中的编码问题 unicode utf-8 gbk ascii

python3 中的编码问题 unicode utf-8 gbk ascii

时间：2022-02-24 02:04:02

1. ASCII是最早的字符集，总共包含127个字符，因为是美国人发明的，127个够他们用了。

2. GBK是ASCII的扩展集，ASCII使用一个字节，即8个二进制位，来表征英文字母和一些符号，一个字节可以最多表示2的8次方即256个字符。前127个被称为ASCII字符集，后续在ASCII的基础上进行扩展，将剩余的127个用来表征汉字，但汉字太多，所以不得不在必要时使用2个字符来表示更多的汉字，被称为GB2312字符集，后来仍然不够，又进一步扩展成GBK字符集。所以在此字符集中，英文占一个字节，汉字则占两个字节。

3. UNICODE也是字符集，包含了世界上所有民族的所有文字，因其一律使用两个字符来表示字符。其同时还有备用方案，即使用4个字节来表示字符，总共可容纳上亿的字符。

4. 由于互联网的出现，UNICODE字符集的传输出现了问题，像英文字符本来需要一个字节就可以保存，如果强行用两个甚至三个四个字节来表示，传输的内容将成倍的增加，这是无法接受的，一定要解决。因此也就带来了UTF-8。

5. UTF-8的意思即以每次传输8bits的形式来进行信息传递。如果一个字节能传输完，就传输一个字节，一个字节不够的，再用更多的字节来表示，下图为UNICODE与UTF-8的对应关系。

因此，这样就解决了4中提到的问题。

以上内容与python的关系：

1. python3的默认编码方式是unicode。

2. encode与decode方法，如何区分？可以理解为unicode是标准的普通话，如果要改成gbk或者utf-8，就需要encode编码（加密），反之则是decode解码（解密）。

3. python3中正常创建的字符的储存方式是unicode，已经是标准的普通话了，无法再解密了，所以如果对一个字符串使用decode方法会提示 AttributeError: 'str' object has no attribute 'decode'。

4. python3中创建字符串，前面加u代表使用unicode字符集，python3的默认字符集已经是unicode，所以已经不需要加u。

5. python3中创建字符串，前面加b代表使用ASCII字符集，只能创建ASCII字符集中存在的字符，中文字符前加b会报错。

6. python3中处理带有'\x'的字符串，<string>.encode('raw_unicode_escape').decode('utf8')。

下图为python2环境，交互式界面。

Python 2.7.10 (default, Feb 7 , 00:08:15)[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.34)] on darwinType "help", "copyright", "credits" or "license" for more information.>>> s='我们'>>> b=u'我们'>>> s'\xe6\x88\x91\xe4\xbb\xac'>>> bu'\u6211\u4eec'>>> print s我们>>> print b我们>>>

下图为使用python2执行test.py文件。

#! /usr/bin/env pythons = '匆匆'print(s)

输出结果为：

File "./test.py", line 2SyntaxError: Non-ASCII character '\xe5' in file ./test.py on line 2, but no encoding declared; see /dev/peps/pep-0263/ for details

添加编码即可：

#! /usr/bin/env python# -*- encoding: utf-8 -*-s = '匆匆'print(s)

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。