Unicode码（字符编码）

2023-08-04 10:03:05 ℃

Unicode码字符编码

Unicode只有一个字符集，中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符，比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示，为了与十进制区分，十六进制以0x开头，0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符，两个字节就是16位二进制，2的16次方等于65536,所以UCS-2最多能编码65536个字符。

编码从0到127的字符与ASCII编码的字符一样，比如字母"a"的Unicode编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97,对于汉字的编码，事实上Unicode对汉字支持不怎么好，这也是没办法的，简体和繁体总共有六七万个汉字，而UCS-2最多能表示65536个，才六万多个，所以Unicode只能排除一些几乎不用的汉字，好在常用的简体汉字也不过七千多个，为了能表示所有汉字，Unicode也有UCS-4规范，就是用4个字节来编码字符

中文名

Unicode码

外文名

Unicode

文字

中、日、韩

字符

UCS-2

分类

计算机科学

定义

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，规定虽有的字符和符号最少由 16 位来表示（2个字节），即：2 **16 = 65536，[1]

Unicode码扩展自ASCII字元集。在严格的ASCII中，每个字元用7位元表示，或者电脑上普遍使用的每字元有8位元宽；而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用于电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充，可能的话，最终将代替它。考虑到ASCII是电脑中最具支配地位的标准，所以这的确是一个很高的目标。

Unicode影响到了电脑工业的每个部分，但也许会对作业系统和程式设计语言的影响最大。从这方面来看，我们已经上路了。WindowsNT从底层支援Unicode。

目前计算机中用得最广泛的字符集及其编码，是由美国国家标准局(ANSI)制定的ASCII码（American Standard Code for Information Interchange美国标准信息交换码），它已被国际标准化组织（ISO）定为国际标准，称为ISO646标准。适用于所有拉丁文字字母，ASCII码有7位码和8位码两种形式。

方法

因为1位二进制数可以表示（2∧1=）2种状态：0、1；而2位二进制数可以表示（2∧2）=4种状态：00、01、10、11；依次类推，7位二进制数可以表示（2∧7=）128种状态，每种状态都唯一地编为一个7位的二进制码，对应一个字符（或控制码），这些码可以排列成一个十进制序号0～127。所以，7位ASCII码是用七位二进制数进行编码的，可以表示128个字符。

第0～32号及第127号(共34个)是控制字符或通讯专用字符，如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BEL（振铃）等；

通讯专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；

第33～126号(共94个)是字符，其中第48～57号为0～9十个阿拉伯数字；65～90号为26个大写英文字母，97～122号为26个小写英文字母，其馀为一些标点符号、运算符号等。

注意：在计算机的存储单元中，一个ASCII码值占一个字节(8个二进制位)，其最高位(b7)用作奇偶校验位。所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。

增添Unicode码内容：它前128个字符就是ASCII码，之后是扩展码。在它中，各个字符块基于同样的标准。其中有希腊字母，西里尔文，亚美尼亚文，希伯来文等。而汉文，韩语，日语的象形文字占用从0X3000到0X9FFF的代码。最杰出的地方是，它只有一个字符集，有效的避免了双字节字符集的二义性。缺点是：占用的内存空间比ASCII大2倍。

Unicode码：Unicode码也是一种国际标准编码，采用二个字节编码，与ASCII码不兼容。目前，在网络、Windows系统和很多大型软件中得到应用。

参考资料

1.小哈学Python第三课-字符集编码·扣

标签: Unicode码

上一篇:龚姓（中国姓氏）

下一篇:肄（汉语汉字）

Unicode码（字符编码）

定义

方法

相关推荐