字符编码和乱码

手持两把锟斤拷，口中疾呼烫烫烫。脚踏千朵屯屯屯，笑看万物锘锘锘。

字符编码

字符编码可理解为字符和整数编号的一一对应。比如在广泛的ASCII编码中，大写字母A对应65。

Character	ASCII (dec)	ASCII (bin)	ASCII (hex)
A	65	01000001	41

ASCII是7位的，而一个字节有8位，故ASCII编码中，一个字符占一个字节，且最高位一定是0。

然而，ASCII毕竟表示的字符有限，为了能表示特殊字符和非拉丁文字，各种编码纷纷出现。比如中文的GBK (CP936)、Big5 (CP950)，日文的Shift_JIS (CP932)等。这些编码互不兼容，即同一个整数在不同的编码中对应的字符不同。当选择错误的编码显示时，字符成了乱码。

于是，Unicode出现了。Unicode对世界上大部分文字都作了统一编号，以适合多语种环境，解决乱码的问题。

需要强调的是，Unicode只是对每个字符指定了一个数字编号；系统的内部存储是二进制的，Unicode的具体实现才是指定了每个字符对应的二进制序列。Unicode的具体实现称为Unicode转换格式（UTF）。UTF有多种，目前最广泛使用的是UTF-8。

UTF-8

UTF-8中8的含义是该编码方式的最小单元是8位，即一个字节。

与ASCII不同，UTF-8是变长的，一个字符可占用1～6个字节。第一个字节的前几位是描述部分，指定该字符占几个字节。格式举例如下：

Byte 1	Byte 2	Byte 3
0xxxxxxx
110xxxxx	10xxxxxx
1110xxxx	10xxxxxx	10xxxxxx

一个字节的第一位为0，则字符占1个字节。0之后的所有部分（7位）代表在Unicode中的编号。即向下兼容ASCII。
一个字节以110开头，则字符占2个字节。110之后的所有部分（5位）加上后一个字节的除开头10外的部分（6位）代表在Unicode中的编号。且第二个字节以10开头。
一个字节以1110开头，则字符占3个字节。110之后的所有部分（5位）加上后两个字节的除10外的部分（12位）代表在Unicode中的序号。且第二、第三个字节以10开头。
如果一个字节以10开头，则该字节是一个多字节字符的第二个或以后的字节。

UTF的其他编码如UTF-16不与UTF-8兼容，甚至不与ASCII兼容。其最小单位是16位，即2个字节。另外，UTF-16区分大小端。故为避免浪费空间以及造成混乱，目前Unicode编码中只推荐UTF-8。

Windows记事本的Unicode编码其实是UTF-16LE！如果需要与其他系统交换文件，建议UTF-8。

常见地区代码

以UTF-8为代表的Unicode编码方式已成为潮流，而因为节省空间等原因目前仍存在互不兼容的内码。简单介绍如下。

简体中文

GB2312
GBK (CP936)
GB18030 (CP54936)

三者的兼容关系大致为：GB2312⊂GBK⊂GB18030。

GB2312和GBK中，一个字符占2个字节。GB18030采用变长，一个字符占1、2或4个字节。

繁体中文

Big5 (CP950)
CNS11643

两者的兼容关系为：Big5⊂CNS11643。

Big5为台湾最常用的编码，一个字符占2个字节。CNS11643完整收录Big5，但未被广泛使用。

日文

Shift_JIS
ISO-2022-JP

避免乱码

本文开头的“诗”即编码选择不当的例子。统一使用UTF-8是解决乱码的好方法。另外，当对应的字体不存在时，通常出现如黑色方块之类的符号，安装合适的字体可以解决。比较推荐的字体有：

GNU Unifont
Google Noto Fonts
Adobe思源字体

然而遇到乱码时应如何解决？以下为部分场合时的解决方法。

网页

部分网页的源代码于浏览器默认的编码不同，且网页未明确指出编码时，会出现乱码。此时在浏览器中选择正确的编码即可。如果您知道该网页的语言，可以尝试该语言所有的编码，直到显示正常。当然，如果您是开发人员，最好指定编码，如：

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

ZIP压缩文件

ZIP压缩文件中的文件名未指定编码，故在系统编码不同时直接解压可造成文件名乱码。如在Windows中文系统中压缩为ZIP文件，其编码为GBK，该文件在Linux（UTF-8）中正确的解压方式为：

LANG=C 7z x filename.zip
convmv -f gbk -t utf8 --notest -r .

您需要p7zip和convmv两个工具。

尽管ZIP被广泛支持，但考虑到文件名编码和压缩率等问题，建议采用其他方式压缩文件。

文本文件

您可以用iconv工具转码。

Python

使用如下开头是个好习惯。

#!/usr/bin/python
# -*- coding: utf-8 -*-

漂流記

目录