HTML Unicode (UTF-8) 参考手册
Unicode 是一套通用字符集,它定义了在计算机上书写大多数现存语言所需的全部字符。
Unicode 的目标是成为(并且已经是)所有其他编码计算机字符集的超集。
Unicode 标准涵盖了世界上(几乎)所有的字符、标点符号和符号,并支持独立于平台和语言的文本处理、存储和传输。
Unicode 联盟
Unicode 联盟负责开发 Unicode 标准。其目标是用 UTF(Unicode 转换格式)取代现有的字符集。
Unicode 标准已在 HTML、XML、JavaScript、电子邮件、PHP、数据库以及所有现代操作系统和浏览器中得到实现。
Unicode 字符集
Unicode 可以通过不同的字符集来实现。最常用的编码是 UTF-8 和 UTF-16。
字符集 | 描述 |
---|---|
UTF-8 | 一种可变长度的字符编码(1 到 4 字节)。UTF-8 向后兼容 ASCII,是电子邮件和网页的首选编码。 |
UTF-16 | 一种可变长度的字符编码。UTF-16 被 Windows、iOS 和 Unix 等所有主流操作系统使用。 |
UTF-8 的前 128 个字符的二进制值与 ASCII 相同,这意味着 ASCII 文本也是有效的 UTF-8。
HTML 标准是 Unicode UTF-8
HTML-4 的默认字符集 (ISO-8859-1) 大小有限,在多语言环境中不兼容。
HTML-5 的默认字符编码是 UTF-8。
使用非 UTF-8 字符集的 HTML5 页面必须在 <meta> 标签中指定。
示例
<meta charset="ISO-8859-1">
Unicode 和 UTF-8 之间的区别
Unicode 是一个字符集。
它是一个列表,其中所有字符都有唯一的十进制数字。
A | = | 65 |
B | = | 66 |
C | = | 67 |
D | = | 69 |
表示字符串 "hello" 的十进制数字是 104 101 108 108 111。
UTF-8 是编码。
它表示 Unicode 数字如何转换为二进制数字以存储在计算机中。
UTF-8 编码将 "hello" 存储为(二进制):01101000 01100101 01101100 01101100 01101111
Unicode 是一个字符集。它将字符转换为数字。
UTF-8 是一个编码标准。它将数字转换为二进制。
HTML5 UTF-8 字符代码
以下是 HTML5 支持的一些 UTF-8 字符代码列表:
字符代码 | 十进制 | 十六进制 |
---|---|---|
C0 控制字符和基本拉丁字母 | 0-127 | 0000-007F |
C1 控制字符和拉丁字母-1 补充 | 128-255 | 0080-00FF |
拉丁字母扩展-A | 256-383 | 0100-017F |
拉丁字母扩展-B | 384-591 | 0180-024F |
拉丁字母 IPA | 592-685 | 0250-02AD |
间隔修饰字母 | 688-767 | 02B0-02FF |
变音符号 | 768-879 | 0300-036F |
希腊语和科普特语 | 880-1023 | 0370-03FF |
西里尔语基本 | 1024-1279 | 0400-04FF |
西里尔语补充 | 1280-1327 | 0500-052F |
通用标点 | 8192-8303 | 2000-206F |
货币符号 | 8352-8399 | 20A0-20CF |
字母形符号 | 8448-8527 | 2100-214F |
数字形式 | 8528-8591 | 2150-218F |
箭头 | 8592-8703 | 2190-21FF |
数学运算符 | 8704-8959 | 2200-22FF |
框线图 | 9472-9599 | 2500-257F |
块状元素 | 9600-9631 | 2580-259F |
几何形状 | 9632-9727 | 25A0-25FF |
杂项符号 | 9728-9983 | 2600-26FF |
饰符 | 9984-10175 | 2700-27BF |
杂项数学符号 A | 10176-10223 | 27C0-27EF |
补充箭头 A | 10224-10239 | 27F0-27FF |
盲文 | 10240-10495 | 2800-28FF |
补充箭头 B | 10496-10623 | 2900-297F |
杂项数学符号 B | 10624-10751 | 2980-29FF |
补充数学运算符 | 10752-11007 | 2A00-2AFF |
杂项符号和箭头 | 11008-11263 | 2B00-2BFF |