14. Informative References (信息性参考文献)
本章列出了RFC 3629引用的信息性参考文献。这些文档提供了额外的背景信息和相关技术细节,但不是实现UTF-8的必需参考。
信息性参考文献列表
[CESU-8] 兼容编码方案
Unicode Technical Report #26: Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8)
- 作者: T. Phipps
- 文档类型: UTR 26
- 日期: 2002年4月
- URL:
http://www.unicode.org/unicode/reports/tr26/
内容:
- 定义CESU-8编码
- 类似UTF-8但编码UTF-16码值而非码点
- 不用于互联网
与UTF-8的区别:
字符: 𣎴 (U+233B4)
UTF-8 (正确):
F0 A3 8E B4 (4字节)
CESU-8 (不兼容):
编码UTF-16代理对
ED A0 8C ED BE B4 (6字节)
警告: CESU-8不是有效的UTF-8!
[FSS_UTF] 文件系统安全UTF
X/Open Preliminary Specification -- File System Safe UCS Transformation Format (FSS-UTF)
- 组织: X/Open Company Ltd.
- 日期: 1993年5月
- URL:
http://wwwold.dkuug.dk/jtc1/sc22/wg20/docs/N193-FSS-UTF.pdf
历史意义:
- UTF-8的早期名称
- 最初称为FSS-UTF(File System Safe UTF)
- 后来改名为UTF-8
名称演变:
FSS-UTF (1992)
↓
FSS/UTF
↓
UTF-2
↓
UTF-8 (最终名称, 1993)
[RFC2045] MIME第一部分
RFC 2045 - Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies
- 作者: N. Freed, N. Borenstein
- 日期: 1996年11月
相关性:
- 定义MIME架构
- 解释字符集标签的作用
- UTF-8作为MIME字符集使用
关键章节:
- 第2.2节: 字符集的定义和用途
[RFC2234] ABNF语法
RFC 2234 - Augmented BNF for Syntax Specifications: ABNF
- 作者: D. Crocker, P. Overell
- 日期: 1997年11月
用途:
- 定义ABNF(增强巴科斯-瑙尔范式)
- RFC 3629第4章使用ABNF定义UTF-8语法
示例:
UTF8-char = UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4
UTF8-1 = %x00-7F
[RFC2978] IANA字符集注册
RFC 2978 - IANA Charset Registration Procedures
- 作者: N. Freed, J. Postel
- 标准: BCP 19, RFC 2978
- 日期: 2000年10月
内容:
- 定义字符集注册流程
- IANA字符集注册表维护
- UTF-8的MIME注册依据此RFC
[UAX15] Unicode规范化
Unicode Standard Annex #15: Unicode Normalization Forms
- 作者: M. Davis, M. Duerst
- 类型: Unicode标准附件
- 版本: Unicode 4.0.0的组成部分
- 日期: 2003年4月
- URL:
http://www.unicode.org/unicode/reports/tr15
内容:
- 定义四种规范化形式(NFC, NFD, NFKC, NFKD)
- 处理字符的多重表示问题
- 对安全至关重要(参见第10章)
规范化形式:
NFC (Canonical Composition) - 规范组合
NFD (Canonical Decomposition) - 规范分解
NFKC (Compatibility Composition) - 兼容组合
NFKD (Compatibility Decomposition) - 兼容分解
安全示例:
字符: é
NFD: e + ́ (U+0065 + U+0301)
NFC: é (U+00E9)
建议: 在安全关键比较前规范化为同一形式
[US-ASCII] ASCII标准
ANSI X3.4 - Coded Character Set - 7-bit American Standard Code for Information Interchange
- 组织: American National Standards Institute
- 年份: 1986
重要性:
- UTF-8向后兼容ASCII
- U+0000-U+007F与ASCII完全相同
兼容性:
ASCII字符 'A':
ASCII编码: 0x41
UTF-8编码: 0x41 (完全相同)
结论: 所有ASCII文件都是有效的UTF-8文件
信息性 vs 规范性
信息性参考文献的作用
信息性参考文献用于:
- 提供背景信息
- 解释相关概念
- 引用相关技术
- 历史背景
不是强制要求: 可以不阅读这些文档而实现UTF-8。
推荐阅读优先级
| 参考文献 | 优先级 | 推荐理由 |
|---|---|---|
| [UAX15] | ⭐⭐⭐⭐⭐ | 安全关键,处理规范化 |
| [RFC2045] | ⭐⭐⭐⭐ | 理解MIME字符集 |
| [CESU-8] | ⭐⭐⭐ | 了解不兼容编码 |
| [RFC2234] | ⭐⭐⭐ | 理解ABNF语法 |
| [FSS_UTF] | ⭐⭐ | 历史背景 |
| [RFC2978] | ⭐⭐ | IANA注册过程 |
| [US-ASCII] | ⭐ | 一般常识 |
相关在线资源
Unicode联盟
- 主页:
https://www.unicode.org/ - 标准:
https://www.unicode.org/versions/ - 技术报告:
https://www.unicode.org/reports/
IETF RFC编辑器
- 主页:
https://www.rfc-editor.org/ - RFC搜索:
https://www.rfc-editor.org/search/
W3C字符编码
- 指南:
https://www.w3.org/International/questions/qa-what-is-encoding