Skip to main content

14. Informative References (信息性参考文献)

本章列出了RFC 3629引用的信息性参考文献。这些文档提供了额外的背景信息和相关技术细节,但不是实现UTF-8的必需参考。

信息性参考文献列表

[CESU-8] 兼容编码方案

Unicode Technical Report #26: Compatibility Encoding Scheme for UTF-16: 8-Bit (CESU-8)

  • 作者: T. Phipps
  • 文档类型: UTR 26
  • 日期: 2002年4月
  • URL: http://www.unicode.org/unicode/reports/tr26/

内容:

  • 定义CESU-8编码
  • 类似UTF-8但编码UTF-16码值而非码点
  • 不用于互联网

与UTF-8的区别:

字符: 𣎴 (U+233B4)

UTF-8 (正确):
F0 A3 8E B4 (4字节)

CESU-8 (不兼容):
编码UTF-16代理对
ED A0 8C ED BE B4 (6字节)

警告: CESU-8不是有效的UTF-8!

[FSS_UTF] 文件系统安全UTF

X/Open Preliminary Specification -- File System Safe UCS Transformation Format (FSS-UTF)

  • 组织: X/Open Company Ltd.
  • 日期: 1993年5月
  • URL: http://wwwold.dkuug.dk/jtc1/sc22/wg20/docs/N193-FSS-UTF.pdf

历史意义:

  • UTF-8的早期名称
  • 最初称为FSS-UTF(File System Safe UTF)
  • 后来改名为UTF-8

名称演变:

FSS-UTF (1992) 

FSS/UTF

UTF-2

UTF-8 (最终名称, 1993)

[RFC2045] MIME第一部分

RFC 2045 - Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies

  • 作者: N. Freed, N. Borenstein
  • 日期: 1996年11月

相关性:

  • 定义MIME架构
  • 解释字符集标签的作用
  • UTF-8作为MIME字符集使用

关键章节:

  • 第2.2节: 字符集的定义和用途

[RFC2234] ABNF语法

RFC 2234 - Augmented BNF for Syntax Specifications: ABNF

  • 作者: D. Crocker, P. Overell
  • 日期: 1997年11月

用途:

  • 定义ABNF(增强巴科斯-瑙尔范式)
  • RFC 3629第4章使用ABNF定义UTF-8语法

示例:

UTF8-char = UTF8-1 / UTF8-2 / UTF8-3 / UTF8-4
UTF8-1 = %x00-7F

[RFC2978] IANA字符集注册

RFC 2978 - IANA Charset Registration Procedures

  • 作者: N. Freed, J. Postel
  • 标准: BCP 19, RFC 2978
  • 日期: 2000年10月

内容:

  • 定义字符集注册流程
  • IANA字符集注册表维护
  • UTF-8的MIME注册依据此RFC

[UAX15] Unicode规范化

Unicode Standard Annex #15: Unicode Normalization Forms

  • 作者: M. Davis, M. Duerst
  • 类型: Unicode标准附件
  • 版本: Unicode 4.0.0的组成部分
  • 日期: 2003年4月
  • URL: http://www.unicode.org/unicode/reports/tr15

内容:

  • 定义四种规范化形式(NFC, NFD, NFKC, NFKD)
  • 处理字符的多重表示问题
  • 对安全至关重要(参见第10章)

规范化形式:

NFC  (Canonical Composition)        - 规范组合
NFD (Canonical Decomposition) - 规范分解
NFKC (Compatibility Composition) - 兼容组合
NFKD (Compatibility Decomposition) - 兼容分解

安全示例:

字符: é

NFD: e + ́ (U+0065 + U+0301)
NFC: é (U+00E9)

建议: 在安全关键比较前规范化为同一形式

[US-ASCII] ASCII标准

ANSI X3.4 - Coded Character Set - 7-bit American Standard Code for Information Interchange

  • 组织: American National Standards Institute
  • 年份: 1986

重要性:

  • UTF-8向后兼容ASCII
  • U+0000-U+007F与ASCII完全相同

兼容性:

ASCII字符 'A':
ASCII编码: 0x41
UTF-8编码: 0x41 (完全相同)

结论: 所有ASCII文件都是有效的UTF-8文件

信息性 vs 规范性

信息性参考文献的作用

信息性参考文献用于:

  • 提供背景信息
  • 解释相关概念
  • 引用相关技术
  • 历史背景

不是强制要求: 可以不阅读这些文档而实现UTF-8。

推荐阅读优先级

参考文献优先级推荐理由
[UAX15]⭐⭐⭐⭐⭐安全关键,处理规范化
[RFC2045]⭐⭐⭐⭐理解MIME字符集
[CESU-8]⭐⭐⭐了解不兼容编码
[RFC2234]⭐⭐⭐理解ABNF语法
[FSS_UTF]⭐⭐历史背景
[RFC2978]⭐⭐IANA注册过程
[US-ASCII]一般常识

相关在线资源

Unicode联盟

  • 主页: https://www.unicode.org/
  • 标准: https://www.unicode.org/versions/
  • 技术报告: https://www.unicode.org/reports/

IETF RFC编辑器

  • 主页: https://www.rfc-editor.org/
  • RFC搜索: https://www.rfc-editor.org/search/

W3C字符编码

  • 指南: https://www.w3.org/International/questions/qa-what-is-encoding

相关链接