7. Beispiele (Examples)
Dieser Abschnitt bietet konkrete Beispiele für UTF-8-Kodierung für verschiedene Zeichen und Zeichensequenzen.
Beispiel 1: Zeichen gemischter Schriften
Die Zeichenfolge U+0041 U+2262 U+0391 U+002E "A<NOT IDENTICAL TO><ALPHA>." ist in UTF-8 wie folgt kodiert:
--+--------+-----+--
41 E2 89 A2 CE 91 2E
--+--------+-----+--
Details
U+0041(A) →41(1 Byte)U+2262(≢) →E2 89 A2(3 Bytes)U+0391(Α) →CE 91(2 Bytes)U+002E(.) →2E(1 Byte)
Beispiel 2: Koreanisch
Die Zeichenfolge U+D55C U+AD6D U+C5B4 (koreanisch „hangugeo", bedeutet „die koreanische Sprache") ist in UTF-8 wie folgt kodiert:
--------+--------+--------
ED 95 9C EA B5 AD EC 96 B4
--------+--------+--------
Details
U+D55C(한) →ED 95 9C(3 Bytes)U+AD6D(국) →EA B5 AD(3 Bytes)U+C5B4(어) →EC 96 B4(3 Bytes)
Beispiel 3: Japanisch
Die Zeichenfolge U+65E5 U+672C U+8A9E (japanisch „nihongo", bedeutet „die japanische Sprache") ist in UTF-8 wie folgt kodiert:
--------+--------+--------
E6 97 A5 E6 9C AC E8 AA 9E
--------+--------+--------
Details
U+65E5(日) →E6 97 A5(3 Bytes)U+672C(本) →E6 9C AC(3 Bytes)U+8A9E(語) →E8 AA 9E(3 Bytes)
Beispiel 4: Chinesisches Zeichen mit BOM
Das Zeichen U+233B4 (ein chinesisches Zeichen bedeutet „Baumstumpf"), vorangestellt mit einem UTF-8-BOM, ist in UTF-8 wie folgt kodiert:
--------+-----------
EF BB BF F0 A3 8E B4
--------+-----------
Details
U+FEFF(BOM) →EF BB BF(3 Bytes)U+233B4(𣎴) →F0 A3 8E B4(4 Bytes)
Hinweis
Dieses Beispiel demonstriert:
- Die Kodierung des UTF-8-BOM (
EF BB BF) - Eine 4-Byte-UTF-8-Sequenz für ein Zeichen jenseits der Basic Multilingual Plane (BMP)
Zusammenfassende Tabelle
| Zeichen | Unicode | UTF-8-Kodierung | Bytes |
|---|---|---|---|
| A | U+0041 | 41 | 1 |
| ≢ | U+2262 | E2 89 A2 | 3 |
| Α | U+0391 | CE 91 | 2 |
| 한 | U+D55C | ED 95 9C | 3 |
| 국 | U+AD6D | EA B5 AD | 3 |
| 어 | U+C5B4 | EC 96 B4 | 3 |
| 日 | U+65E5 | E6 97 A5 | 3 |
| 本 | U+672C | E6 9C AC | 3 |
| 語 | U+8A9E | E8 AA 9E | 3 |
| BOM | U+FEFF | EF BB BF | 3 |
| 𣎴 | U+233B4 | F0 A3 8E B4 | 4 |
Verwandte Links
- Zurück: 6. Byte-Reihenfolgezeichen (Byte order mark - BOM)
- Zurück zur RFC 3629 Startseite
- Weiter: 8. MIME-Registrierung (MIME registration)