Zum Hauptinhalt springen

7. Beispiele (Examples)

Dieser Abschnitt bietet konkrete Beispiele für UTF-8-Kodierung für verschiedene Zeichen und Zeichensequenzen.

Beispiel 1: Zeichen gemischter Schriften

Die Zeichenfolge U+0041 U+2262 U+0391 U+002E "A<NOT IDENTICAL TO><ALPHA>." ist in UTF-8 wie folgt kodiert:

--+--------+-----+--
41 E2 89 A2 CE 91 2E
--+--------+-----+--

Details

  • U+0041 (A) → 41 (1 Byte)
  • U+2262 (≢) → E2 89 A2 (3 Bytes)
  • U+0391 (Α) → CE 91 (2 Bytes)
  • U+002E (.) → 2E (1 Byte)

Beispiel 2: Koreanisch

Die Zeichenfolge U+D55C U+AD6D U+C5B4 (koreanisch „hangugeo", bedeutet „die koreanische Sprache") ist in UTF-8 wie folgt kodiert:

--------+--------+--------
ED 95 9C EA B5 AD EC 96 B4
--------+--------+--------

Details

  • U+D55C (한) → ED 95 9C (3 Bytes)
  • U+AD6D (국) → EA B5 AD (3 Bytes)
  • U+C5B4 (어) → EC 96 B4 (3 Bytes)

Beispiel 3: Japanisch

Die Zeichenfolge U+65E5 U+672C U+8A9E (japanisch „nihongo", bedeutet „die japanische Sprache") ist in UTF-8 wie folgt kodiert:

--------+--------+--------
E6 97 A5 E6 9C AC E8 AA 9E
--------+--------+--------

Details

  • U+65E5 (日) → E6 97 A5 (3 Bytes)
  • U+672C (本) → E6 9C AC (3 Bytes)
  • U+8A9E (語) → E8 AA 9E (3 Bytes)

Beispiel 4: Chinesisches Zeichen mit BOM

Das Zeichen U+233B4 (ein chinesisches Zeichen bedeutet „Baumstumpf"), vorangestellt mit einem UTF-8-BOM, ist in UTF-8 wie folgt kodiert:

--------+-----------
EF BB BF F0 A3 8E B4
--------+-----------

Details

  • U+FEFF (BOM) → EF BB BF (3 Bytes)
  • U+233B4 (𣎴) → F0 A3 8E B4 (4 Bytes)

Hinweis

Dieses Beispiel demonstriert:

  1. Die Kodierung des UTF-8-BOM (EF BB BF)
  2. Eine 4-Byte-UTF-8-Sequenz für ein Zeichen jenseits der Basic Multilingual Plane (BMP)

Zusammenfassende Tabelle

ZeichenUnicodeUTF-8-KodierungBytes
AU+0041411
U+2262E2 89 A23
ΑU+0391CE 912
U+D55CED 95 9C3
U+AD6DEA B5 AD3
U+C5B4EC 96 B43
U+65E5E6 97 A53
U+672CE6 9C AC3
U+8A9EE8 AA 9E3
BOMU+FEFFEF BB BF3
𣎴U+233B4F0 A3 8E B44