Aller au contenu principal

7. Examples (Exemples)

Cette section fournit des exemples concrets de codage UTF-8 pour divers caractères et séquences de caractères.

Exemple 1 : Caractères à scripts mixtes

La séquence de caractères U+0041 U+2262 U+0391 U+002E "A<NOT IDENTICAL TO>``<ALPHA>." est codée en UTF-8 comme suit :

--+--------+-----+--
41 E2 89 A2 CE 91 2E
--+--------+-----+--

Détails

  • U+0041 (A) → 41 (1 octet)
  • U+2262 (≢) → E2 89 A2 (3 octets)
  • U+0391 (Α) → CE 91 (2 octets)
  • U+002E (.) → 2E (1 octet)

Exemple 2 : Coréen

La séquence de caractères U+D55C U+AD6D U+C5B4 (coréen « hangugeo », signifiant « la langue coréenne ») est codée en UTF-8 comme suit :

--------+--------+--------
ED 95 9C EA B5 AD EC 96 B4
--------+--------+--------

Détails

  • U+D55C (한) → ED 95 9C (3 octets)
  • U+AD6D (국) → EA B5 AD (3 octets)
  • U+C5B4 (어) → EC 96 B4 (3 octets)

Exemple 3 : Japonais

La séquence de caractères U+65E5 U+672C U+8A9E (japonais « nihongo », signifiant « la langue japonaise ») est codée en UTF-8 comme suit :

--------+--------+--------
E6 97 A5 E6 9C AC E8 AA 9E
--------+--------+--------

Détails

  • U+65E5 (日) → E6 97 A5 (3 octets)
  • U+672C (本) → E6 9C AC (3 octets)
  • U+8A9E (語) → E8 AA 9E (3 octets)

Exemple 4 : Caractère chinois avec BOM

Le caractère U+233B4 (un caractère chinois signifiant « souche d'arbre »), précédé d'un BOM UTF-8, est codé en UTF-8 comme suit :

--------+-----------
EF BB BF F0 A3 8E B4
--------+-----------

Détails

  • U+FEFF (BOM) → EF BB BF (3 octets)
  • U+233B4 (𣎴) → F0 A3 8E B4 (4 octets)

Note

Cet exemple démontre :

  1. Le codage du BOM UTF-8 (EF BB BF)
  2. Une séquence UTF-8 à 4 octets pour un caractère au-delà du Plan Multilingue de Base (BMP)

Tableau récapitulatif

Caractère(s)UnicodeCodage UTF-8Octets
AU+0041411
U+2262E2 89 A23
ΑU+0391CE 912
U+D55CED 95 9C3
U+AD6DEA B5 AD3
U+C5B4EC 96 B43
U+65E5E6 97 A53
U+672CE6 9C AC3
U+8A9EE8 AA 9E3
BOMU+FEFFEF BB BF3
𣎴U+233B4F0 A3 8E B44

Liens connexes