7. Examples (Exemples)
Cette section fournit des exemples concrets de codage UTF-8 pour divers caractères et séquences de caractères.
Exemple 1 : Caractères à scripts mixtes
La séquence de caractères U+0041 U+2262 U+0391 U+002E "A<NOT IDENTICAL TO>``<ALPHA>." est codée en UTF-8 comme suit :
--+--------+-----+--
41 E2 89 A2 CE 91 2E
--+--------+-----+--
Détails
U+0041(A) →41(1 octet)U+2262(≢) →E2 89 A2(3 octets)U+0391(Α) →CE 91(2 octets)U+002E(.) →2E(1 octet)
Exemple 2 : Coréen
La séquence de caractères U+D55C U+AD6D U+C5B4 (coréen « hangugeo », signifiant « la langue coréenne ») est codée en UTF-8 comme suit :
--------+--------+--------
ED 95 9C EA B5 AD EC 96 B4
--------+--------+--------
Détails
U+D55C(한) →ED 95 9C(3 octets)U+AD6D(국) →EA B5 AD(3 octets)U+C5B4(어) →EC 96 B4(3 octets)
Exemple 3 : Japonais
La séquence de caractères U+65E5 U+672C U+8A9E (japonais « nihongo », signifiant « la langue japonaise ») est codée en UTF-8 comme suit :
--------+--------+--------
E6 97 A5 E6 9C AC E8 AA 9E
--------+--------+--------
Détails
U+65E5(日) →E6 97 A5(3 octets)U+672C(本) →E6 9C AC(3 octets)U+8A9E(語) →E8 AA 9E(3 octets)
Exemple 4 : Caractère chinois avec BOM
Le caractère U+233B4 (un caractère chinois signifiant « souche d'arbre »), précédé d'un BOM UTF-8, est codé en UTF-8 comme suit :
--------+-----------
EF BB BF F0 A3 8E B4
--------+-----------
Détails
U+FEFF(BOM) →EF BB BF(3 octets)U+233B4(𣎴) →F0 A3 8E B4(4 octets)
Note
Cet exemple démontre :
- Le codage du BOM UTF-8 (
EF BB BF) - Une séquence UTF-8 à 4 octets pour un caractère au-delà du Plan Multilingue de Base (BMP)
Tableau récapitulatif
| Caractère(s) | Unicode | Codage UTF-8 | Octets |
|---|---|---|---|
| A | U+0041 | 41 | 1 |
| ≢ | U+2262 | E2 89 A2 | 3 |
| Α | U+0391 | CE 91 | 2 |
| 한 | U+D55C | ED 95 9C | 3 |
| 국 | U+AD6D | EA B5 AD | 3 |
| 어 | U+C5B4 | EC 96 B4 | 3 |
| 日 | U+65E5 | E6 97 A5 | 3 |
| 本 | U+672C | E6 9C AC | 3 |
| 語 | U+8A9E | E8 AA 9E | 3 |
| BOM | U+FEFF | EF BB BF | 3 |
| 𣎴 | U+233B4 | F0 A3 8E B4 | 4 |
Liens connexes
- Précédent : 6. Byte order mark (BOM) (Marque d'ordre d'octets)
- Retour à l'accueil RFC 3629
- Suivant : 8. MIME registration (Enregistrement MIME)