7. Examples (Exemples)

Cette section fournit des exemples concrets de codage UTF-8 pour divers caractères et séquences de caractères.

Exemple 1 : Caractères à scripts mixtes

La séquence de caractères U+0041 U+2262 U+0391 U+002E "A<NOT IDENTICAL TO>``<ALPHA>." est codée en UTF-8 comme suit :

--+--------+-----+--
41 E2 89 A2 CE 91 2E
--+--------+-----+--

La séquence de caractères U+D55C U+AD6D U+C5B4 (coréen « hangugeo », signifiant « la langue coréenne ») est codée en UTF-8 comme suit :

--------+--------+--------
ED 95 9C EA B5 AD EC 96 B4
--------+--------+--------

La séquence de caractères U+65E5 U+672C U+8A9E (japonais « nihongo », signifiant « la langue japonaise ») est codée en UTF-8 comme suit :

--------+--------+--------
E6 97 A5 E6 9C AC E8 AA 9E
--------+--------+--------

Le caractère U+233B4 (un caractère chinois signifiant « souche d'arbre »), précédé d'un BOM UTF-8, est codé en UTF-8 comme suit :

--------+-----------
EF BB BF F0 A3 8E B4
--------+-----------

Cet exemple démontre :

Le codage du BOM UTF-8 (EF BB BF)
Une séquence UTF-8 à 4 octets pour un caractère au-delà du Plan Multilingue de Base (BMP)

Caractère(s)	Unicode	Codage UTF-8	Octets
A	U+0041	41	1
≢	U+2262	E2 89 A2	3
Α	U+0391	CE 91	2
한	U+D55C	ED 95 9C	3
국	U+AD6D	EA B5 AD	3
어	U+C5B4	EC 96 B4	3
日	U+65E5	E6 97 A5	3
本	U+672C	E6 9C AC	3
語	U+8A9E	E8 AA 9E	3
BOM	U+FEFF	EF BB BF	3
𣎴	U+233B4	F0 A3 8E B4	4