7. Examples (例)

このセクションでは、さまざまな文字と文字シーケンスのUTF-8エンコーディングの具体的な例を示します。

例1: 混合スクリプト文字

文字シーケンスU+0041 U+2262 U+0391 U+002E "A<NOT IDENTICAL TO><ALPHA>." は、UTF-8で以下のようにエンコードされます：

--+--------+-----+--
41 E2 89 A2 CE 91 2E
--+--------+-----+--

文字シーケンスU+D55C U+AD6D U+C5B4（韓国語の"hangugeo"、"韓国語"の意味）は、UTF-8で以下のようにエンコードされます：

--------+--------+--------
ED 95 9C EA B5 AD EC 96 B4
--------+--------+--------

文字シーケンスU+65E5 U+672C U+8A9E（日本語の"nihongo"、"日本語"の意味）は、UTF-8で以下のようにエンコードされます：

--------+--------+--------
E6 97 A5 E6 9C AC E8 AA 9E
--------+--------+--------

文字U+233B4（「切り株」を意味する中国語文字）にUTF-8 BOMを前置すると、UTF-8で以下のようにエンコードされます：

--------+-----------
EF BB BF F0 A3 8E B4
--------+-----------

この例は以下を示しています：

文字	Unicode	UTF-8エンコーディング	バイト数
A	U+0041	41	1
≢	U+2262	E2 89 A2	3
Α	U+0391	CE 91	2
한	U+D55C	ED 95 9C	3
국	U+AD6D	EA B5 AD	3
어	U+C5B4	EC 96 B4	3
日	U+65E5	E6 97 A5	3
本	U+672C	E6 9C AC	3
語	U+8A9E	E8 AA 9E	3
BOM	U+FEFF	EF BB BF	3
𣎴	U+233B4	F0 A3 8E B4	4