7. Examples (例)
このセクションでは、さまざまな文字と文字シーケンスのUTF-8エンコーディングの具体的な例を示します。
例1: 混合スクリプト文字
文字シーケンスU+0041 U+2262 U+0391 U+002E "A<NOT IDENTICAL TO><ALPHA>." は、UTF-8で以下のようにエンコードされます:
--+--------+-----+--
41 E2 89 A2 CE 91 2E
--+--------+-----+--
内訳
U+0041(A) →41(1バイト)U+2262(≢) →E2 89 A2(3バイト)U+0391(Α) →CE 91(2バイト)U+002E(.) →2E(1バイト)
例2: 韓国語
文字シーケンスU+D55C U+AD6D U+C5B4(韓国語の"hangugeo"、"韓国語"の意味)は、UTF-8で以下のようにエンコードされます:
--------+--------+--------
ED 95 9C EA B5 AD EC 96 B4
--------+--------+--------
内訳
U+D55C(한) →ED 95 9C(3バイト)U+AD6D(국) →EA B5 AD(3バイト)U+C5B4(어) →EC 96 B4(3バイト)
例3: 日本語
文字シーケンスU+65E5 U+672C U+8A9E(日本語の"nihongo"、"日本語"の意味)は、UTF-8で以下のようにエンコードされます:
--------+--------+--------
E6 97 A5 E6 9C AC E8 AA 9E
--------+--------+--------
内訳
U+65E5(日) →E6 97 A5(3バイト)U+672C(本) →E6 9C AC(3バイト)U+8A9E(語) →E8 AA 9E(3バイト)
例4: UTF-8 BOMを付けた中国語文字
文字U+233B4(「切り株」を意味する中国語文字)にUTF-8 BOMを前置すると、UTF-8で以下のようにエンコードされます:
--------+-----------
EF BB BF F0 A3 8E B4
--------+-----------
内訳
U+FEFF(BOM) →EF BB BF(3バイト)U+233B4(𣎴) →F0 A3 8E B4(4バイト)
注意
この例は以下を示しています:
- UTF-8 BOMエンコーディング(
EF BB BF) - 基本多言語面(BMP)を超える文字の4バイトUTF-8シーケンス
要約表
| 文字 | Unicode | UTF-8エンコーディング | バイト数 |
|---|---|---|---|
| A | U+0041 | 41 | 1 |
| ≢ | U+2262 | E2 89 A2 | 3 |
| Α | U+0391 | CE 91 | 2 |
| 한 | U+D55C | ED 95 9C | 3 |
| 국 | U+AD6D | EA B5 AD | 3 |
| 어 | U+C5B4 | EC 96 B4 | 3 |
| 日 | U+65E5 | E6 97 A5 | 3 |
| 本 | U+672C | E6 9C AC | 3 |
| 語 | U+8A9E | E8 AA 9E | 3 |
| BOM | U+FEFF | EF BB BF | 3 |
| 𣎴 | U+233B4 | F0 A3 8E B4 | 4 |