メインコンテンツまでスキップ

7. Examples (例)

このセクションでは、さまざまな文字と文字シーケンスのUTF-8エンコーディングの具体的な例を示します。

例1: 混合スクリプト文字

文字シーケンスU+0041 U+2262 U+0391 U+002E "A<NOT IDENTICAL TO><ALPHA>." は、UTF-8で以下のようにエンコードされます:

--+--------+-----+--
41 E2 89 A2 CE 91 2E
--+--------+-----+--

内訳

  • U+0041 (A) → 41 (1バイト)
  • U+2262 (≢) → E2 89 A2 (3バイト)
  • U+0391 (Α) → CE 91 (2バイト)
  • U+002E (.) → 2E (1バイト)

例2: 韓国語

文字シーケンスU+D55C U+AD6D U+C5B4(韓国語の"hangugeo"、"韓国語"の意味)は、UTF-8で以下のようにエンコードされます:

--------+--------+--------
ED 95 9C EA B5 AD EC 96 B4
--------+--------+--------

内訳

  • U+D55C (한) → ED 95 9C (3バイト)
  • U+AD6D (국) → EA B5 AD (3バイト)
  • U+C5B4 (어) → EC 96 B4 (3バイト)

例3: 日本語

文字シーケンスU+65E5 U+672C U+8A9E(日本語の"nihongo"、"日本語"の意味)は、UTF-8で以下のようにエンコードされます:

--------+--------+--------
E6 97 A5 E6 9C AC E8 AA 9E
--------+--------+--------

内訳

  • U+65E5 (日) → E6 97 A5 (3バイト)
  • U+672C (本) → E6 9C AC (3バイト)
  • U+8A9E (語) → E8 AA 9E (3バイト)

例4: UTF-8 BOMを付けた中国語文字

文字U+233B4(「切り株」を意味する中国語文字)にUTF-8 BOMを前置すると、UTF-8で以下のようにエンコードされます:

--------+-----------
EF BB BF F0 A3 8E B4
--------+-----------

内訳

  • U+FEFF (BOM) → EF BB BF (3バイト)
  • U+233B4 (𣎴) → F0 A3 8E B4 (4バイト)

注意

この例は以下を示しています:

  1. UTF-8 BOMエンコーディング(EF BB BF
  2. 基本多言語面(BMP)を超える文字の4バイトUTF-8シーケンス

要約表

文字UnicodeUTF-8エンコーディングバイト数
AU+0041411
U+2262E2 89 A23
ΑU+0391CE 912
U+D55CED 95 9C3
U+AD6DEA B5 AD3
U+C5B4EC 96 B43
U+65E5E6 97 A53
U+672CE6 9C AC3
U+8A9EE8 AA 9E3
BOMU+FEFFEF BB BF3
𣎴U+233B4F0 A3 8E B44

関連リンク