10. Security Considerations (セキュリティに関する考慮事項)

UTF-8の実装者は、不正なUTF-8シーケンスをどのように処理するかについて、セキュリティ面を考慮する必要があります。状況によっては、攻撃者がUTF-8構文で許可されていないオクテットシーケンスを送信することで、不注意なUTF-8パーサーを悪用できる可能性があります。

過長エンコーディング攻撃 (Overlong Encoding Attack)

この攻撃の特に巧妙な形式は、入力のUTF-8エンコード形式に対してセキュリティ上重要な妥当性チェックを実行するが、特定の不正なオクテットシーケンスを文字として解釈するパーサーに対して実行できます。

たとえば、パーサーは、単一オクテットシーケンス00としてエンコードされた場合にNUL文字を禁止する可能性がありますが、誤って不正な2オクテットシーケンスC0 80を許可し、それをNUL文字として解釈します。

別の例としては、オクテットシーケンス2F 2E 2E 2F（"/../"）を禁止しているが、不正なオクテットシーケンス2F C0 AE 2E 2Fを許可するパーサーがあります。

この最後の悪用は、実際に2001年にWebサーバーを攻撃する広範なウイルスで使用されました。したがって、セキュリティ上の脅威は非常に現実的です。

UTF-8へのエンコード時に発生する別のセキュリティ問題：ISO/IEC 10646のUTF-8の記述では、U+7FFFFFFFまでの文字番号のエンコードが許可されており、最大6バイトのシーケンスが生成されます。

したがって、以下の場合にバッファオーバーフローのリスクがあります：

セキュリティは、UTF-8を含むいくつかの文字エンコーディングの特性によっても影響を受ける可能性があります：「同じもの」（ユーザーが判断できる限り）は、いくつかの異なる文字シーケンスで表現できます。

たとえば、鋭アクセント付きeは以下で表現できます：

UTF-8は各文字シーケンスに対して単一のバイトシーケンスを提供しますが、「同じもの」に対して複数の文字シーケンスが存在することは、以下が関与する場合にセキュリティ上の影響を与える可能性があります：

例として、資格情報に現れる識別子とアクセス制御リストエントリの文字列マッチングがあります。

この問題は、Unicode正規化形式に基づくソリューションで対処可能です。[UAX15]を参照してください。

正規化形式は、等価な文字が等しく比較されることを保証する正規表現を提供します。