3. Definizione UTF-8 (UTF-8 definition)
UTF-8 è definito dallo standard Unicode [UNICODE]. Le descrizioni e le formule possono essere trovate anche nell'Appendice D di ISO/IEC 10646-1 [ISO.10646].
Intervallo di codifica
In UTF-8, i caratteri nell'intervallo U+0000..U+10FFFF sono codificati utilizzando sequenze da 1 a 4 byte.
Tabella di codifica
Intervallo numeri Sequenza di byte UTF-8
caratteri (esadecimale) (binario)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Requisito di sicurezza
Le implementazioni dell'algoritmo di decodifica DEVONO proteggersi dalla decodifica di sequenze non valide.
Collegamenti correlati
- Precedente: 2. Convenzioni di notazione
- Torna alla pagina principale RFC 3629
- Successivo: 4. Sintassi delle sequenze di byte UTF-8