UTF-8

UTF-8 (8- bit Unicode Transformation Format) es un formato de codificación de caracteres Unicode e ISO 10646 utilizando símbolos de longitud variable. UTF-8 fue creado por Robert C. Pike y Kenneth L. Thompson. Está definido como estándar por la RFC 3629 de la Internet Engineering Task Force (IETF).[1] Actualmente es una de las tres posibilidades de codificación reconocidas por Unicode y lenguajes web, o cuatro en ISO 10646.

Sus características principales son:

  • Es capaz de representar cualquier carácter Unicode.
  • Usa símbolos de longitud variable (de 1 a 4 bytes por carácter Unicode).
  • Incluye la especificación US-ASCII de 7 bits, por lo que cualquier mensaje ASCII se representa sin cambios.
  • Incluye sincronía. Es posible determinar el inicio de cada símbolo sin reiniciar la lectura desde el principio de la comunicación.
  • No superposición. Los conjuntos de valores que puede tomar cada byte de un carácter multibyte, son disjuntos, por lo que no es posible confundirlos entre sí.

Estas características lo hacen atractivo en la codificación de correos electrónicos y páginas web.[5]

Historia

UTF-8 fue ideado por Kenneth L. Thompson bajo los criterios de diseño de Robert C. Pike el 2 de septiembre de 1992. Ambos lo implementaron e implantaron en su sistema operativo Plan 9 from Bell Labs. Posteriormente fue oficialmente presentado en la conferencia USENIX en San Diego en enero de 1993. Fue promovido a estándar con el patrocinio de X/Open Joint Internationalization Group (XOJIG) y durante el proceso recibió diferentes nombres como FSS/UTF y UTF-2.[1]

Other Languages
azərbaycanca: UTF-8
български: UTF-8
bosanski: UTF-8
català: UTF-8
čeština: UTF-8
Чӑвашла: UTF-8
dansk: UTF-8
Deutsch: UTF-8
Ελληνικά: UTF-8
English: UTF-8
Esperanto: UTF-8
فارسی: یوتی‌اف-۸
français: UTF-8
עברית: UTF-8
hrvatski: UTF-8
magyar: UTF-8
Bahasa Indonesia: UTF-8
italiano: UTF-8
日本語: UTF-8
한국어: UTF-8
lietuvių: UTF-8
latviešu: UTF-8
മലയാളം: യു.ടി.എഫ്-8
Bahasa Melayu: UTF-8
Nederlands: UTF-8
norsk nynorsk: UTF-8
norsk bokmål: UTF-8
polski: UTF-8
português: UTF-8
русский: UTF-8
Scots: UTF-8
slovenčina: UTF-8
slovenščina: UTF-8
српски / srpski: UTF-8
svenska: UTF-8
Türkçe: UTF-8
українська: UTF-8
Tiếng Việt: UTF-8
中文: UTF-8