ISO/IEC 10646

El estándar internacional ISO/ IEC 10646 define el Conjunto de Caracteres Universal (en inglés Universal Character Set o UCS) como un sistema codificación de caracteres en varios octetos. Contiene cerca de cien mil caracteres abstractos, cada uno de ellos identificado de forma precisa por un número entero denominado punto de código. Se creó en el año 1993 por ello a veces también se lo llama ISO/IEC 10646-1:1993.

En este conjunto se encuentran los diversos caracteres (letras, números, símbolos, ideogramas, logogramas, etc.) procedentes de muchos lenguajes, alfabetos, etc., así como las diversas tradiciones de puntuación existentes en todos los idiomas del mundo, representadas en los códigos únicos UCS. Es de pensar que la inclusión de nuevos caracteres es constante, haciendo que el conjunto esté permanentemente en estado de actualización.

Desde el año 1991, el Unicode Consortium ha venido trabajando con el organismo ISO con el objeto de desarrollar el estándar Unicode y el ISO/IEC 10646 conjuntamente. El repertorio, el nombre de los caracteres, los puntos de código de la versión 2.0 de Unicode hacen un ajuste perfecto con las siete primeras publicaciones de la ISO/IEC 10646-1:1993. Tras la publicación de Unicode 3.0 en febrero de 2000, se fueron introduciendo nuevos caracteres en el UCS vía el ISO/IEC 10646-1:2000.

El conjunto UCS tiene cerca de 1,1 millones de código punto, pero sólo los primeros 65.536 (la Asociación de caracteres unicode, o BMP) han entrado en uso antes del año 2000. Esta situación comenzó a cambiar cuando República Popular China (RPC) solicitó en el año 2000 que los sistemas computarizados vendidos en su territorio tuvieran que soportar el GB18030, esta situación hizo que los sistemas que se tenían que vender en el RPC tuvieran que ir más allá del BMP. El conjunto tal y como está definido hoy en día ha dejado de forma deliberada algunos huecos con el objeto de poder incorporar en un futuro otros caracteres que no entren en conflicto con los actuales.

Formas de codificar el Conjunto Universal de Caracteres

El ISO 10646 define diversos «formas de codificación» de caracteres para el conjunto universal de caracteres (Universal Character Set). La más simple es la denominada, UCS-2 que emplea un «valor de código» simple (definido como uno o más números representando un código punto) entre 0 y 65,535 para cada carácter, y permite exactamente dos bytes (una palabra de 16- bit) para representar el valor. El UCS-2 permite por lo tanto una representación binaria de cada punto de código en el sistema BMP, haciendo que haya una correspondencia biunívoca entre el valor y el código punto que representa al carácter. El UCS-2 no puede representar puntos código fuera del conjunto BMP.

La primera enmienda a la edición original del UCS se definió como UTF-16, y era una extensión del UCS-2, para representar códigos punto fuera del BMP. En la actualidad existen una zona especial de códigos punto denominada S (Special) en el BMP que permanece sin asignar a caracteres. El UCS-2 no permite emplear valores de código para estos puntos de código, pero UTF-16 permite el empleo de los mismos en pares. Cada par consiste en un "elemento-RC" (una tupla de dos octetos que forman un R-octeto y un C-octeto de una secuencia total de cuatro octetos que se asocia a una celda en el espacio de códigos asignados a caracteres). El estándar Unicode ha adoptado también el UTF-16, pero en la terminología de Unicode, la mitad-alta de la zona de elementos se denomina "sustituciones altas" y la mitad inferior de la tabla se denomina "sustituciones bajas".

Otra codificación es la UCS-4 que emplea un carácter único entre 0 y (teóricamente) en hexadecimal hasta 7FFFFFFF para ser asignado a cada carácter (sin embargo el UCS para a 10FFFF y la ISO/IEC 10646 tiene comprometida asignaciones futuras de caracteres en este rango). El UCS-4 permite representaciones de cada valor mediante el empleo exacto de cuatro bytes (una palabra de 32-bits). El UCS-4 permite una representación binaria de cada código punto en el sistema UCS, incluyendo aquellos que están fuera del BMP. Como en el sistema de codifiación de UCS-2, cada carácter codificado posee una longitud fija en bytes.

Other Languages
čeština: ISO/IEC 10646
français: ISO/CEI 10646
עברית: ISO 10646
magyar: UCS
日本語: ISO/IEC 10646
norsk nynorsk: ISO/IEC 10646
norsk bokmål: ISO/IEC 10646
polski: ISO 10646
português: ISO/IEC 10646
српски / srpski: UCS
svenska: ISO/IEC 10646
Yorùbá: ISO 10646