Utilización de la gama completa de caracteres Unicode: Novedades en Wolfram Language 12

Utilización de la gama completa de caracteres Unicode

Wolfram Language fue uno de los primeros en adoptar el estándar Unicode (www.unicode.org). La versión 12 extiende el rango de caracteres que pueden ser procesados y escritos por Wolfram Language más allá del plano básico multilingüe (BMP por sus siglas en inglés) de los aproximadamente 50000 caracteres más comunes hasta el rango completo de más de un millón de posibles caracteres de Unicode. El soporte incluye la conversión hacia y desde UTF-8, un nuevo formato de entrada especial para ingresar códigos hexadecimales de 6 dígitos y transmisión a través de WSTP.

Ingrese una cadena de cuatro caracteres utilizando los formatos de entrada hexadecimales previamente existentes \.xx para códigos de 2 dígitos y \:yyyy para códigos de 4 dígitos, así como el nuevo formato \|zzzzzz para códigos de 6 dígitos.

Convierta los caracteres a puntos de código. El último carácter, con un punto de código por encima de 65535, es nuevo y representable en Wolfram Language.

En la base 16 se clarifica la correspondencia entre el formulario de entrada y los puntos de código.

Convierta la cadena a ByteArray utilizando la codificación UTF-8.

La codificación UTF-8 es una codificación de longitud variable donde los puntos de código más grandes requieren más bytes. Divida la matriz de bytes en cuatro matrices de longitud creciente.

Convierta cada matriz de nuevo en una cadena, mostrando que cada matriz corresponde exactamente a un carácter.

Wolfram Language™

Utilización de la gama completa de caracteres Unicode

Ejemplos relacionados