Use todos os caracteres Unicode: Novos Recursos do Wolfram Language 12

Use todos os caracteres Unicode

A Wolfram Language foi uma dos primeiras a adotar o padrão Unicode (www.unicode.org). A versão 12 aumenta a variedade de caracteres que podem ser processados e escritos pela Wolfram Language além do Plano Multilíngue Básico dos cerca de 50.000 caracteres mais comuns de toda variedade de mais de um milhão de caracteres Unicode possíveis. O suporte inclui conversão de e para UTF-8, um novo formulário de entrada especial para inserir códigos hexadecimais de 6 dígitos e transmissão por WSTP.

Insira uma cadeia de quatro caracteres usando os formulários de entrada hexadecimais existentes \ .xx para códigos de 2 dígitos e \: yyyy para códigos de 4 dígitos, bem como o novo formato \ | zzzzzz para códigos de 6 dígitos.

Converta os caracteres em pontos de código. O último caractere, com um ponto de código acima de 65535, é novamente representável na Wolfram Language.

Na base 16, a correspondência entre o formulário de entrada e os pontos de código fica clara.

Converta o caractere para ByteArray usando a codificação UTF-8.

A codificação UTF-8 é uma codificação de comprimento variável, em que pontos de código maiores requerem mais bytes. Divida a matriz de bytes em quatro matrizes de comprimento crescente.

Converta cada matriz novamente em uma sequência, mostrando que cada matriz corresponde exatamente a um caractere.

Wolfram Language™

Use todos os caracteres Unicode

Exemplos Relacionados