Utilisez toute la gamme des caractères Unicode: Nouveautés de Wolfram Language 12

Utilisez toute la gamme des caractères Unicode

Wolfram Language a été l'un des premiers à adopter la norme Unicode (www.unicode.org). La version 12 élargit la gamme des caractères qui peuvent être traités et écrits par Wolfram Language au-delà du plan multilingue de base, représentant environ les 50 000 caractères les plus communs, vers la gamme complète de plus d'un million de caractères Unicode possibles. La prise en charge comprend la conversion vers et à partir de l'UTF-8, une nouvelle forme de saisie spéciale pour la saisie de codes hexadécimaux à 6 chiffres et la transmission sur WSTP.

Entrez une chaîne de quatre caractères en utilisant les formes de saisie hexadécimaux existants \.xx pour les codes à 2 chiffres et \:yyyy pour les codes à 4 chiffres, ainsi que la nouvelle forme \|zzzzzz pour les codes à 6 chiffres.

Convertissez les caractères en points de code. Le dernier caractère, avec un point de code au-dessus de 65535, est désormais représenté en Wolfram Language.

Dans la base 16, la correspondance entre la forme de saisie et les points de code devient claire.

Convertissez la chaîne en ByteArray en utilisant l'encodage UTF-8.

L'encodage UTF-8 est un encodage de longueur variable où les points de code plus grands nécessitent plus d'octets. Séparez le tableau d'octets en quatre tableaux de longueur croissante.

Convertissez chaque tableau en une chaîne de caractères, en indiquant que chaque tableau correspond exactement à un caractère.

Wolfram Language™

Utilisez toute la gamme des caractères Unicode

Exemples connexes