모든 Unicode 문자 사용하기: Wolfram 언어 12의 신기능

모든 Unicode 문자 사용하기

Wolfram 언어는 유니코드 표준(www.unicode.org)을 초기에 적용한 언어 중 하나 입니다. 버전 12는 Wolfram 언어로 처리하거나 쓸 수 있는 문자의 범위가 약 50000개의 가장 일반적으로 사용되는 문자의 다국어 기본 평면을 넘어 100만 개 이상의 가능한 유니코드 문자로 확장 되었습니다. UTF-8로의 변환, UTF-8에서 다른 형식으로의 변환, 6자리 16진수 코드를 입력하는 새로운 특수 입력 형식, WSTP에서의 전송을 지원합니다.

기존의 16진수 입력 형식 \.xx를 2자리 코드로, \:yyyy를 4자리 코드로 사용할 뿐만 아니라 새로운 형식 \|zzzzzz를 6자리 코드로 사용하며 4자의 문자열을 입력합니다.

문자를 코드 포인트로 변환합니다. 코드 포인트가 65535 이상인 마지막 문자는 Wolfram 언어로 새롭게 표현할 수 있게 되었습니다.

기수 16은 입력 형식과 코드 포인트의 관계가 명백합니다.

UTF-8 인코딩을 사용하여 문자열을 ByteArray로 변환합니다.

UTF-8 인코딩은 코드 포인트가 클수록 더 많은 바이트를 필요로 하는 가변 길이 인코딩입니다. 바이트 배열을 길이가 늘어나는 4 개의 배열로 분할합니다.

각각의 배열을 문자열로 변환하고 다시 각각의 배열이 정확히 하나의 문자에 대응하는 것을 나타냅니다.

Wolfram 언어™

모든 Unicode 문자 사용하기

관련 예제