Wolfram言語

任意言語のニューラルネットを構築する

英語では多くの場合,自然言語処理の第1ステップとして,テキストを単語にトークン化することが効率的である.単語が意味的な単位を表し,スペースや句読点によって簡単に見分けられるからである.しかし言語によっては,トークン化が実行しにくい場合(中国語等)や,あまりに複雑な意味的単位を生成してしまう場合(複合語等)がある.バイト対符号化(BPE)によるサブワードのトークン化はどの言語にも適用できる効率的な代替策といえる.この例では指定された言語のニューラルネットを作成する出発点として,パラメータ化されたBPE埋込みモデルを使う方法を説明する.

Wolfram Neural Net Repositoryで利用できる,パラメータ化されたBPE埋込みについての情報を取得する.

デフォルトではないパラメータでモデルをロードする.

埋込み層を文に適用して,埋込みベクトル列を返す(各サブワードトークンに1つのベクトル).

層のBPEトークン化の部分を抽出する.

文のトークン化を可視化する.

他の言語のトークン化を可視化する.

完全なWolfram言語入力を表示する

関連する例

de en es fr ko pt-br zh