任意言語のニューラルネットを構築する: Wolfram言語 12の新機能

任意言語のニューラルネットを構築する

英語では多くの場合，自然言語処理の第1ステップとして，テキストを単語にトークン化することが効率的である．単語が意味的な単位を表し，スペースや句読点によって簡単に見分けられるからである．しかし言語によっては，トークン化が実行しにくい場合（中国語等）や，あまりに複雑な意味的単位を生成してしまう場合（複合語等）がある．バイト対符号化(BPE)によるサブワードのトークン化はどの言語にも適用できる効率的な代替策といえる．この例では指定された言語のニューラルネットを作成する出発点として，パラメータ化されたBPE埋込みモデルを使う方法を説明する．

Wolfram Neural Net Repositoryで利用できる，パラメータ化されたBPE埋込みについての情報を取得する．

デフォルトではないパラメータでモデルをロードする．

埋込み層を文に適用して，埋込みベクトル列を返す（各サブワードトークンに1つのベクトル）．

層のBPEトークン化の部分を抽出する．

文のトークン化を可視化する．

他の言語のトークン化を可視化する．

完全なWolfram言語入力を表示する

Wolfram言語™

任意言語のニューラルネットを構築する

関連する例