Wolfram言語

テキストと言語の処理

複数言語の単語リストを使った計算

さまざまな言語で単語当りの文字数の分布を比較する.

In[1]:=
Click for copyable input
languages = {"German", "English", "Italian", "Dutch", "Russian"};

それらの言語についての使用可能な単語のリストを入手し,連想ごとにまとめる.

In[2]:=
Click for copyable input
words = Association[# -> WordList[Language -> #] & /@ languages];

それぞれの単語の長さを計算する.

In[3]:=
Click for copyable input
wordLengths = StringLength /@ words;

次は最短および最長の単語の長さである.

In[4]:=
Click for copyable input
MinMax /@ wordLengths
Out[4]=

各言語における相対頻度の重なり合うヒストグラムを表示する.ロシア語と英語は短い単語の割合が高く,オランダ語とドイツ語は長い単語が多いので裾部が目立つ.

In[5]:=
Click for copyable input
Histogram[wordLengths, Automatic, "PDF", ChartLegends -> Automatic]
Out[5]=

ヒストグラムを組み合せて全言語を合わせた長さの総数を表示する.

In[6]:=
Click for copyable input
Histogram[wordLengths, ChartLegends -> Automatic, ChartLayout -> "Stacked"]
Out[6]=

関連する例

de en es fr ko pt-br ru zh