Wolfram言語

テキストと言語の処理

文字の頻度と頭文字

英語の辞書の中で,単語の頭文字として最もよく使われる文字と,単語全体で最もよく使われる文字は一致しない

よく使われる英単語のリストをWordListから取り出す.

In[1]:=
Click for copyable input
Length[words = WordList[]]
Out[1]=

各単語の頭文字を取り出す.

In[2]:=
Click for copyable input
firstchars = StringTake[words, 1];

各文字で始まっている単語数を数える.

In[3]:=
Click for copyable input
Counts[firstchars]
Out[3]=

WordCloudを生成して各文字の相対的な頻度を可視化する.頭文字として最もよく使われるのは,子音のs,c,p,dである.

In[4]:=
Click for copyable input
WordCloud[firstchars]
Out[4]=

LetterCountsを使って全単語のすべての文字の相対的な頻度を計算する.

In[5]:=
Click for copyable input
allchars = LetterCounts[StringJoin[words], IgnoreCase -> True]
Out[5]=

こうすると,最も頻度が高いのは母音のe,i,aになる.

In[6]:=
Click for copyable input
WordCloud[allchars]
Out[6]=

関連する例

de en es fr ko pt-br ru zh