Wolfram 语言

文本和语言处理

用多语种词汇列表计算

计算不同语言中各单词字符个数的分布.

In[1]:=
Click for copyable input
languages = {"German", "English", "Italian", "Dutch", "Russian"};

获取这些语言可用的词汇列表并收集在关联中.

In[2]:=
Click for copyable input
words = Association[# -> WordList[Language -> #] & /@ languages];

计算每个单词的长度.

In[3]:=
Click for copyable input
wordLengths = StringLength /@ words;

这里是最短和最长的长度.

In[4]:=
Click for copyable input
MinMax /@ wordLengths
Out[4]=

显示每个语言中的对应频率的重叠直方图. 俄语和英语的短单词的比例更高,荷兰语和德语的长单词有更高比例.

In[5]:=
Click for copyable input
Histogram[wordLengths, Automatic, "PDF", ChartLegends -> Automatic]
Out[5]=

合并直方图显示所有语言的长度总计.

In[6]:=
Click for copyable input
Histogram[wordLengths, ChartLegends -> Automatic, ChartLayout -> "Stacked"]
Out[6]=

相关范例

de en es fr ja ko pt-br ru