Wolfram Language

Traitement de texte et de langues

Calcul avec des listes de mots multilingues

Comparez la distribution des nombres de caractères par mot dans différentes langues.

In[1]:=
Click for copyable input
languages = {"German", "English", "Italian", "Dutch", "Russian"};

Obtenez les listes de mots disponibles pour ces langues et groupez-les dans une association.

In[2]:=
Click for copyable input
words = Association[# -> WordList[Language -> #] & /@ languages];

Calculez les longueurs de chacun de ces mots.

In[3]:=
Click for copyable input
wordLengths = StringLength /@ words;

Voici les longueurs minimales et maximales.

In[4]:=
Click for copyable input
MinMax /@ wordLengths
Out[4]=

Affichez les histogrammes superposés des fréquences relatives dans chaque langue. Le russe et l'anglais ont une fraction plus élevée de mots plus courts, tandis que le néerlandais et l'allemand ont une queue claire des mots plus longs.

In[5]:=
Click for copyable input
Histogram[wordLengths, Automatic, "PDF", ChartLegends -> Automatic]
Out[5]=

Combinez les histogrammes pour afficher le compte total de longueurs pour toutes les langues ensemble.

In[6]:=
Click for copyable input
Histogram[wordLengths, ChartLegends -> Automatic, ChartLayout -> "Stacked"]
Out[6]=

Exemples connexes

de en es ja ko pt-br ru zh