Wolfram Language

Procesamiento de texto y lenguaje

Computación con listas de palabras multilingües

Compare la distribución de números de caracteres por palabra en distintas lenguas.

In[1]:=
Click for copyable input
languages = {"German", "English", "Italian", "Dutch", "Russian"};

Obtenga las listas de palabras disponibles para aquellas lenguas y agrúpelas en una asociación.

In[2]:=
Click for copyable input
words = Association[# -> WordList[Language -> #] & /@ languages];

Compute las longitudes de cada una de esas palabras.

In[3]:=
Click for copyable input
wordLengths = StringLength /@ words;

Hay un mínimo y un máximo de longitudes.

In[4]:=
Click for copyable input
MinMax /@ wordLengths
Out[4]=

Muestre histogramas superpuestos de frecuencias relativas en cada lenguaje. El ruso y el inglés tienen una fracción más alta de palabras cortas, mientras que el holandés y el alemán tienen una cola clara de palabras más largas.

In[5]:=
Click for copyable input
Histogram[wordLengths, Automatic, "PDF", ChartLegends -> Automatic]
Out[5]=

Combine los histogramas para mostrar las cuentas totales de longitudes para todas las lenguas juntas.

In[6]:=
Click for copyable input
Histogram[wordLengths, ChartLegends -> Automatic, ChartLayout -> "Stacked"]
Out[6]=

Ejemplos relacionados

de en fr ja ko pt-br ru zh