Wolfram Language

Procesamiento de texto y lenguaje

Frecuencia de nombre comunes en discursos

Use TextCases para extraer subcadenas de caracteres de una forma dada, por ejemplo verbos, así como países, correos electrónicos y muchas otras cosas.

Recupere un conjunto de datos de todos los discursos dados por los presidentes de EE.UU. durante las sesiones conjuntas con el Congreso de los Estados Unidos.

In[1]:=
Click for copyable input
data = ResourceData["State of the Union Addresses"];

Reduzca el tamaño del conjunto de datos conservando solamente los nombres de los presidentes, años de los discursos y los textos de los discursos.

In[2]:=
Click for copyable input
reduceddata = data[All, {"President", "Year", "Text"}];

Tome una muestra de discursos en intervalos de 10 años.

In[3]:=
Click for copyable input
years = Range[1965, 2015, 10]; speeches = Select[reduceddata, MemberQ[years, #Year] &]
Out[3]=

Use TextCases para identificar los sustantivos en cada discurso.

In[4]:=
Click for copyable input
nouns = TextCases[Normal@speeches[All, "Text"], "Noun"];

Cuente las instancias de todos los sustantivos distintos en cada discurso.

In[5]:=
Click for copyable input
freqnouns = Counts /@ nouns;

Ignore algunas palabras que son muy comunes en la mayoría de los años.

In[6]:=
Click for copyable input
freqnouns = KeyDrop[freqnouns, {"country", "people", "year", "years", "world"}];

Genere nubes de palabras mostrando la frecuencia de sustantivos en el tiempo.

muestre la entrada completa de Wolfram Language
In[7]:=
Click for copyable input
labels = Normal@ speeches[All, CommonName[#President] <> " " <> ToString[#Year] &]; WordCloud[freqnouns[[#]], PlotLabel -> labels[[#]]] & /@ Range[6]
Out[7]=

Ejemplos relacionados

de en fr ja ko pt-br ru zh