Wolfram Language

Processamento de texto e linguagem

Frequência de substantivos comuns nos discursos

Use TextCases para extrair subcadeia de caracteres em um dado formato, por exemplo substantivos ou verbos, assim como países, endereços de e-mail, e muitas outras coisas.

Extraia um conjunto de dados de todos os discursos feitos pelo presidente dos Estado Unidos durante sessões conjuntas com o Congresso dos Estados Unidos.

In[1]:=
Click for copyable input
data = ResourceData["State of the Union Addresses"];

Reduza o tamanho do conjunto de dados matendo apenas os nomes dos presidentes, anos dos discursos, e o texto dos discursos.

In[2]:=
Click for copyable input
reduceddata = data[All, {"President", "Year", "Text"}];

Pegue uma amostra de discursos num intervalo de 10 anos.

In[3]:=
Click for copyable input
years = Range[1965, 2015, 10]; speeches = Select[reduceddata, MemberQ[years, #Year] &]
Out[3]=

Use TextCases para identificar os substantivos em cada discurso.

In[4]:=
Click for copyable input
nouns = TextCases[Normal@speeches[All, "Text"], "Noun"];

Conte a ocorrência de todos os substantivos distintos em cada discurso.

In[5]:=
Click for copyable input
freqnouns = Counts /@ nouns;

Ignore algumas palavras que são muito comuns na maioria dos anos.

In[6]:=
Click for copyable input
freqnouns = KeyDrop[freqnouns, {"country", "people", "year", "years", "world"}];

Crie uma nuvem de palavras mostrando a frequencia dos substantivos ao longo to tempo.

mostre o input completo da Wolfram Language
In[7]:=
Click for copyable input
labels = Normal@ speeches[All, CommonName[#President] <> " " <> ToString[#Year] &]; WordCloud[freqnouns[[#]], PlotLabel -> labels[[#]]] & /@ Range[6]
Out[7]=

Exemplos Relacionados

de en es fr ja ko ru zh