Частота употребления нарицательных существительных в речах: Новое в системе Wolfram Language 11

Частота употребления нарицательных существительных в речах

Используйте TextCases для получения подстрок для заданной формы, например, существительного или глагола, а также стран, электронных адресов и многого другого.

Получите набор данных о всех речах президентов США, произнесённых во время совместных заседаний Конгресса Соединённых Штатов.

In[1]:=

data = ResourceData["State of the Union Addresses"];

Уменьшите размер данных, сохранив только имена президентов, год речей и их текст.

In[2]:=

reduceddata = data[All, {"President", "Year", "Text"}];

Возьмите случайные речи с 10-летним промежутком.

In[3]:=

years = Range[1965, 2015, 10];
speeches = Select[reduceddata, MemberQ[years, #Year] &]

Out[3]=

Используйте TextCases для определения существительных в каждой речи.

In[4]:=

nouns = TextCases[Normal@speeches[All, "Text"], "Noun"];

Посчитайте наличие всех явственных существительных в каждой речи.

In[5]:=

freqnouns = Counts /@ nouns;

Не принимайте в расчёт слова, которые имели частое употребление в большинстве годов.

In[6]:=

freqnouns = 
  KeyDrop[freqnouns, {"country", "people", "year", "years", "world"}];

Сгенерируйте словарные облака, демонстрирующие частоту употребления существительных во времени.

код на языке Wolfram Language целиком

In[7]:=

labels = Normal@
   speeches[All, CommonName[#President] <> " " <> ToString[#Year] &];
WordCloud[freqnouns[[#]], PlotLabel -> labels[[#]]] & /@ Range[6]

Out[7]=