Язык Wolfram Language

Обработка текста и языка

Частота употребления нарицательных существительных в речах

Используйте TextCases для получения подстрок для заданной формы, например, существительного или глагола, а также стран, электронных адресов и многого другого.

Получите набор данных о всех речах президентов США, произнесённых во время совместных заседаний Конгресса Соединённых Штатов.

In[1]:=
Click for copyable input
data = ResourceData["State of the Union Addresses"];

Уменьшите размер данных, сохранив только имена президентов, год речей и их текст.

In[2]:=
Click for copyable input
reduceddata = data[All, {"President", "Year", "Text"}];

Возьмите случайные речи с 10-летним промежутком.

In[3]:=
Click for copyable input
years = Range[1965, 2015, 10]; speeches = Select[reduceddata, MemberQ[years, #Year] &]
Out[3]=

Используйте TextCases для определения существительных в каждой речи.

In[4]:=
Click for copyable input
nouns = TextCases[Normal@speeches[All, "Text"], "Noun"];

Посчитайте наличие всех явственных существительных в каждой речи.

In[5]:=
Click for copyable input
freqnouns = Counts /@ nouns;

Не принимайте в расчёт слова, которые имели частое употребление в большинстве годов.

In[6]:=
Click for copyable input
freqnouns = KeyDrop[freqnouns, {"country", "people", "year", "years", "world"}];

Сгенерируйте словарные облака, демонстрирующие частоту употребления существительных во времени.

код на языке Wolfram Language целиком
In[7]:=
Click for copyable input
labels = Normal@ speeches[All, CommonName[#President] <> " " <> ToString[#Year] &]; WordCloud[freqnouns[[#]], PlotLabel -> labels[[#]]] & /@ Range[6]
Out[7]=

Родственные примеры

de en es fr ja ko pt-br zh