Fréquence des noms communs dans les discours
Utilisez TextCases pour extraire des sous-chaînes d'une forme donnée, par exemple des noms ou des verbes, ainsi que des pays, des adresses e-mail et bien d'autres choses.
Récupérez un jeu de données contenant tous les discours prononcés par les présidents américains lors des réunions conjointes du Congrès des États-Unis.
data = ResourceData["State of the Union Addresses"];
Réduisez la taille du jeu de données en ne conservant que les noms des présidents, les années des discours et les textes des discours.
reduceddata = data[All, {"President", "Year", "Text"}];
Prenez un échantillon des discours à des intervalles de 10 ans.
years = Range[1965, 2015, 10];
speeches = Select[reduceddata, MemberQ[years, #Year] &]
Utilisez TextCases pour identifier les noms dans chaque discours.
nouns = TextCases[Normal@speeches[All, "Text"], "Noun"];
Comptez les occurrences de tous les noms distincts dans chaque discours.
freqnouns = Counts /@ nouns;
Ignorez certains mots qui sont très courants dans la plupart des années.
freqnouns =
KeyDrop[freqnouns, {"country", "people", "year", "years", "world"}];
Générez des nuages de mots indiquant la fréquence des noms à travers le temps.