Agrégez les structures de phrases d'un grand corpus
Avec Wolfram Language, il est possible d'analyser facilement de larges jeux de données. Cet exemple utilise ExtendedEntityClass pour extraire et étudier la structure grammaticale de plus d'un million de phrases sur les articles du site english.stackexchange.com.
Importez un EntityStore créé à partir d'english.stackexchange.com.
Enregistrez le stock pour l'utiliser dans EntityValue.
Pour les articles classés avec le tag "single-word-requests", recherchez les 50 mots les plus fréquemment cités, en italique, en gras ou liés et créez un nuage de mots avec les résultats.
Vous pouvez explorer le site à plus grande échelle en examinant les structures de phrases utilisées dans les articles. Commencez par étendre le type d'entité de l'article avec une propriété pour extraire des phrases simples.
Utilisez la nouvelle propriété pour extraire plus d'un million de phrases de ces articles.
Recherchez les mots de chaque phrase en les séparant par des espaces ou des signes de ponctuation.
Le nombre de mots par phrase écrite en prose a été conjecturé pour suivre une distribution logarithmique normale, selon un article de journal. Utilisez FindDistributionParameters pour trouver les paramètres d'ajustement pour la distribution des mots dans chaque phrase du corpus et représentez-les sur un graphique pour faire une comparaison.
Déterminez la fréquence à laquelle chaque mot apparaît.
Utilisez DeleteStopwords pour nettoyer le jeu de données.
Visualisez le nombre de mots nettoyés dans un graphique logarithmique.
Concentrez-vous sur les 50 premiers mots, en utilisant Callout pour afficher les mots individuellement.
Analysez toutes les phrases du corpus avec TextStructure, en ajoutant les résultats à un fichier dès qu'ils sont terminés. Remarquez que ce processus prend beaucoup de temps et peut durer plusieurs jours.
Lisez les données du fichier.
Prenons un exemple précis.
Créez une fonction pour extraire la structure de base d'une phrase.
Extrayez la structure de base de toutes les phrases.
Recherchez toutes les unités grammaticales dans les données et la fréquence à laquelle elles apparaissent.
Recherchez le nombre de transitions pour chaque paire d'unités consécutives.
Voici le nombre de transitions entre les noms et les prépositions.
Visualisez à quelle fréquence chaque transition se produit avec MatrixPlot.
Regroupez les phrases de la même structure.
Visualisez les structures de phrases les plus courantes dans une représentation graphique.
Regardez les exemples de phrases correspondant à quelques structures intéressantes.
Créez un réseau de certaines des structures de phrases les plus courantes, en reliant deux structures si elles partagent une relation parent-enfant grâce à l'insertion d'une unité grammaticale.