Wolfram Language

Agrégez les structures de phrases d'un grand corpus

Avec Wolfram Language, il est possible d'analyser facilement de larges jeux de données. Cet exemple utilise ExtendedEntityClass pour extraire et étudier la structure grammaticale de plus d'un million de phrases sur les articles du site english.stackexchange.com.

Importez un EntityStore créé à partir d'english.stackexchange.com.

Enregistrez le stock pour l'utiliser dans EntityValue.

Pour les articles classés avec le tag "single-word-requests", recherchez les 50 mots les plus fréquemment cités, en italique, en gras ou liés et créez un nuage de mots avec les résultats.

Montrer l'entrée complète de Wolfram Language

Vous pouvez explorer le site à plus grande échelle en examinant les structures de phrases utilisées dans les articles. Commencez par étendre le type d'entité de l'article avec une propriété pour extraire des phrases simples.

Montrer l'entrée complète de Wolfram Language

Utilisez la nouvelle propriété pour extraire plus d'un million de phrases de ces articles.

Recherchez les mots de chaque phrase en les séparant par des espaces ou des signes de ponctuation.

Le nombre de mots par phrase écrite en prose a été conjecturé pour suivre une distribution logarithmique normale, selon un article de journal. Utilisez FindDistributionParameters pour trouver les paramètres d'ajustement pour la distribution des mots dans chaque phrase du corpus et représentez-les sur un graphique pour faire une comparaison.

Montrer l'entrée complète de Wolfram Language

Déterminez la fréquence à laquelle chaque mot apparaît.

Utilisez DeleteStopwords pour nettoyer le jeu de données.

Visualisez le nombre de mots nettoyés dans un graphique logarithmique.

Concentrez-vous sur les 50 premiers mots, en utilisant Callout pour afficher les mots individuellement.

Analysez toutes les phrases du corpus avec TextStructure, en ajoutant les résultats à un fichier dès qu'ils sont terminés. Remarquez que ce processus prend beaucoup de temps et peut durer plusieurs jours.

Lisez les données du fichier.

Prenons un exemple précis.

Créez une fonction pour extraire la structure de base d'une phrase.

Montrer l'entrée complète de Wolfram Language

Extrayez la structure de base de toutes les phrases.

Recherchez toutes les unités grammaticales dans les données et la fréquence à laquelle elles apparaissent.

Recherchez le nombre de transitions pour chaque paire d'unités consécutives.

Voici le nombre de transitions entre les noms et les prépositions.

Visualisez à quelle fréquence chaque transition se produit avec MatrixPlot.

Montrer l'entrée complète de Wolfram Language

Regroupez les phrases de la même structure.

Visualisez les structures de phrases les plus courantes dans une représentation graphique.

Montrer l'entrée complète de Wolfram Language

Regardez les exemples de phrases correspondant à quelques structures intéressantes.

Montrer l'entrée complète de Wolfram Language

Créez un réseau de certaines des structures de phrases les plus courantes, en reliant deux structures si elles partagent une relation parent-enfant grâce à l'insertion d'une unité grammaticale.

Montrer l'entrée complète de Wolfram Language

Exemples connexes

de en es ja ko pt-br zh