Satzstrukturen aus einem großen Korpus aggregieren
Mit der Wolfram Language ist es möglich, große Datensätze im Handumdrehen zu analysieren. Dieses Beispiel verwendet ExtendedEntityClass, um die grammatikalische Struktur von über einer Million Sätzen aus den Beiträgen auf der Website english.stackexchange.com zu extrahieren und zu untersuchen.
Importieren Sie einen EntityStore, den Sie aus english.stackexchange.com erstellt haben.
Registrieren Sie den Store zur Verwendung in EntityValue.
Finden Sie in den Beiträgen, die mit "single-word-requests" klassifiziert sind, die 50 häufigsten zitierten, kursiv geschriebenen, fett geschriebenen oder verlinkten Wörter und machen Sie aus den Ergebnissen eine Word Cloud.
Sie können auch die Satzstrukturen untersuchen, die in Beiträgen der Webseite verwendet werden. Beginnen Sie damit, den Entitätstyp "Post" um eine Eigenschaft zu erweitern, damit einfache Sätze extrahiert werden können.
Benutzen Sie diese neue Eigenschaft, um über eine Million Sätze aus den Beiträgen zu extrahieren.
Finden Sie die Wörter in jedem Satz, da diese durch Leerzeichen oder Satzzeichen getrennt sind.
Es wird einem Journal-Artikel zufolge vermutet, dass die Wortzahl pro Satz in Prosatexten log-normalverteilt ist. Verwenden Sie FindDistributionParameters, um passende Parameter für die Verteilung von Wörtern in jedem Satz des Korpus zu finden und zum Vergleich zusammenzustellen.
Finden Sie heraus, wie oft jedes einzelne Wort vorkommt.
Verwenden Sie DeleteStopwords, um den Datensatz zu bereinigen.
Visualisieren Sie die bereinigten Wortzahlen in einer doppelt logarithmischen Darstellung.
Beschränken Sie sich auf die fünzig häufigsten Wörter. Mit Callout können Sie die einzelnen Wörter anschauen.
Analysieren Sie alle Sätze im Korpus mit TextStructure und hängen Sie die Ergebnisse an eine Datei an, sobald sie fertig sind. Beachten Sie, dass dieser Prozess sehr lange dauert und mehrere Tage dauern kann.
Lesen Sie die Daten aus der Datei ein.
Schauen Sie sich ein konkretes Beispiel an.
Erstellen Sie eine Funktion, um die Kernstruktur eines Satzes zu extrahieren.
Extrahieren Sie die Kernstruktur aller Sätze.
Finden Sie alle grammatikalischen Einheiten in den Daten und wie oft sie vorkommen.
Finden Sie Transition-Counts für jedes aufeinanderfolgende Paar von Einheiten.
Hier ist die Anzahl der Übergänge zwischen Substantiven und Präpositionen.
Visualisieren Sie mit MatrixPlot, wie häufig jeder Übergang erfolgt.
Gruppieren Sie Sätze mit derselben Struktur.
Visualisieren Sie die gebräuchlichsten Satzstrukturen in einem Plot.
Schauen Sie sich Beispielsätze für einige interessante Strukturen an.
Erstellen Sie ein Netzwerk aus einigen der gängigsten Satzstrukturen und verbinden Sie zwei Strukturen, wenn sie eine Eltern-Kind-Beziehung haben, durch Einfügen einer Grammatik-Einheit.