Wolfram Language

Großschreibung von Wörtern

Capitalize enthält nun eine Reihe von Modellen zur Großschreibung von Wörtern, die auf Texteingaben angewendet werden können.

Jedes Modell verwendet unterschiedliche Heuristiken, um festzustellen, ob ein bestimmtes Wort großgeschrieben werden soll.

Den kompletten Wolfram Language-Input zeigen

Die Großschreibungsoption "TitleCase" verwendet das Chicago Manual of Style als Grundlage und berücksichtigt die Wortposition und die Wortart.

Dieses Großschreibungsschema ist weit verbreitet und entspricht der Schreibweise vieler englischsprachiger Buchtitel. Dieses Schema kann beispielsweise mit der Schreibweise verglichen werden, die in Buchtiteln wie jener der Reihe Nancy Drew Mystery Stories verwendet wird.

ToLowerCase kann verwendet werden, um sicherzustellen, dass alle Wörter aus einer Folge kleingeschriebener Wörter großgeschrieben werden.

EditDistance kann dann die Groß-/Kleinschreibung des Originalwerks mit der großgeschriebenen Variante vergleichen und gibt eine ganze Zahl zurück, die die Anzahl der Zeichenunterschiede zwischen den beiden angibt.

Es gibt 170 Fälle von Bearbeitungunterschied 0 und 5 Fälle von Bearbeitungunterschied 1.

Wenn man die Titel auswählt, die nicht perfekt übereinstimmen, kann man mit Style den Unterschied in der Groß-/Kleinschreibung zwischen den beiden hervorheben.

In diesem Fall gibt es geringfügige Unterschiede in der Groß- und Kleinschreibung, da der Originaltitel bestimmte kurze Wörter großgeschrieben hat, sowie eine andere Groß- und Kleinschreibung von "E-Mail."

Dieselbe Idee kann auf einen größeren Korpus von Büchern verwendet werden, die beispielsweise zwischen 1990 und 2000 veröffentlicht wurden.

Verwenden Sie eine logarithmische vertikale Achse, um alle Ergebnisse zu visualisieren.

Auch hier stimmt die Groß-/Kleinschreibung ziemlich genau überein, und wenn man die Fälle mit der größten Anzahl von Unterschieden auswählt, sieht man, dass diese typischerweise entweder durch eine ungewöhnliche Groß-/Kleinschreibung oder durch den ursprünglichen Titel verursacht werden, der bestimmte Kurzwörter gegen die Konvention kapitalisiert.

Verwandte Beispiele

en es fr ja ko pt-br zh