Изучение характеристик языков, алфавитов и письменностей
Версия 11 предоставляет доступ к обширному встроенному знанию о языках, письменностях и алфавитах.
Различные языки могут разделять одну и ту же письменность (письменную систему), но в то же время использовать разные алфавитные знаки. Данный пример демонстрирует большое разнообразие в количестве письменных знаков в языках, которые используют латиницу.
Составить список алфавитов, которые используют латиницу.
alphabets =
EntityList[
EntityClass["Alphabet",
"WritingScripts" -> Entity["WritingScript", "Latin::6tr5q"]]];
Length[alphabets]
Всего 131 таких алфавита. Показать некоторые из них.
RandomSample[alphabets, 15]
Создать ассоциацию, содержащую список всех знаков каждого алфавита.
letters =
EntityValue[alphabets, "CommonAlphabet", "EntityAssociation"];
Самый короткий алфавит, могавк, содержит всего 12 букв.
letters[Entity["Alphabet", "Mohawk::p8wq4"]]
Самый длинный алфавит, словацкий, содержит 46 букв.
letters[Entity["Alphabet", "Slovak::kj62d"]]
Данная гистограмма показывает, что самая частая длина алфавита - 26 букв, как, например, в английском языке, хотя не все алфавиты с 26 буквами имеют одинаковые буквы.
Histogram[Length /@ letters, 30]
Сосчитать, сколько алфавитов содержат заданную букву. Только три буквы присутствуют во всех 131 алфавитах, а именно a, i, n.
TakeLargest[Counts[Flatten[Values[letters]]], 10]
В языке могавк нет буквы m, а гавайский язык является единственным, в котором нет буквы t.
letters[Entity["Alphabet", "Hawaiian::p38r5"]]