Закон Ципфа: Новое в системе Wolfram Language 11

Закон Ципфа

Закон Ципфа утверждает, что при рассмотрении всего состава языка частота слова обратно пропорциональна его порядковому номеру в полном списке слов, упорядоченному по убыванию частоты их использования. Данный пример демонстрирует закон для набора слов из романа Мигеля Сервантеса "Дон Кихот" с использованием новыx функций WordCount и WordCounts.

ExampleData содержит текст первого тома "Дон Кихота" на испанском языке.

In[1]:=

textSpanish = ExampleData[{"Text", "DonQuixoteISpanish"}];

Представленный здесь пример содержит более 180000 слов.

In[2]:=

WordCount[textSpanish]

Out[2]=

Подсчёты частоты употребления каждого определённого слова представлены в качестве ассоциации от WordCounts. Результат отсортирован по убыванию.

In[3]:=

association = WordCounts[textSpanish];

In[4]:=

Take[association, 10]

Out[4]=

Получите подсчёт частоты употребления 1000 наиболее распространённых слов.

In[5]:=

counts = Take[Values@association, 1000];

Для нахождения приблизительных подсчётов с помощью степенного закона используйте логарифмы в линейной согласованности. Закон Ципфа утверждает, что экспонента должна быть приблизительно равна , а результат должен быть близким этому значению.

In[6]:=

f[x_] = Fit[Log[Transpose[{Range[1000], counts}]], {1, x}, x]

Out[6]=

Визуализируйте согласованность с фактическими данными.

код на языке Wolfram Language целиком

In[7]:=

Show[
 ListLogLogPlot[counts, PlotStyle -> PointSize[0.02]],
 LogLogPlot[Exp[f[Log[x]]], {x, 1, 1000}, 
  PlotStyle -> Directive[DotDashed, Red]],
 AspectRatio -> 1,
 PlotRange -> All
 ]

Out[7]=

Закон Ципфа имеет силу в любом языке, поэтому данные вычисления возможны и с англоязычной версией "Дон Кихота".

In[8]:=

textEnglish = ExampleData[{"Text", "DonQuixoteIEnglish"}];

In[9]:=

associationEnglish = WordCounts[textEnglish];
countsEnglish = Take[Values@associationEnglish, 1000];

In[10]:=

Take[associationEnglish, 10]

Out[10]=

И снова найденная экспонента приближена к .

In[11]:=

Fit[Log[Transpose[{Range[1000], countsEnglish}]], {1, x}, x]

Out[11]=

Родственные примеры

Гибкая обработка строк

Декомпозиция строк

Палиндромы

Частота повтора букв по сравнению с частотой повтора первых букв

Положение букв в алфавитах

Изучение символов

Вычисления с многоязычными списками слов

Закон Ципфа

Определения частей речи

Генерирование и проверка основ слов

Шерлок против Ватсона

Частота употребления слова во времени

Частота употребления нарицательных существительных в речах

Нахождение названий стран в текстах

Изучение структуры текста

Сравните структуру предложений

Определение грамматических правил

Создание калькулятора естественного языка

Создание гибкого калькулятора с использованием бесконтекстной грамматики

Запрос в базу данных Wolfram при использовании естественного языка