Prawo Zipfa

Prawo Zipfa to prawo empiryczne, sformułowane na podstawie statystyki matematycznej, nazwane na cześć lingwisty George'a Kingsleya Zipfa, który jako pierwszy zaproponował to prawo.

Prawo Zipf stanowi, że przy dużej próbie użytych słów, częstotliwość występowania każdego słowa jest odwrotnie proporcjonalna do jego rangi w tabeli częstotliwości. Tak więc słowo numer n ma częstotliwość proporcjonalną do 1/n.

Tak więc najczęściej pojawiające się słowo będzie pojawiać się około dwa razy częściej niż drugie, trzy razy częściej niż trzecie najczęściej pojawiające się słowo, itp. Na przykład, w jednej z prób słów w języku angielskim, najczęściej występujące słowo "the" stanowi prawie 7% wszystkich słów (69.971 z nieco ponad 1 miliona). Zgodnie z Prawem Zipfa, drugie miejsce wśród słów "z" stanowi nieco ponad 3,5% (36 411 wystąpień), a następne jest "i" (28 852). Tylko około 135 słów wystarcza, aby stanowić połowę próby słów w dużej próbie.

Ta sama zależność występuje w wielu innych rankingach, niezwiązanych z językiem, jak np. rankingi ludności miast w różnych krajach, wielkości korporacji, rankingi dochodów itp. Pojawienie się rozkładu w rankingach miast według ludności po raz pierwszy zauważył Felix Auerbach w 1913 roku.

Nie wiadomo, dlaczego prawo Zipfa obowiązuje dla większości języków.


AlegsaOnline.com - 2020 / 2022 - License CC3