Rozkład częstości: definicja, przedziały, tabela i praktyczne przykłady

Rozkład częstości: praktyczny przewodnik po definicji, przedziałach, tworzeniu tabel i przykładach — naucz się interpretować dane statystyczne krok po kroku.

Autor: Leandro Alegsa

W statystyce, rozkład częstości jest listą wartości, które zmienna przyjmuje w próbce. Zazwyczaj jest to lista uporządkowana według ilości. Pokazuje on liczbę wystąpień każdej wartości. Na przykład, jeśli 100 osób oceni pięciopunktową skalę Likerta, oceniającą ich zgodę z pewnym stwierdzeniem na skali, na której 1 oznacza zdecydowaną zgodę, a 5 zdecydowaną niezgodę, rozkład częstości ich odpowiedzi może wyglądać następująco:

Ocena (skala 1–5)Częstość (f)Częstość względna (f/n)Procent
1100,1010%
2200,2020%
3300,3030%
4250,2525%
5150,1515%
Razem100100%

Ta prosta tabela ma dwie wady. Gdy zmienna może przyjmować wartości ciągłe zamiast dyskretnych lub gdy liczba możliwych wartości jest zbyt duża, konstrukcja tabeli jest trudna, jeśli nie niemożliwa. W takich przypadkach stosuje się nieco inny schemat oparty na przedziałach wartości. Na przykład, jeśli weźmiemy pod uwagę wzrost uczniów w pewnej klasie, tabela częstości może wyglądać jak poniżej.

Przedział wzrostu (cm)Częstość (f)Środek przedziału (m)Cz. względnaCz. skumulowana
150–15451520,055
155–159121570,1217
160–164201620,2037
165–169301670,3067
170–174231720,2390
175–179101770,10100
Razem1001,00100

Rodzaje rozkładów częstości

  • Częstość bezwzględna (f) — liczba obserwacji mających daną wartość lub należących do danego przedziału.
  • Częstość względna — f podzielone przez n (liczebność próby). Często wyrażana jako ułamek lub procent.
  • Częstość skumulowana (F) — suma częstości dla wszystkich wartości mniejszych lub równych danej; przydatna do odczytu kwartylów i mediany.
  • Częstość procentowa — częstość względna pomnożona przez 100%.

Przedziały klasowe — jak je tworzyć

  • Gdy wartości są ciągłe lub liczba różnych wartości jest duża, dzieli się zakres danych na równe przedziały (klasy). Dla każdej klasy oblicza się częstość.
  • Na ogół wybiera się liczbę klas k w sposób rozsądny — zbyt mała k ukryje szczegóły, zbyt duża uczyni tabelę nieczytelną. Dwie popularne zasady:
    • Reguła Sturgesa: k ≈ 1 + 3,322 log10(n). (Dobre przy umiarkowanych próbkach.)
    • Alternatywnie: k ≈ sqrt(n). (Prosta reguła przy dużych próbkach.)
  • Szerokość klasy obliczamy zwykle jako w ≈ (max − min) / k i zaokrąglamy do wygodnej wartości (np. 1, 2, 5, 10).
  • Zalecane są klasy o równej szerokości; granice przedziałów należy ustalić tak, aby nie występowały luki ani nakładanie się (np. 150–154, 155–159 itd.).
  • Dla danych miarowych ważne jest rozróżnienie między przedziałami zamkniętymi/otwartymi i granicami korygowanymi (granice rzeczywiste), szczególnie przy rysowaniu histogramu.

Obliczenia przy rozkładzie grupowanym

  • Środek przedziału (m) = (dolna granica + górna granica) / 2 — wykorzystywany do estymacji miar położenia.
  • Przybliżona średnia z danych grupowanych: średnia ≈ (Σ m_i·f_i) / n, gdzie m_i to środek i-tego przedziału.
  • Przybliżenie wariancji i odchylenia standardowego również można obliczyć na podstawie środków klasowych (stosuje się formuły klasyczne dla danych z wagami f_i).

W naszym przykładzie z wysokościami obliczamy średnią przybliżoną:

  • Σ m_i·f_i = 5·152 + 12·157 + 20·162 + 30·167 + 23·172 + 10·177 = 16 620
  • Średnia ≈ 16 620 / 100 = 166,2 cm

Wykresy i interpretacja

  • Histogram — wykres słupkowy dla danych grupowanych; wysokość słupka odpowiada częstości (lub częstości względnej) klasy. Przy zmiennych ciągłych słupki stykają się.
  • Wykres częstości skumulowanej (ogive) — przydatny do odczytu mediany i kwartyli.
  • Dla zmiennych dyskretnych (np. skala Likerta) zwykle używa się wykresu słupkowego z oddzielonymi słupkami.

Praktyczne wskazówki

  • Przy małych próbkach lepiej pokazywać listę wartości i bezpośrednie częstości niż grupowanie.
  • Przy grupowaniu wybieraj sensowny poziom zaokrąglenia granic, by tabele były czytelne.
  • Podawaj zarówno częstości bezwzględne, jak i względne — to ułatwia porównania między próbkami o różnych rozmiarach.
  • Histogram i tabela rozkładu częstości to podstawowe narzędzia eksploracji danych — pozwalają rozpoznać symetrię, skośność, outliery i przybliżyć miary tendencji centralnej.

W praktyce tabele częstości i histogramy łatwo tworzyć w programach takich jak Excel, R czy Python (biblioteki pandas/matplotlib), które automatyzują obliczanie klas i rysowanie wykresów.

Przykład rozkładu częstości (bezwzględnej). To jest piramida ludności Angoli, dla roku 2005.Zoom
Przykład rozkładu częstości (bezwzględnej). To jest piramida ludności Angoli, dla roku 2005.

To jest piramida ludności Chin na rok 2005.Zoom
To jest piramida ludności Chin na rok 2005.

Aplikacje

Zarządzanie i operowanie na danych tabelarycznych jest znacznie prostsze niż operowanie na danych surowych. Istnieją proste algorytmy do obliczania mediany, średniej (statystyki), odchylenia standardowego itp. z tych tabel.

Testowanie hipotez statystycznych opiera się na ocenie różnic i podobieństw między rozkładami częstotliwości. Ocena ta obejmuje miary tendencji centralnej lub średnie, takie jak średnia i mediana, oraz miary zmienności lub rozproszenia statystycznego, takie jak odchylenie standardowe lub wariancja.

Mówi się, że rozkład częstości jest skośny, gdy jego średnia i mediana są różne. Kurtoza rozkładu częstości jest koncentracją wyników przy średniej, lub jak szczytowy wydaje się rozkład, jeśli przedstawiony graficznie - na przykład w histogramie. Jeśli rozkład jest bardziej spiczasty niż rozkład normalny, mówi się, że jest leptokurtyczny; jeśli jest mniej spiczasty, mówi się, że jest platykurtyczny.

Rozkłady częstotliwości są również wykorzystywane w analizie częstotliwości do łamania kodów i odnoszą się do względnej częstotliwości występowania liter w różnych językach.

Pytania i odpowiedzi

P: Co to jest rozkład częstotliwości?


O: Rozkład częstotliwości to lista wartości, jakie przyjmuje zmienna w próbie, uporządkowana według ilości. Pokazuje, ile razy pojawia się każda wartość.

P: Jak może wyglądać rozkład częstotliwości odpowiedzi na pięciopunktowej skali Likerta?


O: Rozkład częstości odpowiedzi w pięciopunktowej skali Likerta może wyglądać jak prosta tabela pokazująca liczbę osób, które oceniły każdy punkt na skali.

P: Jakie są dwie wady korzystania z tego typu tabeli?


O: Dwie wady stosowania tego typu tabel to fakt, że może to być trudne lub wręcz niemożliwe, gdy mamy do czynienia z wartościami ciągłymi lub gdy jest zbyt wiele możliwych wartości.

P: Czym różni się ten schemat, gdy mamy do czynienia z wartościami ciągłymi lub dużą liczbą możliwych wartości?


O: Gdy mamy do czynienia z wartościami ciągłymi lub dużą liczbą możliwych wartości, można zastosować nieco inny schemat oparty na zakresie wartości.

P: Jak może wyglądać tabela częstotliwości dla wzrostu uczniów?


O: Tabela częstotliwości dla wzrostu uczniów może pokazywać przedziały i liczbę uczniów w każdym przedziale.


P: Jakich informacji dostarcza rozkład częstotliwości?


O: Rozkład częstotliwości dostarcza informacji o tym, jak często pewne zmienne pojawiają się w próbach i jak są rozmieszczone w tych próbach.


Przeszukaj encyklopedię
AlegsaOnline.com - 2020 / 2025 - License CC3