Histogram: definicja, budowa i zastosowania w statystyce
Histogram — definicja, budowa i zastosowania w statystyce. Praktyczny przewodnik: jak czytać, tworzyć wykresy rozkładu danych i interpretować wyniki.
Histogram jest pojęciem z dziedziny statystyki. Jest to graficzny wyświetlacz, który mówi nam o dystrybucji danych próbek. Zazwyczaj jest to obraz utworzony na podstawie tabeli z wieloma kategoriami. Tabela mówi, ile próbek jest w każdej kategorii.
Słowo histogram pochodzi od histos i gramma w języku greckim. Histos oznacza sieć lub maszt. Gramma oznacza rysunek, zapis lub pismo. Histogram czegoś jest więc, etymologicznie rzecz ujmując, rysunkiem sieci tego czegoś.
Co to jest histogram — rozszerzona definicja
Histogram to wykres składający się z sąsiadujących słupków (przedziałów) przedstawiających liczbę obserwacji (częstość) przypadającą na dany przedział wartości zmiennej. Stosuje się go najczęściej do danych ilościowych (ciągłych lub dyskretnych), aby zobrazować kształt rozkładu — np. symetrię, skośność, wielomodalność czy obecność wartości odstających.
Budowa histogramu
- Przedziały (biny) — zakresy wartości, na które dzielimy oś wartości. Mogą mieć jednakową szerokość lub różną; wybór wpływa na wygląd wykresu.
- Wysokość słupka — zwykle reprezentuje liczbę obserwacji w danym przedziale (częstość) lub gęstość (gdy histogram jest znormalizowany, tak aby całkowita powierzchnia słupków równała się 1).
- Krawędzie przedziałów — ważne jest, by określić, czy brane są przedziały domknięte z lewej czy prawej strony (np. [a,b) vs (a,b]). Niejednoznaczność może prowadzić do różnic w przypisaniu obserwacji do binów.
- Oś pozioma (x) — wartości zmiennej; oś pionowa (y) — częstotliwości lub gęstość.
Jak zbudować histogram — krok po kroku
- Zgromadź dane liczbowo.
- Określ zakres wartości (min, max).
- Wybierz liczbę binów lub szerokość przedziału.
- Podziel zakres na przedziały i policz obserwacje w każdym przedziale.
- Narysuj słupki o wysokości równej liczbie obserwacji (lub gęstości).
Wybór liczby binów — zasady i reguły
Wybór liczby przedziałów ma duży wpływ na interpretację danych. Kilka popularnych reguł:
- Reguła Sturgesa — liczba binów ≈ log2(n) + 1 (dobra dla danych bliskich rozkładowi normalnemu i mniejszych prób).
- Reguła Scotta — oparta na odchyleniu standardowym; dąży do optymalizacji obciążenia estymatora gęstości.
- Freedman–Diaconis — zależna od rozstępu międzykwartylowego (IQR): szerokość binu = 2·IQR·n^(−1/3). Daje odporność na wartości odstające.
W praktyce warto porównać kilka ustawień binów, aby upewnić się, że wnioski nie są artefaktem wyboru przedziałów.
Interpretacja histogramu
- Sprawdzanie kształtu rozkładu: symetria, skośność (lewo- lub prawoskośność), wielomodalność (więcej niż jeden szczyt).
- Wykrywanie wartości odstających oraz nietypowych przerw w rozkładzie.
- Ocena koncentracji obserwacji — gdzie leży większość danych (moda, mediany).
- Porównywanie rozkładów — przy porównaniu dwóch zestawów danych używa się tych samych binów, żeby porównanie było rzetelne.
Normalizacja i gęstość
Histogram może przedstawiać:
- Częstości — liczba obserwacji w każdym binie.
- Procenty — częstości przeliczone na wartość procentową całości.
- Gęstość (probability density) — wysokości słupków tak dobrane, aby całkowita powierzchnia słupków równała się 1; wtedy wysokość jest estymatorem gęstości prawdopodobieństwa i należy ostrożnie interpretować ją jako przybliżenie wartości gęstości (nie bezpośrednio „prawdopodobieństwa” dla pojedynczej wartości).
Histogram a wykres słupkowy (bar chart)
Choć oba wykresy wyglądają podobnie, różnica jest istotna:
- Histogram — używany dla danych ilościowych; słupki przylegają do siebie, bo przedziały są uporządkowane i ciągłe.
- Wykres słupkowy — używany dla zmiennych kategorycznych; słupki są oddzielone, a kategorie nie mają naturalnego porządku (chyba że jest narzucony).
Ograniczenia histogramu i alternatywy
- Sensytywność na szerokość i pozycję binów — różne ustawienia mogą prowadzić do różnych wniosków.
- Utrata informacji — agregacja w przedziały zlewa szczegóły rozkładu.
- Alternatywy: wykres gęstości jądrowej (kernel density estimate, KDE), wykres pudełkowy (boxplot), wykresy empirycznej funkcji rozkładu (ECDF) — wszystkie pomagają uzupełnić informacje z histogramu.
Zastosowania w statystyce i analizie danych
- Eksploracja danych (EDA) — szybkie poznanie kształtu rozkładu.
- Wykrywanie odchyleń od założeń modelu (np. normalności reszt w regresji).
- Porównywanie rozkładów między grupami (np. testy wizualne przed zastosowaniem testów statystycznych).
- Prezentacja wyników w raportach, artykułach i na wykresach interaktywnych.
Praktyczne wskazówki
- Podawaj informację, czy słupki przedstawiają częstości czy gęstość.
- Oznacz osie (skala, jednostki) i liczbę binów.
- Przy porównywaniu rozkładów używaj tej samej siatki binów.
- Jeśli dane mają outliery, rozważ regułę Freedman–Diaconis lub użyj transformacji (np. log) przed budową histogramu.
- W narzędziach typu R i Python: sprawdzaj domyślne ustawienia binów i eksperymentuj. Przykładowe funkcje: R: hist(), ggplot2::geom_histogram(); Python: matplotlib.pyplot.hist(), seaborn.histplot().
Krótki przykład
Mamy 100 pomiarów w zakresie od 0 do 50. Jeśli wybierzemy 5 binów o równej szerokości, każdy bin będzie miał szerokość 10 (0–10, 10–20, …). Dla każdego z tych przedziałów liczymy ile obserwacji do niego należy i rysujemy słupki — tak powstaje histogram. Jeśli zamiast liczby obserwacji chcemy gęstość, dzielimy wysokość każdego słupka przez szerokość binu i łączną liczbę obserwacji, tak aby suma pól słupków wynosiła 1.
Podsumowanie
Histogram to podstawowe i bardzo przydatne narzędzie w statystyce opisowej i eksploracyjnej. Pozwala szybko zobaczyć strukturę danych, wykryć anomalia i kształt rozkładu. Jednocześnie wymaga ostrożności przy wyborze parametrów (liczba i położenie binów) oraz uzupełnienia analiz innymi wykresami i miarami statystycznymi.

Przykład histogramu 100 wartości losowych o rozkładzie normalnym
Podobne pomysły
Histogram jest jednym z siedmiu podstawowych narzędzi kontroli jakości, do których należą również: wykres Pareto, arkusz kontrolny, wykres kontrolny, diagram przyczynowo-skutkowy, diagram przepływu oraz diagram rozrzutu.
Uogólnieniem histogramu jest technika wygładzania jądra. Pozwoli to na skonstruowanie gładkiej funkcji gęstości prawdopodobieństwa z dostarczonych danych.
Pytania i odpowiedzi
P: Co to jest histogram?
O: Histogram to wykres, który informuje nas o rozkładzie danych próbek.
P: Jaki jest cel histogramu?
O: Celem histogramu jest pokazanie rozkładu danych próbek.
P: Co oznacza słowo histogram?
Słowo histogram pochodzi od greckich słów histos i gramma. Histos oznacza sieć lub maszt. Gramma oznacza rysunek, zapis lub pismo.
P: Co oznacza termin "histos" w języku greckim?
O: Termin "histos" oznacza w języku greckim sieć lub maszt.
P: Co oznacza termin "gramma" w języku greckim?
O: Termin "gramma" oznacza w języku greckim rysunek, zapis lub pismo.
P: Jaka jest wspólna cecha histogramu?
O: Wspólną cechą histogramu jest obraz wykonany z tabeli zawierającej wiele kategorii.
P: Jakich informacji dostarcza tabela histogramu?
O: Tabela histogramu dostarcza informacji o liczbie próbek w każdej kategorii.
Przeszukaj encyklopedię