Histogram: definicja, budowa i zastosowania w statystyce

Histogram — definicja, budowa i zastosowania w statystyce. Praktyczny przewodnik: jak czytać, tworzyć wykresy rozkładu danych i interpretować wyniki.

Autor: Leandro Alegsa

Histogram jest pojęciem z dziedziny statystyki. Jest to graficzny wyświetlacz, który mówi nam o dystrybucji danych próbek. Zazwyczaj jest to obraz utworzony na podstawie tabeli z wieloma kategoriami. Tabela mówi, ile próbek jest w każdej kategorii.

Słowo histogram pochodzi od histos i gramma w języku greckim. Histos oznacza sieć lub maszt. Gramma oznacza rysunek, zapis lub pismo. Histogram czegoś jest więc, etymologicznie rzecz ujmując, rysunkiem sieci tego czegoś.

Co to jest histogram — rozszerzona definicja

Histogram to wykres składający się z sąsiadujących słupków (przedziałów) przedstawiających liczbę obserwacji (częstość) przypadającą na dany przedział wartości zmiennej. Stosuje się go najczęściej do danych ilościowych (ciągłych lub dyskretnych), aby zobrazować kształt rozkładu — np. symetrię, skośność, wielomodalność czy obecność wartości odstających.

Budowa histogramu

  • Przedziały (biny) — zakresy wartości, na które dzielimy oś wartości. Mogą mieć jednakową szerokość lub różną; wybór wpływa na wygląd wykresu.
  • Wysokość słupka — zwykle reprezentuje liczbę obserwacji w danym przedziale (częstość) lub gęstość (gdy histogram jest znormalizowany, tak aby całkowita powierzchnia słupków równała się 1).
  • Krawędzie przedziałów — ważne jest, by określić, czy brane są przedziały domknięte z lewej czy prawej strony (np. [a,b) vs (a,b]). Niejednoznaczność może prowadzić do różnic w przypisaniu obserwacji do binów.
  • Oś pozioma (x) — wartości zmiennej; oś pionowa (y) — częstotliwości lub gęstość.

Jak zbudować histogram — krok po kroku

  • Zgromadź dane liczbowo.
  • Określ zakres wartości (min, max).
  • Wybierz liczbę binów lub szerokość przedziału.
  • Podziel zakres na przedziały i policz obserwacje w każdym przedziale.
  • Narysuj słupki o wysokości równej liczbie obserwacji (lub gęstości).

Wybór liczby binów — zasady i reguły

Wybór liczby przedziałów ma duży wpływ na interpretację danych. Kilka popularnych reguł:

  • Reguła Sturgesa — liczba binów ≈ log2(n) + 1 (dobra dla danych bliskich rozkładowi normalnemu i mniejszych prób).
  • Reguła Scotta — oparta na odchyleniu standardowym; dąży do optymalizacji obciążenia estymatora gęstości.
  • Freedman–Diaconis — zależna od rozstępu międzykwartylowego (IQR): szerokość binu = 2·IQR·n^(−1/3). Daje odporność na wartości odstające.

W praktyce warto porównać kilka ustawień binów, aby upewnić się, że wnioski nie są artefaktem wyboru przedziałów.

Interpretacja histogramu

  • Sprawdzanie kształtu rozkładu: symetria, skośność (lewo- lub prawoskośność), wielomodalność (więcej niż jeden szczyt).
  • Wykrywanie wartości odstających oraz nietypowych przerw w rozkładzie.
  • Ocena koncentracji obserwacji — gdzie leży większość danych (moda, mediany).
  • Porównywanie rozkładów — przy porównaniu dwóch zestawów danych używa się tych samych binów, żeby porównanie było rzetelne.

Normalizacja i gęstość

Histogram może przedstawiać:

  • Częstości — liczba obserwacji w każdym binie.
  • Procenty — częstości przeliczone na wartość procentową całości.
  • Gęstość (probability density) — wysokości słupków tak dobrane, aby całkowita powierzchnia słupków równała się 1; wtedy wysokość jest estymatorem gęstości prawdopodobieństwa i należy ostrożnie interpretować ją jako przybliżenie wartości gęstości (nie bezpośrednio „prawdopodobieństwa” dla pojedynczej wartości).

Histogram a wykres słupkowy (bar chart)

Choć oba wykresy wyglądają podobnie, różnica jest istotna:

  • Histogram — używany dla danych ilościowych; słupki przylegają do siebie, bo przedziały są uporządkowane i ciągłe.
  • Wykres słupkowy — używany dla zmiennych kategorycznych; słupki są oddzielone, a kategorie nie mają naturalnego porządku (chyba że jest narzucony).

Ograniczenia histogramu i alternatywy

  • Sensytywność na szerokość i pozycję binów — różne ustawienia mogą prowadzić do różnych wniosków.
  • Utrata informacji — agregacja w przedziały zlewa szczegóły rozkładu.
  • Alternatywy: wykres gęstości jądrowej (kernel density estimate, KDE), wykres pudełkowy (boxplot), wykresy empirycznej funkcji rozkładu (ECDF) — wszystkie pomagają uzupełnić informacje z histogramu.

Zastosowania w statystyce i analizie danych

  • Eksploracja danych (EDA) — szybkie poznanie kształtu rozkładu.
  • Wykrywanie odchyleń od założeń modelu (np. normalności reszt w regresji).
  • Porównywanie rozkładów między grupami (np. testy wizualne przed zastosowaniem testów statystycznych).
  • Prezentacja wyników w raportach, artykułach i na wykresach interaktywnych.

Praktyczne wskazówki

  • Podawaj informację, czy słupki przedstawiają częstości czy gęstość.
  • Oznacz osie (skala, jednostki) i liczbę binów.
  • Przy porównywaniu rozkładów używaj tej samej siatki binów.
  • Jeśli dane mają outliery, rozważ regułę Freedman–Diaconis lub użyj transformacji (np. log) przed budową histogramu.
  • W narzędziach typu R i Python: sprawdzaj domyślne ustawienia binów i eksperymentuj. Przykładowe funkcje: R: hist(), ggplot2::geom_histogram(); Python: matplotlib.pyplot.hist(), seaborn.histplot().

Krótki przykład

Mamy 100 pomiarów w zakresie od 0 do 50. Jeśli wybierzemy 5 binów o równej szerokości, każdy bin będzie miał szerokość 10 (0–10, 10–20, …). Dla każdego z tych przedziałów liczymy ile obserwacji do niego należy i rysujemy słupki — tak powstaje histogram. Jeśli zamiast liczby obserwacji chcemy gęstość, dzielimy wysokość każdego słupka przez szerokość binu i łączną liczbę obserwacji, tak aby suma pól słupków wynosiła 1.

Podsumowanie

Histogram to podstawowe i bardzo przydatne narzędzie w statystyce opisowej i eksploracyjnej. Pozwala szybko zobaczyć strukturę danych, wykryć anomalia i kształt rozkładu. Jednocześnie wymaga ostrożności przy wyborze parametrów (liczba i położenie binów) oraz uzupełnienia analiz innymi wykresami i miarami statystycznymi.

Przykład histogramu 100 wartości losowych o rozkładzie normalnymZoom
Przykład histogramu 100 wartości losowych o rozkładzie normalnym

Podobne pomysły

Histogram jest jednym z siedmiu podstawowych narzędzi kontroli jakości, do których należą również: wykres Pareto, arkusz kontrolny, wykres kontrolny, diagram przyczynowo-skutkowy, diagram przepływu oraz diagram rozrzutu.

Uogólnieniem histogramu jest technika wygładzania jądra. Pozwoli to na skonstruowanie gładkiej funkcji gęstości prawdopodobieństwa z dostarczonych danych.

Pytania i odpowiedzi

P: Co to jest histogram?


O: Histogram to wykres, który informuje nas o rozkładzie danych próbek.

P: Jaki jest cel histogramu?


O: Celem histogramu jest pokazanie rozkładu danych próbek.

P: Co oznacza słowo histogram?


Słowo histogram pochodzi od greckich słów histos i gramma. Histos oznacza sieć lub maszt. Gramma oznacza rysunek, zapis lub pismo.

P: Co oznacza termin "histos" w języku greckim?


O: Termin "histos" oznacza w języku greckim sieć lub maszt.

P: Co oznacza termin "gramma" w języku greckim?


O: Termin "gramma" oznacza w języku greckim rysunek, zapis lub pismo.

P: Jaka jest wspólna cecha histogramu?


O: Wspólną cechą histogramu jest obraz wykonany z tabeli zawierającej wiele kategorii.

P: Jakich informacji dostarcza tabela histogramu?


O: Tabela histogramu dostarcza informacji o liczbie próbek w każdej kategorii.


Przeszukaj encyklopedię
AlegsaOnline.com - 2020 / 2025 - License CC3