Statystyka to dziedzina matematyki stosowanej zajmująca się zbieraniem, organizacją, analizą, interpretacją i prezentacją danych. Statystyki opisowe podsumowują dane. Statystyki inferencyjne pozwalają na przewidywanie. Statystyka pomaga w badaniu wielu innych dziedzin, takich jak nauka, medycyna, ekonomia, psychologia, polityka i marketing. Ktoś, kto zajmuje się statystyką, nazywany jest statystykiem. Oprócz nazwy dziedziny nauki, słowo "statystyka" odnosi się również do liczb, które są używane do opisywania danych lub relacji.

Zakres i cele statystyki

Głównym celem statystyki jest przekształcenie surowych danych w użyteczną wiedzę. Statystyka:

  • opisuje zjawiska (np. średnia wieku, rozkład płci),
  • ocenia niepewność i zmienność (np. odchylenie standardowe, przedziały ufności),
  • testuje hipotezy i formułuje wnioski na podstawie próbek (np. czy lek jest skuteczny),
  • modeluje zależności między zmiennymi (np. regresja),
  • dokonuje prognoz i wspiera podejmowanie decyzji.

Główne działy statystyki

  • Statystyka opisowa — metody podsumowywania danych: tabele, histogramy, miary tendencji centralnej (średnia, mediana, dominanta) oraz miary rozproszenia (wariancja, odchylenie standardowe, rozstęp).
  • Statystyka inferencyjna — techniki wnioskowania o populacji na podstawie próby: estymacja parametrów, testowanie hipotez, przedziały ufności, regresje, analiza wariancji (ANOVA).
  • Statystyka bayesowska — podejście wykorzystujące prawdopodobieństwo subiektywne i uprzednie rozkłady (priors) do aktualizowania wierzeń po uzyskaniu danych.
  • Metody nieparametryczne — techniki niewymagające założeń o rozkładzie danych (np. testy rangowe).

Podstawowe metody i narzędzia

  • Zbieranie danych: obserwacje, ankiety, eksperymenty, bazy danych.
  • Projektowanie próby: losowanie proste, warstwowe, grupowe (cluster), próby wygodne — wpływ na jakość wniosków.
  • Wizualizacja: wykresy słupkowe, histogramy, wykresy pudełkowe (boxplot), wykresy rozrzutu — ułatwiają rozumienie rozkładów i zależności.
  • Miary statystyczne: średnia arytmetyczna, mediana, dominanta, wariancja, odchylenie standardowe, współczynnik korelacji.
  • Modelowanie: regresja liniowa i nieliniowa, modele logistyczne, modele mieszane, analiza przeżycia.
  • Testowanie hipotez: hipoteza zerowa (H0), hipoteza alternatywna (H1), statystyki testowe, wartość p, poziom istotności (α).
  • Oprogramowanie: R, Python (pandas, scipy, statsmodels), SPSS, SAS — narzędzia do analizy danych i wizualizacji.

Kroki typowej analizy statystycznej

  • określenie celu badania i pytań badawczych,
  • zbieranie i czyszczenie danych (usuwanie braków, poprawianie błędów),
  • eksploracyjna analiza danych (EDA): wykresy i miary opisowe,
  • dobór odpowiednich metod statystycznych,
  • przeprowadzenie analizy i interpretacja wyników,
  • ocena założeń metod (np. normalność, niezależność, jednorodność wariancji),
  • raportowanie wyników z uwzględnieniem niepewności (przedziały ufności, wartość p, moc testu).

Typowe miary i ich interpretacja

  • Średnia (mean) — suma wartości podzielona przez ich liczbę; czuła na wartości odstające.
  • Mediana — wartość środkowa; mniej wrażliwa na wartości odstające.
  • Dominanta (modalna) — najczęściej występująca wartość w zbiorze.
  • Wariancja i odchylenie standardowe — opisują rozproszenie danych wokół średniej.
  • Korelacja — miara siły i kierunku liniowej zależności między dwiema zmiennymi (np. współczynnik Pearsona).
  • Regresja — model przewidujący jedną zmienną na podstawie innych; współczynniki informują o kierunku i sile wpływu.

Przykład prostych obliczeń

Mamy zbiór wartości: 3, 5, 7, 8, 9, 10, 12.

  • Średnia = (3+5+7+8+9+10+12) / 7 = 54 / 7 ≈ 7,71
  • Mediana = wartość środkowa = 8
  • Wariancja (dla populacji) = średnia z kwadratów odchyleń od średniej: ((3-7,71)^2 + ... + (12-7,71)^2) / 7 ≈ 8,53
  • Odchylenie standardowe ≈ sqrt(8,53) ≈ 2,92

Zastosowania praktyczne i przykłady

  • Medycyna: ocena skuteczności leków (randomizowane badania kliniczne), analiza czynników ryzyka, epidemiologia.
  • Ekonomia: prognozy wzrostu gospodarczego, analiza rynku pracy, modelowanie popytu i podaży.
  • Psychologia: badania eksperymentalne, skale pomiarowe, testy istotności efektów.
  • Marketing: segmentacja klientów, testy A/B, analiza koszyka zakupów i efektywności kampanii.
  • Polityka: badania opinii publicznej, analiza wyników wyborów, modelowanie zachowań wyborczych.
  • Nauka: weryfikacja hipotez, analiza danych obserwacyjnych i eksperymentalnych w biologiach, fizyce, naukach o Ziemi.

Ograniczenia, założenia i pułapki

  • Błędy próbkowania: próba nieodpowiednio reprezentatywna może prowadzić do błędnych wniosków.
  • Biased data: tendencyjne lub brakujące dane zaburzają analizę.
  • Mylenie korelacji z przyczynowością: wysoka korelacja nie oznacza, że jedna zmienna powoduje zmianę drugiej.
  • Naruszenie założeń metod: wiele testów zakłada normalność, niezależność obserwacji czy jednorodność wariancji — ich naruszenie wymaga zastosowania odpowiednich metod lub transformacji danych.

Wskazówki praktyczne

  • zawsze sprawdzaj jakość i kompletność danych przed analizą,
  • stosuj wizualizacje, aby szybko wychwycić wzorce i anomalie,
  • dobieraj metody zgodnie z charakterem danych i pytaniem badawczym,
  • raportuj niepewność wyników (np. przedziały ufności) i unikaj nadinterpretacji wartości p.

Statystyka jest niezbędnym narzędziem w wielu dziedzinach. Pozwala zamienić dane w informacje i podejmować decyzje oparte na dowodach, o ile metody i założenia są stosowane ostrożnie i odpowiednio do kontekstu.