Statystyka to dziedzina matematyki stosowanej zajmująca się zbieraniem, organizacją, analizą, interpretacją i prezentacją danych. Statystyki opisowe podsumowują dane. Statystyki inferencyjne pozwalają na przewidywanie. Statystyka pomaga w badaniu wielu innych dziedzin, takich jak nauka, medycyna, ekonomia, psychologia, polityka i marketing. Ktoś, kto zajmuje się statystyką, nazywany jest statystykiem. Oprócz nazwy dziedziny nauki, słowo "statystyka" odnosi się również do liczb, które są używane do opisywania danych lub relacji.
Zakres i cele statystyki
Głównym celem statystyki jest przekształcenie surowych danych w użyteczną wiedzę. Statystyka:
- opisuje zjawiska (np. średnia wieku, rozkład płci),
- ocenia niepewność i zmienność (np. odchylenie standardowe, przedziały ufności),
- testuje hipotezy i formułuje wnioski na podstawie próbek (np. czy lek jest skuteczny),
- modeluje zależności między zmiennymi (np. regresja),
- dokonuje prognoz i wspiera podejmowanie decyzji.
Główne działy statystyki
- Statystyka opisowa — metody podsumowywania danych: tabele, histogramy, miary tendencji centralnej (średnia, mediana, dominanta) oraz miary rozproszenia (wariancja, odchylenie standardowe, rozstęp).
- Statystyka inferencyjna — techniki wnioskowania o populacji na podstawie próby: estymacja parametrów, testowanie hipotez, przedziały ufności, regresje, analiza wariancji (ANOVA).
- Statystyka bayesowska — podejście wykorzystujące prawdopodobieństwo subiektywne i uprzednie rozkłady (priors) do aktualizowania wierzeń po uzyskaniu danych.
- Metody nieparametryczne — techniki niewymagające założeń o rozkładzie danych (np. testy rangowe).
Podstawowe metody i narzędzia
- Zbieranie danych: obserwacje, ankiety, eksperymenty, bazy danych.
- Projektowanie próby: losowanie proste, warstwowe, grupowe (cluster), próby wygodne — wpływ na jakość wniosków.
- Wizualizacja: wykresy słupkowe, histogramy, wykresy pudełkowe (boxplot), wykresy rozrzutu — ułatwiają rozumienie rozkładów i zależności.
- Miary statystyczne: średnia arytmetyczna, mediana, dominanta, wariancja, odchylenie standardowe, współczynnik korelacji.
- Modelowanie: regresja liniowa i nieliniowa, modele logistyczne, modele mieszane, analiza przeżycia.
- Testowanie hipotez: hipoteza zerowa (H0), hipoteza alternatywna (H1), statystyki testowe, wartość p, poziom istotności (α).
- Oprogramowanie: R, Python (pandas, scipy, statsmodels), SPSS, SAS — narzędzia do analizy danych i wizualizacji.
Kroki typowej analizy statystycznej
- określenie celu badania i pytań badawczych,
- zbieranie i czyszczenie danych (usuwanie braków, poprawianie błędów),
- eksploracyjna analiza danych (EDA): wykresy i miary opisowe,
- dobór odpowiednich metod statystycznych,
- przeprowadzenie analizy i interpretacja wyników,
- ocena założeń metod (np. normalność, niezależność, jednorodność wariancji),
- raportowanie wyników z uwzględnieniem niepewności (przedziały ufności, wartość p, moc testu).
Typowe miary i ich interpretacja
- Średnia (mean) — suma wartości podzielona przez ich liczbę; czuła na wartości odstające.
- Mediana — wartość środkowa; mniej wrażliwa na wartości odstające.
- Dominanta (modalna) — najczęściej występująca wartość w zbiorze.
- Wariancja i odchylenie standardowe — opisują rozproszenie danych wokół średniej.
- Korelacja — miara siły i kierunku liniowej zależności między dwiema zmiennymi (np. współczynnik Pearsona).
- Regresja — model przewidujący jedną zmienną na podstawie innych; współczynniki informują o kierunku i sile wpływu.
Przykład prostych obliczeń
Mamy zbiór wartości: 3, 5, 7, 8, 9, 10, 12.
- Średnia = (3+5+7+8+9+10+12) / 7 = 54 / 7 ≈ 7,71
- Mediana = wartość środkowa = 8
- Wariancja (dla populacji) = średnia z kwadratów odchyleń od średniej: ((3-7,71)^2 + ... + (12-7,71)^2) / 7 ≈ 8,53
- Odchylenie standardowe ≈ sqrt(8,53) ≈ 2,92
Zastosowania praktyczne i przykłady
- Medycyna: ocena skuteczności leków (randomizowane badania kliniczne), analiza czynników ryzyka, epidemiologia.
- Ekonomia: prognozy wzrostu gospodarczego, analiza rynku pracy, modelowanie popytu i podaży.
- Psychologia: badania eksperymentalne, skale pomiarowe, testy istotności efektów.
- Marketing: segmentacja klientów, testy A/B, analiza koszyka zakupów i efektywności kampanii.
- Polityka: badania opinii publicznej, analiza wyników wyborów, modelowanie zachowań wyborczych.
- Nauka: weryfikacja hipotez, analiza danych obserwacyjnych i eksperymentalnych w biologiach, fizyce, naukach o Ziemi.
Ograniczenia, założenia i pułapki
- Błędy próbkowania: próba nieodpowiednio reprezentatywna może prowadzić do błędnych wniosków.
- Biased data: tendencyjne lub brakujące dane zaburzają analizę.
- Mylenie korelacji z przyczynowością: wysoka korelacja nie oznacza, że jedna zmienna powoduje zmianę drugiej.
- Naruszenie założeń metod: wiele testów zakłada normalność, niezależność obserwacji czy jednorodność wariancji — ich naruszenie wymaga zastosowania odpowiednich metod lub transformacji danych.
Wskazówki praktyczne
- zawsze sprawdzaj jakość i kompletność danych przed analizą,
- stosuj wizualizacje, aby szybko wychwycić wzorce i anomalie,
- dobieraj metody zgodnie z charakterem danych i pytaniem badawczym,
- raportuj niepewność wyników (np. przedziały ufności) i unikaj nadinterpretacji wartości p.
Statystyka jest niezbędnym narzędziem w wielu dziedzinach. Pozwala zamienić dane w informacje i podejmować decyzje oparte na dowodach, o ile metody i założenia są stosowane ostrożnie i odpowiednio do kontekstu.