Statystyka: definicja, metody, zastosowania i przykłady

Statystyka: definicja, metody i zastosowania — praktyczny przewodnik z przykładami, narzędziami i interpretacją danych dla nauki, biznesu i medycyny.

Autor: Leandro Alegsa Utworzono: 20 kwietnia 2021 Zaktualizowano: 2 kwietnia 2026

Statystyka to dziedzina matematyki stosowanej zajmująca się zbieraniem, organizacją, analizą, interpretacją i prezentacją danych. Statystyki opisowe podsumowują dane. Statystyki inferencyjne pozwalają na przewidywanie. Statystyka pomaga w badaniu wielu innych dziedzin, takich jak nauka, medycyna, ekonomia, psychologia, polityka i marketing. Ktoś, kto zajmuje się statystyką, nazywany jest statystykiem. Oprócz nazwy dziedziny nauki, słowo "statystyka" odnosi się również do liczb, które są używane do opisywania danych lub relacji.

Galeria obrazów

4 Obrazy

en.wikipedia.org · Public domain

Zakres i cele statystyki

Głównym celem statystyki jest przekształcenie surowych danych w użyteczną wiedzę. Statystyka:

opisuje zjawiska (np. średnia wieku, rozkład płci),
ocenia niepewność i zmienność (np. odchylenie standardowe, przedziały ufności),
testuje hipotezy i formułuje wnioski na podstawie próbek (np. czy lek jest skuteczny),
modeluje zależności między zmiennymi (np. regresja),
dokonuje prognoz i wspiera podejmowanie decyzji.

Główne działy statystyki

Statystyka opisowa — metody podsumowywania danych: tabele, histogramy, miary tendencji centralnej (średnia, mediana, dominanta) oraz miary rozproszenia (wariancja, odchylenie standardowe, rozstęp).
Statystyka inferencyjna — techniki wnioskowania o populacji na podstawie próby: estymacja parametrów, testowanie hipotez, przedziały ufności, regresje, analiza wariancji (ANOVA).
Statystyka bayesowska — podejście wykorzystujące prawdopodobieństwo subiektywne i uprzednie rozkłady (priors) do aktualizowania wierzeń po uzyskaniu danych.
Metody nieparametryczne — techniki niewymagające założeń o rozkładzie danych (np. testy rangowe).

Podstawowe metody i narzędzia

Zbieranie danych: obserwacje, ankiety, eksperymenty, bazy danych.
Projektowanie próby: losowanie proste, warstwowe, grupowe (cluster), próby wygodne — wpływ na jakość wniosków.
Wizualizacja: wykresy słupkowe, histogramy, wykresy pudełkowe (boxplot), wykresy rozrzutu — ułatwiają rozumienie rozkładów i zależności.
Miary statystyczne: średnia arytmetyczna, mediana, dominanta, wariancja, odchylenie standardowe, współczynnik korelacji.
Modelowanie: regresja liniowa i nieliniowa, modele logistyczne, modele mieszane, analiza przeżycia.
Testowanie hipotez: hipoteza zerowa (H0), hipoteza alternatywna (H1), statystyki testowe, wartość p, poziom istotności (α).
Oprogramowanie: R, Python (pandas, scipy, statsmodels), SPSS, SAS — narzędzia do analizy danych i wizualizacji.

Kroki typowej analizy statystycznej

określenie celu badania i pytań badawczych,
zbieranie i czyszczenie danych (usuwanie braków, poprawianie błędów),
eksploracyjna analiza danych (EDA): wykresy i miary opisowe,
dobór odpowiednich metod statystycznych,
przeprowadzenie analizy i interpretacja wyników,
ocena założeń metod (np. normalność, niezależność, jednorodność wariancji),
raportowanie wyników z uwzględnieniem niepewności (przedziały ufności, wartość p, moc testu).

Typowe miary i ich interpretacja

Średnia (mean) — suma wartości podzielona przez ich liczbę; czuła na wartości odstające.
Mediana — wartość środkowa; mniej wrażliwa na wartości odstające.
Dominanta (modalna) — najczęściej występująca wartość w zbiorze.
Wariancja i odchylenie standardowe — opisują rozproszenie danych wokół średniej.
Korelacja — miara siły i kierunku liniowej zależności między dwiema zmiennymi (np. współczynnik Pearsona).
Regresja — model przewidujący jedną zmienną na podstawie innych; współczynniki informują o kierunku i sile wpływu.

Przykład prostych obliczeń

Mamy zbiór wartości: 3, 5, 7, 8, 9, 10, 12.

Średnia = (3+5+7+8+9+10+12) / 7 = 54 / 7 ≈ 7,71
Mediana = wartość środkowa = 8
Wariancja (dla populacji) = średnia z kwadratów odchyleń od średniej: ((3-7,71)^2 + ... + (12-7,71)^2) / 7 ≈ 8,53
Odchylenie standardowe ≈ sqrt(8,53) ≈ 2,92

Zastosowania praktyczne i przykłady

Medycyna: ocena skuteczności leków (randomizowane badania kliniczne), analiza czynników ryzyka, epidemiologia.
Ekonomia: prognozy wzrostu gospodarczego, analiza rynku pracy, modelowanie popytu i podaży.
Psychologia: badania eksperymentalne, skale pomiarowe, testy istotności efektów.
Marketing: segmentacja klientów, testy A/B, analiza koszyka zakupów i efektywności kampanii.
Polityka: badania opinii publicznej, analiza wyników wyborów, modelowanie zachowań wyborczych.
Nauka: weryfikacja hipotez, analiza danych obserwacyjnych i eksperymentalnych w biologiach, fizyce, naukach o Ziemi.

Ograniczenia, założenia i pułapki

Błędy próbkowania: próba nieodpowiednio reprezentatywna może prowadzić do błędnych wniosków.
Biased data: tendencyjne lub brakujące dane zaburzają analizę.
Mylenie korelacji z przyczynowością: wysoka korelacja nie oznacza, że jedna zmienna powoduje zmianę drugiej.
Naruszenie założeń metod: wiele testów zakłada normalność, niezależność obserwacji czy jednorodność wariancji — ich naruszenie wymaga zastosowania odpowiednich metod lub transformacji danych.

Wskazówki praktyczne

zawsze sprawdzaj jakość i kompletność danych przed analizą,
stosuj wizualizacje, aby szybko wychwycić wzorce i anomalie,
dobieraj metody zgodnie z charakterem danych i pytaniem badawczym,
raportuj niepewność wyników (np. przedziały ufności) i unikaj nadinterpretacji wartości p.

Statystyka jest niezbędnym narzędziem w wielu dziedzinach. Pozwala zamienić dane w informacje i podejmować decyzje oparte na dowodach, o ile metody i założenia są stosowane ostrożnie i odpowiednio do kontekstu.

Historia

Pierwszymi znanymi statystykami są dane spisowe. Babilończycy przeprowadzili spis ludności około 3500 r. p.n.e., Egipcjanie około 2500 r. p.n.e., a starożytni Chińczycy około 1000 r. p.n.e.

Począwszy od XVI wieku matematycy tacy jak Gerolamo Cardano opracowali teorię prawdopodobieństwa, która uczyniła statystykę nauką. Od tego czasu ludzie gromadzili i badali statystyki dotyczące wielu rzeczy. Drzewa, rozgwiazdy, gwiazdy, skały, słowa, prawie wszystko, co można policzyć, było przedmiotem statystyki.

Gromadzenie danych

Zanim będziemy mogli opisać świat za pomocą statystyki, musimy zebrać dane. Dane, które zbieramy w statystyce nazywamy pomiarami. Po zebraniu danych, używamy jednej lub więcej liczb do opisania każdej obserwacji lub pomiaru. Na przykład, załóżmy, że chcemy się dowiedzieć, jak popularny jest pewien program telewizyjny. Możemy wybrać grupę osób (zwaną próbką) z całej populacji widzów. Następnie pytamy każdego widza w próbie, jak często ogląda ten program. Próbka to dane, które możesz zobaczyć, a populacja to dane, których nie możesz zobaczyć (ponieważ nie zapytałeś każdego widza w populacji). Na przykład, jeśli chcemy się dowiedzieć, czy pewien lek może pomóc obniżyć ciśnienie krwi, możemy podawać ludziom lek przez jakiś czas i mierzyć ich ciśnienie krwi przed i po.

Statystyka opisowa i inferencyjna

Liczby opisujące dane, które można zobaczyć, nazywane są statystykami opisowymi. Liczby, które przewidują dane, których nie widać, nazywane są statystykami inferencyjnymi.

Statystyka opisowa polega na użyciu liczb do opisania cech danych. Na przykład, średni wzrost kobiet w Stanach Zjednoczonych jest statystyką opisową, która opisuje cechę (średni wzrost) populacji (kobiet w Stanach Zjednoczonych).

Po podsumowaniu i opisaniu wyników można je wykorzystać do prognozowania. Nazywa się to Statystyką Wnioskującą. Jako przykład, rozmiar zwierzęcia zależy od wielu czynników. Niektóre z tych czynników są kontrolowane przez środowisko, ale inne są dziedziczone. Biolog może więc stworzyć model, który mówi, że istnieje duże prawdopodobieństwo, że potomstwo będzie małych rozmiarów, jeśli rodzice byli małych rozmiarów. Model ten prawdopodobnie pozwala przewidzieć wielkość potomstwa w lepszy sposób niż tylko przez zgadywanie na chybił trafił. Testowanie, czy dany lek może być użyty do wyleczenia pewnego stanu lub choroby, odbywa się zwykle poprzez porównanie wyników osób, którym podano lek, z wynikami osób, którym podano placebo.

Metody

Najczęściej zbieramy dane statystyczne poprzez przeprowadzanie ankiet lub eksperymentów. Na przykład, badanie opinii publicznej jest jednym z rodzajów badania. Wybieramy niewielką liczbę osób i zadajemy im pytania. Następnie wykorzystujemy ich odpowiedzi jako dane.

Wybór osób do badania lub zbierania danych jest ważny, ponieważ ma bezpośredni wpływ na statystyki. Kiedy statystyki są już gotowe, nie można już określić, które osoby zostały wzięte. Załóżmy, że chcemy zmierzyć jakość wody w dużym jeziorze. Jeśli pobierzemy próbki obok odpływu ścieków, otrzymamy inne wyniki niż jeśli próbki zostaną pobrane w odległym, trudno dostępnym miejscu jeziora.

Istnieją dwa rodzaje problemów, które są powszechnie spotykane przy pobieraniu próbek:

Jeśli jest wiele próbek, będą one prawdopodobnie bardzo zbliżone do tego, co jest w rzeczywistej populacji. Jeśli jednak jest bardzo mało próbek, mogą one być bardzo różne od tego, co jest w prawdziwej populacji. Ten błąd nazywany jest błędem przypadkowym (zobacz Błędy i resztki w statystyce).
Osoby do próbek muszą być wybrane starannie, zazwyczaj są one wybierane losowo. Jeśli tak nie jest, próbki mogą się bardzo różnić od tego, co naprawdę jest w całej populacji. Jest to prawdą, nawet jeśli pobierana jest duża liczba próbek. Ten rodzaj błędu nazywany jest błędem systematycznym (bias).

Błędy

Możemy zredukować błędy przypadkowości poprzez pobranie większej próbki i możemy uniknąć pewnej stronniczości poprzez losowy wybór. Jednak czasami trudno jest zebrać dużą próbę losową. A tendencyjność może się zdarzyć, jeśli różne osoby nie są pytane lub odmawiają odpowiedzi na nasze pytania, lub jeśli wiedzą, że otrzymują fałszywe leczenie. Te problemy mogą być trudne do naprawienia. Zobacz również błąd standardowy.

Statystyki opisowe

Znajdowanie środka danych

Środek danych nazywany jest średnią. Średnia mówi nam o typowym osobniku w populacji. Istnieją trzy rodzaje średnich, które są często używane: średnia, mediana i sposób.

Poniższe przykłady wykorzystują te przykładowe dane:

Nazwa | A B C D E F G H I J --------------------------------------------- wynik| 23 26 49 57 64 66 78 82 92

Średnia

Wzór na średnią to

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {{displaystyle}}={{frac {1}{N}}}sum _{i=1}^{N}x_{i}}={{{frac {x_{1}+x_{2}+x_{N}}}{N}}} ${\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}$

Gdzie x 1 , x 2 , ... , x N {displaystyle x_{1},x_{2}},ldots ,x_{N}} $x_{1},x_{2},\ldots ,x_{N}$ są danymi, a N {displaystyle N} $N$ jest wielkością populacji. (patrz Notacja Sigma).

Oznacza to, że sumujesz wszystkie wartości, a następnie dzielisz przez liczbę wartości.

W naszym przykładzie x ż = ( 23 + 26 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {{displaystyle {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6}. ${\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6$

Problem ze średnią jest taki, że nie mówi ona nic o tym, jak wartości są rozłożone. Wartości, które są bardzo duże lub bardzo małe, bardzo zmieniają średnią. W statystyce te skrajne wartości mogą być błędami pomiaru, ale czasami populacja naprawdę zawiera takie wartości. Na przykład, jeśli w pokoju znajduje się 10 osób, które zarabiają 10 dolarów dziennie i 1, która zarabia 1 000 000 dolarów dziennie. Średnia z danych wynosi 90 918 dolarów dziennie. Mimo, że jest to średnia kwota, średnia w tym przypadku nie jest kwotą, którą zarabia pojedyncza osoba, więc jest bezużyteczna dla niektórych celów.

Jest to "średnia arytmetyczna". Inne rodzaje są przydatne do pewnych celów.

Mediana

Mediana jest środkową pozycją w danych. Aby znaleźć medianę, sortujemy dane od najmniejszej do największej liczby, a następnie wybieramy liczbę pośrodku. Jeśli jest parzysta liczba danych, nie będzie liczby w środku, więc wybieramy dwie środkowe i obliczamy ich średnią. W naszym przykładzie jest 10 pozycji danych, dwie środkowe to "57" i "64", więc mediana wynosi (57+64)/2 = 60.5. Inny przykład, podobnie jak przykład dochodu przedstawiony dla średniej, rozważmy pokój z 10 osobami, które mają dochody 10$, 20$, 20$, 40$, 50$, 60$, 90$, 100$ i 1.000.000$, mediana wynosi 55$, ponieważ 55$ jest średnią dwóch środkowych liczb, 50$ i 60$. Jeśli skrajna wartość 1 000 000 $ jest ignorowana, średnia wynosi 53 $. W tym przypadku mediana jest zbliżona do wartości uzyskanej po odrzuceniu wartości skrajnej. Mediana rozwiązuje problem wartości ekstremalnych, opisany w definicji średniej powyżej.

Tryb

Tryb jest najczęstszym elementem danych. Na przykład, najczęściej występującą literą w języku angielskim jest litera "e". Powiedzielibyśmy, że "e" jest trybem rozkładu liter.

Na przykład, jeśli w pokoju znajduje się 10 osób o dochodach $10, $20, $20, $40, $50, $60, $90, $90, $100 i $1,000,000, trybem jest $90, ponieważ $90 występuje trzy razy, a wszystkie inne wartości występują mniej niż trzy razy.

Może istnieć więcej niż jeden tryb. Na przykład, jeśli w pokoju znajduje się 10 osób o dochodach 10$, 20$, 20$, 20$, 20$, 50$, 60$, 90$, 90$, 100$ i 1 000 000$, trybami są 20$ i 90$. To jest bi-modalność, czyli ma dwa tryby. Dwumodalność jest bardzo powszechna i często wskazuje, że dane są kombinacją dwóch różnych grup. Na przykład, średni wzrost wszystkich dorosłych w USA ma rozkład dwumodalny. Dzieje się tak dlatego, że mężczyźni i kobiety mają oddzielne średnie wysokości 1,763 m (5 ft 9 + 1⁄2 in) dla mężczyzn i 1,622 m (5 ft 4 in) dla kobiet. Te szczyty są widoczne, gdy obie grupy są połączone.

Tryb jest jedyną formą średniej, która może być użyta dla danych, które nie mogą być uporządkowane.

Znajdowanie rozpiętości danych

Inną rzeczą, którą możemy powiedzieć o zestawie danych jest to, jak bardzo jest on rozłożony. Popularnym sposobem opisania rozrzutu zbioru danych jest odchylenie standardowe. Jeśli odchylenie standardowe zestawu danych jest małe, wówczas większość danych jest bardzo zbliżona do średniej. Jeśli natomiast odchylenie standardowe jest duże, wówczas wiele danych bardzo różni się od średniej.

Jeśli dane są zgodne z powszechnym wzorcem zwanym rozkładem normalnym, to bardzo przydatna jest znajomość odchylenia standardowego. Jeśli dane są zgodne z tym wzorcem (mówimy, że dane są normalnie rozłożone), około 68 z każdych 100 danych będzie odbiegać od średniej o mniej niż odchylenie standardowe. Nie tylko to, ale około 95 z każdych 100 pomiarów będzie odbiegać od średniej o mniej niż dwukrotność odchylenia standardowego, a około 997 na 1000 będzie bliżej średniej niż trzy odchylenia standardowe.

Inne statystyki opisowe

Możemy również użyć statystyki, aby dowiedzieć się, że jakiś procent, percentyl, liczba lub ułamek ludzi lub rzeczy w grupie robi coś lub pasuje do pewnej kategorii.

Na przykład, naukowcy społeczni wykorzystali statystyki, aby dowiedzieć się, że 49% ludzi na świecie to mężczyźni.

Powiązane oprogramowanie

W celu wsparcia statystyków powstało wiele programów statystycznych:

SAS Institute
SPSS (wyprodukowany przez IBM)

Pytania i odpowiedzi

P: Co to jest statystyka?

O: Statystyka jest dziedziną matematyki stosowanej, która zajmuje się zbieraniem, organizowaniem, analizowaniem, odczytywaniem i prezentowaniem danych.

P: Jakie są dwa rodzaje statystyki?

O: Dwa rodzaje statystyki to statystyka opisowa i wnioskowa. Statystyka opisowa dokonuje podsumowań danych, natomiast statystyka inferencyjna dokonuje przewidywań.

P: W jaki sposób statystyka pomaga w innych dziedzinach?

O: Statystyka pomaga w badaniu wielu innych dziedzin, takich jak nauka, medycyna, ekonomia, psychologia, polityka i marketing.

P: Kto pracuje w dziedzinie statystyki?

O: Ktoś, kto zajmuje się statystyką, jest nazywany statystykiem.

P: Co oznacza słowo "statystyka"?

O: Oprócz nazwy dziedziny nauki, słowo "statystyka" może również oznaczać liczby, które są używane do opisywania danych lub związków.

P: Jakimi czynnościami zajmują się statystycy?

O: Statystycy wykonują takie czynności, jak zbieranie, organizowanie, analizowanie, odczytywanie i prezentowanie danych.

Powiązane artykuły

Autor

AlegsaOnline.com Statystyka: definicja, metody, zastosowania i przykłady Leandro Alegsa

URL: https://pl.alegsaonline.com/art/93563

Jak cytować ten artykuł

APA

Alegsa, L. (2 kwietnia 2026). Statystyka: definicja, metody, zastosowania i przykłady. AlegsaOnline.com. https://pl.alegsaonline.com/art/93563

MLA

Alegsa, Leandro. “Statystyka: definicja, metody, zastosowania i przykłady.” AlegsaOnline.com, 2 kwietnia 2026, https://pl.alegsaonline.com/art/93563

Chicago

Alegsa, Leandro. “Statystyka: definicja, metody, zastosowania i przykłady.” AlegsaOnline.com. Zaktualizowano 2 kwietnia 2026. https://pl.alegsaonline.com/art/93563

BibTeX

@misc{alegsaonline_93563,
  author = {Alegsa, Leandro},
  title = {Statystyka: definicja, metody, zastosowania i przykłady},
  year = {2026},
  howpublished = {AlegsaOnline.com},
  url = {https://pl.alegsaonline.com/art/93563},
  note = {Zaktualizowano: 2 kwietnia 2026; Language: pl}
}

TXT

Leandro Alegsa. “Statystyka: definicja, metody, zastosowania i przykłady.” AlegsaOnline.com. Zaktualizowano: 2 kwietnia 2026. https://pl.alegsaonline.com/art/93563

Źródła

cnx : cnx