Przedział ufności — definicja, interpretacja i obliczanie (np. 95%)
Praktyczny przewodnik statystyki: definicja, interpretacja i obliczanie przedziałów ufności (np. 95%) krok po kroku z przykładami i wyjaśnieniami.
W statystyce przedział ufności jest specjalną formą szacowania pewnego parametru. Zamiast jednej punktowej estymaty podaje się cały przedział dopuszczalnych wartości parametru wraz z poziomem ufności, czyli z prawdopodobieństwem (wyrażanym najczęściej w procentach), że procedura szacowania obejmie prawdziwą (nieznaną) wartość parametru. Przedział ufności jest oparty na obserwacjach z próby, a więc różni się w zależności od próby. Prawdopodobieństwo, że parametr znajdzie się w przedziale nazywane jest poziomem ufności — np. „95% przedział ufności”. Punkty końcowe przedziału nazywane są granicami ufności. Dla danej procedury szacowania i danej sytuacji, im wyższy poziom ufności, tym szerszy będzie przedział.
Interpretacja
- Interpretacja często spotykana (częściowo potoczna): mówi się: „95% przedział ufności oznacza, że mamy 95% pewności, że prawdziwy parametr leży w tym przedziale”. To sformułowanie jest użyteczne w komunikacji, lecz może być mylące.
- Interpretacja formalna (częstościowa): przedział ufności opisuje właściwość metody: gdyby powtórzyć eksperyment wiele razy i dla każdej próby skonstruować przedział ufności tą samą procedurą, to w przybliżeniu 95% takich przedziałów obejmie prawdziwą wartość parametru. Nie oznacza to, że dla konkretnego jednego przedziału istnieje 95% „prawdopodobieństwa” dla parametru — prawdziwy parametr jest stały, a przedział jest losowy.
- Powszechne nieporozumienia: nie należy traktować granic jako punktów, które mają jedynie określone „wiarygodności” poza kontekstem procedury; nie wszystkie procedury mają dobrą własność przy małych próbach lub przy naruszeniu założeń.
Podstawowe założenia
- Przedziały ufności są zwykle konstruowane w ramach metod parametrycznych.
- Typowe założenia to niezależność obserwacji, identyczny rozkład próbki oraz (często) normalność rozkładu populacji. Jeśli te założenia są naruszone, wiarygodność przedziału może maleć.
- Przedziały wyprowadzone przy założeniu normalności nie są odporne na obserwacje odstające — w praktyce można stosować modyfikacje lub metody nieparametryczne (np. bootstrap).
Jak oblicza się przedziały ufności — najczęstsze przypadki
Poniżej podane są standardowe wzory i metody. W zapisie użyto α jako poziomu istotności, przy czym poziom ufności = 1 − α (np. dla 95%: α = 0.05).
- Przedział dla średniej, gdy znane jest odchylenie standardowe populacji σ:
x̄ ± z_{1−α/2} · (σ / √n)
gdzie z_{1−α/2} to kwantyl rozkładu normalnego standardowego (dla 95% ≈ 1.96). - Przedział dla średniej, gdy σ nie jest znane (mała/umiarkowana próba):
x̄ ± t_{1−α/2, n−1} · (s / √n)
gdzie s to odchylenie standardowe próbki, a t_{1−α/2, n−1} — kwantyl rozkładu Studenta z n−1 stopniami swobody. - Przedział dla odsetka (proporcji) p przy dużej próbie — tzw. przedział Wald:
p̂ ± z_{1−α/2} · √(p̂(1−p̂)/n)
Uwaga: dla małych n lub p̂ bliskich 0 lub 1 lepsze są metody Wilsona, Agresti–Coull lub dokładny przedział Clopper–Pearson. - Przedział dla różnicy średnich: istnieją warianty zależnie od tego, czy zakładamy równość wariancji (przedział „pooled”) czy nie (wersja Welcha). Dla dużych prób często używa się przybliżenia normalnego.
- Przedziały dla wariancji: wykorzystują rozkład χ²: ((n−1)s²) / χ²_{1−α/2, n−1} ≤ σ² ≤ ((n−1)s²) / χ²_{α/2, n−1}.
- Przedziały dla parametrów modeli regresyjnych: granice dla współczynników regresji zwykle korzystają z estymatorów i ich błędów standardowych oraz rozkładu t (dla klasycznej regresji liniowej).
- Metody nieparametryczne i komputerowe: bootstrap (np. percentylowy, BCa) pozwala oszacować przedziały ufności bez silnych założeń o rozkładzie populacji.
Przykłady obliczeń (95%)
- Średnia: n = 25, x̄ = 100, s = 15. Dla 95%: t_{0.975,24} ≈ 2.064.
Margin of error = 2.064 · (15 / √25) = 2.064 · 3 = 6.192.
95% CI ≈ [100 − 6.192, 100 + 6.192] = [93.81, 106.19]. - Proporcja: n = 400, p̂ = 0.12. Dla 95%: z_{0.975} ≈ 1.96.
SE = √(0.12·0.88/400) ≈ 0.0159. Margin ≈ 1.96·0.0159 ≈ 0.0312.
95% CI ≈ [0.0888, 0.1512].
Właściwości i praktyczne wskazówki
- Szerokość przedziału: zależy od poziomu ufności (wyższy → szerszy), od wariancji populacji (większa wariancja → szerszy) oraz od rozmiaru próby (większe n → węższy; szerokość spada w przybliżeniu jak 1/√n).
- Wybór metody: dla dużych prób i umiarkowanych odchyleń od normalności proste przybliżenia normalne działają dobrze. Dla małych prób, rozkładów skośnych lub dla proporcji bliskich 0/1 używaj metod poprawionych (t, Wilson, Clopper–Pearson, bootstrap).
- Raportowanie wyników: zawsze podaj poziom ufności (np. 95%), estymator (np. x̄ lub p̂), granice przedziału oraz metodę zastosowaną (np. t-Student, bootstrap, Clopper–Pearson) i rozmiar próby n.
- Jednostronne przedziały: zamiast dwustronnego przedziału można skonstruować przedział jednostronny (np. „do góry” lub „do dołu”) — użyteczne gdy interesuje nas tylko ograniczenie w jedną stronę.
- Wielokrotne porównania: przy konstruowaniu wielu przedziałów jednocześnie należy uwzględnić problem alfa-mnożenia; stosuje się korekty (np. Bonferroni) lub metody wielowymiarowe.
- Związek z testowaniem hipotez: jeżeli 95% przedział ufności dla różnicy średnich nie zawiera 0, to test t dla α = 0.05 odrzuci hipotezę zerową o równości średnich (w wielu typowych przypadkach relacja ta jest wzajemna).
Ograniczenia
- Przedziały ufności zależą od przyjętych założeń (np. normalność, niezależność). Naruszenie założeń może prowadzić do błędnych wniosków.
- W małych próbach przedziały mogą być bardzo szerokie i mało informatywne; metody dokładne lub bayesowskie mogą być w takich sytuacjach lepsze.
- Przedział ufności nie zastępuje pełnej analizy — warto analizować także rozkład reszt, wpływ obserwacji odstających i prowadzić weryfikację założeń.
Alternatywy i rozszerzenia
- Metody bayesowskie dostarczają tzw. przedziałów wiarygodności (credible intervals), które można interpretować bezpośrednio jako prawdopodobieństwo, że parametr leży w przedziale, ale wymagają określenia rozkładu apriorycznego.
- Bootstrap i metody resamplingowe — praktyczne i elastyczne, szczególnie gdy nie znamy rozkładu lub gdy estymator ma skomplikowany rozkład.
Podsumowując: przedział ufności to narzędzie do wyrażenia niepewności estymacji parametru. Kluczowe jest zrozumienie jego interpretacji (jako własności procedury szacowania), sprawdzenie założeń oraz dobranie odpowiedniej metody obliczeniowej dla danej sytuacji.
Znaczenie terminu "zaufanie"
Termin "pewność" ma podobne znaczenie w statystyce, jak w powszechnym użyciu. W powszechnym użyciu, twierdzenie o 95% pewności czegoś jest zwykle traktowane jako wskazujące na wirtualną pewność. W statystyce, twierdzenie o 95% pewności oznacza po prostu, że badacz zaobserwował jeden możliwy przedział z dużej liczby możliwych, z których dziewiętnaście na dwadzieścia zawiera prawdziwą wartość parametru.
Przykład praktyczny

Maszyna napełnia kubki margaryną. W tym przykładzie maszyna jest tak ustawiona, że zawartość kubków wynosi 250g margaryny. Ponieważ maszyna nie może napełnić każdego kubka dokładnie 250g, zawartość dodawana do poszczególnych kubków wykazuje pewną zmienność i jest traktowana jako zmienna losowa X. Zakłada się, że zmienność ta ma rozkład normalny wokół pożądanej średniej 250g, z odchyleniem standardowym 2,5g. Aby określić, czy maszyna jest odpowiednio skalibrowana, wybrano losowo próbkę n = 25 kubków margaryny i zważono kubki. Wagi margaryny wynoszą X1, ..., X25, co stanowi losową próbkę z X.
Aby uzyskać wyobrażenie o wartości oczekiwanej μ, wystarczy podać jej oszacowanie. Właściwym estymatorem jest średnia z próby:
μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {{displaystyle}}={bar {X}}={frac {1}{n}}suma _{i=1}^{n}X_{i}. }
Próbka przedstawia wagi rzeczywiste x1, ...,x25, o średniej:
x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 gramów . W związku z tym, że x ¯ = 1 25 ∑ i = 1 25 x i = 250,2 gramów. }
Jeśli weźmiemy kolejną próbkę 25 filiżanek, możemy z łatwością oczekiwać, że znajdziemy wartości takie jak 250,4 lub 251,1 gramów. Średnia wartość próby wynosząca 280 gramów byłaby jednak niezwykle rzadka, gdyby średnia zawartość kubków była w rzeczywistości zbliżona do 250 gramów. Istnieje cały przedział wokół zaobserwowanej wartości 250,2 średniej z próby, w którym, jeśli średnia dla całej populacji rzeczywiście przyjmie wartość z tego przedziału, zaobserwowane dane nie będą uważane za szczególnie niezwykłe. Przedział taki nazywamy przedziałem ufności dla parametru μ. Jak obliczamy taki przedział? Punkty końcowe przedziału muszą być obliczone z próby, są więc statystykami, funkcjami próby X1, ..., X25, a więc zmiennymi losowymi.
W naszym przypadku możemy wyznaczyć punkty końcowe rozważając, że średnia z próby X z próby o rozkładzie normalnym jest również rozkładem normalnym, z tą samą wartością oczekiwaną μ, ale z błędem standardowym σ/√n = 0,5 (gramów). W wyniku standaryzacji otrzymujemy zmienną losową
Z = X Ż - μ σ / n = X Ż - μ 0,5 {{displaystyle Z={{sigma {{sqrt {{sigma}}}}}}
zależne od parametru μ, który ma być oszacowany, ale o standardowym rozkładzie normalnym niezależnym od parametru μ. Stąd możliwe jest znalezienie liczb -z i z, niezależnych od μ, gdzie Z leży pomiędzy z prawdopodobieństwem 1 - α, co jest miarą pewności, jaką chcemy mieć. Przyjmujemy 1 - α = 0,95. Mamy więc:
P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. P(- z ≤ Z ≤ z)=1 - α =0,95.}
Liczba z wynika z funkcji rozkładu kumulatywnego:
Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) = Φ - 1 ( 0,975 ) = 1.96 , { {begin{aligned}} } }Phi (z)&=P(Z ≤ z)=1-{tfrac {{alpha }{2}}=0,975,z&= P^{-1}(z))=Phi ^{-1}(0,975)=1,96,end{aligned}}.
i otrzymujemy:
0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X ¯ - μ σ / n ≤ 1,96 ) = P ( X ¯ - 1,96 σ n ≤ μ ≤ X ¯ + 1,96 σ n ) = P ( X ¯ - 1,96 × 0,5 ≤ μ ≤ X ¯ + 1,96 × 0,5 ) = P ( X ¯ - 0,98 ≤ μ ≤ X ¯ + 0,98 ) . Displaystyle {{begin{aligned}0.95&=1-alfa =P(-z z)=P(-1.96}}} {{frac {{bar {X}}-}mu }{sigma /{sqrt {n}}}}}} 1.96)&=Pleft({{bar {X}}-1.96{frac {{sigma }{sqrt {n}}}}}leq {{bar {X}}+1.96} &=Pleft({{bar {X}}-1.96} razy 0.5}leq \mu {{bar {X}+1.
Można to zinterpretować w ten sposób, że z prawdopodobieństwem 0,95 znajdziemy przedział ufności, w którym pomiędzy stochastycznymi punktami końcowymi spotkamy parametr μ
X - 0 . 98 {{displaystyle {{bar {X}}-0{.}98}}.
oraz
X ¯ + 0.98. {{displaystyle}}+0,98.}
Nie oznacza to, że prawdopodobieństwo spełnienia parametru μ w obliczonym przedziale wynosi 0,95. Przy każdym powtórzeniu pomiarów pojawi się inna wartość średniej X z próby. W 95% przypadków μ znajdzie się pomiędzy punktami końcowymi obliczonymi na podstawie tej średniej, ale w 5% przypadków nie znajdzie się. Rzeczywisty przedział ufności obliczamy, wpisując do wzoru zmierzone wagi. Nasz przedział ufności 0,95 przyjmuje postać:
( x ż - 0,98 ; x ż + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}
Ponieważ pożądana wartość 250 μ mieści się w otrzymanym przedziale ufności, nie ma powodu, aby sądzić, że maszyna jest nieprawidłowo skalibrowana.
Obliczony przedział ma ustalone punkty końcowe, gdzie μ może być pomiędzy (lub nie). Zatem to zdarzenie ma prawdopodobieństwo albo 0 albo 1. Nie możemy powiedzieć: "z prawdopodobieństwem (1 - α) parametr μ leży w przedziale ufności". Wiemy tylko, że przez powtórzenie w 100(1 - α) % przypadków μ znajdzie się w obliczonym przedziale. W 100α % przypadków jednak tak nie jest. I niestety nie wiemy, w którym z tych przypadków tak się stanie. Dlatego mówimy: "z poziomem ufności 100(1 - α) %, μ leży w przedziale ufności. "
Rysunek po prawej stronie przedstawia 50 realizacji przedziału ufności dla danej średniej populacji μ. Jeśli losowo wybierzemy jedną realizację, prawdopodobieństwo, że wybierzemy przedział zawierający parametr wynosi 95%; możemy jednak mieć pecha i wybrać niewłaściwy przedział. Nigdy się tego nie dowiemy; utknęliśmy z naszym przedziałem.

Odcinki linii pionowych reprezentują 50 realizacji przedziału ufności dla μ.
Pytania i odpowiedzi
P: Co to jest przedział ufności w statystyce?
O: Przedział ufności to specjalny przedział używany do szacowania parametru, takiego jak średnia w populacji, podający zakres dopuszczalnych wartości parametru zamiast jednej wartości.
P: Dlaczego stosuje się przedział ufności zamiast pojedynczej wartości?
O: Przedział ufności stosuje się zamiast pojedynczej wartości, aby uwzględnić niepewność oszacowania parametru na podstawie próby i podać prawdopodobieństwo, że rzeczywista wartość parametru mieści się w przedziale.
P: Co to jest poziom ufności?
O: Poziom ufności to prawdopodobieństwo, że szacowany parametr mieści się w przedziale ufności i często podaje się go w procentach (np. 95% przedział ufności).
P: Co to są granice ufności?
O: Granice ufności to punkty końcowe przedziału ufności, które określają zakres dopuszczalnych wartości szacowanego parametru.
P: Jak poziom ufności wpływa na przedział ufności?
O: W danej procedurze szacowania, im wyższy poziom ufności, tym szerszy będzie przedział ufności.
P: Jakie założenia są wymagane do obliczenia przedziału ufności?
O: Obliczenie przedziału ufności wymaga na ogół przyjęcia założeń dotyczących charakteru procesu szacowania, takich jak założenie, że rozkład populacji, z której pochodzi próba, jest normalny.
P: Czy przedziały ufności są solidną statystyką?
O: Przedziały ufności, jak to omówiono poniżej, nie są solidnymi statystykami, chociaż można dokonać korekt w celu zwiększenia solidności.
Przeszukaj encyklopedię