Dystrybucja t-Studenta to rozkład prawdopodobieństwa wprowadzony przez Williama Sealy'ego Gosseta w 1908 roku. Pod pseudonimem Student opublikował on wyniki swoich badań — stąd popularna nazwa „rozkład Studenta”. Gosset pracował w browarze i zajmował się problemami związanymi z analizą małych próbek — przykładowo badaniem właściwości chemicznych jęczmienia, z którego warzono piwo. Istnieją dwie wersje pochodzenia pseudonimu: jedna mówi, że pracodawca Gosseta preferował publikacje pod pseudonimem, aby chronić tożsamość pracowników, druga — że browar nie chciał ujawniać konkurencji metod kontroli jakości, w tym testu t.

Rozkład t powstaje naturalnie, gdy chcemy testować średnią populacji, ale odchylenie standardowe populacji jest nieznane i musimy je oszacować na podstawie niewielkiej próbki. W praktyce obliczamy statystykę

t = (X̄ − μ) / (S / √n),

gdzie X̄ to średnia próbki z n obserwacji, μ to wartość średniej w hipotezie (np. 0), a S to odchylenie standardowe próbki obliczone ze wzoru ze stopniami swobody n−1. Dla próby z n obserwacji rozkład t ma ν = n−1 stopni swobody. t-dystrybucja pozwala ocenić, jak prawdopodobne jest uzyskanie zaobserwowanej różnicy średnich przy nieznanym odchyleniu populacyjnym.

Formalnie można też skonstruować rozkład t przez kombinację rozkładu normalnego i chi-kwadrat: jeżeli Z ~ N(0,1) oraz V ~ χ²(ν) i Z oraz V są niezależne, to

T = Z / sqrt(V/ν) ma rozkład t z ν stopniami swobody.

Rozkład t jest symetryczny i ma kształt dzwonu podobny do rozkładu normalnego, ale charakteryzuje się „cięższymi ogonami” — czyli większym prawdopodobieństwem obserwowania wartości odległych od środka. W praktyce oznacza to większe uwzględnienie niepewności, gdy próbki są małe lub gdy odchylenie jest szacowane. W miarę wzrostu liczebności próby (ν rośnie) rozkład t zbliża się do rozkładu normalnego; w granicy ν → ∞ mamy rozkład standardowy N(0,1).

Podstawowe własności matematyczne

  • Symetria: rozkład jest symetryczny wokół zera.
  • Wartość oczekiwana: E[T] = 0 dla ν > 1 (dla ν ≤ 1 wartość oczekiwana nie istnieje).
  • Wariancja: Var(T) = ν / (ν − 2) dla ν > 2; dla 1 < ν ≤ 2 wariancja jest nieskończona, dla ν ≤ 1 nie jest zdefiniowana.
  • Kurtosis (nadmiarowa): istnieje tylko dla ν > 4 i wynosi 6 / (ν − 4) (stąd dla małych ν rozkład ma znaczny nadmiar kurtosis — „grubsze ogony”).
  • Specjalny przypadek: dla ν = 1 rozkład t to rozkład Cauchy’ego (bardzo ciężkie ogony, brak średniej i wariancji).

Zastosowania w statystyce

  • Test t-Studenta do badania istotności średniej jednej próby (one-sample t-test).
  • Porównywanie średnich dwóch prób: klasyczny test t (pooled) i test Welcha (gdy wariancje mogą być różne).
  • Konstrukcja przedziałów ufności dla średniej populacji: X̄ ± t_{α/2,ν} · (S/√n).
  • Analiza regresji liniowej: statystyki t służą do testowania istotności współczynników regresji.
  • Metody bayesowskie: rozkład t pojawia się w posteriorych w modelach normalnych z niepewną wariancją oraz jako modelowanie odporne na obserwacje odstające (robust regression z rozkładem t dla reszt).

Praktyczne wskazówki

  • Dla małych prób i nieznanej wariancji rozkład t jest bardziej odpowiedni niż przyjmowanie rozkładu normalnego z~znanym odchyleniem populacyjnym.
  • Gdy wariancje dwóch porównywanych prób są różne, lepszym wyborem jest test Welcha niż standardowy test t z założeniem zrównania wariancji.
  • Przy bardzo małych próbach i silnych odchyleniach od normalności warto rozważyć metody nieparametryczne (np. testy rangowe) lub procedury resamplingowe (bootstrap).
  • Rozkład t jest użyteczny także jako model dla danych o cięższych ogonach niż normalne — pozwala na większą odporność na obserwacje odstające.

W skrócie: rozkład t — opracowany z myślą o analizie małych prób — jest jednym z podstawowych narzędzi statystyki inferencyjnej. Dzięki niemu możemy poprawnie uwzględnić dodatkową niepewność wynikającą z potrzeby estymacji odchylenia standardowego oraz prowadzić wnioskowanie o średnich, testach istotności i w regresji, zwłaszcza gdy próbki nie są duże.

Ze względu na historyczne i praktyczne znaczenie rozkładu t w analizie próbek, jego znajomość jest niezbędna przy interpretacji wyników badań eksperymentalnych i obserwacyjnych, zwłaszcza w sytuacjach, gdy odchylenie standardowe populacji nie jest znane.

{\displaystyle {\sqrt {n}}}