W matematyce i statystyce, współczynnik korelacji rangowej Spearmana jest nieparametryczną miarą siły i kierunku związku między dwoma zmiennymi, nazywaną na cześć Charlesa Spearmana. Jest on zwykle oznaczany grecką literą rho (ρ ) lub symbolem rs (
). Współczynnik ten stosuje się do danych, które można uporządkować (usytuować w rangach), np. od najniższych do najwyższych wartości.
Wzór i interpretacja
Najczęściej używany wzór Spearmana przy braku remisów (brak identycznych wartości) ma postać:
r s ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 )
.
- n — liczba par obserwacji (rozmiar próby),
- d — różnica między rangami dwóch zmiennych dla tej samej obserwacji (d = ranga(X) − ranga(Y)),
- ρ (rs) mieści się w przedziale od −1 do +1: wartość bliska +1 oznacza silną dodatnią zależność monotoniczną, bliska −1 — silną odwrotną zależność monotoniczną, natomiast wartość bliska 0 — brak zależności monotonicznej.
Jak obliczyć krok po kroku
- Przypisz rangi dla każdej zmiennej osobno (najczęściej ranga 1 = najmniejsza wartość). Jeśli występują remisy (identyczne wartości), każdej obserwacji przypisuje się średnią z odpowiadających im rang.
- Dla każdej pary oblicz różnicę rang d = ranga(X) − ranga(Y) i policz d².
- Zsumuj d² po wszystkich obserwacjach: Σd².
- Podstaw do wzoru ρ = 1 − (6 Σd²) / [n(n² − 1)].
Przykład
Załóżmy, że mamy dane dotyczące ceny i szybkości kilku komputerów i chcemy sprawdzić, czy droższe komputery są generalnie szybsze.
Dane (cena, szybkość):
- Komputer A: 1000, 3.0
- Komputer B: 1500, 3.2
- Komputer C: 1200, 3.8
- Komputer D: 800, 2.4
- Komputer E: 2000, 3.5
Rangi cen (od najniższej do najwyższej): D(1), A(2), C(3), B(4), E(5).
Rangi szybkości (od najniższej do najwyższej): D(1), A(2), B(3), E(4), C(5).
Obliczenia różnic rang i d²:
- A: r_cena=2, r_szyb=2, d=0, d²=0
- B: r_cena=4, r_szyb=3, d=1, d²=1
- C: r_cena=3, r_szyb=5, d=−2, d²=4
- D: r_cena=1, r_szyb=1, d=0, d²=0
- E: r_cena=5, r_szyb=4, d=1, d²=1
Σd² = 0 + 1 + 4 + 0 + 1 = 6. Podstawiając do wzoru dla n = 5:
ρ = 1 − (6·6) / [5(5² − 1)] = 1 − 36 / (5·24) = 1 − 36/120 = 1 − 0,3 = 0,7.
Wartość 0,7 wskazuje na dość silną dodatnią zależność monotoniczną między ceną a szybkością — ogólnie droższe komputery są szybsze.
Uwagi praktyczne
- Spearman mierzy zależność monotoniczną, niekoniecznie liniową. Dobre dopasowanie Spearmana może wystąpić, gdy zależność jest np. wykładnicza lub logarytmiczna.
- Gdy występują remisy, rangi przypisuje się jako średnie spośród pozycji zajmowanych przez te remisy. W przypadku wielu remisów wzór z sumą d² nadal stosuje się, lecz wyniki mogą wymagać korekcji — w praktyce statystyczne oprogramowanie używa dokładnych procedur uwzględniających remisy.
- Dla testowania istotności można użyć przybliżonego testu t: t = ρ·sqrt((n−2)/(1−ρ²)) (dla większych próbek), lub korzystać z dokładnych testów permutacyjnych dostępnych w pakietach statystycznych.
- Spearmana warto stosować, gdy dane nie spełniają założeń koniecznych dla korelacji Pearsona (np. brak normalności, zmienne porządkowe).
Podsumowując, współczynnik Spearmana () to prosty i użyteczny sposób na ocenę, czy dwie zmienne poruszają się razem w sposób monotoniczny, szczególnie gdy dane są porządkowe lub nie spełniają założeń metod parametrycznych.