W matematyce i statystyce, współczynnik korelacji rangowej Spearmana jest nieparametryczną miarą siły i kierunku związku między dwoma zmiennymi, nazywaną na cześć Charlesa Spearmana. Jest on zwykle oznaczany grecką literą rho (ρ {\displaystyle \rho }) lub symbolem rs ({\displaystyle r_{s}}). Współczynnik ten stosuje się do danych, które można uporządkować (usytuować w rangach), np. od najniższych do najwyższych wartości.

Wzór i interpretacja

Najczęściej używany wzór Spearmana przy braku remisów (brak identycznych wartości) ma postać:

r s {\displaystyle r_{s}} ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

  • n — liczba par obserwacji (rozmiar próby),
  • d — różnica między rangami dwóch zmiennych dla tej samej obserwacji (d = ranga(X) − ranga(Y)),
  • ρ (rs) mieści się w przedziale od −1 do +1: wartość bliska +1 oznacza silną dodatnią zależność monotoniczną, bliska −1 — silną odwrotną zależność monotoniczną, natomiast wartość bliska 0 — brak zależności monotonicznej.

Jak obliczyć krok po kroku

  1. Przypisz rangi dla każdej zmiennej osobno (najczęściej ranga 1 = najmniejsza wartość). Jeśli występują remisy (identyczne wartości), każdej obserwacji przypisuje się średnią z odpowiadających im rang.
  2. Dla każdej pary oblicz różnicę rang d = ranga(X) − ranga(Y) i policz d².
  3. Zsumuj d² po wszystkich obserwacjach: Σd².
  4. Podstaw do wzoru ρ = 1 − (6 Σd²) / [n(n² − 1)].

Przykład

Załóżmy, że mamy dane dotyczące ceny i szybkości kilku komputerów i chcemy sprawdzić, czy droższe komputery są generalnie szybsze.

Dane (cena, szybkość):

  • Komputer A: 1000, 3.0
  • Komputer B: 1500, 3.2
  • Komputer C: 1200, 3.8
  • Komputer D: 800, 2.4
  • Komputer E: 2000, 3.5

Rangi cen (od najniższej do najwyższej): D(1), A(2), C(3), B(4), E(5).
Rangi szybkości (od najniższej do najwyższej): D(1), A(2), B(3), E(4), C(5).

Obliczenia różnic rang i d²:

  • A: r_cena=2, r_szyb=2, d=0, d²=0
  • B: r_cena=4, r_szyb=3, d=1, d²=1
  • C: r_cena=3, r_szyb=5, d=−2, d²=4
  • D: r_cena=1, r_szyb=1, d=0, d²=0
  • E: r_cena=5, r_szyb=4, d=1, d²=1

Σd² = 0 + 1 + 4 + 0 + 1 = 6. Podstawiając do wzoru dla n = 5:

ρ = 1 − (6·6) / [5(5² − 1)] = 1 − 36 / (5·24) = 1 − 36/120 = 1 − 0,3 = 0,7.

Wartość 0,7 wskazuje na dość silną dodatnią zależność monotoniczną między ceną a szybkością — ogólnie droższe komputery są szybsze.

Uwagi praktyczne

  • Spearman mierzy zależność monotoniczną, niekoniecznie liniową. Dobre dopasowanie Spearmana może wystąpić, gdy zależność jest np. wykładnicza lub logarytmiczna.
  • Gdy występują remisy, rangi przypisuje się jako średnie spośród pozycji zajmowanych przez te remisy. W przypadku wielu remisów wzór z sumą d² nadal stosuje się, lecz wyniki mogą wymagać korekcji — w praktyce statystyczne oprogramowanie używa dokładnych procedur uwzględniających remisy.
  • Dla testowania istotności można użyć przybliżonego testu t: t = ρ·sqrt((n−2)/(1−ρ²)) (dla większych próbek), lub korzystać z dokładnych testów permutacyjnych dostępnych w pakietach statystycznych.
  • Spearmana warto stosować, gdy dane nie spełniają założeń koniecznych dla korelacji Pearsona (np. brak normalności, zmienne porządkowe).

Podsumowując, współczynnik Spearmana ({\displaystyle r_{s}}) to prosty i użyteczny sposób na ocenę, czy dwie zmienne poruszają się razem w sposób monotoniczny, szczególnie gdy dane są porządkowe lub nie spełniają założeń metod parametrycznych.