Współczynnik Spearmana (korelacja rang): definicja, wzór i przykłady

Współczynnik Spearmana: definicja, wzór i praktyczne przykłady korelacji rangowej — jak obliczać, interpretować i stosować wynik w analizie danych.

Autor: Leandro Alegsa

W matematyce i statystyce, współczynnik korelacji rangowej Spearmana jest nieparametryczną miarą siły i kierunku związku między dwoma zmiennymi, nazywaną na cześć Charlesa Spearmana. Jest on zwykle oznaczany grecką literą rho (ρ {\displaystyle \rho }) lub symbolem rs ({\displaystyle r_{s}}). Współczynnik ten stosuje się do danych, które można uporządkować (usytuować w rangach), np. od najniższych do najwyższych wartości.

Wzór i interpretacja

Najczęściej używany wzór Spearmana przy braku remisów (brak identycznych wartości) ma postać:

r s {\displaystyle r_{s}} ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

  • n — liczba par obserwacji (rozmiar próby),
  • d — różnica między rangami dwóch zmiennych dla tej samej obserwacji (d = ranga(X) − ranga(Y)),
  • ρ (rs) mieści się w przedziale od −1 do +1: wartość bliska +1 oznacza silną dodatnią zależność monotoniczną, bliska −1 — silną odwrotną zależność monotoniczną, natomiast wartość bliska 0 — brak zależności monotonicznej.

Jak obliczyć krok po kroku

  1. Przypisz rangi dla każdej zmiennej osobno (najczęściej ranga 1 = najmniejsza wartość). Jeśli występują remisy (identyczne wartości), każdej obserwacji przypisuje się średnią z odpowiadających im rang.
  2. Dla każdej pary oblicz różnicę rang d = ranga(X) − ranga(Y) i policz d².
  3. Zsumuj d² po wszystkich obserwacjach: Σd².
  4. Podstaw do wzoru ρ = 1 − (6 Σd²) / [n(n² − 1)].

Przykład

Załóżmy, że mamy dane dotyczące ceny i szybkości kilku komputerów i chcemy sprawdzić, czy droższe komputery są generalnie szybsze.

Dane (cena, szybkość):

  • Komputer A: 1000, 3.0
  • Komputer B: 1500, 3.2
  • Komputer C: 1200, 3.8
  • Komputer D: 800, 2.4
  • Komputer E: 2000, 3.5

Rangi cen (od najniższej do najwyższej): D(1), A(2), C(3), B(4), E(5).
Rangi szybkości (od najniższej do najwyższej): D(1), A(2), B(3), E(4), C(5).

Obliczenia różnic rang i d²:

  • A: r_cena=2, r_szyb=2, d=0, d²=0
  • B: r_cena=4, r_szyb=3, d=1, d²=1
  • C: r_cena=3, r_szyb=5, d=−2, d²=4
  • D: r_cena=1, r_szyb=1, d=0, d²=0
  • E: r_cena=5, r_szyb=4, d=1, d²=1

Σd² = 0 + 1 + 4 + 0 + 1 = 6. Podstawiając do wzoru dla n = 5:

ρ = 1 − (6·6) / [5(5² − 1)] = 1 − 36 / (5·24) = 1 − 36/120 = 1 − 0,3 = 0,7.

Wartość 0,7 wskazuje na dość silną dodatnią zależność monotoniczną między ceną a szybkością — ogólnie droższe komputery są szybsze.

Uwagi praktyczne

  • Spearman mierzy zależność monotoniczną, niekoniecznie liniową. Dobre dopasowanie Spearmana może wystąpić, gdy zależność jest np. wykładnicza lub logarytmiczna.
  • Gdy występują remisy, rangi przypisuje się jako średnie spośród pozycji zajmowanych przez te remisy. W przypadku wielu remisów wzór z sumą d² nadal stosuje się, lecz wyniki mogą wymagać korekcji — w praktyce statystyczne oprogramowanie używa dokładnych procedur uwzględniających remisy.
  • Dla testowania istotności można użyć przybliżonego testu t: t = ρ·sqrt((n−2)/(1−ρ²)) (dla większych próbek), lub korzystać z dokładnych testów permutacyjnych dostępnych w pakietach statystycznych.
  • Spearmana warto stosować, gdy dane nie spełniają założeń koniecznych dla korelacji Pearsona (np. brak normalności, zmienne porządkowe).

Podsumowując, współczynnik Spearmana ({\displaystyle r_{s}}) to prosty i użyteczny sposób na ocenę, czy dwie zmienne poruszają się razem w sposób monotoniczny, szczególnie gdy dane są porządkowe lub nie spełniają założeń metod parametrycznych.

Opracowanie go

Krok pierwszy

Aby rozpracować r s {\i0} {\i1}styl r_s{\i0} {\i1}musisz najpierw{\displaystyle r_{s}}uszeregować każdy kawałek danych. Użyjemy przykładu z wprowadzenia komputerów i ich prędkości.

Więc, komputer z najniższą ceną miałby pierwszą pozycję. Ten wyższy od tego miałby 2. Potem idzie w górę, aż do momentu, gdy wszystko będzie w rankingu. Musisz to zrobić z obydwoma zestawami danych.

PC

Cena ($)

R a n k 1 {\i1} {\i1}Displastyla Rank_{\i0} {\displaystyle Rank_{1}}

Prędkość (GHz)

R a n k 2 {\i1} {\i1}Displastyla Rank_{\i0} {\displaystyle Rank_{2}}

A

200

1

1.80

2

B

275

2

1.60

1

C

300

3

2.20

4

D

350

4

2.10

3

E

600

5

4.00

5

Krok drugi

Dalej, musimy znaleźć różnicę między tymi dwoma szeregami. Następnie pomnożymy tę różnicę przez siebie, co nazywa się squaringiem. Różnica nazywa się d {\i1}displaystylem d} {\displaystyle d}, a numer, który dostajesz, gdy kwadrat d {\i0}displastylem d}{\displaystyle d} nazywa się d 2 {\i1}displastylem d^{\i0} {\displaystyle d^{2}}.

R a n k 1 {\i1} {\i1}Displastyla Rank_{\i0} {\displaystyle Rank_{1}}

R a n k 2 {\i1} {\i1}Displastyla Rank_{\i0} {\displaystyle Rank_{2}}

d {\i1}Displastyla d} {\displaystyle d}

d 2 {\i1}displaystyle d^{2} {\displaystyle d^{2}}

1

2

-1

1

2

1

1

1

3

4

-1

1

4

3

1

1

5

5

0

0

Krok trzeci

Policzcie, ile mamy danych. Dane te mają rangę od 1 do 5, więc mamy 5 sztuk danych. Ten numer nazywa się n {\i0} {\i1}displastyla n{\i0}n .

Krok czwarty

Wreszcie, użyj wszystkiego, co do tej pory wypracowaliśmy w tym wzorze: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\i1}-{\i1}-{\i1}cfrac {\i1}sum d^{\i0}{n(n^{\i1}-1)}} {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

∑ d 2{\displaystyle \sum d^{2}} {\i1}oznacza, że bierzemy sumę wszystkich liczb, które były w kolumnie d 2 {\i1} {\displaystyle d^{2}}. {y:i}To dlatego, że {y:i}sum {\displaystyle \sum }oznacza sumę.

Więc, ∑ d 2 {\i1}styk styropianu d^{\i0}jest{\displaystyle \sum d^{2}}1 + 1 + 1 + 1 {\i1}styk styropianu 1+1+1}{\displaystyle 1+1+1+1} co jest 4. Wzór mówi, że należy go pomnożyć przez 6, co jest 24.

n ( n 2 - 1 ) {\i1}wyświetlacz n(n^{2}-1)}jest{\displaystyle n(n^{2}-1)}5 × ( 25 - 1 ) {\i1}wyświetlacz 5 razy (25-1)} {\displaystyle 5\times (25-1)}który wynosi 120.

Więc, żeby dowiedzieć się, że r s {\i0} {\displaystyle r_{s}}, po prostu robimy 1 - 24 120 = 0.8 {\i0.8}{\i1}{\displaystyle 1-{\cfrac {24}{120}}=0.8}

Dlatego też współczynnik korelacji rangowej Spearmana wynosi 0,8 dla tego zbioru danych.

Co te liczby oznaczają

r s {\i1}displaystyle r_{s}}{\displaystyle r_{s}} zawsze daje odpowiedź pomiędzy -1 a 1. Liczby pomiędzy są jak skala, gdzie -1 jest bardzo silnym ogniwem, 0 nie jest ogniwem, a 1 jest również bardzo silnym ogniwem. Różnica między 1 a -1 jest taka, że 1 jest korelacją dodatnią, a -1 jest korelacją ujemną. Wykres danych o wartości r s {\i1}wyglądałby{\displaystyle r_{s}} jak pokazany wykres, z wyjątkiem linii i punktów biegnących od góry z lewej strony do dołu z prawej.

Na przykład, dla danych, które zrobiliśmy powyżej, r s {\i1}displaystylu r_{s}}było 0.8. Więc{\displaystyle r_{s}}to oznacza, że istnieje pozytywna korelacja. Ponieważ jest ona bliska 1, oznacza to, że powiązanie jest silne pomiędzy dwoma zbiorami danych. Więc, możemy powiedzieć, że te dwa zestawy danych są połączone, i idą w górę razem. Gdyby było to -0,8, moglibyśmy powiedzieć, że są one połączone, a jak jeden idzie w górę, to drugi w dół.

Zoom

Ten wykres rozproszenia ma dodatnią korelację. Wartość r s{\displaystyle r_{s}} {\i1}stystylu r_{s}}byłaby bliska 1 lub 0,9. Czerwona linia jest linią najlepiej pasującą.

Jeśli dwie liczby są takie same

Czasami, przy danych rankingowych, są dwie lub więcej takich samych liczb. Kiedy to się dzieje w r s {\i1} {\i1}Style r_{\i0} {\displaystyle r_{s}}przyjmujemy średnią lub średnią z tych samych szeregów. Nazywa się to remisowymi szeregami. Aby to zrobić, klasyfikujemy remisowane liczby tak, jakby nie były remisowane. Następnie sumujemy wszystkie stopnie, które by mieli, i dzielimy je przez ich liczbę. Na przykład, powiedzmy, że oceniamy jak dobrze różne osoby radziły sobie w teście ortograficznym.

Wynik testu

Ranking

Ranga (z wiązanym)

4

1

1

6

2

2 + 3 + 4 3 = 3 {\i1} {\i1} {\i1}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

3

2 + 3 + 4 3 = 3 {\i1} {\i1} {\i1}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

4

2 + 3 + 4 3 = 3 {\i1} {\i1} {\i1}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

8

5

5 + 6 2 = 5,5 {\i1} {\i1}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

8

6

5 + 6 2 = 5,5 {\i1} {\i1}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

Liczby te są używane dokładnie w ten sam sposób, co normalne szeregi.

Powiązane strony

Pytania i odpowiedzi

P: Co to jest współczynnik korelacji rang Spearmana?


O: Współczynnik korelacji rangowej Spearmana jest miarą korelacji, która pokazuje, jak ściśle powiązane są ze sobą dwa zestawy danych. Można go stosować tylko w przypadku danych, które można uporządkować, np. od najwyższego do najniższego.

P: Kto stworzył współczynnik korelacji rangowej Spearmana?


O: Charles Spearman stworzył współczynnik korelacji rangowej Spearmana.

P: Jak się pisze ogólny wzór na współczynnik korelacji rangowej Spearmana?


O: Ogólny wzór na współczynnik korelacji rangowej Spearmana ma postać ρ = 1 - 6∑d2/n(n2-1).

P: Kiedy należy stosować współczynnik korelacji rangowej Spearmana?


O: Powinien Pan użyć współczynnika korelacji rang Spearmana, kiedy chce Pan sprawdzić, jak blisko są ze sobą powiązane dwa zestawy danych i czy w ogóle są ze sobą powiązane.

P: Z jakimi danymi współpracuje?


O: Działa z każdym rodzajem danych, które można uporządkować, np. od najwyższego do najniższego.

P: Czy może Pan podać przykład zastosowania tej miary?



O: Przykładem zastosowania tej miary może być sytuacja, w której posiada Pan dane o tym, jak drogie są różne komputery i dane o tym, jak szybkie są te komputery, wtedy może Pan sprawdzić, czy są one powiązane i jak bardzo są powiązane, używając r_s.


Przeszukaj encyklopedię
AlegsaOnline.com - 2020 / 2025 - License CC3