- Cum se calculează coeficientul de corelație?
- Covarianță și variație
- Caz ilustrativ
- Covarianța Sxy
- Abaterea standard Sx
- Abatere standard Sy
- Coeficient de corelare r
- Interpretare
- Regresie liniara
- Exemplu
- Referințe
Coeficientul de corelație în statistică este un indicator care măsoară tendința de două variabile cantitative X și Y să aibă o relație proporțională între ele liniare sau.
În general, perechile de variabile X și Y sunt două caracteristici ale aceleiași populații. De exemplu, X ar putea fi înălțimea unei persoane și Y greutatea lui.
Figura 1. Coeficientul de corelație pentru patru perechi de date (X, Y). Sursa: F. Zapata.
În acest caz, coeficientul de corelație ar indica dacă există sau nu o tendință către o relație proporțională între înălțime și greutate într-o populație dată.
Coeficientul de corelație liniară al lui Pearson este notat cu litera minusculă r, iar valorile sale minime și maxime sunt -1 și +1.
O valoare r = +1 ar indica faptul că setul de perechi (X, Y) sunt perfect aliniate și că atunci când X crește, Y va crește în aceeași proporție. Pe de altă parte, dacă s-ar întâmpla că r = -1, setul de perechi ar fi, de asemenea, perfect aliniat, dar în acest caz când X crește, Y scade în aceeași proporție.
Figura 2. Valori diferite ale coeficientului de corelație liniară. Sursa: Wikimedia Commons.
Pe de altă parte, o valoare a r = 0 ar indica faptul că nu există nicio corelație liniară între variabilele X și Y. În timp ce o valoare a r = +0,8 ar indica faptul că perechile (X, Y) tind să se aglomereze pe o parte și alta de o anumită linie.
Formula de calcul al coeficientului de corelație r este următoarea:
Cum se calculează coeficientul de corelație?
Coeficientul de corelație liniară este o cantitate statistică care este încorporată în calculatoare științifice, majoritatea foilor de calcul și programe statistice.
Cu toate acestea, este convenabil să știm cum este aplicată formula care o definește și pentru aceasta va fi afișat un calcul detaliat, efectuat pe un set de date mic.
Și așa cum s-a spus în secțiunea precedentă, coeficientul de corelație este covarianța Sxy împărțită la produsul deviației standard Sx pentru variabilele X și Sy pentru variabila Y.
Covarianță și variație
Covarianța Sxy este:
Sxy = / (N-1)
În cazul în care suma merge de la 1 la N perechi de date (Xi, Yi).
La rândul său, abaterea standard pentru variabila X este rădăcina pătrată a variației setului de date Xi, cu i de la 1 la N:
Sx = √
În mod similar, abaterea standard pentru variabila Y este rădăcina pătrată a variației setului de date Yi, cu i de la 1 la N:
Sy = √
Caz ilustrativ
Pentru a arăta în detaliu cum se calculează coeficientul de corelație, vom lua următorul set de patru perechi de date
(X, Y): {(1, 1); (2. 3); (3, 6) și (4, 7)}.
Mai întâi calculăm media aritmetică pentru X și Y, după cum urmează:
Apoi parametrii rămași sunt calculați:
Covarianța Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Abaterea standard Sx
Sx = √ = √ = 1,29
Abatere standard Sy
Sx = √ =
√ = 2,75
Coeficient de corelare r
r = 3,5 / (1,29 * 2,75) = 0,98
Interpretare
În setul de date din cazul precedent, se observă o corelație liniară puternică între variabilele X și Y, care se manifestă atât în graficul de împrăștiere (prezentat în figura 1), cât și în coeficientul de corelație, care a dat o valoare destul de aproape de unitate.
În măsura în care coeficientul de corelație este mai aproape de 1 sau de -1, cu atât mai mult sens are să se potrivească datele unei linii, rezultatul regresiei liniare.
Regresie liniara
Linia de regresie liniară este obținută prin metoda celor mai mici pătrate. în care parametrii liniei de regresie sunt obținuți din minimizarea sumei pătratului diferenței dintre valoarea Y estimată și Yi a datelor N.
Pe de altă parte, parametrii a și b ai liniei de regresie y = a + bx, obținuți prin metoda celor mai puțin pătrate, sunt:
* b = Sxy / (Sx 2 ) pentru pantă
* a =
Reamintim că Sxy este covarianța definită mai sus și Sx 2 este variația sau pătratul abaterii standard definite mai sus.
Exemplu
Coeficientul de corelație este utilizat pentru a determina dacă există o corelație liniară între două variabile. Se aplică atunci când variabilele care urmează să fie studiate sunt cantitative și, în plus, se presupune că urmează o distribuție normală de tip.
Avem un exemplu ilustrativ mai jos: o măsură a gradului de obezitate este indicele de masă corporală, care se obține prin împărțirea greutății unei persoane în kilograme la înălțimea pătrată a persoanei în unități de metri pătrați.
Vrei să știi dacă există o corelație puternică între indicele de masă corporală și concentrația de colesterol HDL în sânge, măsurată în milimetri pe litru. În acest scop, a fost realizat un studiu cu 533 de persoane, care este rezumat în graficul următor, în care fiecare punct reprezintă datele unei persoane.
Figura 3. Studiul colesterolului IMC și HDL la 533 pacienți. Sursa: Institutul Aragonesc de Științe ale Sănătății (IACS).
Observarea atentă a graficului arată că există o anumită tendință liniară (nu foarte marcată) între concentrația de colesterol HDL și indicele de masă corporală. Măsura cantitativă a acestei tendințe este coeficientul de corelație, care în acest caz s-a dovedit a fi r = -0.276.
Referințe
- González C. Statistici generale. Recuperat din: tarwi.lamolina.edu.pe
- IACS. Institutul Aragon de Științe ale Sănătății. Recuperat de la: ics-aragon.com
- Salazar C. și Castillo S. Principii de bază ale statisticilor. (2018). Recuperat din: dspace.uce.edu.ec
- Superprof. Coeficient de corelație. Recuperat din: superprof.es
- USAC. Manual de statistici descriptive. (2011). Recuperat din: statistici.ingenieria.usac.edu.gt
- Wikipedia. Coeficientul de corelație al lui Pearson. Recuperat din: es.wikipedia.com.