- Cum se calculează coeficientul de determinare?
- Caz ilustrativ
- Interpretare
- Exemple
- - Exemplul 1
- Soluţie
- - Exemplul 2
- Soluţie
- - Exemplul 3
- Soluţie
- Comparație potrivită
- concluzii
- Referințe
Coeficientul de determinare este un număr între 0 și 1 , care reprezintă fracțiunea de puncte (X, Y) care urmează linia de regresie a se potrivesc unui set de date cu două variabile.
Este , de asemenea , cunoscut sub numele de buna potrivire și este notat cu R 2 . Pentru a calcula, se ia coeficientul dintre variația datelor Ŷi estimată de modelul de regresie și variația datelor Yi corespunzătoare fiecărui Xi din date.
R 2 = sy / Sy
Figura 1. Coeficientul de corelație pentru patru perechi de date. Sursa: F. Zapata.
Dacă 100% din date sunt pe linia funcției de regresie, atunci coeficientul de determinare va fi 1.
Dimpotrivă, dacă pentru un set de date și o anumită funcție de reglare, coeficientul R 2 se dovedește a fi egal cu 0,5, atunci se poate spune că ajustarea este 50% satisfăcătoare sau bună.
În mod similar, atunci când modelul de regresie produce valori R 2 mai mici decât 0,5, acest lucru indică faptul că funcția de reglare aleasă nu se adaptează satisfăcător la date, de aceea este necesară căutarea unei alte funcții de ajustare.
Și atunci când covarianța sau coeficientul de corelație tinde spre zero, atunci variabilele X și Y din date nu au legătură, și, prin urmare, R 2 va tinde de asemenea la zero.
Cum se calculează coeficientul de determinare?
În secțiunea anterioară s-a spus că coeficientul de determinare este calculat prin găsirea coeficientului dintre variații:
-Estimată de funcția de regresie a variabilei Y
-Tipul variabilei Yi corespunzând fiecăreia dintre variabila Xi a celor N perechi de date.
Afișat matematic, arată așa:
R 2 = sy / Sy
Din această formulă rezultă că R 2 reprezintă proporția de varianță explicată prin modelul de regresie. În mod alternativ, R 2 poate fi calculată folosind următoarea formulă, complet echivalentă cu cea anterioară:
R 2 = 1 - (Sε / Sy)
Unde Sε reprezintă variația reziduurilor εi = Ŷi - Yi, în timp ce Sy este varianța setului de valori Yi ale datelor. Pentru a determina Ŷi se aplică funcția de regresie, ceea ce înseamnă a afirma că Ŷi = f (Xi).
Varianța setului de date Yi, cu i de la 1 la N este calculată astfel:
Sy =
Și apoi procedați într-un mod similar pentru Sŷ sau Sε.
Caz ilustrativ
Pentru a arăta detaliile modului în care se face calculul coeficientului de determinare, vom lua următorul set de patru perechi de date:
(X, Y): {(1, 1); (2. 3); (3, 6) și (4, 7)}.
Pentru acest set de date este propusă o potrivire de regresie liniară, care este obținută folosind metoda celor mai mici pătrate:
f (x) = 2,1 x - 1
Prin aplicarea acestei funcții de reglare, se obțin cuplurile:
(X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5.3) și (4, 7.4)}.
Apoi calculăm media aritmetică pentru X și Y:
Variance Sy
Sy = / (4-1) =
= = 7.583
Variance Sŷ
Sŷ = / (4-1) =
= = 7.35
Coeficientul de determinare R 2
R 2 = SY / Sy = 7,35 / 7,58 = 0,97
Interpretare
Coeficientul de determinare pentru cazul ilustrativ considerat în segmentul anterior s-a dovedit a fi 0,98. Cu alte cuvinte, ajustarea liniară prin funcția:
f (x) = 2.1x - 1
Este de încredere 98% în explicarea datelor cu care au fost obținute folosind metoda celor mai puțin pătrate.
În plus față de coeficientul de determinare, există coeficientul de corelație liniară sau cunoscut și sub denumirea de coeficientul Pearson. Acest coeficient, notat ca r, este calculat prin următoarea relație:
r = Sxy / (Sx Sy)
Aici numerotatorul reprezintă covarianța dintre variabilele X și Y, în timp ce numitorul este produsul abaterii standard pentru variabila X și abaterea standard pentru variabila Y.
Coeficientul Pearson poate lua valori între -1 și +1. Atunci când acest coeficient tinde spre +1, există o corelație liniară directă între X și Y. Dacă în schimb înclină spre -1, există o corelație liniară, dar când X crește Y scade. În cele din urmă, este aproape de 0 nu există o corelație între cele două variabile.
Trebuie menționat că coeficientul de determinare coincide cu pătratul coeficientului Pearson, numai atunci când primul a fost calculat pe baza unei potriviri liniare, dar această egalitate nu este valabilă pentru alte adaptări neliniare.
Exemple
- Exemplul 1
Un grup de elevi de liceu și-au propus să determine o lege empirică pentru perioada unui pendul în funcție de lungimea sa. Pentru a atinge acest obiectiv, aceștia efectuează o serie de măsurători în care măsoară timpul unei oscilații a pendulului pentru diferite lungimi obținând următoarele valori:
Lungime (m) | Perioada (perioadele) |
---|---|
0.1 | 0.6 |
0.4 | 1.31 |
0.7 | 1,78 |
unu | 1,93 |
1.3 | 2.19 |
1.6 | 2,66 |
1.9 | 2,77 |
3 | 3,62 |
Se solicită realizarea unui complot de date și efectuarea unei ajustări liniare prin regresie. De asemenea, arată ecuația de regresie și coeficientul ei de determinare.
Soluţie
Figura 2. Graficul soluțiilor pentru exercițiul 1. Sursa: F. Zapata.
Se poate observa un coeficient de determinare destul de ridicat (95%), astfel încât s-ar putea crede că potrivirea liniară este optimă. Cu toate acestea, dacă punctele sunt privite împreună, par să aibă o tendință de curbare în jos. Acest detaliu nu este avut în vedere în modelul liniar.
- Exemplul 2
Pentru aceleași date din Exemplul 1, faceți o diagramă de difuzare a datelor. Cu această ocazie, spre deosebire de exemplul 1, se cere o ajustare de regresie folosind o funcție potențială.
Figura 3. Graficul soluției pentru exercițiul 2. Sursa: F. Zapata.
De asemenea , arată funcția fit și coeficientul său de determinare R 2 .
Soluţie
Funcția potențială este de forma f (x) = Ax B , unde A și B sunt constante care sunt determinate prin metoda celor mai mici pătrate.
Figura anterioară prezintă funcția potențială și parametrii acesteia, precum și coeficientul de determinare cu o valoare foarte mare de 99%. Observați că datele urmează curbura liniei de tendințe.
- Exemplul 3
Folosind aceleași date din Exemplul 1 și Exemplul 2, efectuați o potrivire polinomială de gradul doi. Arătați graficul, polinomul potrivit și coeficientul de determinare R 2 corespunzător .
Soluţie
Figura 4. Graficul soluțiilor pentru exercițiul 3. Sursa: F. Zapata.
Cu o potrivire polinomială de gradul doi, puteți vedea o linie de tendință care se potrivește bine curburii datelor. De asemenea, coeficientul de determinare este peste limita liniară și sub potrivirea potențială.
Comparație potrivită
Dintre cele trei potriviri prezentate, cea cu cel mai mare coeficient de determinare este potrivirea potențială (exemplu 2).
Potrivirea potențială coincide cu teoria fizică a pendulului, care, după cum se știe, stabilește că perioada unui pendul este proporțională cu rădăcina pătrată a lungimii sale, constanța proporționalității fiind 2π / √g unde g este accelerația gravitației.
Acest tip de potrivire potențială nu are doar cel mai mare coeficient de determinare, dar exponentul și constanta de proporționalitate se potrivesc modelului fizic.
concluzii
-Reglarea de regresie determină parametrii funcției care își propune să explice datele folosind metoda celor mai puțin pătrate. Această metodă constă în reducerea sumei diferenței pătrate între valoarea Y de ajustare și valoarea Yi a datelor pentru valorile Xi ale datelor. Aceasta determină parametrii funcției de reglare.
-După cum am văzut, cea mai frecventă funcție de ajustare este linia, dar nu este singura, deoarece ajustările pot fi și polinomiale, potențiale, exponențiale, logaritmice și altele.
-În orice caz, coeficientul de determinare depinde de date și de tipul de ajustare și este un indiciu al bunătății reglării aplicate.
-În final, coeficientul de determinare indică procentul de variabilitate totală între valoarea Y a datelor cu privire la valoarea Ŷ a ajustării pentru X-ul dat.
Referințe
- González C. Statistici generale. Recuperat din: tarwi.lamolina.edu.pe
- IACS. Institutul Aragon de Științe ale Sănătății. Recuperat de la: ics-aragon.com
- Salazar C. și Castillo S. Principii de bază ale statisticilor. (2018). Recuperat din: dspace.uce.edu.ec
- Superprof. Coeficient de determinare. Recuperat din: superprof.es
- USAC. Manual de statistici descriptive. (2011). Recuperat din: statistici.ingenieria.usac.edu.gt.
- Wikipedia. Coeficient de determinare. Recuperat din: es.wikipedia.com.