- Importanța homoscedasticității
- Homoscedasticitatea versus heteroscedasticitatea
- Testele de homoscedasticitate
- Variabile standardizate
- Testele non-grafice ale homoscedasticității
- Referințe
Homoscedasticity într - un model statistic predictive apare dacă toate grupurile de date ale uneia sau mai multor observații, varianța (sau independent) model cu privire la variabilele explicative rămân constante.
Un model de regresie poate fi homoscedastic sau nu, caz în care vorbim de heteroscedasticitate.
Figura 1. Cinci seturi de date și reglajul regresiei setului. Variația față de valoarea prevăzută este aceeași în fiecare grup. (Upav-biblioteca.org)
Un model de regresie statistică al mai multor variabile independente este denumit homoscedastic, numai dacă variația erorii variabilei prevăzute (sau abaterea standard a variabilei dependente) rămâne uniformă pentru diferite grupuri de valori ale variabilelor explicative sau independente.
În cele cinci grupuri de date din figura 1, variația din fiecare grup a fost calculată, în raport cu valoarea estimată de regresie, dovedind a fi aceeași în fiecare grup. În continuare, se presupune că datele urmează distribuția normală.
La nivel grafic înseamnă că punctele sunt la fel de împrăștiate sau împrăștiate în jurul valorii prevăzute de regresia potrivită și că modelul de regresie are aceeași eroare și valabilitate pentru intervalul variabilei explicative.
Importanța homoscedasticității
Pentru a ilustra importanța homoscedasticității în statisticile predictive, este necesar să contrastăm cu fenomenul opus, heteroscedasticitatea.
Homoscedasticitatea versus heteroscedasticitatea
În cazul figurii 1, în care există omoscedasticitate, este adevărat că:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
În cazul în care Var ((yi-Yi); Xi) reprezintă variația, perechea (xi, yi) reprezintă date din grupul i, în timp ce Yi este valoarea prevăzută de regresie pentru valoarea medie Xi a grupului. Varianța celor n date din grupul i se calculează astfel:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Dimpotrivă, atunci când apare heteroscedasticitatea, este posibil ca modelul de regresie să nu fie valabil pentru întreaga regiune în care a fost calculată. Figura 2 prezintă un exemplu al acestei situații.
Figura 2. Grup de date care prezintă heteroscedasticitate. (Elaborare proprie)
Figura 2 reprezintă trei grupuri de date și potrivirea setului folosind o regresie liniară. Trebuie menționat că datele din grupa a doua și a treia sunt mai dispersate decât în primul grup. Graficul din figura 2 arată de asemenea valoarea medie a fiecărui grup și bara de eroare ± σ, cu abaterea standard σ a fiecărui grup de date. Trebuie amintit că abaterea standard σ este rădăcina pătrată a variației.
Este clar că, în cazul heteroscedasticității, eroarea de estimare a regresiei se modifică în intervalul valorilor variabilei explicative sau independente, iar în intervalele în care această eroare este foarte mare, predicția de regresie este nesigură sau Nu se aplică.
Într-un model de regresie, erorile sau reziduurile (și -Y) trebuie distribuite cu o variație egală (σ ^ 2) pe întregul interval de valori al variabilei independente. Din acest motiv, un model de regresie bună (liniar sau neliniar) trebuie să treacă testul de homoscedasticitate.
Testele de homoscedasticitate
Punctele prezentate în figura 3 corespund datelor unui studiu care caută o relație între prețurile (în dolari) ale caselor în funcție de dimensiunea sau suprafața în metri pătrați.
Primul model testat este cel al unei regresii liniare. În primul rând, se observă că coeficientul de determinare R ^ 2 al potrivirii este destul de mare (91%), deci se poate crede că potrivirea este satisfăcătoare.
Cu toate acestea, două regiuni se pot distinge clar de graficul de ajustare. Unul dintre ei, cel din dreapta închis într-un oval, îndeplinește homoscedasticitatea, în timp ce regiunea din stânga nu are homoscedasticitate.
Aceasta înseamnă că predicția modelului de regresie este adecvată și fiabilă în intervalul de la 1800 m ^ 2 până la 4800 m ^ 2, dar foarte inadecvată în afara acestei regiuni. În zona heteroscedastică, nu numai că eroarea este foarte mare, dar și datele par să urmeze o tendință diferită de cea propusă de modelul de regresie liniară.
Figura 3. Prețurile locuințelor față de zonă și modelul predictiv prin regresie liniară, care prezintă zone de homoscedasticitate și heteroscedasticitate. (Elaborare proprie)
Graficul de împrăștiere a datelor este cel mai simplu și mai vizual test al homoscedasticității lor, cu toate acestea, în ocazii în care nu este la fel de evident ca în exemplul prezentat în figura 3, este necesar să se apeleze la grafice cu variabile auxiliare.
Variabile standardizate
Pentru a separa zonele în care omoscedasticitatea este îndeplinită și unde nu, sunt introduse variabilele standardizate ZRes și ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Trebuie menționat că aceste variabile depind de modelul de regresie aplicat, deoarece Y este valoarea predicției de regresie. Mai jos este prezentat complotul ZRes vs ZPred pentru același exemplu:
Figura 4. Trebuie menționat că în zona de homoscedasticitate ZR-urile rămân uniforme și mici în regiunea de predicție (elaborare proprie).
În graficul din figura 4 cu variabilele standardizate, zona în care eroarea reziduală este mică și uniformă este clar separată de zona în care nu este. În prima zonă, omoscedasticitatea este îndeplinită, în timp ce în regiunea în care eroarea reziduală este extrem de variabilă și mare, heteroscedasticitatea este îndeplinită.
Reglarea de regresie se aplică aceluiași grup de date din figura 3, în acest caz ajustarea este neliniară, deoarece modelul utilizat implică o funcție potențială. Rezultatul este prezentat în următoarea figură:
Figura 5. Noi zone de homoscedasticitate și heteroscedasticitate în încadrarea datelor cu un model de regresie neliniară. (Elaborare proprie)
În graficul din figura 5, ar trebui notate în mod clar zonele homoscedastice și heteroscedasticele. De asemenea, trebuie menționat faptul că aceste zone au fost schimbate în raport cu cele care au fost formate în modelul de montare liniară.
În graficul din figura 5 este evident că chiar și atunci când există un coeficient destul de ridicat de determinare a potrivirii (93,5%), modelul nu este adecvat pentru întregul interval al variabilei explicative, deoarece datele pentru valori mai mare de 2000 m ^ 2 prezintă heteroscedasticitate.
Testele non-grafice ale homoscedasticității
Unul dintre testele non-grafice utilizate cel mai mult pentru a verifica dacă omoscedasticitatea este îndeplinită sau nu este testul Breusch-Pagan.
Nu toate detaliile acestui test vor fi prezentate în acest articol, dar caracteristicile sale fundamentale și pașii acestuia sunt descrise aproximativ:
- Modelul de regresie se aplică la n datele și variația acestora este calculată în raport cu valoarea estimată de modelul σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- O nouă variabilă este definită ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Același model de regresie se aplică noii variabile și se calculează noii parametri de regresie.
- Valoarea critică pătrat Chi (Chi ^ 2) este determinată, aceasta fiind jumătate din suma pătratelor noi reziduuri în variabila ε.
- Tabelul de distribuție al pătratului Chi este utilizat luând în considerare nivelul de semnificație (de obicei 5%) și numărul de grade de libertate (# de variabile de regresie minus unitatea) de pe axa x a tabelului, pentru a obține valoarea de bordul.
- Valoarea critică obținută în etapa 3 este comparată cu valoarea găsită în tabel (χ ^ 2).
- Dacă valoarea critică este sub cea a tabelului, avem ipoteza nulă: există homoscedasticitate
- Dacă valoarea critică este peste cea a tabelului, avem ipoteza alternativă: nu există homoscedasticitate.
Majoritatea pachetelor software statistice, cum ar fi: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic și multe altele includ testul de omosedasticitate Breusch-Pagan. Un alt test pentru verificarea uniformității variației este testul Levene.
Referințe
- Cutie, Vânător și Vânător. (1988) Statistici pentru cercetători. Am inversat editorii.
- Johnston, J (1989). Metode de ecometrie, ediții Vicens-Vives.
- Murillo și González (2000). Manual de Econometrie. Universitatea din Las Palmas de Gran Canaria. Recuperat din: ulpgc.es.
- Wikipedia. Homoscedasticity. Recuperat din: es.wikipedia.com
- Wikipedia. Homoscedasticity. Recuperat din: en.wikipedia.com