Regula Sturges este un criteriu utilizat pentru a determina numărul de clase sau intervale care sunt necesare pentru trasarea unui set de date statistice. Această regulă a fost enunțată în 1926 de matematicianul german Herbert Sturges.
Sturges a propus o metodă simplă, bazată pe numărul de eșantioane x care să ne permită să găsim numărul de clase și lățimea lor. Regula Sturges este utilizată pe scară largă, în special în domeniul statisticilor, în special pentru a construi histograme de frecvență.
Explicaţie
Regula Sturges este o metodă empirică utilizată pe scară largă în statisticile descriptive pentru a determina numărul de clase care trebuie să existe într-o histogramă de frecvență, pentru a clasifica un set de date care reprezintă un eșantion sau o populație.
Practic, această regulă determină lățimea containerelor grafice, a histogramelor de frecvență.
Pentru a-și stabili regula, Herbert Sturges a considerat o diagramă de frecvență ideală, formată din intervale de K, în care intervalul i-conține un anumit număr de eșantioane (i = 0, … k - 1), reprezentat ca:
Acest număr de eșantioane este dat de numărul de modalități prin care poate fi extras un subset de un set; adică prin coeficientul binomial, exprimat după cum urmează:
Pentru a simplifica expresia, el a aplicat proprietățile logaritmelor pe ambele părți ale ecuației:
Astfel, Sturges a stabilit că numărul optim de intervale k este dat de expresia:
Poate fi exprimat și ca:
În această expresie:
- k este numărul de clase.
- N este numărul total de observații din eșantion.
- Jurnalul este logaritmul comun al bazei 10.
De exemplu, pentru a construi o histogramă de frecvență care exprimă un eșantion aleatoriu de 142 înălțime pentru copii, numărul de intervale sau clase pe care le va avea distribuția este:
k = 1 + 3.322 * jurnal 10 (N)
k = 1 + 3.322 * jurnal (142)
k = 1 + 3.322 * 2.1523
k = 8,14 ≈ 8
Astfel, distribuția se va face în 8 intervale.
Numărul de intervale trebuie întotdeauna reprezentat de numere întregi. În cazurile în care valoarea este zecimală, trebuie făcută o aproximare la cel mai apropiat număr întreg.
Aplicații
Regula Sturges este aplicată mai ales în statistici, deoarece permite distribuirea frecvenței prin calcularea numărului de clase (k), precum și a lungimii fiecăreia dintre acestea, cunoscută și sub denumirea de amplitudine.
Amplitudinea este diferența dintre limita superioară și inferioară a clasei, împărțită la numărul de clase și este exprimată:
Există multe reguli care permit realizarea unei distribuții de frecvență. Cu toate acestea, regula Sturges este folosită în mod obișnuit, deoarece aproximează numărul de clase, care în general variază între 5 și 15.
Astfel, consideră o valoare care reprezintă în mod adecvat un eșantion sau o populație; adică aproximarea nu reprezintă grupări extreme și nici nu funcționează cu un număr excesiv de clase care nu permit rezumarea eșantionului.
Exemplu
O histogramă de frecvență trebuie făcută conform datelor date, care corespund vârstei obținute într-un sondaj la bărbații care fac exerciții într-o sală de gimnastică locală.
Pentru a determina intervalele, trebuie să cunoaștem dimensiunea eșantionului sau numărul de observații; în acest caz, sunt 30.
Atunci se aplică regula lui Sturges:
k = 1 + 3.322 * jurnal 10 (N)
k = 1 + 3,322 * jurnal (30)
k = 1 + 3.322 * 1.4771
k = 5,90 ≈ 6 intervale.
Din numărul de intervale, se poate calcula amplitudinea pe care o vor avea acestea; adică lățimea fiecărei bare reprezentată în histograma frecvenței:
Limita inferioară este considerată cea mai mică valoare a datelor, iar limita superioară este cea mai mare valoare. Diferența dintre limitele superioare și inferioare se numește intervalul sau intervalul variabilei (R).
Din tabel avem că limita superioară este 46 și limita inferioară 13; astfel, amplitudinea fiecărei clase va fi:
Intervalele vor fi alcătuite dintr-o limită superioară și inferioară. Pentru a determina aceste intervale, începem prin numărarea de la limita inferioară, adăugând la aceasta amplitudinea determinată de regula (6), în felul următor:
Apoi, frecvența absolută este calculată pentru a determina numărul de bărbați corespunzător fiecărui interval; în acest caz este:
- Interval 1: 13 - 18 = 9
- Interval 2: 19 - 24 = 9
- Intervalul 3: 25 - 30 = 5
- Intervalul 4: 31 - 36 = 2
- Intervalul 5: 37 - 42 = 2
- Intervalul 6: 43 - 48 = 3
La adăugarea frecvenței absolute a fiecărei clase, aceasta trebuie să fie egală cu numărul total al eșantionului; în acest caz, 30.
Ulterior, se calculează frecvența relativă a fiecărui interval, împărțind frecvența sa absolută la numărul total de observații:
- Interval 1: fi = 9 ÷ 30 = 0,30
- Interval 2: fi = 9 ÷ 30 = 0,30
- Intervalul 3: fi = 5 ÷ 30 = 0,1666
- Intervalul 4: fi = 2 ÷ 30 = 0,0666
- Intervalul 5: fi = 2 ÷ 30 = 0,0666
- Intervalul 4: fi = 3 ÷ 30 = 0,10
Apoi puteți realiza un tabel care să reflecte datele, precum și diagrama din frecvența relativă în raport cu intervalele obținute, așa cum se poate vedea în imaginile următoare:
În acest fel, regula Sturges permite determinarea numărului de clase sau intervale în care poate fi împărțit un eșantion, pentru a rezuma un eșantion de date prin elaborarea de tabele și grafice.
Referințe
- Alfonso Urquía, MV (2013). Modelarea și simularea evenimentelor discrete. UNED,.
- Altman Naomi, MK (2015). „Regresie liniară simplă”. Metode ale naturii.
- Antúnez, RJ (2014). Statistici în învățământ. UNITATE Digitală
- Fox, J. (1997.). Analiză de regresie aplicată, modele liniare și metode conexe. Publicații SAGE.
- Humberto Llinás Solano, CR (2005). Statistici descriptive și distribuții de probabilitate. Universitatea de Nord.
- Panteleeva, OV (2005). Fundamentele probabilității și statistici.
- O. Kuehl, MO (2001). Proiectarea experimentelor: Principii statistice ale proiectării și analizei cercetării. Editori Thomson