Parametri descriptivi
Acest capitol este unul hotarâtor în ce priveste importanta sa în economia întelegerii statisticii descriptive, dar si în ce priveste manipularea formulelor matematice din statistica inferentiala.
În cadrul parametrilor tendintei centrale sunt incluse acele procedee care ofera o valoare reprezentativa (centrala) pentru sirul de date masurat. Exista trei estimatori care pot fi utilizati în acest sens: media, mediana si modul.
În cadrul parametrilor variantei sunt incluse procedeele care ne arata în ce masura datele sunt omogene sau nu, masurând împrastierea lor si implicit diferentierile care exista în interiorul sirului de date. Vor fi abordati în acest capitol urmatorii indicatori ai variantei: amplitudinea, abaterea standard si dispersia.
Va fi introdus si un coeficient de variabilitate V pentru a ne da seama în ce masura un grup de date este omogen sau eterogen. Valorile standard z, necesare descrierii unei valori dintr-un sir de date, sunt de asemenea prezentate. Complementar, sunt prezentati indicatorii de asimetrie si de boltire care caracterizeaza o distributie a datelor si staninele, ca modalitate de clasificare a datelor.
Indicatori ai tendintei centrale
Media
Media este un indicator care caracterizeaza un esantion (o populatie) din punctul de vedere al unei caracteristici studiate. Exista mai multe notari pentru medie: M si x barat reprezinta media unui esantion, iar m (miu) este media unei populatii.
Media se calculeaza simplu, adunând toate valorile dintr-un sir de date si împartind totalul la numarul de date:
M = S X / N
Iata sirul de date:
X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)
Media acestui sir de date este:
M = (4+8+6+7+9+11+9+9+12+7) / 10 = 82 / 10 = 8,2.
În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica o alta formula:
Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului. Iata si un exemplu cu date grupate:
Intervalul (i) |
Centrul i (x) |
Frecventa (fi) |
x * f |
30-32 |
31 |
1 |
31 |
27-29 |
28 |
2 |
56 |
24-26 |
25 |
4 |
100 |
21-23 |
22 |
6 |
132 |
18-20 |
19 |
10 |
190 |
15-17 |
16 |
9 |
144 |
12-14 |
13 |
5 |
65 |
9-11 |
10 |
5 |
50 |
6-8 |
7 |
3 |
21 |
3-5 |
4 |
2 |
8 |
S fi = 47 S xi*fi= 797
Astfel M = 797 / 47 = 16,96
Caracteristicile mediei:
Mediana
Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei de date. Ea reprezinta punctul central al seriei, deoarece la stânga si la dreapta ei se situeaza câte 50% din totalitatea datelor. Mediana coincide cu media în cazul unei distributii teoretice normale si se îndeparteaza mult de aceasta daca distributia este asimetrica.
Pentru a calcula mediana în cazul distributiei simple a datelor exista doua situatii:
loc mediana = (n+1) / 2
Sa luam mai întâi sirul de date utilizat si pentru calcularea mediei:
X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)
Este necesar mai întâi aranjarea datelor sirului într-o ordine fie crescatoare, fie descrescatoare:
Astfel, X devine (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). În acest caz vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba de locurile 5 si 6. Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana adunam cele doua valori gasite si împartim rezultatul la doi.
Astfel, Md = (8+9) / 2 = 8,5
Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilit dupa formula data (n+1) / 2, în acest caz cinci. Mediana este valoarea care se gaseste pe pozitia din mijlocul sirului ordonat de date (pozitia 5 în cazul de fata). Consultând sirul de date observam ca mediana ar fi 8. În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica formula:
Unde: l este limita inferioara a intervalului de clasa care contine mediana;
fc este frecventa cumulata precedând clasa care contine mediana;
fi este frecventa clasei intervalului care contine mediana;
N este numarul total al cazurilor;
j este marimea intervalului (i) care cuprinde mediana.
Vom calcula mediana pentru aceleasi date pe care le-am utilizat în calculul mediei pentru distributii grupate.
Intervalul |
Centrul i |
Frecventa (fi) |
Frecventa cumulata |
30-32 |
31 |
1 |
47 |
27-29 |
28 |
2 |
46 |
24-26 |
25 |
4 |
44 |
21-23 |
22 |
6 |
40 |
18-20 |
19 |
10 |
34 |
15-17 |
16 |
9 |
24 |
12-14 |
13 |
5 |
15 |
9-11 |
10 |
5 |
10 |
6-8 |
7 |
3 |
5 |
3-5 |
4 |
2 |
2 |
N = 47
Pentru a aplica formula de calcul a medianei mai trebuie efectuati câtiva pasi:
Avem acum toate datele necesare calcularii medianei:
Caracteristicile medianei:
Modul
Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea cea mai frecvent întâlnita.
Astfel, pentru sirurile de date simple modul se afla cautând valoarea cel mai des întâlnita. Pentru sirul dat drept exemplu: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7).
Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca valoarea cea mai întâlnita este 9 (apare de trei ori).
Ca urmare modul pentru acest sir este: Mo = 9
Pentru date grupate, se cauta intervalul care are cea mai mare frecventa. În cazul nostru, acest interval este 18-20 în interiorul caruia se afla 10 valori.
Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo = 19.
Intervalul (i) |
Frecventa (f) |
Intervalul (i) |
Frecventa (f) |
30-32 (31) |
1 |
15-17 (16) |
9 |
27-29 (28) |
2 |
12-14 (13) |
5 |
24-26 (25) |
4 |
9-11 (10) |
5 |
21-23 (22) |
6 |
6-8 (9) |
3 |
18-20 (19) |
10 |
3-5 (4) |
2 |
Caracteristicile modului:
Tinând cont de aceste caracteristici, media este recomandata în cazul variabilelor numerice care îndeplinesc conditiile parametrice (distributie normala, omogenitate s.a.). Mediana se recomanda pentru cazurile în care nu sunt îndeplinite conditiile parametrice (distributii asimetrice, etrogenitate crescuta etc) si în cazul variabilelor de tip ordinal. Modul este utilizat mai rar pentru date numerice, fiind însa foarte util în cazul variabilelor de tip categorial (date calitative, nominale), deoarece nu putem calcula ceilalti parametrii centrali.
Indicatori ai imprastierii datelor
Amplitudinea
Este un parametru care arata distanta dintre valoarea minima si valoarea maxima din cadrul unui sir de date:
A = (Xmax Xmin)
Pentru a calcula amplitudinea sirului de date:
X = (7, 5, 10, 4, 8, 5, 8, 9, 7) vom avea: 10 - 4 = 6.
Abaterea standard
Este cea mai cunoscuta si utilizata masura a variabilitatii datelor. Trebuie sa distingem trei tipuri de notatii diferite, utilizate în situatii variate care vor fi descrise în tabelul urmator.
Simbol |
Scop |
Descriere |
s |
Abaterea standard a populatiei |
Notata cu sigma, s este utilizat pentru a descrie abaterea standard a unei populatii. |
s |
Estimator al abaterii standard a populatiei |
Notat cu s mic, este pentru sigma ceea ce M este pentru m . Deoarece caracteristicile populatiei sunt rareori cunoscute, noi vom lucra cu M si s foarte frecvent în capitolele destinate comparatiilor. |
S |
Abaterea standard a esantionului |
Exista situatii în care se doreste masurarea abaterii standard a esantionului, fara a se dori estimarea abaterii populatiei din care face parte esantionul. Aceasta abatere standard va fi utilizata mai ales în capitolele referitoare la corelatii si regresii. |
Atât s cât si S sunt abateri standard a unor date (prima fiind un parametru al populatiei, iar cea de a doua a unui esantion.
În cazul distributiei simple, formulele de calcul sunt:
a) pentru abaterea standard a unei populatii
b) pentru abaterea standard a unui esantion
Unde: X sunt valorile individuale;
M este media esantionului;
m este media populatiei
n este numarul de subiecti observati.
O alta formula care poate fi aplicata în ambele cazuri este:
Pentru a concretiza formulele prezentate mai sus vom calcula S pentru urmatorul sir de date.
X = (4, 6, 7, 9, 8, 5, 8, 3, 10, 6)
M este S X / n = 66/10 = 6,6
X |
X-M |
(X-M) la patrat |
X patrat |
4 |
-2,6 |
6,76 |
16 |
6 |
-0,6 |
0,36 |
36 |
7 |
0,4 |
0,16 |
49 |
9 |
2,4 |
5,76 |
81 |
8 |
1,4 |
1,96 |
64 |
5 |
-1,6 |
2,56 |
25 |
8 |
1,4 |
1,96 |
64 |
3 |
-3,6 |
12,96 |
9 |
10 |
3,4 |
11,56 |
100 |
6 |
-0,6 |
0,36 |
36 |
S X=66 S (X-M) la patrat= 44,40 S (Xpatrat) = 480
(S X) la patrat = 4356.
Astfel aplicând prima formula a lui S avem:
Pentru a calcula s este necesar sa se cunoasca media populatiei (m ) si / sau un numar mare de date (x).
In cazul seriilor cu frecvente sau a datelor grupate pe intervale vom avea:
Unde: fi este frecventa datelor;
X sunt valorile individuale;
M este media esantionului.
În acelasi mod se poate calcula si sigma, doar M fiind înlocuit de m (media populatiei).
Iata un exemplu de calculare a abetrii standard în cazul distributiei pe intervale a datelor.
(i) |
Xi |
(xi-M) |
(x-M)(x-M) |
fi |
fi*(x-M)(x-M) |
30-32 |
31 |
14,04 |
197,12 |
1 |
197,12 |
27-29 |
28 |
11,04 |
121,88 |
2 |
243,76 |
24-26 |
25 |
8,04 |
64,64 |
4 |
258,56 |
21-23 |
22 |
5,04 |
25,40 |
6 |
152,40 |
18-20 |
19 |
2,04 |
4,16 |
10 |
41,60 |
15-17 |
16 |
-0,96 |
0,92 |
9 |
8,28 |
12-14 |
13 |
-3,96 |
15,68 |
5 |
78,40 |
9-11 |
10 |
-6,96 |
48,44 |
5 |
242,20 |
6-8 |
7 |
-9,96 |
99,20 |
3 |
297,60 |
3-5 |
4 |
-12,96 |
167,96 |
2 |
335,92 |
M = 16,96 S fi = 47 S =1855,84
Ca urmare S = radical din (1855,84 / 47) = 6,28
Estimarea abaterii standard a populatiei din care face parte esantionul cu ajutorul lui s (atentie s mic în aceasta situatie) este un element foarte important. Se cunoaste ca exista diferente mici între media si dispersia unei populatii si media si dispersia unui esantion din cadrul populatiei respective. Rareori este posibil sa calculam parametrii pentru o populatie întreaga ori pentru un esantion foarte mare. De aceea, în anumite situatii se obisnuieste sa se calculeze un estimator a lui sigma, estimator notat cu s mic.
Se observa va s se apropie foarte mult de calculul lui S, existând doar o singura diferenta la numitor: (n-1) în cazul lui s si n în cazul lui S. Se obisnuieste pentru esantioane mai mici de 30 de subiecti sa se realizeze o corectie in calcularea abaterii standard utilizand tocmai aceast estimator.
El poate fi calculat utilizând o alta formula, dar efectuând aceeasi ajustare.
Pentru date grupate vom folosi formula:
Iata un exemplu de calcul al estimatarii abaterii standard a unei populatii pornind de la un sir de date strânse de la un esantion.
X |
X² |
13 |
169 |
11 |
121 |
15 |
225 |
12 |
144 |
11 |
121 |
12 |
144 |
S X=74 S X²=924
Daca datele ar fi fost organizate pe frecvente:
X |
f |
X*f |
X² * f |
11 |
2 |
22 |
242 |
12 |
2 |
24 |
288 |
13 |
1 |
13 |
169 |
14 |
0 |
0 |
0 |
15 |
1 |
15 |
225 |
S f=6 S fx=74 S fx²=924
Vom obtine, cu siguranta acelasi rezultat.
OBSERVATII:
Amplitudinea este de obicei de doua pâna la cinci, sase ori mai mare decât abaterea standard. În acest mod veti putea depista greselile mari în calculul abaterii standard.
S X² este suma patratelor, formula utilizata frecvent în tehnicile ANOVA
Dispersia
Nu este foarte utila în statistica descriptiva, fiind însa foarte importanta în statistica inferentiala. Dispersia este patratul abaterii standard. Chair si notatiile pentru dispersie sunt s ² pentru dispersia populatiei, S² pentru dispersia esantionului si s² pentru dispersia esantionului utilizata pentru estimarea dispersiei populatiei.
Formulele dispersiei pentru aceste situatii sunt aceleasi cu cele pentru abaterea standard dar se elimina radicalul.
OBSERVATIE:
Dispersia este egala cu abaterea standard la patrat.
Dispersia mai este denumita si media patratica (MS) fiind utilizata de asemenea în calcularea lui F din tehnicile ANOVA si ANCOVA.
Coeficientul de variabilitate
Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion si se obtine prin raportarea abaterii standard la media esantionului. Rezultatul obtinut se raporteaza apoi în procente.
Unde: S este abaterea standard a esantionului studiat;
M este media grupului.
Spre exemplu, daca M = 11,40, iar S = 2,7, vom avea:
V = (2,7/11,4)*100 = 23,68%
Interpretarea coeficientului de variabilitate se face în functie de valorile obtinute:
OBSERVATIE: Acest coeficient este aplicabil doar în cazul variabilelor masurate pe scala de raport, cu origine naturala zero. Ca urmare formula are mai mica aplicare în psihologie si psihopedagogie unde majoritatea instrumentelor de evaluare sunt de tip interval.
Indicii de asimetrie si boltire
Exista situatii destul de frecvente când media nu corespunde cu mediana. Daca ele ar coincide am vorbi despre o distributie complet simetrica, specifica unei distributii normale teoretice.
Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteaza de mediana, si implicit, în ce masura curba de distributie normala a datelor se departeaza de mijloc, deplasându-se spre stânga sau spre dreapta. Sunt considerate distributii relativ normale cazurile în care acesti indicatori nu depasesc ±1,96.
Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decât mediana, caz în care indicele de asimetrie ia valori pozitive si apare o distributie a datelor spre stânga. O formula simpla de calcul a oblicitatii este:
Asimetria = 3(Media Mediana) / Abaterea standard
O alta formula de calcul este:
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard a esantionului.
În figura de mai jos este prezentat cazul unei asimetrii pozitive.
De asemenea exista si o asimetrie negativa în situatia în care valoarea mediei este mai mica decât cea a medianei. Indicele de asimetrie ia o valoare negativa în acest caz. Figura urmatoare prezinta cazul unei asimetrii negative.
Boltirea (în engleza kurtosis "cocoasa") se refera la înaltimea curbei, comparativ cu cea normala. Se vorbeste astfel de distributii leptocurtice (cu cocoasa înalta) si platicurtice (mai aplatizate). Valorile pozitive indica distributii "înalte", leptocurtice, iar cele negative distributii "plate", platicurtice. Pentru a fi considerata normala, o distributie trebuie sa nu depaseasca ±1,96. Indicatorul se obtine cu ajutorul formulei:
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard.
Cotele standardizate z
Parametrii tendintei centrale si ai variantei prezentati deja ajuta la descrierea caracteristicilor unui esantion sau a populatiei. Cotele z reprezinta elementele necesare descrierii unui rezultat individual din cadrul esantionului ori populatiei în cauza.
Spre exemplu, subiectul A a obtinut 32 de puncte la un test de agresivitate. Ce înseamna acest rezultat? Este un rezultat care exprima o agresivitate marita sau dimpotriva?
Pentru a afla raspunsul la aceste întrebari se calculeaza cota z, care este standardizata si permite comparatia dintre date pe baza valorii mediei si abaterii standard. De notat ca se pot face comparatii si între probe diferite, de exemplu se compara un rezultat 32 la testul de agresivitate cu un rezultat 18 la un test de sociabilitate).
Formula de calcul a lui z este:
Unde: X este valoarea analizata;
M este media esantionului studiat;
S este abaterea standard a acestui esantion.
Sa presupunem ca pentru agresivitate avem M=29, iar S=6 pentru un anumit esantion.
În acest caz z = (32-29)/6 = 0,5.
Convertirea unui rezultat în cote z ne arata pozitia valorii obtinute în distributia datelor pentru caracteristica masurata din cadrul esantionului.
De obicei cotele z sunt cuprinse între 3,5 si 3,5. De remarcat ca 1 z este egal cu 1 S (o abatere standard). Cota z=0 arata ca valoarea gasita este egala cu media (într-o distributie normala).
Revenind la exemplul dat, un z=0,5 este un rezultat situat deasupra mediei (însa tot în limita rezultatelor medii).
Daca ar trebui sa compar cu rezultatul unui alt subiect B, z= -1,8 am putea spune ca rezultatul obtinut de subiectul A este mai bun decât cel al lui B.
Într-o distributie normala, aproximativ 68% din datele unui esantion sunt cuprinse între 1 si +1 sigma (adica între 1 si +1z). De asemenea 95% din date sunt cuprinse între 2 si +2 sigma (-2 si +2 z), iar 99% din date sunt cuprinse între 3 si +3 sigma (-3 si +3 z).
Cotele standardizate T
Deoarece cotele z sunt exprimate în zecimale si au numere pozitive si negative, nu este asa de usor de lucrat cu ele, drept urmare sunt propuse alte standardizari dintre care vom aminti aici cotele T.
Aceata propune media de 50 si abaterea standard de 10. Aceasta masura elimina neajunsurile si face ca toate punctajele sa fie pozitive si distribuite pe o scala de la 20 la 80 în cea mai mare parte a cazurilor (peste 99% din cazuri).
Formula de calcul a cotelor T este:
Unde: x reprezinta o anumita valoare;
X barat este media;
S este abaterea standard a esantionului în cauza.
Prin acest nou sistem de punctare putem echivala usor anumite valori ale lui z. Astfel, un z=1 înseamna un T de 60 în timp ce un z= -1,5 corespunde unei cote T de 35.
Cotele standardizate z au un alt mare avantaj. Prin intermediul lor putem stabili locul pe care-l ocupa un individ (exprimat în procente sau ierarhii). Este necesar sa consultam tabelul de distributie normala a lui z prezentat anexa, în conditiile în care variabilele sunt distribuite normal.
Astfel daca o persoana a obtinut un z=0,10 înseamna ca: aproximativ 46,02% dintre subiectii populatiei respective ar obtine rezulate mai bune, în timp ce 53,98% ar obtine rezultate inferioare lui. În schimb o valoare z de 1,30 ar putea fi apreciata ca un rezultat foarte bun în conditiile în care, doar 9,68% dintre subiecti ar obtine rezultate mai mari, iar 90,32% ar obtine scoruri mai mici.
Staninele
Cuvântul deriva din limba engleza din "standard" si "nine"(noua), deoarece exista noua unitati standard de punctaj. Media scalei de stanine este 5, iar abaterea standard de 2. Procentajul de distributie a celor noua stanine este:
Stanina |
Procentaj |
Stanina |
Procentaj |
1 |
4 |
6 |
17 |
2 |
7 |
7 |
12 |
3 |
12 |
8 |
7 |
4 |
17 |
9 |
4 |
5 |
20 |
Aceste stanine se obtin dupa urmatorul algoritm:
PROBLEME
a) 7 9 13 6 10
b)10 7 11 10 12 14 7
c)
Xi |
f |
4 |
2 |
5 |
4 |
6 |
5 |
7 |
3 |
d)
Xi |
f |
2-4 |
2 |
5-7 |
5 |
9-11 |
5 |
11-13 |
1 |
a) Media b) Mediana c) Modul
a) Media b) Mediana c) Modul
1-3 |
2 |
16-18 |
9 |
4-6 |
4 |
19-21 |
7 |
7-9 |
6 |
22-24 |
6 |
10-12 |
8 |
25-27 |
4 |
13-15 |
10 |
28-30 |
2 |
92, 71, 61, 42, 70, 80
d. Calculati indicatorii de asimetrie (oblicitate) si boltire în cazul puctului 5b.
6.Fara a efectua calcule, estimati dintr-o privire care din sirurile de date A sau B sunt mai omogene (au dispersia mai mica):
8.Interpretati rezultatul obtinut la punctul 7. Stabiliti parametrul tendintei centrale reprezentativ în acest caz.
9.Cu cât este egala valoarea mediei si abaterii standard dupa transformarea datelor brute în cote standardizate z si t.
10.Transformati în cote z valorile brute: 5 si 8 în conditiile în care media este 6 si abaterea standard 2.
11.Fie urmatorul tabel:
Nume |
Proba A |
Proba B |
||
Brute |
Standard z |
Brute |
Standard z |
|
Andrei |
54 |
0,12 |
76 |
-1,67 |
Nicu |
41 |
-0,17 |
86 |
0,00 |
Lucian |
68 |
1,10 |
82 |
-0,67 |
Radu |
47 |
0,00 |
90 |
+0,75 |
12.Clasificati sirul de date urmator în stanine:
X = (12, 16, 14, 20, 8, 19, 15, 18, 16, 21, 14, 14, 13, 18, 21, 24, 8, 10, 12, 16, 14, 17, 18, 19, 19, 15, 11, 12, 10, 9, 23, 13, 21, 16, 17, 14, 15, 14, 15, 18, 19, 14, 20, 22, 6, 19, 18, 20, 17, 16, 18, 14, 12, 10, 25, 17, 18, 16, 14, 15, 15, 13, 12, 15).
I. TEHNICI STATISTICE: Statistica descriptiva,
Studiul corelational, Metode
de comparatie, Tabele,
Formule si raspunsuri la intrebari,
Bibliografie recomandata
II. APLICATII STATISTICE:
Baze de date - Exemple
III. TESTE
IV. LINK-URI RECOMANDATE