1. STATISTICA DESCRIPTIVA: | Tipuri de variabile |
Parametri descriptivi |
Tipuri de variabile, organizarea datelor si reprezentarea lor grafica
Tipuri de variabile
Thorndike afirma ca "tot ceea ce exista se gaseste într-o anumita cantitate". McCall merge mai departe afirmând ca "tot ce se gaseste într-o anumita cantitate poate fi masurat".
Prin variabila se întelege o anumita categorie care a fost cuantificata sau masurata. Cea mai întâlnita clasificare a lor, împarte variabilele în patru tipuri: nominale (categoriale), ordinale, de tip interval si de tip raport. Primele doua tipuri sunt calitative, ultimele doua cantitative (numerice).
Scalele nominale reprezinta un prim mod de masurare a variabilelor. Presupune o categorizare a variabilei fara a indica o anumita ordine ori cantitate. Variabila sex: masculin vs. feminin; Starea civila: casatorit, divortat, vaduv, necasatorit; reprezinta exemple de scala nominala. Ele pot fi notate cu cifre (0-feminin; 1-masculin) însa acestea nu pot fi procesate în termeni de cantitate sau ordine.
Scalele ordinale sunt tot calitative. În acest caz, numerele sunt ierarhii si exprima locul sau ordinea într-un sir de date. Un exemplu banal este locul ocupat de cineva la o competitie anumita (primul, al doilea, , ultimul). În acest caz, numerele pot fi comparate între ele în termeni de "mai mult, mai putin sau egal". Trebuie însa subliniata valoarea ordinala a numerelor. Daca un subiect ocupa locul doi, nu putem spune ca el este la egala distanta între locul unu si locul trei. Sa luam exemplul unui student care a obtinut 9,80 la examenul de admitere si a ocupat locul al doilea. Locul unu ar fi ocupat de un alt student care a avut media de 9.85, în timp ce pe locul trei s-a situat o persoana cu media 9.30. În cazul datelor ordinale, diferenta numerica în clasament nu este necesar egala cu diferenta numerica exprimata în unitatea de masura utilizata în acel caz (cinci sutimi, respectiv cincizeci de sutimi).
Cele doua tipuri de masuratori amintite pâna acum presupun întotdeauna utilizarea unor teste statistice neparametrice.
Un al treilea tip de scala este de interval. Acest tip de masuratoare permite comparatia dintre date. Diferenta dintre doua rezultate 4 si 2 este egala cu diferenta dintre 6 si 4. În cazul unui test de inteligenta diferenta între 100 IQ si 50 IQ este egala cu diferenta dintre 100 IQ si 150 IQ. Deficienta majora a acestei scale este ca valorile respective nu pot fi multiplicate sau divizate. Astfel noi nu putem concluziona ca un subiect care a obtinut 150IQ este de 1,5 ori mai inteligent decât un altul care a obtinut 100IQ si nici de 3 ori mai inteligent decât unul care a obtinut 50IQ.
Cele mai multe instrumente psihometrice sau educationale implicate în masurarea variabilelor cognitive sau comportamentale se gasesc la aceste trei nivele (nominale, ordinale, de interval).
Un ultim tip de masuratori sunt scalele de raport. Acestea poseda toate calitatile unei scale de interval si are în plus doua noi. Permite multiplicarea sau divizarea datelor (2 kg sunt jumatate din 4kg si dublul unui kg). Acest tip de masurare indica de asemenea valoarea zero absolut, ce arata lipsa totala a cantitatii masurate. Cele mai multe caracteristici fizice (greutate; înaltime; timp de reactie; nivelul adrenalinei) pot fi masurate astfel.
Ultimele doua tipuri de scale (de interval, respectiv de raport) sunt expresii cantitative ale variabilelor care pot fi supuse analizei statisticii parametrice cu mici exceptii.
Pentru a aplica tehnicile de statistica parametrica în cazul variabilelor masurate prin scale numerice (de interval sau de raport) trebuie sa vedem daca:
În plus, unele metode parametrice necesita conditii suplimentare.
Daca conditiile sunt îndeplinite, este de preferat sa utilizam tehnicile parametrice (cantitative) deoarece sunt mai solide. Aceasta înseamna cresterea sansei de a respinge o falsa ipoteza nula.
Organizarea datelor
Datele variabilelor pot fi prezentate fie simplu, fie grupat. Primul tip de organizare consta în stabilirea frecventei de aparitie a fiecarei valori. Pentru aceasta este necesara o ierarhizare initiala a valorilor în functie de marimea lor.
Sa presupunem ca au fost obtinute urmatoarele date ale variabilei studiate:
X = (7, 5, 7, 8, 4, 9, 8, 10, 5 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7). În total sunt 35 de date strânse.
Pentru a organiza datele utilizând o distributie simpla a frecventei sunt necesari urmatorii pasi:
În cazul de fata vom avea:
Valoarea X |
Frecventa f |
1 |
2 |
2 |
0 |
3 |
1 |
4 |
3 |
5 |
4 |
6 |
4 |
7 |
9 |
8 |
7 |
9 |
3 |
10 |
2 |
N=35
Acest tip de grupare a datelor poate fi utilizata la fel de eficient si în cazul datelor de tip categorial sau ordinal.
De exemplu, la întrebarea unui psiholog preocupat de reclamele comerciale care sunt caracteristicile produselor pe care clientii le pretuiesc cel mai mult s-au primit 20 de raspunsuri:
X = (calitatea, pretul, cantitatea, calitatea, pretul, calitatea, pretul, pretul, pretul, utilitatea, calitatea, pretul, utilitatea, utilitatea, cantitatea, pretul, calitatea, calitatea,pretul, pretul).
Tabelul distributiei caracteristicilor produsului:
Caracteristica (x) |
Frecventa (f) |
Cantitate |
2 |
Calitate |
6 |
Utilitate |
3 |
Pret |
9 |
N=20
Mult mai utilizata, este gruparea datelor pe intervale. Pentru aceasta vom tine cont de distributia grupata a datelor, fiind necesara împartirea valorilor în clase de intervale egale. Exista doua metode principale de împartire a datelor pe intervale.
Prima este propusa de Spatz (1997) are în vedere patru pasi de urmat:
Vom ordona în continuare, rezultatele a 48 de subiecti.
X = (17, 12, 8, 5, 10, 12, 23, 21, 22, 11, 14, 20, 18, 17, 15, 14, 21, 7, 10, 14, 18, 23, 25, 18, 17, 16, 29, 14, 19, 6, 27, 15, 17, 19, 14, 16, 10, 24, 17, 19, 15, 16, 12, 4, 22, 31, 19, 18).
Vom parcurge urmatorii pasi:
Intervalul (I) |
Mijlocul clasei |
Frecventa (f) |
30-32 |
31 |
1 |
27-29 |
28 |
2 |
24-26 |
25 |
2 |
21-23 |
22 |
6 |
18-20 |
19 |
9 |
15-17 |
16 |
11 |
12-14 |
13 |
8 |
9-11 |
10 |
4 |
6-8 |
7 |
3 |
3-5 |
4 |
2 |
O a doua posibilitate de a grupa datele pe intervale pleaca de la o formula matematica propusa de Sturges:
Unde: i este lungimea recomandata a intervalului;
Xmax si Xmin sunt extremele valorilor sirului de date ordonate în ordine descrescatoare.
lg n este logaritm zecimal din numarul de date a sirului (volumul esantionului).
Dupa cum se observa în acest caz marimea intervalulelor nu depinde numai de amplitudine (Xmax-Xmin), ci si de numarul de subiecti.
În cazul problemei date vom avea:
I = (31-4) / 1+3,322*lg 48 = 4,10
În aceasta situatie este recomandabila utilizarea unui interval cu o lungime de 4 sau 5 unitati (i = 4 sau 5). Se obisnuieste utilizarea intervalelor a caror lungime are o valoare impara pentru a usura gasirea centrului intervalului. Ca urmare, utilizând formula lui Sturges la aceleasi exemplu, vom obtine în loc de zece intervale, doar sase, deoarce am ales un interval i=5. Mijlocul intervalului este astfel ales încât sa pastreze propietatea de a fi multiplu al marimii intervalului (în cazul dat multiplu de cinci). Distributia frecventelor datelor grupate în acest caz este:
Intervalul (i) |
Mijlocul clasei |
Frecventa (f) |
28-32 |
30 |
2 |
23-27 |
25 |
5 |
18-22 |
20 |
13 |
13-17 |
15 |
16 |
8-12 |
10 |
8 |
3-7 |
5 |
4 |
N= 48
Indiferent de modalitatea pe care o alegem pentru împartirea datelor pe intervale, putem calcula si frecventa cumulata.
Frecventa cumulata a unei clase este egala cu suma frecventelor din clasa respectiva si frecventele din toate clasele cu valori inferioare. Astfel, pentru cazul de fata în cea de a doua situatie vom avea:
Intervalul (i) |
Mijlocul clasei |
f grupata |
f cumulata |
28-32 |
30 |
2 |
48 (2+46) |
23-27 |
25 |
5 |
46 (5+41) |
18-22 |
20 |
13 |
41 (13+28) |
13-17 |
15 |
16 |
28 (16+12) |
8-12 |
10 |
8 |
12 (8+4) |
3-7 |
5 |
4 |
4 |
Reprezentarea grafica a datelor
Desenele din statistica se numesc grafice. Acestea sunt modalitati imagistice de reprezentare a datelor, fiind cu atât mai sugestive si mai utile cu cât numarul de date colectate creste.
Exista mai multe tipuri de reprezentare grafica. Noi vom aborda urmatoarele forme grafice adecvate statisticii descriptive: poligonul frecventelor, histogramele - pentru variabile cantitative de tip interval ori rapoarte; histogramele si cercurile de tip "placinta" - pentru variabile calitative, nominale.
Poligonul frecventelor
Este un grafic utilizat în cazul variabilelor cantitative. Un poligon al frecventelor presupune doua axe (una orizontala Ox-abscisa, alta verticala Oy-ordonatata). Pe abscisa sunt trecute clasele (intervalele) ori direct valorile sirului de date. Pe ordonata sunt trecute frecventele grupate sau simple, corespunzatoare fiecarei clase (valori).
Utilizând un sir de date prezentat anterior (n=48) care a fost împartit în prealabil în 6 clase, vom obtine urmatorul poligon al frecventelor ca reprezentare grafica a sirului de date.
Histogramele
Acest tip de grafic poate fi utilizat pentru variabile exprimate atât cantitativ cât si calitativ.
Diferenta dintre cele doua tipuri de histograme consta în faptul ca pentru datele cantitative sunt trecute pe ordonata frecventele grupate, în timp ce pentru datele calitative frecventele sunt specificate paralel cu abscisa. Pe baza exemplelor date, vom construi doua histograme (una pentru date cantitative sirul de date împartit în 10 clase; cealalta pentru date calitative sirul de date prezentat în cazul psihologului intersat de publicitate.
Graficul "placinta"
În cazul datelor calitative se utilizeaza frecvent un alt tip de reprezentare grafica sub forma unui cerc "placinta" în engleza "pie".
Pentru exemplul dat în ce priveste caracteristicile produselor luate în considerare de catre cumparatori vom avea:
PROBLEME
a) 107 IQ b) masculin c) 24 ani d) 70 ms
e) foarte bine; f) 0,4 depresie; g) admis; h) 51%
Xi |
f |
41-60 |
25 |
61-80 |
39 |
81-100 |
48 |
101-120 |
33 |
121-140 |
19 |
PDSR |
38% |
PD |
10% |
CDR |
15% |
PRM |
9% |
PNL |
10% |
Altele |
18% |
41 |
12 |
17 |
19 |
21 |
26 |
23 |
25 |
14 |
17 |
21 |
24 |
29 |
33 |
37 |
35 |
19 |
27 |
26 |
26 |
26 |
13 |
16 |
27 |
29 |
32 |
31 |
36 |
30 |
27 |
26 |
25 |
28 |
27 |
26 |
18 |
25 |
23 |
22 |
24 |
21 |
20 |
28 |
24 |
27 |
21 |
20 |
25 |
26 |
Ps, L, L, L, A, A, C, C, C, C, C, C, Pp, Pp, Pp, Pp, Pp.
I. TEHNICI STATISTICE: Statistica descriptiva,
Studiul corelational, Metode
de comparatie, Tabele,
Formule si raspunsuri la intrebari,
Bibliografie recomandata II. APLICATII STATISTICE: Baze de date - Exemple III. TESTE IV. LINK-URI RECOMANDATE |