STUDIUL CORELATIONAL: Regresia liniara
Corelatii parametrice
Corelatii neparametrice

Regresia liniara

Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face predictii. Desi nu se gasesc relatii perfecte în lumea reala, prin intermediul regresiei se pot face predictii ale unei variabile, în functie de valoarea alteia. Predictia este procesul de estimare a valorii unei variabile cunoscând valoarea unei alte variabile.

În continuare, ne vom referi doar la situatia regresiei simple (o variabila dependenta si una independenta) si liniare (relatia dintre cele doua variabile poate fi descrisa printr-o dreapta în cadrul norului de puncte).

Regresia se leaga foarte mult de conceptul de corelatie. O asociere puternica între doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia. Daca am avea o corelatie perfecta (+1 sau –1) estimarea ar fi extrem de precisa.

Pentru a întelege mai bine regresia, vom oferi un exemplu: sa presupunem ca între deficitul de atentie si tulburarile emotionale s-a obtinut un coeficient de corelatie r = 0,80 pe un lot de 50 de subiecti. Regresia ne da posibilitatea sa estimam ce tulburari emotionale are un subiect daca cunoastem în prealabil nivelul deficitului de atentie si tipul de relatie dintre cele doua variabile.

Procesul de regresie presupune doi pasi. Primul se refera la determinarea ecuatiei de regresie, iar cel de-al doilea consta în utilizarea acestei ecuatii în a predictie.

Forma generala prin care se exprima o ecuatie de regresie este:

[Image]

Unde: Y prim este rezultatul estimat;
          a este interceptul (locul pe ordonata unde dreapta de regresie se intersecteaza cu OY, valoarea lui Y pentru X=0);
          b este panta de regresie (ne arata cu cât se modifica Y atunci când X creste (scade) cu o unitate;
         X este variabila criteriu (cunoscuta).

Calcularea coeficientilor de regresie a, respectiv b conduce la realizarea primului pas din procesul regresiei.

Exista doua posibilitati de calculare a lor:

  1. daca se cunoaste valoarea coeficientului de corelatie dintre cele doua variabile X si Y, media si abaterea standard a celor doua variabile putem aplica urmatoarele formule:

    [Image]


    Unde: r este valoarea coeficientului de corelatie dintre X si Y;
             Sy este abaterea standard a variabilei Y;
             Sx este abaterea standard a variabilei X.


    [Image]

    Unde: My este media variabilei Y;
              Mx este media variabilei X.

    În exemplul nostru, sa presupunem ca media variabilei X (deficitul de atentie) a fost 20, iar abaterea standard 5. În acelasi timp, media variabilei Y (tulburari emotionale) a fost 16, iar batarea standard 4. Vom calcula în continuare coeficientii ecuatiei e regresie liniara a si b.

    [Image]
    [Image]

    Ecuatia de regresie pentru aceasta problema este:

    [Image]

    Interpretarea acestor valori reprezinta al doilea pas din procesul de regresie, cu ajutorul caruia putem estima valoarea lui Y pornind de la orice valoare a lui X.

    Coeficientul a ne arata care este valoarea lui Y când X este zero. În schimb, coeficientul b (panta de regresie) ne arata cu cât este influentat Y atunci când X creste cu o unitate.

    În problema de fata vom calcula în continuare valorile estimate ale lui Y pentru X =0, 1 si 2.

    Ce înseamna acest lucru? Daca un subiect obtine scorul 0 la deficit de atentie, estimam sa obtina rezultatul 3,2 la scala de tulburari emotionale. Daca un alt subiect obtine nota 1 la deficitul de atentie, predictia noastra este ca va obtine rezultatul de 3,84 la testul de tulburari emotionale s.a.m.d.

  2. Cea de-a doua modalitate de calcul este metoda celor mai mici patrate. Aceasta cale nu necesita cunoasterea valorii coeficientului de corelatie, a mediei sau a abaterii standard a variabilelor implicate. De aceea metoda este utila în cazurile în care cunoastem doar datele brute.

Pentru calculul lui a si b avem urmatorul sistem de ecuatii:

Unde: n este numarul de cazuri ale unei variabile.

Sa presupunem urmatorul exemplu: Zece subiecti sunt testati în ce privete nivelul de creativitate (Y) si stilul caligrafic (X) al grafiei lor. Au fost obtinute urmatoarele rezultate:

Nr.crt

X

Y

XY

1

17

11

289

187

2

13

15

169

195

3

15

14

225

210

4

11

18

121

198

5

19

10

361

190

6

10

19

100

190

7

12

16

144

192

8

11

15

121

165

9

13

15

169

195

10

14

14

196

196

        S =135 S =147  S =1895 S =1918

Obtinem astfel:

10a + 135b = 147

135a +1895b = 1918

În urma calculului va rezulta:

a = 27,08. Iar b = -0,91

Ecuatia de regresie obtinuta este:

Y = 27,08 – 0,91X

Vom face în continuare predictii ale nivelului de creativitate pornind de la aceasta ecuatie în situatiile în care un subiect ar obtine nota 11, respectiv nota 19 la proba de caligrafie.

Y1 = 27,08 – 0,91*11 = 17,07

Y2 = 27,08 – 0,91*19 = 9,79

Putem observa ca între valorile estimate si valorile efective obtinute sunt câteva diferente (17,07 estimata fata de 17 obtinuta, respectiv 9,79 estimata fata de 10 obtinuta).

Aceste diferente între valorile reale si cele estimate reprezinta erorile de estimare sau valorile reziduale. Daca am calcula toate valorile reziduale si media lor, am obtine media zero si abaterea standard ar fi eroarea standard a estimarii. Aceasta se interpreteaza asemanator cu abaterea standard în situatia unei distributii normale a datelor.

Formula de calcul prescurtata a acestei erori standard este:

[Image]

Unde sy este abaterea standard a variabilei y

          r este valoarea coeficientului de corelatie

În cazul primului exemplu vom obtine:

[Image]

Sa luam cazul în care un subiect obtine nota 1 la proba de deficit atentional. Valoarea estimata a tulburarilor emotionale este de 3,84. Cu ajutorul acestei erori standard putem aproxima ca în 68% din cazurile în care un subiect obtine cota 1 la deficitul de atentie (adica, între –1 si +1 sy/x) vom obtine o valoare estimata de tulburari emotionale de 3,84 ± 2,4. Cu cât coeficientul de corelatie este mai mare, cu atât eroarea de estimare va fi mai mica.

PROBLEME

  1. Pornind de la problema nr.6 din capitolul referitor la corelatii ca teste parametrice, stabiliti ecuatia de regresie utilizând ambele metode pentru variabila independenta fobia scolara(X).

  2. Utilizând aceleasi date desenati linia de regresie pentru X ca variabila independenta.

  3. Faceti predictii ale reusitei scolare pentru cazurile în care fobia scolara a fost evaluata ca fiind 5, respectiv 9.

  4. Pornind de la urmatoarea situatie a numarului de absolventi de bacalaureat efectuati cerintele similare cu punctele 1-2 pentru datele de mai jos, unde variabila independenta este anul de învatamânt:

    Anul

    1995

    1996

    1997

    1998

    1999

    2000

    Nr. Absolv

    25000

    27000

    29000

    28000

    27000

    27000

  5. Tinând seama de datele prezentate la problema 4, cât de corecta si adecvata este calcularea ecuatiei de regresie în forma sa liniara?

I. TEHNICI STATISTICE: Statistica descriptiva, Studiul corelational, Metode de comparatie, Tabele, Formule si raspunsuri la intrebari, Bibliografie recomandata
II. APLICATII STATISTICE: Baze de date - Exemple
III. TESTE
IV. LINK-URI RECOMANDATE

PAGINA DE START
afsava@socio.uvt.ro