DataScience Training



MODELE LINEARE GENERALIZATE: ANOVA
Feedback form    |       Redare audio    |   Download:    |   


MODELE LINEARE GENERALIZATE: ANOVA [UNIOVI]

Introducere

Obiectiv Click to read  

obiectivul acestui modul este de a prezenta conceptele de bază ale analizei varianței cu un și doi factori (ANOVA), care pot fi înțelese ca un model liniar de bază.
La sfârșitul acestui modul vei putea:
Cum poate fi utilă ANOVA pentru a testa dacă există diferențe între valoarea medie a unei variabile continue la diferite niveluri ale uneia sau mai multor variabile categoriale

Înțelege și identifica condițiile necesare pentru aplicarea acestor tehnici

Efectua o analiză a varianței unidirecțională și multiplă și interpreta rezultatele obținute

 

 
Definiții de bază

Definiții de bază Click to read  

Definim o variabilă de răspuns, o variabilă continuă de interes

În plus, avem informații despre diferitele categorii ale unei variabile calitative. Această variabilă categorială se numește factor, iar fiecare categorie posibilă se numește nivel

Valoarea medie (neobservată) a variabilei noastre de răspuns la nivelul 𝑖 se notează 𝜇_𝑖

Motivația Click to read  

Tehnicile GLM prezentate aici sub forma ANOVA permit răspunsul la întrebări potențial interesante. Cateva exemple:

Lucrătorii bărbați și femei dintr-o regiune realizează același salariu mediu anual?

Studenții unui curs care urmează metode de predare diferite obțin aceeași notă medie?

Consumul mediu săptămânal al anumitor medicamente este diferit în funcție de grupele de vârstă și/sau de sex?

ANOVA cu un singur factor este potrivită pentru întrebările 1 și 2, în timp ce întrebarea 3 necesită ANOVA cu doi factori
 

 

 

 

 

 

 

 

 

ANOVA UNIDIRECTIONALA

ANOVA UNIDIRECTIONALA Click to read  

Să presupunem că avem un eșantion de studenți, toți care urmează același curs, repartizați în clasele a, b și c

Elevii clasei (a) urmează o metodă tradițională de predare bazată pe prelegeri. Elevii de la (b) urmează un sistem bazat pe teme, în timp ce studenții de la (c) urmează un sistem mixt

Avem date eșantion despre distribuția notelor lor (scala de la 0 la 10) așa cum este reprezentată în boxplot

Dorim să testăm dacă există diferențe semnificative statistic privind notele lor medii, în funcție de metoda de predare aplicată
 

Scop Click to read  

Scop. Pentru a testa efectul unei variabile independente (FACTOR) clasificată în mai multe categorii k (NIVELURI) asupra unei variabile dependente numerice (VARIABILĂ DE RĂSPUNS)

Se bazează pe descompunerea variabilității totale a eșantionului

Putem aborda această problemă ca un test de ipoteză statistică a unei ipoteze nule (H0; implicită) față de alternativă (H1; o viziune alternativă asupra lumii)

Testul este formulat în funcție de media variabilei răspuns la nivelurile factorului nostru
 

 

 

 

 

Testul ANOVA poate fi formulat după cum urmează: Click to read  

Ipotezele necesare pentru efectuarea testului ANOVA sunt
 Populații normale: distribuția variabilei răspuns la fiecare nivel ar trebui să fie normală
 Egalitatea varianțelor: variațiile variabilei răspuns între niveluri trebuie să fie aceleași
 Eșantioane independente: datele eșantionului de la fiecare nivel al factorului nu sunt corelate cu celelalte date ale eșantionului (colectate de la celelalte niveluri)

 

Testul ANOVA poate fi formulat după cum urmează: Click to read  

x ir  este valoarea variabilei noastre de răspuns pentru individul r la categorie (nivel) i

Presupunem că această valoare este suma a trei efecte:

O valoare medie mare ("μ"), comună tuturor indivizilor și nivelurilor
O schimbare ("α" _i) care surprinde influența medie a apartenenței la nivelul i
Eroarea "u" _"ir" , care explică variații aleatorii, necontrolate. Se presupune că acest reziduu se distribuie normal cu medie zero

Testul ANOVA este echivalent cu a testa dacă termenii "α" _i sunt identici pe cele k niveluri. Dacă nu, vor exista diferențe semnificative în ceea ce privește mijloacele


Descompunerea variabilității Click to read  

Se ia eșantionul de date pe X și descompunem variabilitatea acesteia (dispersia în jurul mediei eșantionului) în două părți:

În cadrul grupului (SSW) ține cont de variabilitatea internă
Variabilitatea între (SSB) reprezintă diferențele dintre media eșantionului fiecărui grup și media mare

Variabilitatea totală (SST) este doar suma SSW+SSB

Dacă SSB este mult mai mare decât SSW, se sugerează că există diferențe semnificative între mediile grupului. Deci, vor exista diferențe semnificative în ceea ce privește mediile între nivelurile factorului


Descompunerea variabilității

Pentru a compara ponderea relativă a SSB și SSW asupra variabilității totale, le-am scalat împărțind la numărul de grade de libertate, producând valorile MSB și respectiv MSW

Dacă ipotezele necesare sunt valabile, statistica (d) calculată ca MSB∕MSW se distribuie ca un model F


 

Efectuarea unui test ANOVA Click to read  

Această statistică permite luarea unei decizii cu privire la test: cu cât valoarea acestuia este mai mare, cu atât este mai mare (relativ) partea dintre părți în comparație cu variabilitatea interioară.

 cum putem ști dacă d este mare sau nu? Prin calcularea valorii p asociată acestui test

calculăm valoarea p (probabilitatea la coada dreaptă a distribuției F relevante) și dacă această valoare p este scăzută respingem valoarea nulă (adică, există diferențe semnificative în medie între niveluri)

 

Să revenim la exemplul nostru: sunt notele medii semnificativ diferite în funcție de metodele de predare?

Luăm un eșantion de 12 elevi, cu notele repartizate ca în table
Implicit (ipoteza nulă H0) este că mediile sunt egale
Presupunând că avem varianțe egale și distribuții normale, efectuăm testul ANOVA

 
ANOVA CU DOI FACTORI: Surse multiple de variație Click to read  

x_"ijr"  este valoarea variabilei noastre de răspuns pentru individul r la categoria (nivelul) i al factorului α și nivelul j al factorului  β
Presupunem că aceste valori se îndepărtează de marea medie ("μ"), ca suma a patru efecte:

O schimbare ("α" _) care surprinde influența medie a apartenenței la nivelul i al factorului α
O a doua schimbare (β_j) care surprinde influența medie a apartenenței la nivelul j al factorului β 
Un termen de interacțiune între acești doi factori (
αβ)_"ij"   
O eroare  "u" _"ir" , care explică variații aleatorii, necontrolate. Se presupune că acest rezidual se distribuie normal cu medie zero

Testul ANOVA este acum extins pentru a lua în considerare un al doilea factor plus o posibilă interacțiune


 

ANOVA CU DOI FACTORI: : Efectuarea testului Click to read  

Acum, comparațiile dintre diferitele părți ale variabilității sunt mai complexe

Fiecare sursă de variație este comparată (scalată în mod convenabil după numărul de grade de libertate) cu varianța reziduală

Intuiția este aceeași ca și în cazul ANOVA cu un singur factor, dar există trei teste diferite


 

ANOVA cu doi factori: exemplu în R Click to read  

O instituție sanitară dorește să analizeze potențiala influență a vârstei și sexului asupra utilizării unui medicament. În acest scop este realizat un sondaj pe un eșantion, iar utilizatorii au fost grupați în funcție de vârstă în patru categorii (copii, adolescenți, adulți, seniori) și sex.

Un sondaj pe un eșantion este realizat în acest scop și utilizatorii au fost grupați pe vârstă în patru categorii (copii, adolescenți, adulți, seniori) și sex. A fost extras un eșantion de 24 de persoane, selectând în mod independent 3 persoane în funcție de sex și grup de vârstă.

Variabila de răspuns este consumul lunar al acestui medicament (în €),

Testăm mai întâi dacă ipotezele necesare sunt valabile, rulând testul de normalitate și varianțe egale. Teste de normalitate (pentru toate grupele de vârstă și cele două sexe):

Ambele teste sunt trecute, astfel încât ANOVA cu doi factori poate fi efectuată
 

ANOVA cu doi factori este realizată prin rularea acestei bucăți de cod:
 
R produce rezultatul acestei analize sub forma unui tabel ca mai jos:
 
Rezultatele arată că valorile medii ale variabilei răspuns sunt diferite pe cele patru niveluri ale factorului „vârstă”, dar acesta este singurul caz când avem o valoare p scăzută. Nu găsim diferențe semnificative în ceea ce privește consumul mediu în funcție de sex sau între interacțiunile dintre grupa de vârstă și gen
 
Rezumat

Rezumat Click to read  


Keywords

Prezenta conceptele de bază ale analizei varianței cu un și doi factori (ANOVA), care pot fi înțelese ca un model liniar de bază.

Objectives/goals:

Obiectivul acestui modul este de a prezenta conceptele de bază ale analizei varianței cu un și doi factori (ANOVA), care pot fi înțelese ca un model liniar de bază.

La sfârșitul acestui modul vei putea:

Cum poate fi utilă ANOVA pentru a testa dacă există diferențe între valoarea medie a unei variabile continue la diferite niveluri ale uneia sau mai multor variabile categoriale



Înțelege și identifica condițiile necesare pentru aplicarea acestor tehnici



Efectua o analiză a varianței unidirecțională și multiplă și interpreta rezultatele obținute



 


Bibliography

NEWBOLD, P. et al. (2008): Statistics for Management and Economics, (6th edition) Ed. Prentice Hall. Chapter 17, pp. 635-661


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI