DataScience Training



Modelli lineari generalizzati: ANOVA

Modelli lineari generalizzati: ANOVA

Introduzione

Introduzione Click to read  

Le tecniche MLG qui presentate sotto forma di Analisi della varianza (ANOVA) consentono di rispondere a domande potenzialmente interessanti. Qualche esempio:

  1. I lavoratori e le lavoratrici di una regione percepiscono lo stesso salario annuo medio?

  2. Gli studenti di un corso che seguono metodi di insegnamento diversi ottengono la stessa media?

  3. Il consumo medio settimanale di determinati farmaci è diverso a seconda dei gruppi di età e/o sesso?

L'ANOVA a un fattore va bene per le domande 1 e 2, mentre la domanda 3 richiede l'ANOVA a due fattori. Il nostro obiettivo è testare l'effetto di una variabile indipendente (fattore) classificata in k diverse categorie (livelli) su una variabile dipendente numerica (variabile di risposta), e si basa sulla scomposizione della variabilità totale del campione. Possiamo affrontare questo problema come un test di ipotesi statistica di un'ipotesi nulla (H0; il nostro default) rispetto a un'alternativa (H1; una visione del mondo alternativa). Il test è formulato in termini di medie della popolazione della variabile di risposta attraverso i livelli del/i nostro/i fattore/i.

 

Le ipotesi richieste per condurre il test ANOVA sono:

  • Popolazioni normali: la distribuzione della variabile di risposta su ogni livello dovrebbe essere normale
  • Uguaglianza delle varianze: le varianze della variabile di risposta tra i livelli devono essere le stesse
  • Semplici indipendenti: i dati campionari su ciascun livello del fattore non sono correlati con gli altri dati campionari (raccolti dagli altri livelli)
ANOVA a un fattore

La procedura Click to read  

La procedura ANOVA con un fattore si basa sulla seguente equazione:

dove xir è il valore della nostra variabile di risposta per l'individuo r  alla categoria (livello) i. Supponiamo che questo valore sia la somma di tre effetti:

  • Un valore medio generale (μ), comune a tutti gli individui e a tutti i livelli
  • Uno spostamento (αi) che coglie l'influenza media dell'appartenenza al livello i
  • Un residuo (uir) , che tiene conto delle variazioni casuali e incontrollate. Si presume che questo residuo si distribuisca normalmente con media nulla

Il test ANOVA equivale a verificare se gli spostamenti α_i sono identici attraverso i livelli k. In caso contrario, ci saranno differenze significative nelle medie.

Prendiamo i dati del campione su e scomponiamo la sua variabilità (dispersione attorno alle medie del campione) in due parti:

  1. La parte interna al gruppo (SSW) rappresenta la variabilità interna.
  2. La variabilità tra gruppi (SSB) tiene conto delle differenze tra la media campionaria di ciascun gruppo e la media generale.

La variabilità totale (SST) è solo la somma di SSW+SSB. Se SSB è molto più grande di SSW, questo indica che ci sono differenze significative nelle medie di gruppo. Quindi, ci saranno differenze significative nelle medie tra i livelli del fattore. 

Per confrontare il peso relativo di SSB e SSW sulla variabilità totale, li scaleremo dividendoli per il numero di gradi di libertà, ottenendo rispettivamente i valori MSB e MSW.

Se i presupposti richiesti sono validi, la statistica (d) calcolata come MSB∕MSW si distribuisce come un modello F. Questa statistica permette di prendere una decisione sul test: più alto è il suo valore, più grande (relativamente) è la variabilità tra gruppi rispetto alla variabilità interna.

Ma come possiamo sapere se d è alto o no? Calcolando il valore p associato a questo test: calcoliamo il valore p (la probabilità alla coda destra della relativa distribuzione F) e se questo valore p è basso rifiutiamo l’ipotesi nulla (cioè ci sono differenze significative nella media tra i livelli)

 
Un esempio Click to read  

A titolo di esempio illustrativo, si supponga di voler testare se il design delle confezioni in cui viene venduta una specifica marca di latte ha qualche influenza sulle vendite. Con questo obiettivo, prendiamo un campione di 12 punti vendita con caratteristiche simili e, fissando lo stesso prezzo per il latte, assegniamo a caso un tipo di confezione (1, 2 o 3). Quindi otteniamo i dati di esempio della nostra variabile di risposta "Vendite", che misura quante migliaia di bottiglie di latte sono state vendute in un mese, come illustrato di seguito:

I nostri dati di esempio mostrati sopra sono contenuti in un file R, che possiamo aprire andando qui (chiamiamo questo file di dati "Latte"):

Vogliamo verificare se ci sono differenze statisticamente significative nelle vendite medie, a seconda del design della confezione. Stiamo applicando ANOVA con R, che richiede l'installazione di pacchetti specifici:

Per applicare ANOVA, dobbiamo prima assicurarci che le ipotesi richieste siano effettivamente valide, quindi eseguiamo le seguenti parti di codice:

Queste righe indicano prima il set di dati considerato ("Latte"), quindi raggruppano i dati in base ai livelli del fattore ("Confezione") e infine eseguono un test di normalità Spahiro sulla nostra variabile di risposta ("Vendite") attraverso i gruppi:

Gli alti valori di p di questo test di normalità per tutti i livelli ci permettono di lavorare sotto l'ipotesi di normalità richiesta. Inoltre, si ipotizza che le varianze siano uguali, il che ci porta a eseguire un test di Barlett sulle varianze omogenee, come illustrato di seguito:

Il valore p visualizzato di seguito suggerisce che questa ipotesi è decisamente realistica:

Dato che i presupposti necessari sembrano essere soddisfatti, conduciamo la metodologia ANOVA eseguendo le seguenti linee di codice:

Il che produce il seguente risultato:

I risultati del test ANOVA indicano che i diversi design delle confezioni non sembrano avere un impatto sulle vendite medie: la parte di variabilità spiegata dai diversi livelli del fattore "Confezione" (variabilità tra i gruppi) non è significativamente maggiore della parte residua (variabilità interna). Di conseguenza, il valore p associato a questo test è alto e ci dice che non ci sono motivi per rifiutare l'ipotesi nulla di vendite medie uguali tra i vari design.

 

ANOVA a due fattori

La procedura Click to read  

Le idee spiegate per il caso dell'ANOVA a un solo fattore possono essere estese per adattarsi a problemi in cui più di un fattore può influenzare la mia variabile di risposta. Il test ANOVA viene ora esteso per tenere conto di un secondo fattore e di una possibile interazione:

Dove  è il valore della nostra variabile di risposta per l'individuo  alla categoria (livello)  del fattore  e al livello j del fattore . Assumiamo che questi valori si discostino dalla media generale (), come somma di quattro effetti:

  1. Uno spostamento () che cattura l'influenza media dell'appartenenza al livello i   del fattore  
  2. Un secondo spostamento () che cattura l'influenza media dell'appartenenza al livello  del fattore  
  3. Un termine di interazione tra questi due fattori 
  4. Un residuo , che tiene conto delle variazioni casuali e non controllate. Si ipotizza che questo residuo si distribuisca normalmente con media zero.

Ora i confronti tra le diverse parti della variabilità sono più complessi. Ogni fonte di variazione viene confrontata (opportunamente scalata dal numero di gradi di libertà) con la varianza residua. L'intuizione è la stessa dell'ANOVA a un fattore, ma ci sono tre diversi test, come riassunto nella tabella seguente:

 

 

Un esempio Click to read  

Illustreremo empiricamente il funzionamento dell'ANOVA a due fattori, ipotizzando il seguente problema: un centro sanitario vuole analizzare la potenziale influenza dell'età e del sesso sull'uso di un farmaco. A questo scopo viene condotta un'indagine a campione e gli utenti sono stati raggruppati per età in quattro categorie (bambini, adolescenti, adulti, anziani) e per sesso. È stato creato un campione di 24 persone, selezionando in modo indipendente 3 individui per sesso e gruppo di età. La variabile di risposta è il consumo mensile di questo farmaco (in €) e abbiamo il seguente set di dati:

Anche in questo caso, i dati di esempio mostrati sopra (contenuti in un file R chiamato "medicina") possono essere caricati in Rstudio andando qui:

Ora stiamo applicando un'ANOVA a due fattori (età e sesso) con R, che richiede l'installazione e il caricamento di pacchetti specifici:

Per applicare l'ANOVA, dobbiamo innanzitutto verificare se le assunzioni richieste sono effettivamente valide, eseguendo i test di normalità e di uguaglianza delle varianze. I test di normalità (per tutte le fasce d'età e per i due generi) vengono condotti eseguendo:

Indichiamo innanzitutto il dataset considerato ("Medicina"), poi raggruppiamo i dati in base ai livelli dei fattori di traino considerati nella nostra analisi ("età" e "sesso") e infine eseguiamo un test di normalità Spahiro sulla variabile "consumo" attraverso tutti i gruppi:

Si noti che ora, quando ci si riferisce ai livelli dei due fattori, occorre considerare tutte le coppie di possibili categorie tra di essi. In tutti i casi troviamo valori p elevati per il test di normalità, che ci permettono di lavorare sotto l'ipotesi di normalità richiesta. Inoltre, è richiesta anche l'omogeneità delle varianze, che in questo caso viene verificata con il test di Levene:

Il valore p trovato indica che non abbiamo prove empiriche nel campione contro questa ipotesi:

Poiché le ipotesi necessarie per condurre un processo di ANOVA a due fattori sembrano essere valide, lo facciamo eseguendo le seguenti linee di codice:

Il risultato dell'analisi si presenta sotto forma della seguente tsabella ANOVA multipla:

I risultati di questa ANOVA a due fattori forniscono informazioni molto utili che permettono di dare una risposta basata sui dati alla nostra domanda di ricerca. I test condotti indicano che i valori medi del consumo del farmaco sono significativamente diversi tra i quattro livelli del fattore "età" (si noti che è l'unico caso in cui abbiamo un basso valore p, che porta a rifiutare l'ipotesi nulla di medie uguali). Tuttavia, non troviamo differenze significative nel consumo medio in base al sesso o alle interazioni tra gruppo di età e sesso.



Keywords

Analisi multivariata, variabilità interna e tra gruppi, test di ipotesi, modelli lineari

Objectives/goals:

Lo scopo di questo modulo è presentare i concetti di base dell'analisi della varianza a uno e due fattori (ANOVA), che può essere intesa come un modello lineare di base



Alla fine di questo modulo sarai capace di:




  • Capire come ANOVA può essere utile per testare se ci sono differenze tra il valore medio di una variabile continua tra diversi livelli di una o più variabili categoriali.

  • Comprendere e identificare le condizioni necessarie per applicare queste tecniche.

  • Condurre analisi della varianza a una o più vie e interpretare i risultati ottenuti.


Description:

In questo modulo formativo verrai introdotto all'uso della modellazione lineare di base per capire come le differenze medie possono essere attribuite o meno all'effetto di variabili categoriali.

L'analisi qui presentata è alla base della regressione lineare, che considera anche l'effetto delle variabili continue. Le tecniche descritte in questo modulo formativo si limitano al caso di variabili categoriali (qualitative). A questo proposito, puoi affrontare i contenuti di questo modulo come un'introduzione al Modello lineare generalizzato (MLG) che utilizza solo fattori categoriali per spiegare la variabilità in una variabile (continua) di interesse.

La procedura qui presentata si basa sulla scomposizione della variabilità totale misurata nel campione in diverse fonti: alcune sono residuali (o non spiegate dai fattori considerati) mentre altre provengono da una parte sistematica riconducibile alle diverse categorie dei fattori categoriali.

Bibliography

NEWBOLD, P. et al. (2008): Statistics for Management and Economics, (6th edition) Ed. Prentice Hall. Chapter 17, pp. 635-661


Related training material

Partner

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI