Come esempio illustrativo, risolviamo il problema della classificazione della modalità di trasporto in base all'età e al reddito attraverso la tecnica LDA in R, utilizzando la funzione "lda" all'interno della libreria "mass". Per tutte le analisi qui presentate, dovremo installare e caricare i seguenti pacchetti R:
I dati sono in formato csv (chiamato "trasnpor_example"), che può essere importato in R eseguendo i seguenti comandi:
Per avere una prima descrizione dei dati, possiamo tracciare il campione sotto forma di grafico a dispersione:
Le righe di codice precedenti producono il grafico a dispersione mostrato nella sezione introduttiva del documento. In alternativa, potremmo tracciare i dati come una serie di istogrammi:
Eseguendo uno di questi comandi, possiamo avere un'idea di come la modalità di trasporto si distribuisce tra i valori dell'età e del reddito. Per esempio:
Oppure:
LDA si ottiene eseguendo:
L'output tipico mostra le medie iniziali per gruppo, i coefficienti nelle proiezioni LD e la proporzione della varianza between che ogni coordinata LD spiega:
Nel nostro esempio, la prima coordinata LD è correlata positivamente con il reddito e negativamente con l'età e contiene quasi il 90% della variabilità inte-class. La seconda funzione LD mostra una correlazione positiva, ma più debole con entrambe le variabili e rappresenta solo circa il 10% della variabilità between.
Le nuove coordinate vengono prodotte proiettando i punti originali con i coefficienti LDA, utilizzando l'espressione utX. In queste nuove coordinate, le osservazioni sono separate più chiaramente tra i gruppi. Nel nostro esempio, abbiamo due coordinate LD per ogni individuo, data la loro età e reddito. Le coordinate corrispondenti alla prima funzione LD hanno la potenza discriminante maggiore. Possiamo facilmente vedere questa potenza discriminante tracciando in R un istogramma, mettendo ora le prime coordinate LD nell'asse orizzontale:
Obtaining:
Questo grafico mostra come la quantità di sovrapposizioni diminuisca considerevolmente. In altre parole, la prima coordinata LD (ricordiamo che è un "composito" che correla negativamente con l'età e positivamente con il reddito) discrimina adeguatamente tra le categorie di trasporto.