Ca exemplu ilustrativ, rezolvăm problema de clasificare a modului de transport pe baza vârstei și venitului de către LDA în R.
Acest lucru se poate face cu ușurință prin funcția „lda” din biblioteca „de masă”. Pentru toată analiza prezentată aici, va trebui să instalăm și să încărcăm următoarele pachete R:
Datele studiate vin într-un fișier csv (numit „transnpor_example”), care poate fi importat cu ușurință în R rulând aceast cod:
Pentru a avea o primă impresie asupra datelor, putem reprezenta un grafic eșantionul sub forma unui grafic de dispersie ca:
Codurile de mai sus produc graficul de dispersie prezentat în secțiunea introductivă a celui de-al treilea document.
Alternativ, am putea reprezenta datele ca o serie de histograme ca:
Prin rularea oricăreia dintre aceste două linii, putem avea o idee despre modul în care modul de transport se distribuie între valorile legate de vârstă și venit.
De exemplu:
Or:
LDA se realizează pur și simplu rulând:
Rezultatele clasice arată mediile inițiale pe grupe, coeficienții din proiecțiile LD și proporția dintre varianța (urmă) pe care o explică fiecare coordonată LD:
În exemplul nostru, prima coordonată LD este corelată pozitiv cu venitul și negativ cu vârsta și conține aproape 90% din variabilitatea dintre clase.
A doua funcție LD prezintă o corelație pozitivă, dar mai slabă, cu ambele variabile și reprezintă doar aproximativ 10% din variabilitatea între variabile.
Noile coordonate sunt produse proiectând punctele de date originale cu coeficienții LDA prin expresia 𝐮𝐓𝐗.
În aceste noi coordonate, observațiile sunt mai clar separate între grupuri.
În exemplul nostru, avem două coordonate LD pentru fiecare individ, având în vedere vârsta și venitul acestuia.
Coordonatele corespunzătoare primei funcție LD au puterea discriminantă mai mare.
Putem vedea cu ușurință această putere discriminantă prin trasarea în R a unei histograme, punând acum primele coordonate LD în axa orizontală:
Obținând:
Acest grafic arată modul în care cantitatea de suprapunere se reduce considerabil.
Cu alte cuvinte, prima coordonată LD (rețineți că este un „compozit” care se corelează negativ cu vârsta și pozitiv cu venitul) discriminează în mod adecvat între categoriile de transport.