DataScience Training



Analiza discriminant liniar?
Feedback form    |       Redare audio    |   Download:    |   


Analiza discriminant liniar?

Introducere

Motivarea prin un exemplu ilustrativ Click to read  

S? presupunem c? avem un e?antion de indivizi ?i observ?m modul de transport (cu ma?ina, transportul public sau mersul pe jos) pe care îl folosesc de obicei pentru a se deplasa într-un ora?. ?tim c? alegerea modului de transport este par?ial influen?at? de statutul lor economic ?i observ?m date privind vârsta lor în ani ?i venitul anual al gospod?riei, împreun? cu mijlocul de transport ales:

Dorim s? ?tim cum aceste dou? covariante ajut? la clasificarea (adic?, la discriminarea) indivizilor, atribuindu-i unei categorii specifice de mod de transport. Putem observa c? nu exist? o clasificare perfect?: persoanele cu venituri mari tind s? foloseasc? ma?ina mai des, dar exist? o mare suprapunere a categoriilor „mers pe jos” ?i „transport public” pentru cei cu venituri mai mici. ?i exist? o suprapunere mai mare între categorii în ceea ce prive?te distribu?ia lor pe vârst?: persoanele în vârst? nu merg pe jos, dar la valori mai mici vârsta nu este un bun predictor al modului de transport. Aceasta este problema tipic? pe care o abordeaz? LDA.

 

 

LDA pentru clasificare

Formulare Click to read  

- Func?iile LDA pot fi recuperate pentru a ajuta la clasificarea datelor pe baza unei matrice de covariant? ?. 

 
- Similar analizei componentelor principale (PCA), func?iile LDA urm?resc s? g?seasc? o combina?ie liniar? a datelor originale ca:
 

- Coordonatele discriminante sunt ob?inute din vectorii proprii ai

Exemplu Click to read  

Ca exemplu ilustrativ, rezolv?m problema de clasificare a modului de transport pe baza vârstei ?i venitului de c?tre LDA în R.  

Acest lucru se poate face cu u?urin?? prin func?ia „lda” din biblioteca „de mas?”. Pentru toat? analiza prezentat? aici, va trebui s? instal?m ?i s? înc?rc?m urm?toarele pachete R:

Datele studiate vin într-un fi?ier csv (numit „transnpor_example”), care poate fi importat cu u?urin?? în R rulând aceast cod:

Pentru a avea o prim? impresie asupra datelor, putem reprezenta un grafic e?antionul sub forma unui grafic de dispersie ca:

Codurile de mai sus produc graficul de dispersie prezentat în sec?iunea introductiv? a celui de-al treilea document.

Alternativ, am putea reprezenta datele ca o serie de histograme ca:

Prin rularea oric?reia dintre aceste dou? linii, putem avea o idee despre modul în care modul de transport se distribuie între valorile legate de vârst? ?i venit.

De exemplu:

Or: 

LDA se realizeaz? pur ?i simplu rulând:

Rezultatele clasice arat? mediile ini?iale pe grupe, coeficien?ii din proiec?iile LD ?i propor?ia dintre varian?a (urm?) pe care o explic? fiecare coordonat? LD: 

În exemplul nostru, prima coordonat? LD este corelat? pozitiv cu venitul ?i negativ cu vârsta ?i con?ine aproape 90% din variabilitatea dintre clase. 

A doua func?ie LD prezint? o corela?ie pozitiv?, dar mai slab?, cu ambele variabile ?i reprezint? doar aproximativ 10% din variabilitatea între variabile.

Noile coordonate sunt produse proiectând punctele de date originale cu coeficien?ii LDA prin expresia ???.

În aceste noi coordonate, observa?iile sunt mai clar separate între grupuri. 

În exemplul nostru, avem dou? coordonate LD pentru fiecare individ, având în vedere vârsta ?i venitul acestuia. 

Coordonatele corespunz?toare primei func?ie LD au puterea discriminant? mai mare. 

Putem vedea cu u?urin?? aceast? putere discriminant? prin trasarea în R a unei histograme, punând acum primele coordonate LD în axa orizontal?:

Ob?inând: 

Acest grafic arat? modul în care cantitatea de suprapunere se reduce considerabil. 

Cu alte cuvinte, prima coordonat? LD (re?ine?i c? este un „compozit” care se coreleaz? negativ cu vârsta ?i pozitiv cu venitul) discrimineaz? în mod adecvat între categoriile de transport.

 

 

LDA predictiv?

Procedura Click to read  

LDA poate fi folosit nu numai în scopuri de clasificare (descriptive), ci ?i cu obiectivul de a prezice apartenen?a la clas?. De exemplu, s? presupunem c? avem date despre vârsta ?i venitul anual al gospod?riei pentru o persoan? (în e?antion sau în afara e?antionului) ?i am dori s? anticip?m modul de transport pe care este cel mai probabil s? îl foloseasc? aceast? persoan?. LDA poate fi de ajutor pentru a ne oferi o predic?ie, într-un mod similar cu modelele multinominale logit sau probit.

În acest scop predictiv, sunt necesare câteva ipoteze:

  • grupurile sunt multivariate normale
  • varian?e-covarian?e egale între grupuri

Formularea LDA predictiv? este legat? de formularea teoremei lui Bayes pentru actualizarea probabilit??ilor: Fie ? num?rul de grupuri ?i ?? probabilitatea anterioar? (frecven?ele relative de obicei observate) pentru grupul ?. Fie ? un vector de observa?ii ale covariatelor pentru un individ. Probabilitatea (posterior) de a face parte din grupul ?? condi?ionat? de ?, P(?? |?), poate fi exprimat? ca:

Aceasta este o abordare bayesian? care actualizeaz? probabilit??ile anterioare ?? pe baza probabilit??ilor condi?ionate P(?|??). În ipotezele de normalitate:

unde |?| este determinantul matricei de varian?? în cadrul clasei ?i  Di  este  . Conectand expresia de  în formula pentru  , avem: 

 

 

 

 

Exemplu folosind R Click to read  

Rutina LDA în R poate produce probabilit??i posterioare pe baza ipotezelor ?i a formul?rii detaliate mai înainte. Func?iile LDA permit prezicerea celui mai probabil membru al clasei pentru orice individ, având în vedere un vector de covarian?? (vârsta ?i venitul gospod?riei în exemplu).
Ca o ilustrare, tabelul afi?at mai jos arat? probabilit??ile prezise pentru fiecare grup pentru un subset de indivizi din e?antion. Se presupune c? ponderile qi sunt identice pentru fiecare dintre cele trei moduri de transport 
().

Clasa prezis? corespunde celui mai mare   pentru fiecare individ. Acestea sunt calculate prin aplicarea urm?toarei rutine în Rstudio:

În cele mai multe cazuri, LDA prezice corect grupul c?ruia îi apar?ine fiecare individ. Exist? îns? unele cazuri pentru care LDA nu prezice corect. Aceste cazuri corespund observa?iilor suprapuse care r?mân înc? în clasificarea LDA



Keywords

analiza discriminant, clasificare, R, analiză bayesiană

Objectives/goals:

Obiectivul acestui modul este de a introduce ?i explica elementele de baz? ale analizei discriminante liniare (LDA).

La sfâr?itul acestui modul vei fi capabil s?: 




  • Identifica?i situa?iile în care LDA poate fi util?

  • Calcula?i func?iile LDA

  • Interpretarea rezultatelor produse de LDA descriptiv ?i predictiv


Description:

În acest modul de instruire ve?i fi introdus în utilizarea analizei discriminante lineare (LDA). LDA este o metod? de g?sire a combina?iilor liniare de variabile care separ? cel mai bine observa?iile în grupuri sau clase ?i a fost dezvoltat? ini?ial de Fisher (1936).

Aceast? metod? maximizeaz? raportul dintre varia?ia dintre clase ?i varian?a în interiorul clasei în orice anumit set de date. F?când acest lucru, variabilitatea între grupuri este maximizat?, ceea ce are ca rezultat separabilitatea maxim?.

LDA poate fi folosit cu scopuri pur de clasificare, dar ?i cu obiective predictive.
 

Bibliography

Boedeker, P., & Kearns, N. T. (2019). Linear discriminant analysis for prediction of group membership: A user-friendly primer. Advances in Methods and Practices in Psychological Science, 2, 250-263.


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI