DataScience Training



Analiza cluster
Feedback form    |       Redare audio    |   Download:    |   


Analiza cluster

Introducere

Analiza cluster Click to read  

Analiza cluster este o tehnică de analiză multivariată care poate fi aplicată în multe domenii: de la informatică, medicină și biologie, la arheologie și marketing, oricând este necesară clasificare unei cantități mari de informație în grupuri / clase distincte.

Obiectiv Click to read  

Analiza cluster este utilizată pentru a grupa unități statistice (înregistrări) care au caracteristici comune și pentru a le aloca în categorii care nu sunt definite a priori. Grupele (clusterele) formate trebuie să fie cât mai omogene în interior (chiar similar, intra-cluster) și cât mai eterogene între ele (chiar diferite, inter-cluster).
 

Tipuri de variabile Click to read  

În Analiza Cluster se pot utiliza:
- Variabile cantitative, deci numerice;
- Variabile calitative (de exemplu: gen, nivel de educație, status marital, etc.)

Analiza Cluster

Matricea de disimilaritate (sau Matricea de distanțe) Click to read  

Matricea de distanțe, D, este utilă pentru a afla câte unități statistice sunt diferite unele de altele, este esențială pentru alegerea variabilelor care vor fi luate în calcul.
Matricea de distanțe, de dimensiuni 𝒏×𝒏, esto o matrice simetrică care are valoarea zero pe diagonala principală, deoarece distanța dintre un punct și el însuși este zero. 
Înainte de a crea matricea de distanțe, matricea de start trebuie standardizată, astfel încât fiecare variabilă să aibă aceeași pondere cu celelalte. 

Pentru a obține matricea de distanțe, D, este necesară calcularea distanțelor dintre puncte. În funcție de tipul de variabilă, cantitativă sau calitativă, cu care se lucrează, aceste distanțe pot fi calculate în diferite moduri.

Variabile cantitative

- Distanța Euclidiană, sensibilă la
valori extreme (outliers).
-Distanța Manhattan, foarte robustă.
                                                                                                                                                                                        
                                                                                                                                                 

Variabile calitative

Frecvențele sunt luate în calcul, matricea de similaritate este creată și concordanțele și discrepanțele dintre variante sunt calculate.

Două tipuri de indici de similaritate:
- Zubin, pentru variabile binare simetrice.
- Jaccard, pentru variabile binare asimetrice.

 

 

 

 

Formarea Clusterelor Click to read  

Datorită regulii de agregare, putem alege o metodă de agregare pentru a forma clusterele, din următoarele

Agregare simplă
-Agregare completă
-Agregare medie
 

Agregare simplă:

Grupurile sunt agregate pe baza distanței minime dintre observații, această metodă favorizând omogenitatea elementelor fiecărui grup, în detrimentul diferențierii. 

 

Agregare completă:  
Grupurile sunt create conform distanței minime maxime dintre puncte, deci mai întâi sunt calculate distanțele cele mai mari dintre grupuri si apoi sunt alese cele cu distanțele cele mai mici. Această modalitate de agregare evidențiază diferențele dintre grupuri, mai degrabă decât omogenitatea internă

Agregare medie:  
Grupurile sunt formate conform distanței medii minime, deci mai întâi se calculează distanța medie dintre toate observațiile și ulterior dintre aceastea se alege distanța minimă. Această metodă de agregare este mai puțin sensibilă la valori extreme, deci va fi mai robustă. 

 

Distanța de agregare și Dendograma Click to read  

După alegerea metodei potrivite de agregare pentru analiză si pentru formarea grupelor, se poate crea reprezentarea grafică: Dendograma.
Reprezintă grafic creșterea nivelurilor de agregare ale clusterelor. Pe axa Ox sunt punctele, iar pe axa Oy sunt reprezentate distanțele.

 

Distanța dintre clustere tinde să crească și din acest motiv trebuie definită o regulă ”stop” care permite alegerea numărului de grupuri ce se vor obține

Pentru aceasta, se utilizează tehnica secționării arborelui:
- Se observă cele mai lungi segmente (ramuri);
- Se aplică criteriul parsimoniei (de obicei 4-5 clustere omogene în interior și eterogene între ele);
- Cu ajutorul Scree-plot aferent distanțelor de agregare (atunci când graficul se aplatizează, sau dacă la trecerea de la g la g+1 grupuri este o creștere importantă);
- Se ține cont să nu fie outlieri (clustere formate dintr-un singur punct).

 

 

Studiu de caz în R

Crearea matricii de distanțe Click to read  

După importarea setului de date în R, începem cu Analiza Cluster:

 

Choosing the Type of Link Click to read  

 

 

Rezultatul obținut cu metoda simplă de agregare:

 

Aceeași procedură este realizată pentru agregarea completă și pentru agregarea medie.
Rezultatele se vor compara și se va alege metoda de agregare cea mai reprezentativă pentru analiza realizată.

Comparând cele trei metode, cea mai potrivită este metoda agregării complete, întrucât separă cel mai bine clusterele, evitând situația în care ar fi prea multă omogenitate internă, în detrimentul eterogenității dintre clustere. Previne de asemenea formarea de outlieri (clustere formate dintr-un singur punct).

Sumar

Sumar Click to read  


Keywords

Unități statistice, Cluster, intra-cluser, inter-cluster, indice de disimilaritate, distanță de agregare, dendogramă.

Objectives/goals:

Scopul acestui modul este de a introduce și de a explica tehnica Analizei Cluster.

La finalul acestui modul, vei fi capabil să:

-    Cunoști logica Analizei Cluster

-    Cunoști cerințele 

-    Realizezi o Analiză Cluster


Description:

În acest modul de învățare va fi prezentată tehnica multidimensională a Analizei Cluster, cunoscută și sub numele de Analiză automată a grupurilor.
Analizele cluster sunt utilizate pentru a grupa unitățile statistice care au caracteristici comune și pentru a le aloca pe categorii care nu sunt definite a priori. Grupurile formate trebuie să fie cât mai omogene în interior (intra-cluster) și cât mai eterogene între ele (inter-cluster).
Aplicațiile acestui tip de analiză se regăsesc în mai multe domenii: informatică, medicină, biologie, marketing. 
Ultima parte a modulului este dedicată aplicațiilor analizei cluster cu ajutorul software-ului R. 


Related training material

Parteneri

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI