DataScience Training



Analisi in Cluster

Analisi in Cluster

Introduzione

Analisi in Cluster Click to read  

L’analisi in Cluster è un tipo di tecnica di analisi multivariata che può essere applicata in molteplici campi: dall'informatica, alla medicina e biologia, dall'archeologia al marketing, ogni qualvolta sia necessario classificare una grande mole di informazioni in gruppi distinguibili.

Obiettivo Click to read  

La cluster analysis si utilizza pe raggruppare unita statistiche (record) che

hanno caratteristiche in comune ed assegnarle a categorie non definite a priori.

I gruppi (cluster) formati devono risultare il più possibile omogenei all'interno (o anche simili, intra-cluster) ed eterogenei all'esterno (o anche dissimili, inter-cluster).

 

Tipo di Variabili Click to read  

Nell’Analisi in Cluster si possono utilizzare:

-variabili di tipo quantitativo, dunque numeriche;
-variabili di tipo qualitativo, che dunque presentano delle modalità (esempio: genere, livello di istruzione, stato civile ecc.)
Analisi in Cluster

Matrice di Dissimilarità (o Matrice delle Distanze) Click to read  

Partiamo dalla nostra matrice dei dati X, con dimensioni nxp e la trasformiamo in una matrice di dissimilarità D, con dimensioni nxn. Quest’ultima è utile per sapere quante unità statistiche sono diverse tra loro e quindi utile per scegliere quali variabili devono essere considerate nell’analisi. 

Come possiamo vedere la matrice D è una matrice simmetrica che lungo la diagonale maggiore ha tutti 0, in quanto la distanza di un punto con se stesso è nulla.
Per calcolare le distanze tra i punti si utilizza l’indice di,j, ossia la misura del grado di similarità tra i e j.
Ci sono diversi indici per poter calcolare tali distanze, a seconda del tipo di variabile che si sta utilizzando.

Creazione dei Cluster Click to read  

Grazie alla regola di collegamento (o link) possiamo scegliere il tipo di legame

che useremo per formare i cluster, tra i seguenti:

-Legame singolo o semplice (simple linkage)
-Legame completo (complete linkage)
-Legame medio o del centroide (average linkage)
 

Legame singolo:

I gruppi vengono messi insieme in funzione della minima distanza tra le osservazioni, questo legame privilegia l’omogeneità degli elementi di ogni gruppo a discapito della differenziazione netta.

 

 

Legame completo:  

I gruppi vengono messi insieme in funzione della minima distanza massima tra i punti, per questo prima vengono calcolate le maggiori distanze tra i gruppi e poi si scelgono quelli che hanno la distanza inferiore. Questo tipo di legame evidenzia le differenze tra i gruppi piuttosto che l’omogeneità interna.

Legame medio:  

I gruppi vengono messi insieme in funzione della minima distanza media, ossia prima di calcola la distanza media tra tutte le osservazioni e poi tra queste si prende quella minima. Questo tipo di legame è meno sensibile ai valori estremi, quindi risulterà più robusto.

 

Distanza di fusione e Dendogramma Click to read  

Dopo la scelta del legame più opportuno per la propria analisi e la creazione dei gruppi si potrà realizzare la rappresentazione grafica: il Dendogramma.

Esso viene rappresentato secondo ordinate crescenti il livello di aggregazione dei cluster. Sull’asse delle x ci sono i punti, sull’asse delle y ci sono le distanze.

 

La distanza tra cluster tende ad aumentare e per questo si sceglie una regola di stop che ci permette di scegliere il numero di gruppi che vogliamo ottenere.

Per farlo usiamo la tecnica del taglio dell'albero:

-Osservando i rami più lunghi;
-Attraverso il criterio di parsimonia (di solito 4-5 cluster omogenei all’interno ed eterogenei all’esterno);
-Con lo Scree-plot distanze di fusione (quando il grafico si appiattisce, ovvero se nel passaggio da g a g+1 gruppi si registra un forte incremento);
-Ponendo attenzione che non ci siano outliers (cluster composti da un solo punto).
 
 

 

Caso Studio su R

Creazione della Matrice delle Distanze Click to read  

Dopo aver importato il dataset in R, si parte con l’analisi in Cluster:

 

Scelta del tipo di Legame Click to read  

Il risultato che si ottiene con il legame singolo:

 

Lo stesso procedimento si effettua per il legame completo e il legame medio.

Si confrontano i risultati e si sceglierà il legame più rappresentativo per l’analisi che si sta conducendo.

Confrontando i tre legame quello più adatto è il legame completo in quanto divide meglio i cluster, evitando che ci sia troppo omogeneità interna a discapito della eterogeneità esterna. Inoltre, evita che si formino outliers, ossia cluster composti da un solo punto.

 

 

 

Summing up

Riassumento Click to read  


Keywords

Unità statistiche, cluster, intra-cluster, inter-cluster, indice di dissimilarità, distanza di fusione, dendogramma.

Objectives/goals:

Obiettivo di questo modulo è introdurre e spiegare la tecnica dell'Analisi in Cluster.



Alla fine di questo modulo sarai in grado di:




  • Conoscere la logica dell’Analisi in Cluster

  • Conoscere i requisiti



Condurre un analisi in cluster


Description:

In questo modulo formativo verrà presentata la tecnica di analisi multidimensionale denominata Analisi in Cluster, detta anche analisi automatica dei gruppi.

Le cluster analysis sono utilizzate per raggruppare unità statistiche che hanno caratteristiche in comune ed assegnarle a categorie non definite a priori. I gruppi che si formano devono essere il più possibili omogenei all’interno (intra-cluster) ed eterogenei all’esterno (inter-cluster).

L’applicazione di questo tipo di analisi è molteplice: informatica, medicina, biologia, marketing.

L’ultima parte del modulo sarà dedicata all’applicazione dell’analisi in cluster con il software R.


Related training material

Partner

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI