Analiza cluster
Introducere
Analiza cluster Click to read
Analiza cluster este o tehnică de analiză multivariată care poate fi aplicată în multe domenii: de la informatică, medicină și biologie, la arheologie și marketing, oricând este necesară clasificare unei cantități mari de informație în grupuri / clase distincte.
Obiectiv Click to read
Analiza cluster este utilizată pentru a grupa unități statistice (înregistrări) care au caracteristici comune și pentru a le aloca în categorii care nu sunt definite a priori. Grupele (clusterele) formate trebuie să fie cât mai omogene în interior (chiar similar, intra-cluster) și cât mai eterogene între ele (chiar diferite, inter-cluster).
Tipuri de variabile Click to read
În Analiza Cluster se pot utiliza:
- Variabile cantitative, deci numerice;
- Variabile calitative (de exemplu: gen, nivel de educație, status marital, etc.)
Analiza Cluster
Matricea de disimilaritate (sau Matricea de distanțe) Click to read
Matricea de distanțe, D, este utilă pentru a afla câte unități statistice sunt diferite unele de altele, este esențială pentru alegerea variabilelor care vor fi luate în calcul.
Matricea de distanțe, de dimensiuni 𝒏×𝒏, esto o matrice simetrică care are valoarea zero pe diagonala principală, deoarece distanța dintre un punct și el însuși este zero.
Înainte de a crea matricea de distanțe, matricea de start trebuie standardizată, astfel încât fiecare variabilă să aibă aceeași pondere cu celelalte.
Pentru a obține matricea de distanțe, D, este necesară calcularea distanțelor dintre puncte. În funcție de tipul de variabilă, cantitativă sau calitativă, cu care se lucrează, aceste distanțe pot fi calculate în diferite moduri.
Variabile cantitative
- Distanța Euclidiană, sensibilă la
valori extreme (outliers).
-Distanța Manhattan, foarte robustă.
|
|
Variabile calitative
Frecvențele sunt luate în calcul, matricea de similaritate este creată și concordanțele și discrepanțele dintre variante sunt calculate.
Două tipuri de indici de similaritate:
- Zubin, pentru variabile binare simetrice.
- Jaccard, pentru variabile binare asimetrice.
|
Formarea Clusterelor Click to read
Datorită regulii de agregare, putem alege o metodă de agregare pentru a forma clusterele, din următoarele
- Agregare simplă
-Agregare completă
-Agregare medie
Agregare simplă:
Grupurile sunt agregate pe baza distanței minime dintre observații, această metodă favorizând omogenitatea elementelor fiecărui grup, în detrimentul diferențierii.
Agregare completă:
Grupurile sunt create conform distanței minime maxime dintre puncte, deci mai întâi sunt calculate distanțele cele mai mari dintre grupuri si apoi sunt alese cele cu distanțele cele mai mici. Această modalitate de agregare evidențiază diferențele dintre grupuri, mai degrabă decât omogenitatea internă
Agregare medie:
Grupurile sunt formate conform distanței medii minime, deci mai întâi se calculează distanța medie dintre toate observațiile și ulterior dintre aceastea se alege distanța minimă. Această metodă de agregare este mai puțin sensibilă la valori extreme, deci va fi mai robustă.
Distanța de agregare și Dendograma Click to read
După alegerea metodei potrivite de agregare pentru analiză si pentru formarea grupelor, se poate crea reprezentarea grafică: Dendograma.
Reprezintă grafic creșterea nivelurilor de agregare ale clusterelor. Pe axa Ox sunt punctele, iar pe axa Oy sunt reprezentate distanțele. |
|
Distanța dintre clustere tinde să crească și din acest motiv trebuie definită o regulă ”stop” care permite alegerea numărului de grupuri ce se vor obține
Pentru aceasta, se utilizează tehnica secționării arborelui:
- Se observă cele mai lungi segmente (ramuri);
- Se aplică criteriul parsimoniei (de obicei 4-5 clustere omogene în interior și eterogene între ele);
- Cu ajutorul Scree-plot aferent distanțelor de agregare (atunci când graficul se aplatizează, sau dacă la trecerea de la g la g+1 grupuri este o creștere importantă);
- Se ține cont să nu fie outlieri (clustere formate dintr-un singur punct).
Studiu de caz în R
Crearea matricii de distanțe Click to read
După importarea setului de date în R, începem cu Analiza Cluster:
Choosing the Type of Link Click to read
Rezultatul obținut cu metoda simplă de agregare:
Aceeași procedură este realizată pentru agregarea completă și pentru agregarea medie.
Rezultatele se vor compara și se va alege metoda de agregare cea mai reprezentativă pentru analiza realizată.
Comparând cele trei metode, cea mai potrivită este metoda agregării complete, întrucât separă cel mai bine clusterele, evitând situația în care ar fi prea multă omogenitate internă, în detrimentul eterogenității dintre clustere. Previne de asemenea formarea de outlieri (clustere formate dintr-un singur punct).
Sumar
Sumar Click to read
|