Introduzione al software RStudio Introduzione Introduzione Click to read
Sezione 1: Un po’ di Storia - Il Progetto R nasce nel dipartimento di statistica dell’Università di Auckland, in Nuova Zelanda; - I fondatori del progetto sono Robert Gentleman e Ross Ihaka, oggi professori associati; - Il progetto è avviato nel 1991, ma la prima release è del 1996; - Il software R è oggi considerato il linguaggio di calcolo statistico più potente al mondo; L’ Ambiente di Calcolo
- Multipiattaforma (Windows, MacOS, Linux);
- Open-source (software, manuali, reference card, tutti scaricabili dal sito www.r-project.org);
- Presenta numerosi tool integrati per l’analisi dei dati;
- Consente di implementare il calcolo matriciale;
- Facilmente manipolabile ed utile per l’immagazzinamento dei dati;
- Il termine ambiente è inteso a distinguere R come un sistema completamente pianificato e coerente, piuttosto che una collezione di strumenti estremamente specifici e poco flessibili.
Tecniche di Analisi Statistica
La maggior parte delle tecniche statistiche, dalle più classiche alle più recenti, ha trovato implementazione in ambiente R. Solo alcune di queste sono integrate nell'ambiente di base, moltissime altre sono fornite in forma di pacchetti (package), attraverso la famiglia di siti internet che prende il nome di CRAN (Comprehensive R Archive Network). Community Una community di oltre 2 milioni di utenti e sviluppatori mette a disposizione tempo e competenze tecniche per il mantenimento, il supporto e lo sviluppo del linguaggio R e dell'ambiente, degli strumenti e dell'infrastruttura. Al centro della community, il gruppo R Core, di circa 20 membri, cura il mantenimento e guida l'evoluzione di R. La struttura pubblica ufficiale è fornita dalla R foundation, una organizzazione no-profit che assicura la stabilità finanziaria di R-project e amministra il copyright del software e della documentazione. il Software R Come installare il software R Click to read
1. Dal sito https://www.r-project.org/
2. Cliccare su Download R
3. Scegliere il CRAN che si desidera (il luogo fisico da cui scaricare il software)
4. Scegliere il sistema operativo su cui scaricare il programma (Windows, Linux, MacOS)
5. Cliccare su install R for the first time
6. Avviare il download
Come si presenta R Click to read
RStudio Esploriamo RStudio Click to read
- L’interfaccia più comunemente usata e maggiormente accessibile è RStudio, scaricabile dal sito https://www.rstudio.com/
- RStudio utilizza un’interfaccia user-friendly per agevolarne la fruizione; - Cliccare su Download (RStudio); - Scegliere la versione free; - Avviare il download;
- Ambiente di sviluppo integrato (IDE-Integrated Development Environment) per R;
- L'ambiente di lavoro RStudio è costituito da 4 finestre: 1.Finestra del codice (scrivere//eseguire script)
2.Console (riga di comando//visualizzazione output)
3.Finestra degli oggetti (elenco oggetti//cronologia comandi)
4.Finestra dei pacchetti//grafici//help
Finestra Multi Tab
- Packages: permette di scaricare dei pacchetti che consentono di effettuare analisi statistiche, come l’Analisi in Componenti Principali.
Esempio: cliccare su Install ed installare il pacchetto ggplot2 - Help: permette di avere la descrizione del pacchetto.
Esempio: digitare ggplot2 - Files: allows you to quickly access saved files after creating an R project
- Files: consente di avere accesso rapidamente ai file salvati dopo aver creato un progetto di R
Creazione di un Progetto Click to read
- Con RStudio è possibile creare un progetto in modo da definire la directory di lavoro, avere all'interno tutti i dati, i pacchetti e i codici.
- Per creare un nuovo progetto, andare sul menu in alto a sinistra e selezionare File -> New Project
- Per Iniziare: caricamento dei dati
- R può leggere diverse tipologie di dati (TXT, CSV, XLS, XLSX, SPSS, STATA), ma il modo più semplice e immediato è il formato CSV (Comma Separated Value). - Per caricare un le CSV selezionare dal menu in altro a destra Environment -> Import Dataset -> From Text File, poi selezionare la directory e il file. R Notebook & R Script Click to read
- Permettono di tenere traccia dei codici e delle analisi svolte all’interno del progetto R e di salvarle sul pc per le successive consultazioni.
R Notebook Permette di creare un report di un progetto inserendo tutti i passaggi, le operazioni ed i grafici creati.
R Notebook: I comandi devono essere inseriti all’interno di appositi chunk (ALT + CTRL + I), le descrizioni fuori
R Script:
- Creare un file dove inserire tutti i codici utili alle opportune analisi
- Le descrizioni tra # non sono considerate da R come un codice da implementare
- Il tasto in alto a destra Run consente di processare i codici
- I codici possono essere selezionati tutti insieme e processati contemporaneamente
Caricamento di un Dataset Click to read
Statistica Descrittiva “Summary” Click to read
Una prima esplorazione della distribuzione delle variabili contenute nel dataset nazioni, è ottenuta attraverso il comando summary, che va inserito nella finestra chiamata Console. La struttura del comando è: summary(name dataset / or name variable)
Altre statistiche descrittive È possibile assegnare un nome a ciascuna colonna di interesse: PIL<-nazioni$PIL.pro.capite I principali indici di sintesi per variabili quantitative sono: - Media: mean(PIL) oppure mean(nazioni$PIL.pro.capite) oppure mean(nazioni[,3])
- Varianza: var(PIL) oppure var(nazioni$PIL.pro.capite) oppure var(nazioni[,3])
- SQM (Deviazione Standard): sd(PIL) oppure (nazioni$PIL.pro.capite) oppure sd(nazioni[,3])
Grafici in R (Plot) Click to read
BOX-PLOT: Il box-plot descrive una variabile quantitativa attraverso la rappresentazione grafica del minimo, massimo, dei quartili e della mediana. boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite") oppure boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")
oppure boxplot(PIL, main = "Box-plot del PIL pro capite")
DIAGRAMMA A DISPERSIONE:
Porre un’analisi esplorativa sul tipo di relazione tra due variabili
Esempio dal dataset: analizzare il rapporto tra età media e aspettativa di vita. Esiste una relazione?
1) Denominare le variabili di interesse
eta<-nazioni$Et..media asp<-nazioni$Aspettativa.di.vita Il comando per predisporre il diagramma a dispersione (o scatterplot) è: plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")
DIAGRAMMA A DISPERSIONE: Cosa si può dire? Dallo scatterplot appare esserci una relazione tra le variabili Aspettativa di vita e Età media. Nello specifico, al crescere dell’età media cresce l’aspettativa di vita. Analisi della correlazione: cor(asp,eta) = 0,67
CORRELAZIONE MODERATA VARIABILI QUALITATIVE Caricare dataset ANAG
Denominare la colonna Sesso -> sesso<-ANAG$Sesso
Per le variabili qualitative, la prima descrizione riguarda l'analisi della distribuzione di frequenza.
Creare la distribuzione di frequenza per la variabile «sesso» -> table(sesso) GRAFICO A TORTA
Una modalità di rappresentazione grafica della distribuzione di caratteri qualitativi è il diagramma a torta (o piechart), i cui spicchi sono proporzionali alle frequenze di ciascuna categoria.
x<-table(sesso) Grafico a torta senza percentuali: pie(x, main = "Grafico a torta sul sesso")
GRAFICO A TORTA SENZA PERCENTUALI
GRAFICO A TORTA CON PERCENTUALI labels <- c("Femmina", "Maschio", "N/A") #AGGIUNGERE ETICHETTE n<-lenght(ANAG) #IMPUTAZIONE NUMEROSITA’ DEL CAMPIONE pct <- round(x/n*100) #CALCOLO DELLE PERCENTUALI lbls <- paste(labels, pct) # AGGIUNGE LE PERCENTUALI ALLE ETICHETTE lbls <- paste(lbls,"%",sep="") # AGGIUNGE IL SIMBOLO % ALLE ETICHETTE pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Grafico a torta del genere dei rispondenti")
DIAGRAMMA A BARRE Utile per caratteri qualitativi e per evidenziare le frequenze assolute di ciascuna variabile.
X<-table(sesso) barplot(x, main="Genere dei rispondenti", border="blue", ylab="Frequenze Assolute")
DIAGRAMMA A BARRE: Calcolare le frequenze relative
|
Questo corso presenta il concetto di software RStudio. Impareremo la storia dell'ambiente di calcolo Analysis Techniques Community, come installarlo ed esploreremo RStudio creando un Project Notebook.