Introducere în software-ul RStudio Introducere Introducere Click to read
O scurtă istorie ● Proiectul R s-a născut în departamentul de statistică al Universității din Auckland, Noua Zeelandă
● Fondatorii proiectului sunt Robert Gentleman și Ross Ihaka, acum profesori asociați
● Proiectul a început în 1991, dar prima lansare a fost în 1996
● Software-ul R este acum considerat cel mai puternic limbaj de calcul statistic din lume
Mediul de calcul
● Multiplatformă (Windows, MacOS, Linux)
● Open-source (software, manuale, carduri de referință, toate descărcabile de pe site-ul www.r-project.org)
● Are numeroase instrumente integrate pentru analiza datelor;
● Vă permite să implementați calculul matriceal;
● Ușor de folosit și util pentru stocarea datelor;
● Termenul mediu are scopul de a distinge R ca un sistem complet planificat și coerent, mai degrabă decât o colecție de instrumente extrem de specifice și inflexibile.
Tehnici de analiză statistică
Majoritatea tehnicilor statistice, de la cele mai clasice la cele mai recente, au fost implementate în mediul R. Doar unele dintre acestea sunt integrate în mediul de bază, multe altele sunt furnizate sub formă de pachete, prin familia de site-uri numite CRAN (Comprehensive R Archive Network).
Comunitate ⮚ O comunitate de peste 2 milioane de utilizatori și dezvoltatori oferă timp și expertiză tehnică pentru a menține, susține și dezvolta limbajul R și mediul, instrumentele și infrastructura
⮚ În inima comunității, grupul R Core, de aproximativ 20 de membri, se ocupă de întreținere și ghidează evoluția R.
⮚ Structura publică oficială este asigurată de fundația R, o organizație non-profit care asigură stabilitatea financiară a R-projectului și administrează drepturile de autor ale software-ului și ale documentației.
Software R Cum se instalează software-ul R Click to read
● FDe pe site https://www.r-project.org/
● Click Descărcați R
● Alegeți CRAN-ul dorit (locul fizic din care să descărcați software-ul)
● Alegeți sistemul de operare pe care să descărcați programul (Windows, Linux, MacO)
● Faceți clic pe instalați R pentru prima dată
● Începeți descărcare
Cum arată R Click to read
RStudio Să explorăm RStudio Click to read
⮚ Cea mai des folosită și cea mai accesibilă interfață este RStudio, care poate fi descărcată din https://www.rstudio.com/
⮚ RStudio folosește o interfață ușor de utilizat pentru a facilita utilizarea acesteia;
⮚ Faceți clic pe Descărcare (RStudio);
⮚ Alege versiunea gratuită;
⮚ Începeți descărcarea;
⮚ Mediu de dezvoltare integrat (IDE) pentru R;
⮚ The RStudio working environment consists of 4 windows:
Fereastra de cod (scriere//executare scripturi)
Consolă (Linie de comandă//Vizualizare de ieșire)
Fereastra obiect (lista de obiecte//istoric comenzi)
Fereastra pachetului//diagrame//ajutor
Fereastra cu mai multe file
⮚ Pachete: vă permite să descărcați pachete care vă permit să efectuați analize statistice, cum ar fi Analiza în componentele principale. Exemplu: faceți clic pe Instalare și instalați pachetul ggplot2
⮚ Ajutor: vă permite să aveți descrierea pachetului. Exemplu: Scrieți ggplot2
⮚ Fișiere: vă permite să accesați rapid fișierele salvate după crearea unui proiect R Crearea unui proiect Click to read
⮚ Cu RStudio poți crea un proiect pentru a defini directorul de lucru, a avea toate datele, pachetele și codurile în interior
⮚ Pentru a crea un proiect nou, accesați meniul din stânga sus și selectați Fișier -> Proiect nou
⮚Pregatirea: Încărcarea datelor
⮚R poate citi diferite tipuri de date (TXT, CSV, XLS, XLSX, SPSS, STATA), dar cea mai simplă și imediată modalitate este formatul CSV (Comma Separated Value).
⮚Pentru a încărca un fișier CSV, selectați Mediu din meniul din dreapta sus -> Import Dataset -> Din fișier text, apoi selectați directorul și fișierul.
R Notebook și R Script Click to read
⮚Acestea vă permit să urmăriți codurile și analizele efectuate în cadrul proiectului R și să le salvați pe PC pentru consultări ulterioare.
R Notebook Vă permite să creați un raport al unui proiect prin introducerea tuturor pașilor, operațiilor și graficelor create. R Notebook: comenzile trebuie introduse în bucăți speciale (ALT + CTRL + I), descrierile afară R Script:
Creați un fișier în care să introduceți toate codurile utile pentru analiza corespunzătoare
⮚Codurile pot fi selectate toate împreună și procesate simultan
Loading a Dataset Click to read
Descriptive Statistics Click to read
A first exploration of the distribution of the variables contained in the countries dataset is obtained through the summary command, which must be inserted in the window called Console. summary(name dataset / or name variable)
Statistici descriptive: Alte statistici descriptive Puteți atribui un nume fiecărei coloane de interes: Principalii indici de sinteză pentru variabile cantitative sunt: ⮚ Media: mean(PIL) sau mean(nazioni$PIL.pro.capite) sau mean(nazioni[,3])
⮚ Varianza: var(PIL) sau var(nazioni$PIL.pro.capite) sau var(nazioni[,3])
⮚ SQM (Deviația standard): sd(PIL) sau (nazioni$PIL.pro.capite) sau sd(nazioni[,3])
Grafice în R (Plot) Click to read
BOX-PLOT: ⮚ boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite")
sau ⮚boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")
sau ⮚boxplot(PIL, main = "Box-plot del PIL pro capite")
DIAGRAMA SCATTER:
⮚Performing an exploratory analysis on the type of relationship between two variable
⮚Exemplu din setul de date: analizați relația dintre vârsta medie și speranța de viață. Există o relație
⮚1) Nume variabile de interes eta<-nazioni$Et..media
asp<-nazioni$Aspettativa.di.vita Comanda de pregătire a graficului de dispersie este: plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")
DIAGRAMĂ SCATTER: Ce poți spune? Din graficul de dispersie pare să existe o relație între variabilele Speranța de viață și Vârsta medie. Mai exact, pe măsură ce vârsta medie crește, speranța de viață crește. Analiza corelației: cor(asp,eta) = 0,67
CORELATIE MODERATA CALITATIV ⮚Încărcați setul de date ANAG
⮚Denumiți coloana Gen -> sesso<-ANAG$Sesso
⮚Pentru variabilele calitative, prima descriere se referă la analiza distribuției frecvenței.
Creați distribuția de frecvență pentru variabilă «sesso» -> table(sesso)
PLĂCINTĂ
⮚Un mod de reprezentare grafică a distribuției caracterelor calitative este diagrama circulară, ale cărei segmente sunt proporționale cu frecvențele fiecărei categorii
x<-table(sesso) ⮚Diagramă plăcintă fără procente:
pie(x, main = "Grafico a torta sul sesso")
GRAFICUL PLĂCINTĂ FĂRĂ PROCENTE
GRAFICUL PLĂCINTĂ CU PROCENTE labels <- c("Femmina", "Maschio", "N/A") #ADD LABELS n<-lenght(ANAG) #IMPUTATION OF SAMPLE NUMBERS pct <- round(x/n*100) #CALCULATION OF PERCENTAGES lbls <- paste(labels, pct) # ADD PERCENTAGES TO LABELS
lbls <- paste(lbls,"%",sep="") # ADDS THE SIMBOL % TO LABELS pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Grafico a torta del genere dei rispondenti")
GRAFICUL CU BARE ⮚UUtil pentru caractere calitative și pentru a evidenția frecvențele absolute ale fiecărei variabile. X<-table(sesso) barplot(x, main="Genere dei rispondenti", border="blue", ylab="Frequenze Assolute")
GRAFICUL CU BARE: Calculați frecvențele relative
|