Einführung in RStudio Einleitung Einleitung Click to read
die Geschichte ●Projekt R wurde in der Statistikabteilung der University of Auckland in Neuseeland geboren.
●Die Gründer des Projekts sind Robert Gentleman und Ross Ihaka, die heute außerordentliche Professoren sind.
●Das Projekt begann im Jahr 1991, aber die erste Veröffentlichung erfolgte im Jahr 1996.
●Die R-Software gilt heute als eine der leistungsstärksten statistischen Programmiersprachen der Welt.
Die Rechnerumgebung
●Plattformübergreifend (Windows, MacOS, Linux);
●Open Source (Software, Handbücher, Referenzkarten, alles zum Download auf der Website www.r-project.org verfügbar);
●Verfügt über zahlreiche integrierte Tools zur Datenanalyse;
●Ermöglicht die Implementierung von Matrixkalkulationen;
●Leicht manipulierbar und nützlich zur Datenspeicherung;
●Der Begriff "Umgebung" soll R als ein vollständig geplantes und kohärentes System kennzeichnen, anstatt eine Sammlung äußerst spezifischer und unflexibler Werkzeuge zu sein.
Statistische Analysetechniken
Die meisten statistischen Techniken, von den klassischsten bis hin zu den neuesten, wurden in der R-Umgebung implementiert. Nur einige davon sind in die grundlegende Umgebung integriert, viele weitere werden in Form von Paketen (packages) bereitgestellt, über die Website-Familie namens CRAN (Comprehensive R Archive Network). CommEinheity ⮚ Eine Gemeinschaft von über 2 Millionen Benutzer:innen und Entwickler:innen stellt Zeit und technische Expertise zur Verfügung, um die R-Sprache und -Umgebung, Tools und Infrastruktur zu pflegen, zu unterstützen und weiterzuentwickeln.
⮚ Im Zentrum dieser Gemeinschaft steht die R Kern-Gruppe, bestehend aus etwa 20 Mitgliedern, die sich um die Wartung kümmert und die Weiterentwicklung von R lenkt.
⮚ Die offizielle öffentliche Struktur wird von der R-Stiftung bereitgestellt, einer gemeinnützigen Organisation, die die finanzielle Stabilität des R-Projekts gewährleistet und das Urheberrecht der Software und Dokumentation verwaltet.
Software R Wie man die R-Software installiert Click to read
●Von der Website https://www.r-project.org/
●Wir klicken auf "Download R".
●Dann wählen wir das gewünschte CRAN (Comprehensive R Archive Network) aus, also den physischen Standort, von dem aus wir die Software herunterladen möchten.
●Wir wählen das Betriebssystem aus, auf dem wir das Programm herunterladen möchten (Windows, Linux, MacOS).
●Dann klicken wir auf "Install R for the first time" (R zum ersten Mal installieren) und
●Wir starten den Download
Wie R aussieht Click to read
RStudio RStudio erkunden Click to read
⮚Die am häufigsten verwendete und zugänglichste Benutzeroberfläche ist RStudio, die von der Website https://www.rstudio.com/ heruntergeladen werden kann.
⮚RStudio verwendet eine benutzerfreundliche Oberfläche, um die Nutzung zu erleichtern.
⮚Wir klicken auf "Download" (RStudio).
⮚Wir wählen die kostenlose Version aus.
⮚Wir starten den Download.
⮚Integrierte Entwicklungs Umgebung (IDE) für R;
⮚Die Arbeitsumgebung von RStudio besteht aus 4 Fenstern:
Code Fenster (write//execute scripts) Console (Command Line//Output View) Object Fenster (object list//command history) Package Fenster//charts//help Mehrfensteransicht
⮚Packages (Pakete): ermöglicht das Herunterladen von Paketen, mit denen statistische Analysen durchgeführt werden können, wie beispielsweise die Hauptkomponentenanalyse.
Beispiel: Wir klicken auf "Install" und installieren das Paket "ggplot2". ⮚Help (Hilfe): zeigt die Beschreibung des Pakets an.
Beispiel: Wir geben ggplot2 ein ⮚Files (Dateien): ermöglicht uns den schnellen Zugriff auf gespeicherte Dateien nach Erstellung eines R-Projekts.
Erstellung eines Projektes Click to read
⮚Mit RStudio können wir ein Projekt erstellen, um das Arbeitsverzeichnis festzulegen und alle Daten, Pakete und Codes darin zu haben.
⮚Um ein neues Projekt zu erstellen, gehen wir zum Menü oben links und wählen Datei -> Neues Projekt
⮚Getting Started: Daten Laden
⮚R kann verschiedene Datenformate lesen (TXT, CSV, XLS, XLSX, SPSS, STATA), aber der einfachste und schnellste Weg ist das CSV-Format (Kommagetrennte Werte).
⮚Um eine CSV-Datei hochzuladen, wählen wir "Umgebung" im Menü oben rechts aus -> Import Dataset -> From Text File. Wir wählen dann das Verzeichnis und die Datei aus.
R Notebook & R Script Click to read
⮚R Notebook und R Script ermöglichen es uns, den Überblick über den Code und Analysen innerhalb des R-Projekts zu behalten und sie auf dem Computer zu speichern.
R Notebook ermöglicht es uns, einen Bericht über ein Projekt zu erstellen, indem wir alle Schritte, Operationen und erstellten Grafiken eingeben.
R Notebook: Die Befehle müssen innerhalb eines speziellen Codeblocks (ALT + STRG + I) eingefügt werden, während die Beschreibungen außerhalb stehen.
R Script:
Erstellen wir eine Datei, in der alle für die entsprechende Analyse nützlichen Codes eingefügt werden können. Beschreibungen zwischen # werden von R nicht als auszuführender Code betrachtet. Mit Klick auf Run können wir Code ausführen ⮚ Die Codes können alle gleichzeitig ausgewählt und gleichzeitig ausgeführt werden.
Einlesen eines Datensatzes Click to read
Deskriptive Statistik "Summary“ (Zusammenfassung) Click to read
Eine erste Einsicht in der Verteilung der Variablen im Länder-Datensatz wird durch den Befehl "summary" erzielt, der im Fenster namens "Konsole" eingefügt werden muss. Die Befehlsstruktur lautet: summary(name dataset / or name variable)
Andere Deskriptive Statistik Sie können jedem Spaltennamen einen Namen zuweisen: Die wichtigsten Kennzahlen für quantitative Variablen sind: ⮚Median: mean(PIL) oder mean(nazioni$PIL.pro.capite) oder mean(nazioni[,3])
⮚Varianz: var(PIL) oder var(nazioni$PIL.pro.capite) oder var(nazioni[,3])
⮚Standardabweichung: sd(PIL) oder (nazioni$PIL.pro.capite) oder sd(nazioni[,3])
Grafiken in R Click to read
BOX-PLOT: Das Boxplot beschreibt eine quantitative Variable durch die grafische Darstellung von Minimum, Maximum, Quartilen und Median. ⮚boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite")
oder ⮚boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")
oder ⮚boxplot(PIL, main = "Box-plot del PIL pro capite")
SCATTER/Streudiagramm:
⮚ Durchführung einer explorativen Analyse zur Feststellung von Abhängigkeiten zwischen zwei Variablen
⮚ Beispiel aus dem Datensatz: Analyse der Anhängigkeit zwischen durchschnittlichem Alter und Lebenserwartung. Gibt es eine Abhängigkeit?
⮚1) Nenne relevante Variablen
eta<-nazioni$Et..media asp<-nazioni$Aspettativa.di.vita Der Befehl um ein Streudiagram zu erstellen lautet: plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")
Streudiagram : Was können wir daraus schließen? Aus dem Streudiagramm scheint es eine Beziehung zwischen den Variablen Lebenserwartung und Durchschnittsalter zu geben. Konkret steigt die Lebenserwartung mit zunehmendem Durchschnittsalter. Korrelationsanalyse:
MODERATE KORRELATION QUALITATIVE ⮚Wir laden den Datensatz ANAG
⮚Wir benennen die Spalte ‘Gender’ (Geschlecht) -> sesso<-ANAG$Sesso
⮚Für qualitative Variablen erstellen wir für eine erste Übersicht eine Häufigkeitsverteilung.
Für diese Variable erstellen wir daher die Häufigkeitsverteilung mit «sesso» -> table(sesso) KREISDIAGRAMM/ PIE CHART
⮚Eine Möglichkeit der grafischen Darstellung der Verteilung qualitativer Merkmale ist das Kreisdiagramm, dessen Segmente proportional zu den Häufigkeiten jeder Kategorie sind.
x<-table(sesso) ⮚Kreisdiagramm ohne Prozentsätze:
pie(x, main = "Kreisdiagramm für die Variable Geschlecht")
Kreisdiagramm ohne Prozentwerte
KREISDIAGRAMM MIT PROZENTSÄTZEN: labels <- c("Femmina", "Maschio", "N/A") #Labels hinzufügen n<-length(ANAG) #Imputation der Stichprobenzahlen pct <- round(x/n*100) #Berechnung der Prozentsätze lbls <- paste(labels, pct) #Prozentwerte den Labels hinzufügen lbls <- paste(lbls,"%",sep="") #Labels das Symbol % hinzufügen pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Kreisdiagramm zum Geschlecht der Befragten") BALKENDIAGRAMM/ BAR CHART ⮚Nützlich für qualitative Variablen und um die absoluten Häufigkeiten jeder Variable hervorzuheben.
X<-table(sesso) barplot(x, main="Geschlecht der Befragten", border="blue", ylab="Absolute Häufigkeiten")
BAR CHART: Berechnung der relativen Häufigkeiten
|
This course presents the concept of RStudio Software. We will learn the history the computing environment Analysis Techniques Community, how to install it, and we will explore RStudio Creating a Project Notebook.