DataScience Training



Introducción a RStudio software

Introducción al software RStudio

Introducción

Introducción Click to read  

Sección 1: Historia breve

● Project R nació en el departamento de estadística de la Universidad de Auckland, Nueva Zelanda;
● Los fundadores del proyecto son Robert Gentleman y Ross Ihaka, ahora profesores titulares de universidad);
● El proyecto comenzó en 1991, pero la primera versión se lanzó en 1996;
● El software R ahora se considera el lenguaje de computación estadística más potente del mundo;
 
Sección 2: El entorno informático
 
Multiplataforma (Windows, MacOS, Linux);
Código abierto (software, manuales, tarjetas de referencia, todo descargable desde el sitio web www.r-project.org);
Cuenta con numerosas herramientas integradas para el análisis de datos;
Permite el cálculo matricial;
Fácil uso; útil para el almacenamiento de datos;
El término “entorno” pretende destacar que R es un sistema completamente  planificado y coherente, no una colección de herramientas extremadamente específicas e inflexibles.
 
Sección 3: Técnicas de Análisis Estadístico

La mayoría de las técnicas estadísticas, desde las más clásicas hasta las más recientes, hans sido implementadas en el entorno R.

 

Solo algunos técnicas se integran en el entorno básico, muchas otras se ofrecen en forma de paquetes a través de la familia de sitios web denominada CRAN (Comprehensive R Archive Network).

Sección 4: Comunidad

 Una comunidad de más de 2 millones de usuarios y desarrolladores ofrece su tiempo y experiencia técnica para mantener, apoyar y desarrollar el lenguaje y el entorno R, las herramientas y la infraestructura.
 En el corazón de la comunidad, el R Core Group, de unos 20 miembros, se encarga del mantenimiento de R y guía su evolución.
 La estructura pública oficial es proporcionada por la Fundación R, una organización sin ánimo de lucro que garantiza la estabilidad financiera de R-project y administra los derechos de autor del software y la documentación.
 
 
 
Software R

Cómo instalar el software R Click to read  

Desde el sitio https://www.r-project.org/
Haga click en Descargar R (download R)
Elija el CRAN que desee (es decir, el lugar físico desde el que descargar el software)
Elija el sistema operativo en el que descargar el programa (Windows, Linux, MacO)
Haga clic en instalar R por primera vez
Iniciar la descarga
 
¿Qué aspecto tiene R? Click to read  
RStudio

Exploremos RStudio Click to read  

 La interfaz más utilizada y accesible es RStudio, que se puede descargar desde https://www.rstudio.com/
 RStudio utiliza una interfaz fácil de usar para facilitar su uso;
 Haga clic en Descargar (RStudio);
 Elija la versión gratuita;
 Iniciar la descarga;
 Entorno de desarrollo integrado (IDE) para R;
 El entorno de trabajo de RStudio consta de 4 ventanas:

Code (código) (escribir//ejecutar scripts)

Console (consola) (Línea de comandos//Vista de salida) 

Object (objetos) (lista de objetos//historial de comandos)

Package (paquete) (ayuda)

 
Ventana Multitab (de pestañas múltiples)
 
 Paquetes: para descargar paquetes que permiten realizar análisis estadísticos, como por ejemplo Análisis de Componentes Principales.

Ejemplo: haga clic en Instalar e instale el paquete ggplot2 

 Help (Ayuda) : para acceder a la descripción del paquete.

Ejemplo: Escriba ggplot2

 Files (Archivos) : permite acceder rápidamente a los archivos guardados después de crear un proyecto R
Creación de un proyecto Click to read  

 Con RStudio puedes crear un proyecto para definir el directorio de trabajo y tener en él todos los datos, paquetes y códigos.
 Para crear un nuevo proyecto hay que ir al menú en la parte superior izquierda y seleccionar File -> New Project (Archivo -> Nuevo proyecto)
 
 Primeros pasos: carga de datos
 R puede leer diferentes tipos de datos (TXT, CSV, XLS, XLSX, SPSS, STATA), pero la forma más sencilla e inmediata es el formato CSV (Comma Separated Value).
 Para cargar un archivo CSV, seleccione Environment (Entorno) en el menú en la parte superior derecha -> Import Dataset (Importar conjunto de datos) -> From Text File (Desde archivo de texto), Después seleccionar el directorio y archivo.
 
R Notebook y R Script Click to read  

 

 Permiten hacer un seguimiento de los códigos y análisis realizados dentro del proyecto R y guardarlos en el ordenador para consultas posteriores.

R Notebook (Cuaderno R) permite crear un informe sobre un proyecto ya que incorpora todos los pasos, operaciones y gráficos creados.

R Notebook (Cuaderno R): los comandos deben escribirse dentro de un espacio especial (ALT + CTRL + I), las descripciones

Script R (Guión): 

Sirve para crear un archivo donde escribir todos los códigos útiles para el análisis a realizar
R no considera código cualquier descripcion entre

El botón “Run” (Ejecutar) en la parte superior derecha procesa los códigos
 

 Es posible seleccionar todos los códigos y procesarlos simultáneamente
 
 

 

Cargar un conjunto de datos Click to read  
Estadísticas Descriptivas "Resumen" Click to read  

Se puede hacer una primera exploración de la distribución de las variables contenidas en la base de datos de los países con el comando Summary (resumen), que se tiene que escribir en la ventana CONSOLE (Consola).
La estructura de comando es:

summary(nombre del conjunto de datos / o nombre las variables)

Otras estadísticas descriptivas

Es posible asignar un nombre a cada columna de interés:
PIL<-nazioni$PIL.pro.capite

Los principales índices de síntesis para variables cuantitativas son:

Promedio: mean(PIL)mean(nazioni$PIL.pro.capite)mean(nazioni[,3])
Varianza: var(PIL)var(nazioni$PIL.pro.capite)var(nazioni[,3])
SQM (desviación estándar): sd(PIL)(nazioni$PIL.pro.capite) sd(nazioni[,3])
Gráficos en R Click to read  

GRÁFICO DE CAJA:

El box-plot (o gráfico de caja) describe una variable cuantitativa a través de la representación gráfica del mínimo, máximo, cuartiles and mediana.

boxplot(nazioni$PIL.pro.capite, main = "Box-Plot del PIL pro capite")

ó

boxplot (nazioni[,4], main = "Box-Plot del PIL pro capite")

ó

boxplot(PIL, main = "Box-plot del PIL pro capite")
DIAGRAMA DE DISPERSIÓN:
 Para realizar un análisis exploratorio sobre el tipo de relación entre dos variables
 Ejemplo de la base de datos: analiza la relación entre la edad promedio y la esperanza de vida. ¿Existe algunarelación?
1) Nombre variables de interés
eta<-nazioni$Et..media ⇒ edad media

asp<-nazioni$Aspettativa.di.vita ⇒ esperanza de vida

El comando para preparar el diagrama de dispersión es:

plot(asp, eta, xlab="Aspettativa di vita", ylab="Età media")

DIAGRAMA DE DISPERSIÓN: ¿Qué puedes decir?

 

A partir del diagrama de dispersión observamos que puede haber una relación entre las variables Esperanza de vida (Xlab) Edad promedio (Ylab).

En concreto, a medida que aumenta la edad media, aumenta la esperanza de vida.

 

Análisis de correlación:
cor(asp,eta) = 0,67

 

CORRELACIÓN MODERADA

VARIABLES CUALITATIVAS

 Cargar conjuntos de datos ANAG
 Pon nombre a la columna GENDER:  sesso<-ANAG$Sesso
 Para las variables cualitativas, la primera descripción se refiere al análisis de distribución de frecuencias.

Crea la distribución de frecuencias para la variable “sesso”:  table(sesso)
 
GRÁFICO CIRCULAR
 
 Un modo de  representación gráfica de la distribución de una variable  cualitativa es el gráfico circular (piechart), cuyos segmentos son proporcionales a las frecuencias de cada categoría.

x<-table(sesso)

 Gráfico circular sin porcentajes:

pie(x, main = "Gráfico a torta sul sesso")

 

GRÁFICO CIRCULAR SIN PORCENTAJES

GRÁFICO CIRCULARE PIE CON PORCENTAJES

etiquetas <- c("Femmina", "Maschio", "N/A")     #AÑADIR ETIQUETAS

n<-longitud(ANAG)             #IMPORTACIÓN DE NÚMEROS DE MUESTRA

pct <- round(x/n*100)         #CÁLCULO DE PORCENTAJES

lbls <- pegar(etiquetas, pct)     # AGREGAR PORCENTAJES A LAS ETIQUETAS

lbls <- paste(lbls,"%",sep="")     # AGREGAR EL SIMBOL % A LAS ETIQUETAS

pie(x,labels = lbls, col=rainbow(length(lbls)),main= "Grafico a torta del genere dei rispondenti")

 

GRÁFICO CIRCULAR CON PORCENTAJES

GRÁFICO DE BARRAS

 Útil para variables cualitativas y para resaltar las frecuencias absolutas de cada variable.

X<-table(sesso)

barplot(x, main="Genere dei rispondenti", border="blue", ylab="Frequenze Assolute")

GRÁFICO DE BARRAS: Calcular frecuencias relativas

 

 

 

 

 
 
 
Description:

Este curso presenta el concepto de Software RStudio. Aprenderemos la historia el entorno informático, Comunidad de Técnicas de Análisis, cómo instalarlo, y exploraremos RStudio Creación de un Cuaderno de Proyecto.


Related training material

Miembros

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI