DataScience Training



Modelos lineales generalizados: ANOVA

Modelos lineales generales: ANOVA

INTRODUCCIÓN

INTRODUCCIÓN Click to read  

Las técnicas GLM presentadas aquí en forma de Análisis de Varianza (ANOVA) permiten responder a preguntas potencialmente interesantes. Algunos ejemplos:

  1. ¿Los trabajadores masculinos y femeninos de una región ganan el mismo salario medio anual?
  2. ¿Los alumnos de un curso que siguen diferentes métodos de enseñanza obtienen la misma nota media?
  3. ¿El consumo semanal medio de ciertos medicamentos es diferente entre grupos de edad y/o género?

El ANOVA de un factor responde las preguntas 1 y 2, mientras que la pregunta 3 requiere un ANOVA de dos factores. Nuestro objetivo es probar el efecto de una variable independiente (factor) clasificada en k categorías (niveles) sobre una variable dependiente numérica ( variable de respuesta ), y se basa en la descomposición de la variabilidad total de la muestra. Podemos abordar este problema como una prueba de hipótesis estadística de una hipótesis nula (H0; nuestro p-valorredeterminado) versus una alternativa (H1; una visión alternativa). La prueba se formula en términos de las medias poblacionales de la variable de respuesta a través de los niveles de nuestro(s) factor(es).

 

 

Los supuestos requeridos para realizar la prueba ANOVA son:

  • Poblaciones normales: la distribución de la variable de respuesta en todos y cada uno de los niveles debe ser normal
  • Igualdad de varianzas: las varianzas de la variable de respuesta entre niveles deben ser las mismas
  • Muestras independientes: los datos de la muestra en cada nivel del factor no están correlacionados con los otros datos de la muestra (recolectados de los otros niveles)

 

 
 
One way ANOVA

El procedimiento Click to read  

El procedimiento ANOVA con un factor se basa en la siguiente ecuación:

donde �� ir es el valor de nuestra variable de respuesta para �� individual en la categoría (nivel) ��. Suponemos que este valor es la suma de tres efectos:

  • Un valor medio (μ), común a todos los individuos y niveles
  • Un término (α�� ) que captura la influencia media de pertenecer al nivel ��
  • Un residuo (uir), que explica las variaciones aleatorias e incontroladas. Se supone que este residual se distribuye normalmente con media cero

La prueba ANOVA es equivalente a probar si los términos α�� son idénticos en los k niveles. Si no, habrá diferencias significativas en los medios.

Tomamos datos muestrales de �� y descomponemos su variabilidad (dispersión alrededor de las medias muestrales) en dos partes:

  1. El intragrupo (SSW) da cuenta de la variabilidad interna.
  2. La variabilidad entre (SSB) explica las diferencias entre la media de cada muestra de grupo y la gran media.

La variabilidad total (SST) es la suma de SSW+SSB. Si SSB es mucho mayor que SSW, indica que hay diferencias significativas en las medias de los grupos. Por lo tanto, habrá diferencias significativas en las medias entre los niveles del factor.

Para comparar el peso relativo de SSB y SSW sobre la variabilidad total, los escalamos dividiéndolos por el número de grados de libertad, produciendo los valores MSB y MSW respectivamente.

Si se cumplen los supuestos requeridos, el estadístico (d) calculado como MSB∕MSW se distribuye como un modelo F. Este estadístico permite tomar una decisión sobre la prueba: cuanto mayor sea su valor, mayor (relativamente) es la parte intermedia en comparación con la variabilidad interna.

Pero, ¿cómo podemos saber si d es alto o no? Al calcular el p-valor asociado a esta prueba: calculamos el p-valor (la probabilidad en la cola derecha de la distribución F relevante) y si este p-valor es bajo, rechazamos el valor nulo (es decir, hay diferencias significativas en la media de los niveles)

 

 

 
 
Un ejemplo Click to read  

Como ejemplo ilustrativo, supongamos que queremos probar si el diseño de los envases en los que se vende una marca específica de leche tiene alguna influencia en las ventas. Con este objetivo, tomamos una muestra de 12 tiendas con características similares y, fijando el mismo precio para la leche, asignamos aleatoriamente un tipo de envase (1, 2 o 3). Luego obtenemos los datos de muestra de nuestra variable de respuesta "Ventas (sales en inglés), que mide cuántos miles de botellas de leche se vendieron en un mes, como se muestra a continuación:

Nuestros datos de muestra que se muestran arriba están contenidos en un archivo R, que podemos abrir yendo aquí (llamamos a este archivo de datos "Milk"):

Queremos probar si existen diferencias estadísticamente significativas en las ventas medias, dependiendo del diseño del envase. Estamos aplicando ANOVA con R, lo que requiere instalar paquetes específicos:

Para aplicar ANOVA, primero debemos asegurarnos de que las supuestos requeridos realmente se cumplan, por lo que ejecutamos las siguientes líneas de código:

Estas líneas primero indican el conjunto de datos que se considera ("Milk"), luego agrupan los datos por los niveles del factor ("Package") y finalmente ejecutan una prueba de normalidad de Spahiro en nuestra variable de respuesta ("Sales") entre grupos:

Los altos p-valore de esta prueba de normalidad para todos los niveles nos permiten trabajar bajo el supuesto de normalidad requerido. Además, también asumimos que tenemos varianzas iguales, lo que nos lleva a ejecutar una prueba de Barlett de varianzas homogéneas como se muestra a continuación:

El p-valor que se muestra a continuación sugiere que esta suposición es muy realista:

Dado que los supuestos necesarios parecen cumplirse, llevamos a cabo la metodología ANOVA ejecutando las siguientes líneas de código:

Lo que produce la siguiente salida:

Los resultados de la prueba ANOVA indican que los diferentes diseños de los envases parecen no tener impacto en las ventas medias: la parte de variabilidad explicada por los diferentes niveles del factor “Paquete” (variabilidad entre grupos) no es significativamente mayor que la parte residual (variaciones internas). Como consecuencia, el valor de p asociado a esta prueba es alto y nos dice que no hay razones para rechazar la hipótesis nula de ventas medias iguales entre diseños.

 

 

 

 

 

 

 

 

Two factor ANOVA

El procedimiento Click to read  

Las ideas explicadas para el caso de ANOVA de un factor pueden extenderse para acomodar problemas en los que más de un factor puede estar afectando mi variable de respuesta. Ahora, la prueba ANOVA ahora se amplía para tener en cuenta un segundo factor más una posible interacción como:

donde Xijr es el valor de nuestra variable de respuesta para el individuo r en la categoría (nivel) i del factor α y el nivel j del factor β. Suponemos que estos valores se alejan de la media global (μ), como la suma de cuatro efectos:

  1. Un desplazamiento (αi) que captura la influencia media de pertenecer al nivel i del factor α 
  2. Un segundo desplazamiento ( βj) que captura la influencia media de pertenecer al nivel jde factor β 
  3. Un término de interacción entre estos dos factores (αβ)ij 
  4. Un residual uir, que da cuenta de las variaciones aleatorias e incontroladas. Se supone que este residual se distribuye normalmente con media cero

Ahora las comparaciones entre las distintas partes de la variabilidad son más complejas. Cada fuente de variación se compara (convenientemente escalada por el número de grados de libertad) con la varianza residual. La intuición es la misma que en el ANOVA de un factor, pero hay tres pruebas diferentes, como se resume en la siguiente tabla:

 

 

Un ejemplo Click to read  

Vamos a ilustrar empíricamente el ANOVA de dos factores suponiendo que tenemos el siguiente problema: Un centro de salud quiere analizar la posible influencia de la edad y el sexo en el uso de un medicamento. Para ello se realiza una encuesta por muestreo y se agrupan los usuarios por edad en cuatro categorías (niños, adolescentes, adultos, adultos mayores) y género. Se extrae una muestra de 24 individuos, seleccionándose de forma independiente 3 individuos por sexo y grupo de edad. La variable de respuesta es el consumo mensual de este medicamento (en €), y tenemos el siguiente conjunto de datos:

Nuevamente, los datos de muestra que se muestran arriba (contenidos en un archivo R llamado "medicine") se pueden cargar en Rstudio yendo aquí:

Ahora, estamos aplicando un ANOVA de dos factores (edad y sexo) con R, que requiere instalar y cargar paquetes específicos:

Ahora, estamos aplicando un ANOVA de dos factores (edad y sexo) con R, que requiere instalar y cargar paquetes específicos:

Para aplicar ANOVA, primero probamos si los supuestos requeridos realmente se cumplen, ejecutando pruebas de normalidad y de igualdad de varianzas. Las pruebas de normalidad (en todos los grupos de edad y los dos géneros) se realizan ejecutando:

Primero indicamos el conjunto de datos que se considera ("Medicine"), luego agrupamos los datos por los niveles de los dos factores considerados en nuestro análisis ("age" y "sex") y finalmente realizamos una prueba de normalidad de Spahiro en la variable "consumption". en todos los grupos:

El p-valor encontrado indica que tampoco tenemos evidencia empírica en la muestra en contra de este supuesto:

Dado que los supuestos necesarios para realizar un proceso ANOVA de dos factores parecen ser válidos, lo hacemos ejecutando las siguientes líneas de código:

El resultado del análisis viene en forma de la siguiente tabla ANOVA múltiple:

Los resultados de este ANOVA de dos factores proporcionan información muy útil que permite dar una respuesta basada en datos a nuestra pregunta de investigación. Las pruebas realizadas indican que los valores medios del consumo del medicamento son significativamente diferentes entre los cuatro niveles del factor “edad” (nótese que es el único caso en el que tenemos un p-valor bajo, lo que lleva a rechazar la hipótesis nula de medias iguales). Sin embargo, tampoco encontramos diferencias significativas en el consumo medio por sexo ni entre las interacciones entre grupo de edad y sexo.

 

 

 

 



Keywords

Análisis multivariante, variabilidad inter e intra, comprobación de hipótesis, modelos lineales

Objectives/goals:

El objetivo de este módulo es presentar los conceptos básicos del análisis de la varianza (ANOVA) de uno y dos factores, que puede entenderse como un modelo lineal básico.



Al finalizar este módulo será capaz de:



Cómo ANOVA puede ser útil para probar si existen diferencias entre el valor medio de una variable continua a través de diferentes niveles de una o varias variables categóricas.

Comprender e identificar las condiciones necesarias para aplicar estas técnicas.

Realizar análisis de varianza unidireccionales y múltiples e interpretar los resultados obtenidos.


Description:

En este módulo se le presentarán los conceptos básicos del análisis de la varianza (ANOVA) de uno y dos factores, que puede entenderse como un modelo lineal básico.

En este curso aprenderá cómo ANOVA puede ser útil para probar, comprender e identificar las condiciones necesarias para aplicar estas técnicas y realizar análisis de varianza unidireccionales y múltiples e interpretar los resultados obtenidos.

Bibliography

NEWBOLD, P. et al. (2008): Statistics for Management and Economics, (6th edition) Ed. Prentice Hall. Chapter 17, pp. 635-661


Related training material

Miembros

Università del Salento
Demostene Centro Studi
IHF
IWS
Universidad de Oviedo
ASE
WAI