Como ejemplo ilustrativo, resolvemos el problema de clasificación del modo de transporte en función de la edad y los ingresos por ADL en R. Esto se puede hacer fácilmente mediante la función "lda" dentro de la biblioteca "mass". Para todo el análisis presentado aquí, necesitaremos instalar y cargar los siguientes paquetes R:
Los datos estudiados vienen en un archivo csv (llamado "trasnport_example"), que se puede importar fácilmente a R ejecutando este código:
Para tener una primera impresión de los datos, podemos representar gráficamente la muestra en forma de diagrama de dispersión como:
Las líneas de código anteriores producen el diagrama de dispersión que se muestra en la sección introductoria de este documento. Alternativamente, podríamos trazar los datos como una serie de histogramas como:
Al ejecutar cualquiera de estas dos líneas, podemos tener una idea de cómo se distribuyen los modos de transporte entre los valores, la edad y los ingresos. Por ejemplo:
O:
ADL se lleva a cabo simplemente ejecutando:
La salida típica muestra las medias iniciales por grupo, los coeficientes en las proyecciones de LD y la proporción de la varianza entre clases (between o traza) que explica cada coordenada de LD:
En nuestro ejemplo, la primera coordenada LD está positivamente correlacionada con el ingreso y negativamente con la edad, y contiene casi el 90% de la variabilidad entre clases. La segunda función LD muestra una correlación positiva pero más débil con ambas variables, y solo representa aproximadamente el 10% de esta variabilidad.
Las nuevas coordenadas se producen proyectando los puntos de datos originales con los coeficientes ADL mediante la expresión . En estas nuevas coordenadas, las observaciones están más claramente separadas entre grupos. En nuestro ejemplo, tenemos dos coordenadas LD para cada individuo, dadas su edad e ingresos. Las coordenadas correspondientes a la primera función LD tienen el mayor poder discriminante. Podemos ver fácilmente este poder discriminante trazando en R un histograma, poniendo ahora las primeras coordenadas LD en el eje horizontal:
Obtención:
Este gráfico muestra cómo la cantidad de superposición disminuye considerablemente. En otras palabras, la primera coordenada LD (recuerda que es un “compuesto” que se correlaciona negativamente con la edad y positivamente con el ingreso) discrimina adecuadamente entre las categorías de transporte.