¿CÓMO HACER UN ANÁLISIS DISCRIMINANTE DE DOS GRUPOS?

CÓMO HACER UN ANÁLISIS DISCRIMINANTE DE DOS GRUPOS

(Obsequio Libro Diseño de Experimentos de Montgomery)


ANÁLISIS DISCRIMINANTE DE DOS GRUPOS

Análisis logit y discriminante

El análisis discriminante es una técnica para analizar los datos, cuando la variable dependiente o de criterio es categórica, y las variables predictivas o independientes son de naturaleza continua o de intervalos. Por ejemplo, la variable dependiente sería la elección de una marca de computadora personal (marca A, B o C); y las variables independientes, las calificaciones de los atributos de las computadoras personales en una escala Likert de 7 puntos. Los objetivos del análisis discriminante son los siguientes:
1. Desarrollar las funciones discriminantes, o combinaciones lineales de las variables predictivas o independientes, que hagan una mejor diferenciación entre las categorías de las variables dependientes o de criterio (grupos).
2. Examinar si hay diferencias significativas entre los grupos, en términos de las variables predictivas.
3. Determinar qué variables predictivas contribuyen más a las diferencias entre grupos.
4. Clasificar los casos en uno de los grupos, con base en los valores de las variables predictivas.
5. Evaluar la precisión de la clasificación.
Las técnicas de análisis discriminante se describen usando el número de categorías que posee la variable de criterio. Cuando ésta tiene dos categorías, la técnica se conoce como análisis discriminante de dos grupos. Cuando hay tres o más categorías, la técnica se conoce como análisis discriminante múltiple. La diferencia principal es que, en el caso de dos grupos, sólo puede derivarse una función discriminante; mientras que en el análisis discriminante múltiple, puede calcularse más de una función.
En la investigación de mercados abundan los ejemplos de análisis discriminante. Esta técnica sirve para responder preguntas como:
- En términos de las características demográficas, ¿en qué difieren los clientes que muestran lealtad hacia una tienda de quienes no lo hacen?
- ¿Existen diferencias entre usuarios frecuentes, moderados y esporádicos de bebidas gaseosas, en cuanto al consumo de alimentos congelados?
- ¿Qué características psicográficas ayudan a diferenciar a los compradores de comestibles sensibles a los precios de los quienes no lo son?
- ¿Los segmentos del mercado difieren en sus hábitos de exposición a los medios de comunicación masiva?
- En términos de los estilos de vida, ¿cuáles son las diferencias entre los clientes frecuentes de las cadenas de tiendas por departamentos regionales, y los clientes de cadenas nacionales?
- ¿Qué características distinguen a los consumidores que responden a las solicitudes enviadas por correo?

Modelo de análisis discriminante

El modelo de análisis discriminante implica combinaciones lineales de la siguiente forma:
D = b0 + b1X1 + b2X2 + b3X3 + . . . + bkXk
Donde:
D = calificación discriminante
bi = coeficientes o pesos discriminantes
Xi = variables predictivas o independientes
Los coeficientes, o pesos (bi), se calculan de manera que el grupo difiera tanto como sea posible en los valores de la función discriminante. Esto ocurre cuando está al máximo la razón de la suma de cuadrados entre grupos y la suma de cuadrados intragrupos de las puntuaciones discriminantes.
Cualquier otra combinación lineal de los predictivos dará como resultado una razón menor.
Veamos una breve exposición geométrica del análisis discriminante de dos grupos. Suponga que se tienen dos grupos, G1 y G2, y que cada miembro de esos grupos fue medido en dos variables X1 y X2. En la figura se muestra un diagrama de dispersión de los dos grupos, donde X1 y X2 son los dos ejes. El número 1 identifica a los miembros de G1, y el número 2 a los miembros de G2. Las elipses resultantes abarcan un porcentaje específico de los puntos (miembros), digamos 93 por ciento de cada grupo. Se traza una línea recta entre los dos puntos donde se intersecan las elipses, y de ahí se proyecta a un nuevo eje, D. El traslape entre las distribuciones univariadas G1’ y G2’, representado por el área sombreada en la figura, es menor al que podría obtenerse si se trazara otra línea entre las elipses que representan los diagramas de dispersión. Por lo tanto, los grupos difieren tanto como es posible en el eje D. Varios estadísticos se asocian con el análisis discriminante.

Estadísticos asociados con el análisis discriminante

Los principales estadísticos asociados con el análisis discriminante son los siguientes:
-  Correlación canónica: la correlación canónica mide el grado de asociación entre las calificaciones discriminantes y los grupos. Es una medida de asociación entre la única función discriminante y el conjunto de variables ficticias que definen la pertenencia al grupo.
-  Centroide: el centroide es la media de las calificaciones discriminantes de un grupo particular. Existen tantos centroides como grupos, porque hay uno para cada grupo. Los centroides del grupo son las medias de ese grupo en todas las funciones.
-  Matriz de clasificación: llamada a veces también matriz de confusión o de predicción, contiene el número de casos cuya clasificación fue correcta e incorrecta. Los casos bien clasificados aparecen en la diagonal porque los grupos reales y los pronosticados son los mismos. Los elementos fuera de la diagonal representan casos cuya clasificación fue incorrecta. La suma de los elementos de la diagonal, dividida entre el número total de casos, representa la proporción de aciertos.
-  Coeficientes de la función discriminante: los coeficientes (no estandarizados) de la función discriminante son los multiplicadores de las variables, cuando éstas se encuentran en las unidades de medición originales.
-  Calificaciones de discriminación: los coeficientes no estandarizados se multiplican por los valores de las variables. Los productos se suman y se agregan al término constante para obtener las calificaciones de discriminación.
-  Valor propio: para cada función discriminante, el valor propio es la razón de la suma de cuadrados entre grupos e intragrupos. Los valores propios grandes suponen funciones superiores.
-  Valores F y su significancia: se calculan en un ANOVA de una vía, donde la variable de agrupamiento funge como variable independiente categórica. A la vez, en el ANOVA cada predictivo funge como variable dependiente métrica.
-  Medias y desviaciones estándar de los grupos: se calculan para cada predictivo en cada grupo.
-  Matriz de correlaciones agrupadas intragrupales: para calcular la matriz de correlaciones agrupadas intragrupales se promedian las matrices de covarianza separadas de todos los grupos.
-  Coeficientes estandarizados de la función discriminante: los coeficientes estandarizados de la función discriminante son los que suelen usarse como multiplicadores cuando las variables se han estandarizado con una media de 0 y una varianza de 1.
-  Estructura de correlaciones: conocida también como cargas discriminantes, la estructura de correlaciones representa las correlaciones simples entre los predictivos y la función discriminante.
-  Matriz de correlación total: si se trata a los casos como si pertenecieran a una sola muestra y se calculan las correlaciones, se obtiene una matriz de correlación total.
-  (Lampda) λ de Wilks: conocida también como estadístico U. La λ de Wilks de cada predictivo es la razón entre la suma de los cuadrados intragrupo y la suma total de los cuadrados. Su valor fluctúa entre 0 y 1. Los valores grandes de λ (cerca de 1) indican que parece no haber diferencia entre las medias del grupo. Los valores pequeños de λ (cerca de 0) indican que parece haber diferencia entre las medias del grupo.
Las suposiciones del análisis discriminante son que cada uno de los grupos es una muestra de una población normal multivariante y que todas las poblaciones tienen la misma matriz de covarianza. El papel de estas suposiciones y los estadísticos descritos pueden entenderse mejor si se examina el procedimiento para realizar un análisis discriminante.

Realización de un análisis discriminante

Los pasos para realizar un análisis discriminante incluyen formulación, cálculo, determinación de la significancia, interpretación y validación véase la figura siguiente, Estos pasos se analizan y se ilustran en el contexto del análisis discriminante de dos grupos. El análisis discriminante con más de dos grupos se analizará en artículo posterior.
 

Formulación del problema

El primer paso del análisis discriminante consiste en formular el problema mediante la identificación de los objetivos, las variables de criterio y las variables independientes. Las variables de criterio deben consistir en dos o más categorías que sean excluyentes entre sí y exhaustivas en su conjunto. Cuando la variable dependiente se basa en una escala de intervalo o de razón, primero debe convertirse en categorías. Por ejemplo, la actitud hacia una marca, medida en una escala de 7 puntos, puede categorizarse como desfavorable (1, 2, 3), neutra (4) o favorable (5, 6, 7). De forma alternativa, es posible graficar la distribución de la variable dependiente y formar grupos de igual tamaño, mediante la determinación de los puntos de corte adecuados para cada categoría. La elección de las variables predictivas tiene que basarse en un modelo teórico o en investigaciones previas; sin embargo, en el caso de la investigación exploratoria, la selección debe estar guiada por la experiencia del investigador.
El siguiente paso es dividir la muestra en dos partes. Una parte de la muestra, llamada muestra de análisis o de estimación, se utiliza para calcular la función discriminante. La otra parte, llamada muestra de validación o de exclusión, se reserva para la validación de la función discriminante.
Cuando la muestra es lo bastante grande, puede dividirse por la mitad. Una mitad funge como muestra de análisis y la otra se usa para la validación. Luego se intercambia el papel de las mitades y se repite el análisis. Esto se conoce como validación cruzada doble y es similar al procedimiento estudiado en el análisis de regresión.
A menudo la distribución del número de casos en las muestras de análisis y validación sigue la distribución de la muestra total. Por ejemplo, si la muestra total contiene 50 por ciento de consumidores leales y 50 por ciento de consumidores desleales, entonces las muestras de análisis y de validación pueden contener cada una 50 por ciento de consumidores leales y 50 por ciento de consumidores desleales. Por otro lado, si la muestra contiene 25 por ciento de consumidores leales y 75 por ciento de consumidores desleales, pueden elegirse las muestras de análisis y de validación de modo que reflejen la misma distribución (25 por ciento contra 75 por ciento).
Por último, se ha sugerido la necesidad de repetir la validación de la función discriminante.
Cada vez, la muestra debería dividirse en diferentes partes de análisis y de validación. Se requiere calcular la función discriminante y llevar a cabo el análisis de validación. Por lo tanto, la evaluación de la validación se basa en varios ensayos. Se han sugerido también varios métodos más rigurosos.

Ejemplo de análisis discriminante de dos grupos

Veamos un ejemplo para ilustrar mejor el análisis discriminante de dos grupos, en el cual se considera un número reducido de observaciones. En la práctica real, el análisis discriminante se realiza en muestras mucho más grandes, como la utilizada en la Experiencia de investigación de Dell que se abordará más adelante. Suponga que buscamos determinar las características sobresalientes de las familias que han visitado un centro vacacional durante los últimos dos años. Se obtuvieron datos de un pretest aplicado a una muestra de 42 familias. De esas, 30 familias que se muestran en la primera tabla, se incluyeron en la muestra de análisis y las 12 restantes (que se presentan en la segunda tabla, fueron parte de la muestra de validación.
Las familias que visitaron un centro vacacional durante los pasados dos años se codificaron como 1 y las que no lo hicieron, como 2 (VISITA). Tanto la muestra de análisis como la de validación se equilibraron en términos de VISITA. Como puede observarse, la muestra de análisis contiene 15 familias en cada categoría; en tanto que la muestra de validación tiene seis en cada categoría. También se obtuvieron datos sobre el ingreso anual de la familia (INGRESO), la actitud hacia los viajes (VIAJE, medida en una escala de 9 puntos), la importancia asignada a las vacaciones familiares (VACACIONES, medida en una escala de 9 puntos), el tamaño de la familia (TAMAÑOF) y la edad del jefe de familia (EDAD).
Cálculo de los coeficientes de la función discriminante
Una vez que se haya identificado la muestra de análisis, como en la primera tabla, pueden calcularse los coeficientes de la función discriminante. Se dispone de dos métodos generales. El método directo implica calcular la función discriminante, de manera que todos los predictivos se incluyan al mismo tiempo. En este caso, se incluye cada variable independiente sin importar su poder discriminante.
Este método es adecuado cuando, a partir de las investigaciones previas o de un modelo teórico, el investigador quiere que la discriminación se base en todos los predictivos. Un método alternativo es el análisis discriminante paso a paso, donde las variables predictivas se introducen en secuencia, con base en su habilidad para discriminar entre grupos.
Este método, que se describe más adelante con más detalle, es apropiado cuando el investigador quiere elegir un subconjunto de los predictivos para su inclusión en la función discriminante.
En la tabla de salidas se presentan los resultados de correr en los datos de la primera tabla un análisis discriminante de dos grupos mediante el uso de un software popular. Plepso Investigaciones, C. A. utiliza SPSS.
El examen de las medias y desviaciones estándar del grupo brinda una idea intuitiva de los resultados. Parece que los dos grupos están más separados en términos del ingreso que de otras variables. La separación parece ser mayor en la importancia atribuida a las vacaciones familiares que en la actitud hacia los viajes.
La diferencia entre los dos grupos respecto a la edad del jefe de familia es pequeña y la desviación estándar de esta variable es grande.
La matriz de correlaciones agrupadas intragrupales indica correlaciones bajas entre los predictivos.
Es poco probable que la multicolinealidad sea un problema.
La significancia de las razones F univariadas indica que cuando se hace un análisis individual de los predictivos, sólo el ingreso, la importancia de las vacaciones y el tamaño de la familia distinguen de manera significativa a quienes visitaron centros vacacionales de quienes no lo hicieron.
Dado que hay dos grupos, sólo se calculó una función discriminante. El valor propio asociado  con esta función es 1,7862 y da cuenta de 100 por ciento de la varianza explicada. La correlación canónica asociada con esta función es 0,8007. El cuadrado de esta correlación es (0,8007)2 = 0,64 e indica que este modelo explica o da cuenta del 64 por ciento de la varianza en la variable dependiente (VISITA).

Determinar la significancia de la función discriminante

No tendría sentido interpretar el análisis, si las funciones discriminantes calculadas no fueran estadísticamente significativas. Es posible someter a prueba estadística la hipótesis nula de que, en la población, las medias de todas las funciones discriminantes en todos los grupos son iguales.
En el SPSS esta prueba se basa en la λ de Wilks. Si se prueban al mismo tiempo varias funciones (como en el caso del análisis discriminante múltiple), el estadístico λ de Wilks es el producto de la λ univariada para cada función. El cálculo del nivel de significancia se basa en la transformación del estadístico en una chi cuadrada c2. Al probar la significancia en el ejemplo del centro vacacional (véase la tabla de salidas), puede notarse que la λ de Wilks asociada con la función es 0,3589, la cual se transforma en una chi cuadrada de 26,13 con 5 grados de libertad. Esto es significativo más allá de un nivel de 0,05.
Si se rechaza la hipótesis nula, lo que indica una discriminación significativa, puede procederse a la interpretación de los resultados.

Interpretación de los resultados de análisis discriminante

La interpretación de los pesos, o coeficientes discriminantes es similar a la del análisis de regresión múltiple. El valor del coeficiente para un predictivo específico depende de los otros predictivos incluidos en la función discriminante. Los signos de los coeficientes son arbitrarios; pero indican qué valores de la variable resultan en valores grandes y pequeños de la función y los asocia con grupos particulares.
Dada la multicolinealidad de las variables predictivas, no hay medidas inequívocas de la importancia relativa de los predictivos para discriminar entre los grupos. Con esta advertencia en mente, el examen de la magnitud absoluta de los coeficientes estandarizados de la función discriminante brinda una idea de la importancia relativa de las variables. En general, los predictivos con coeficientes estandarizados relativamente grandes contribuyen más al poder discriminante de la función, en comparación con los predictivos con coeficientes menores, por lo que son más importantes.
También puede obtenerse una noción de la importancia relativa de los predictivos mediante el examen de la estructura de correlaciones, conocidas también como cargas canónicas o cargas discriminantes. Esas correlaciones simples entre cada predictivo y la función discriminante representan la varianza que el predictivo comparte con la función. Cuanto mayor sea la magnitud de una correlación estructural, mayor será la importancia del predictivo correspondiente. Como en el caso de los coeficientes estandarizados, estas correlaciones también deben interpretarse con cautela.
El examen de los coeficientes estandarizados de la función discriminante en el ejemplo del centro vacacional resulta instructivo. Dadas las bajas intercorrelaciones entre los predictivos, habría que tener cautela al usar las magnitudes de los coeficientes estandarizados, para sugerir que el ingreso es el predictivo más importante al discriminar entre los grupos, seguido por el tamaño de la familia y la importancia atribuida a las vacaciones familiares. Se obtiene la misma observación examinando la estructura de correlaciones. Esas correlaciones simples entre los predictivos y la función discriminante se listan en orden de magnitud.
También se proporcionan los coeficientes no estandarizados de la función discriminante. Éstos pueden aplicarse a los datos sin analizar de las variables en el conjunto de validación para propósitos de clasificación. Se muestran además los centroides del grupo, lo que indica el valor de la función discriminante evaluada en las medias del grupo.
El grupo 1, quienes han visitado un centro vacacional, tiene un valor positivo de (1,29118); mientras que el grupo 2 tiene un valor negativo igual. Los signos de los coeficientes asociados con todos los predictivos son positivos, lo cual sugiere que cuanto mayor sean el ingreso familiar, el tamaño de la familia, la importancia atribuida a las vacaciones familiares, la actitud hacia los viajes y la edad, mayor será la probabilidad de que la familia visite un centro vacacional.
Sería razonable desarrollar un perfil de los dos grupos en términos de los tres predictivos que parecen ser los más importantes: ingreso, tamaño de la familia y la importancia de las vacaciones. Al inicio de la tabla de resultados se presentan los valores de estas tres variables para los dos grupos.

(Obsequio Libro Diseño de Experimentos de Montgomery)

Si te gustó el artículo o tienes alguna crítica constructiva coméntalo  y recuerda suscribirte al blog. Ah, y comparte con un Tiweet, +1 o por Facebook tus comentarios. 
Hasta una próxima entrega.

Para diseños de investigación de mercados, levantamiento de estudios de opinión pública y de seguimiento electoral no dude en contactar a Plepso Investigación, C. A. por sus teléfonos 0243 237.54.06 y 0412 439.25.85, o al correo jpleal@yahoo.com

PALABRAS CLAVE: #QuédateEnCasa, #CoronaVirus, #Covid-19, Universidad Central de Venezuela - UJAP - Universidad de Carabobo - UBA- Universidad Simón Bolívar - Universidad de Oriente - Universidad Santa María - Universidad Bicentenaria


BIBLIOGRAFÍA Y FUEBTES DOCUMENTALES
Aaker, D. y Day, G. S. (1989) Investigación de Mercados. México. Tercera Edición. Segunda Edición en Castellano. Mc Graw-Hill
Abraira Santos, Víctor. Métodos Multivariantes en bioestadística.
Cuadras, Carles (2008). «Capítulo 6: Análisis factorial». Nuevos métodos de análisis multivariante. CMC Editions.
Kotler, Philup y Armstrong, Gary (1991) Fundamentos de Mercadotecnia. 2da Edición. México. Prentice-Hall Hispanoamericana
Lovelock, Christopher (1997) Mercadotecnia de Servicios. 3ra Edición. México. Prentice-Hall Hispanoamericana
Malhotra, N (1997) Investigación de mercado, un enfoque práctico. Naucalpan de Juárez México. Prentice Hall Segunda Edición
Spearman, Charles (1927). The Abilities of Man.
Zikmund, W (1998) Investigación de Mercados. 6ta edición. Naucalpán de Juárez - México Prentice-Hall Hispanoamericana, A. A.

Comentarios