CÓMO SE REALIZA UN ANÁLISIS DE LA VARIANZA CON UN FACTOR

ANÁLISIS DE LA VARIANZA CON UN FACTOR

Por: José Pérez Leal

Variaciones

Si un negocio pronostica que venderá 5.000 unidades de su producto o servicio con un promedio de facturas de 20 Unidades Monetarias (UM), el ingreso esperado sería de 100.000 UM. Si terminas colocando sólo 3.500 unidades de producto o servicio, pero el costo promedio de las cuentas es de 25 UM, el ingreso sería de 87.500 UM. La diferencia entre el ingreso esperado y el ingreso real se llama la variación. En este caso, habría una desviación negativa en los ingresos de -12.500 UM. Si se termina con unos ingresos más altos de lo previsto, tendrías una variación positiva de ingresos.

Cuándo investigar

No todas las variaciones se someten a un análisis de varianza. Si se analiza la variación o no dependerá de la importancia o lo inusual que es considerada ésta por la administración. Por ejemplo, si un hotel presupuesta 1.000 UM para gastos diversos de todo el hotel, pero el gerente de hecho gasta 1.150 UM, la variación puede ser considerada demasiado pequeña como para ser importante, a pesar de que el porcentaje es alto. Por otro lado, incluso una varianza con un pequeño porcentaje en algo crucial como la tasa de ocupación o los costos de mano de obra puede que necesite ser analizada, debido a que el efecto global sobre los beneficios es mucho más alto.

Análisis

El análisis de la varianza le permite a quienes tienen la toma de decisiones en sus manos, determinar la causa de la variación. Por ejemplo, si un hotel espera que los costos de mano de obra totalicen 50.000 UM pero termina pagando 55.000 UM, un análisis de varianza será realizado para determinar lo que sucedió. Si las estimaciones del hotel se basaban en el alquiler de 10.000 habitaciones y en pagar el personal de limpieza a 10 UM por hora para limpiarlas, con un tiempo estimado de limpieza de media hora, las diferencias en alguno de estos factores podrían haber causado la varianza. Si el análisis determina que el hotel alquila tantas habitaciones como se había previsto y pagó el mismo precio por hora según lo previsto, la diferencia sólo puede deberse a que las habitaciones tardaron más de media hora en limpiarse.

Importancia del análisis de la varianza

El análisis de la varianza permite a los encargados de la toma de decisiones, tomar las medidas estratégicas correctas y necesarias para superar los problemas antes de que los beneficios se vean afectados en una proporción importante. Si no realizas un análisis de la varianza cuando se produce una variación significativa, no tendrás otra cosa sino conjeturas que le guíen. No puede saber si debes abordar la varianza mediante el cobro de tasas más altas, mediante la búsqueda de un proveedor más económico, mediante el control de los costos laborales o mediante la mejora de las tasas de ocupación a menos que hagas un análisis de la varianza para saber exactamente lo que pasó y por qué.

Tratamiento matemático y estadístico de análisis

Se usará el análisis de la varianza (ANOVA) para contrastar la hipótesis nula de que las medias de distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el contraste a realizar sería:

H₀: μ1 = μ2 = ... = μ5 vs. H₁: no todas las medias poblacionales son iguales contra H1: al menos una de las medias es diferente al resto. Para el ejemplo anterior pudiera estrse hablando de zonas de venta, depatamentos, lineas de roductos, etc.

Del mismo modo que el contraste Chi² generalizaba el contraste de dos proporciones, es necesario definir un nuevo contraste de hipótesis que sea aplicable en aquellas situaciones en las que el número de medias que se quieren comparar sea superior a dos. Es por ello por lo que el análisis de la varianza, ANOVA, Del término inglés Analysis of variance, surge como una generalización del contraste para dos medias de la t de Student, cuando el número de muestras a contrastar es mayor que dos.

Por ejemplo, supóngase que se tienen 3 muestras de diferentes tamaños que se suponen que provienen de tres poblaciones normales con la misma varianza:

Si se quieres realizar el contraste

H₀: m₁ = m₂ = m₃

H₁: μ₁ ≠ m₂ ó m₁ ≠ m₃ ó m₂ ≠ m₃

Podría en plantearse como primer método el fijar una cantidad a próxima a cero y realizar los

₃C₂ = 3 contrastes siguientes con a como nivel de significación:

De modo que se aceptaría H₁ y se rechazaría H₀ sólo si alguna de las hipótesis alternativas H₁^’, H₁^’’ ó H₁^’’’ es aceptada y rechazada su correspondiente hipótesis nula. El error de tipo I para este contraste es:

Por ello el nivel de significación obtenido para este contraste de hipótesis sobre la igualdad de medias de tres muestras no es alfa, como se hubiera esperado obtener inicialmente, sino

1 − (1− a)³. Por ejemplo, si se toma un nivel de significación alfa = 0,01 para cada uno de los contrastes de igualdad de dos medias, se obtendrá que el nivel de significación (error de tipo I) para el contraste de las tres medias es de 1 − 0,93 = 0,27, lo que es una cantidad muy alta para lo que acostumbra a usarse.

En consecuencia, no es adecuado realizar el contraste de igualdad de medias de varias muestras mediante una multitud de contrastes de igualdad de medias de dos muestras.

Una técnica que permite realizar el contraste de modo conveniente es la que se expone a continuación y que se denomina Análisis de la Varianza.

Análisis de la Varianza con un Factor

De denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la variable analizada se hace depender de un sólo factor de tal manera que las causas de su variabilidad son englobadas en una componente aleatoria que se denomina error experimental:

X = factor ± error

Va a exponerse esto con más claridad. Considérese el caso de estudio de Plepso, donde una variable sobre la que actúa un factor que puede presentarse bajo un determinado número de niveles, t. Por ejemplo podemos considerar un producto que esté desarrollando, éste se administra a t = 4 zonas gográficas y se les realiza cierta medición de las ventas por zona.

En este caso los factores que influyen en las observaciones son cuatro: el que la zona geográfica sea A, B, C o D. De modo general puede representarse las t muestras (o niveles) del siguiente modo:

Donde por supuesto, los tamaños de cada muestra n_i, no tienen por qué ser iguales. En este caso decimos que se trata del modelo no equilibrado.

Observación

De ahora en adelante se asumirá que las siguientes condiciones son verificadas por las t muestras:

- Las observaciones proceden de poblaciones normales;

- Las t muestras son aleatorias e independientes. Además, dentro de cada nivel las observaciones son independientes entre sí.

- En el modelo de un factor se supone que las observaciones del nivel i, x_ij, provienen de una variable X_ij de forma que todas tienen la misma varianza o hipótesis de homocedasticidad:

Lo que es lo mismo,

X_ij = m_i + eij, donde e_ij ~ N(0 ; s²).

De este modo Mhu_i es el valor esperado para las observaciones del nivel i, y los errores e_ij son variables aleatorias independientes, con valor esperado nulo, y con el mismo grado de dispersión para todas las observaciones.

Otro modo de escribir lo mismo consiste en introducir una cantidad m que sea el valor esperado para un individuo cualquiera de la población, sin tener en cuenta los diferentes niveles, y considerar los efectos e_ij introducidos por los niveles, de modo que:

Especificación del modelo ANOVA

Con todo lo anterior, el modelo ANOVA de un factor puede escribirse como:

Con la siguiente interpretación:

- Mhu es una constante común a todos los niveles;(Mhu es la letra griega que aparece al inicial la fórmula, el blog no permite caracteres griegos)

- a_i es el efecto producido por el i–ésimo nivel. Al sumarlos todos deben compensarse los efectos negativos con los positivos para que la media común a todos los niveles sea realmente m. Esto implica en particular que los efectos, a_i, de los niveles no son independientes;

- e_ij es la parte de la variable X_ij no explicada por μ ni a_i, y que se distribuye del mismo modo, aunque independientemente, para cada observación, según la Ley Gaussiana:

eij ~ N(0 , s²)

Ésta es la condición de homocedasticidad, y es fundamental en el análisis de la varianza.

Obsérvese que ahora puede escribirse el contraste de que los diferentes niveles no tienen influencia sobre la observación de la variable como:

Observación

Se utiliza el nombre de análisis de la varianza ya que el elemento básico del análisis estadístico será precisamente el estudio de la variabilidad. Teóricamente es posible dividir la variabilidad de la variable que se estudia en dos partes:

La originada por el factor en cuestión; (en el ejemplo es la zona geográfica)

La producida por los restantes factores que entran en juego, conocidos o no, controlables o no, que se conocen con el nombre de error experimental, error debido a la aleatoriedad de las muetras residual.

Si mediante los contrastes estadísticos adecuados la variación producida por cierto factor es significativamente mayor que la producida por el error experimental se puede aceptar la hipótesis de que los distintos niveles del factor actúan de forma distinta.

Se procede a calcular la variación en cada valor observado en general. A estos valores se les calcula el cuadrado y luego se procede a realizar la suma total de cuadrados. Este valor se denotará como Suma de Cuadrados Totales (SC_T)

Por otra parte, por cada fila se calcula la media, (media por fila) obtienen entonces los desviaciones de dichas medias por fila con respecto a la media general y se realiza la suma resultando la siguiente tabla de análisis de la varianza o Tabla ANOVA

Volvamos sobre el ejemplo, estudiado por Plepso, de las cuatro regiones A, B, C y D, cuya preferencia por un producto pueden presentar variaciones. Seleccionamos aleatoriamente las ventas de esas regiones en diferentes instantes de tiempo. Así, para la región A se observa aleatoriamente las ventas en 5 instantes de tiempo, en la B se observa en 4 instantes, en la C en 6 y, por último la región D se observa las ventas del producto en 5 instantes de tiempo. En la tabla siguiente se muestra las ventas en miles de Unidades Monetarias (UM) en cada región. Siendo las zonas los factores distintos y las observaciones las ventas en los niveles observados:

Suponiendo que se verifican las hipótesis de normalidad, aleatoriedad, independencia y homogeneidad de varianzas, se desea contrastar al nivel de significación del 1% si las ventas media del producto en cada una de las cuatro zonas o regiones se pueden considerar iguales.

Solución:

La hipótesis nula que se debe contrastar es:

La tabla ANOVA, en la que se indican las sumas de cuadrados, sus grados de libertad y las medias cuadráticas inter-grupos e intra-grupos, es en este ejemplo:

La hipótesis nula Ho se rechazará si F > F^t A partir de las tablas estadísticas de la distribución F de Snedecor, se determina que, por lo que se aceptaría la hipótesis nula, al ser 4,96 < 5,29. Por tanto se puede concluir que, para un nivel de significación del 1%, las ventas del producto coincide en las 4 compañías consideradas; esto es, que la evolución de los productos es independiente de la compañía en que se analice.

Ahora desarrollemos el mismo ejemplo estudiado por Plepso, haicendo uso de la herramiento SPSS
Primero se crean las dos variables, una Compañias donde se codifica con los números 1, 2, 3 y 4 para las Zonas A, B, C y D respectivamente como se muetra a continuación:

Posteriormente se vacían los datos en la base de datos creada:

Se selecciona en el menú Analizar de SPSS la opción Comparar Medias y allí se va a Anova de Un Factor, generándose el siguiente cuadro de diálogo:

Se selecciona la variable Compañía y se lleva a la celda de Factores y la variable Ventas para la lista de dependientes, se selecciona Enter y se genera la tabla ANOVA como se verá a continuación:

Como se puede observar los resultados son coicidentes y adicionalmente SPSS aporta la columna Sig que para este caso es 0,013, lo que quiere decir que la Hipótesis Nula será acetada sólo si el nivel de significación se establese en 1,3% o menor.

Si te gustó el artículo o tienes alguna crítica constructiva coméntalo y recuerda suscribirte al blog. Ah, y comparte con un Tiweet, +1 o por Facebook tus comentarios. Hasta una próxima entrega.

REFERENCIAS BIBLIOGRÁFICAS Y DOCUMENTALES

Aaker, D. y Day, G. S. (1989) Investigación de Mercados. México. Tercera Edición. Segunda Edición en Castellano. Mc Graw-Hill

Boqué, Ricard y Maroto, Alicia (s/f) EL ANÁLISIS DE LA VARIANZA (ANOVA); Comparación de múltiples poblaciones. Tarragona – España. Grupo de Quimiometría y Cualimetría. Universitat Rovira i Virgili. Pl. Imperial Tàrraco, 1. 43005-Tarragona
Chao, Lincoln L. (1999) Estadística para las Ciencias Administrativas. Santa Fe de Bogotá – Colombia. Tercera Edición. McGraw-Hill Interamericana, S. A.

Malhotra, N (1997) Investigación de mercado, un enfoque práctico. Naucalpan de Juárez México. Prentice Hall Segunda Edición

Pérez-Tejada, H. (2009) Estadística para las Ciencias Sociales, del Comportamiento y de la Salud. México. 3era Edición. CENGAGE Leaning

Salvador Figueras, M (2000): "Introducción al Análisis Multivariante", [Artículo en línea] disponible en: http://www.5campus.com/leccion/anamul [Consulta: 2015, julio 04]

Siegel, S. y Castellan, J. (1998) Estadísticas No Paramétrica; Aplicadas a las ciencias de la conducta. México. Trillas 4ta edición

Uriel, E. y Adás, J. (2005) Análisis Multivariante Aplicado. Madrid – España. Thomson Edotores Spain

Vicente Villardón, José Luis (s/f) INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA. Departamento de Estadística. [documento en línea] disponible en: http://webcache.googleusercontent.com/search?q=cache:U-rnGopqRqQJ:biplot.usal.es/problemas/libro/7%2520ANOVA.pdf+&cd=3&hl=es&ct=clnk&gl=ve [Consulta: 2015, julio 05]
Seijas Z., Félix L. (1993) Investigación por Muestreo. Caracas – Venezuela. Ediciones FACES/UCV

Buscar este blog

ASESORIA DE TESIS Y TRABAJOS DE GRADO