ANÁLISIS DE LA VARIANZA CON UN FACTOR
Por: José Pérez Leal
Variaciones
Si un negocio pronostica que venderá 5.000 unidades
de su producto o servicio con un promedio de facturas de 20 Unidades Monetarias
(UM), el ingreso esperado sería de 100.000 UM. Si terminas colocando sólo 3.500
unidades de producto o servicio, pero el costo promedio de las cuentas es de 25
UM, el ingreso sería de 87.500 UM. La diferencia entre el ingreso esperado y el
ingreso real se llama la variación. En este caso, habría una desviación
negativa en los ingresos de -12.500 UM. Si se termina con unos ingresos más
altos de lo previsto, tendrías una variación positiva de ingresos.
Cuándo investigar
No todas las variaciones se someten a un
análisis de varianza. Si se analiza la variación o no dependerá de la
importancia o lo inusual que es considerada ésta por la administración. Por
ejemplo, si un hotel presupuesta 1.000 UM para gastos diversos de todo el
hotel, pero el gerente de hecho gasta 1.150 UM, la variación puede ser
considerada demasiado pequeña como para ser importante, a pesar de que el
porcentaje es alto. Por otro lado, incluso una varianza con un pequeño
porcentaje en algo crucial como la tasa de ocupación o los costos de mano de
obra puede que necesite ser analizada, debido a que el efecto global sobre los
beneficios es mucho más alto.
Análisis
El análisis de la varianza le permite a quienes
tienen la toma de decisiones en sus manos, determinar la causa de la variación.
Por ejemplo, si un hotel espera que los costos de mano de obra totalicen 50.000
UM pero termina pagando 55.000 UM, un análisis de varianza será realizado para
determinar lo que sucedió. Si las estimaciones del hotel se basaban en el
alquiler de 10.000 habitaciones y en pagar el personal de limpieza a 10 UM por
hora para limpiarlas, con un tiempo estimado de limpieza de media hora, las
diferencias en alguno de estos factores podrían haber causado la varianza. Si
el análisis determina que el hotel alquila tantas habitaciones como se había
previsto y pagó el mismo precio por hora según lo previsto, la diferencia sólo
puede deberse a que las habitaciones tardaron más de media hora en limpiarse.
Importancia del análisis de la varianza
El análisis de la varianza permite a los encargados
de la toma de decisiones, tomar las medidas estratégicas correctas
y necesarias para superar los problemas antes de que los
beneficios se vean afectados en una proporción importante. Si no realizas un análisis de la varianza cuando se produce una
variación significativa, no tendrás otra cosa sino conjeturas que le guíen. No
puede saber si debes abordar la varianza mediante el cobro de tasas más altas,
mediante la búsqueda de un proveedor más económico, mediante el control de los
costos laborales o mediante la mejora de las tasas de ocupación a menos que
hagas un análisis de la varianza para saber exactamente lo que pasó y por qué.
Tratamiento matemático y estadístico de análisis
Se usará el análisis de la
varianza (ANOVA) para contrastar la hipótesis nula de que las medias de
distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el contraste
a realizar sería:
H0: μ1 = μ2 = ... = μ5
vs. H1: no todas las medias poblacionales son iguales contra
H1: al menos una de las medias es diferente al resto. Para el ejemplo
anterior pudiera estrse hablando de zonas de venta, depatamentos, lineas
de roductos, etc.
Del mismo modo que el contraste Chi2 generalizaba el
contraste de dos proporciones, es necesario definir un nuevo contraste de
hipótesis que sea aplicable en aquellas situaciones en las que el número de
medias que se quieren comparar sea superior a dos. Es por ello por lo que el
análisis de la varianza, ANOVA, Del término inglés Analysis of variance, surge como una generalización del contraste
para dos medias de la t
de Student, cuando el número de muestras a contrastar es mayor que dos.
Por ejemplo, supóngase que se
tienen 3 muestras de diferentes tamaños que se suponen que provienen de tres
poblaciones normales con la misma varianza:
Si se quieres realizar el contraste
H0: m1 = m2 = m3
H1: μ1 ≠ m2 ó m1 ≠ m3 ó m2 ≠ m3
Podría en plantearse como primer método el fijar una
cantidad a próxima a cero y
realizar los
3C2 = 3 contrastes
siguientes con a como nivel de
significación:
De modo que se aceptaría H1 y se rechazaría H0 sólo
si alguna de las hipótesis alternativas H1’, H1’’
ó H1’’’ es aceptada y rechazada su correspondiente
hipótesis nula. El error de tipo I para este contraste es:
Por ello el nivel de significación obtenido para este contraste de hipótesis sobre la
igualdad de medias de tres muestras no es alfa, como se hubiera esperado
obtener inicialmente, sino
1 − (1− a)3. Por
ejemplo, si se toma un nivel de significación alfa = 0,01 para cada uno de los
contrastes de igualdad de dos medias, se obtendrá que el nivel de significación
(error de tipo I) para el contraste de las tres medias es de 1 − 0,93 = 0,27,
lo que es una cantidad muy alta para lo que acostumbra a usarse.
En consecuencia, no es adecuado realizar el contraste de igualdad de
medias de varias muestras mediante una multitud de contrastes de igualdad de
medias de dos muestras.
Una técnica que permite realizar el contraste de modo conveniente es la
que se expone a continuación y que se denomina Análisis de la Varianza.
Análisis de la Varianza con un Factor
De denomina modelo factorial con un factor o ANOVA con un factor al
modelo (lineal) en el que la variable analizada se hace depender de un sólo
factor de tal manera que las causas de su variabilidad son englobadas en una
componente aleatoria que se denomina error experimental:
X = factor ± error
Va a exponerse esto con más claridad. Considérese el caso de estudio de Plepso,
donde una variable sobre la
que actúa un factor que puede presentarse bajo un determinado número de
niveles, t. Por ejemplo podemos considerar un producto que esté
desarrollando, éste se administra a t = 4 zonas gográficas y se les
realiza cierta medición de las ventas por zona.
En este caso los factores que influyen en las observaciones son cuatro: el que la zona geográfica sea A, B, C o D. De modo general puede representarse las t muestras (o niveles) del siguiente modo:
Donde por supuesto, los tamaños de cada muestra ni, no tienen
por qué ser iguales. En este caso decimos que se trata del modelo no
equilibrado.
Observación
De ahora en adelante se asumirá que las siguientes condiciones son
verificadas por las t
muestras:
- Las observaciones proceden de poblaciones normales;
- Las t
muestras son aleatorias e independientes. Además, dentro de cada nivel las
observaciones son independientes entre sí.
- En el modelo de un factor se supone que las observaciones del
nivel i, xij, provienen de una variable Xij de forma que
todas tienen la misma varianza o hipótesis de homocedasticidad:
Lo que es lo mismo,
Xij = mi + eij, donde eij ~ N(0 ; s2).
De este modo Mhui es el valor
esperado para las observaciones del nivel i, y los errores eij son variables
aleatorias independientes, con valor esperado nulo, y con el mismo grado de
dispersión para todas las observaciones.
Otro modo de escribir lo mismo consiste en introducir una cantidad m que sea el valor esperado para un individuo cualquiera de la población, sin tener en cuenta los diferentes niveles, y considerar los efectos eij introducidos por los niveles, de modo que:
Especificación del modelo ANOVA
Con todo lo anterior, el modelo ANOVA de un factor puede escribirse como:
Con la siguiente interpretación:
- Mhu es una constante común a
todos los niveles;(Mhu es la letra griega que aparece al inicial la fórmula, el blog no permite caracteres griegos)
- ai es el efecto
producido por el i–ésimo nivel. Al sumarlos todos deben compensarse los efectos
negativos con los positivos para que la media común a todos los niveles sea
realmente m. Esto implica en
particular que los efectos, ai, de los niveles no
son independientes;
- eij es la parte de la
variable Xij no explicada por μ ni ai, y que se distribuye del
mismo modo, aunque independientemente, para cada observación, según la Ley Gaussiana:
eij ~ N(0 , s2)
Ésta es la condición de homocedasticidad, y es fundamental en el análisis
de la varianza.
Obsérvese que ahora puede escribirse el contraste de que los diferentes
niveles no tienen influencia sobre la observación de la variable como:
Observación
Se utiliza el nombre de análisis de la varianza ya que el elemento básico
del análisis estadístico será precisamente el estudio de la variabilidad.
Teóricamente es posible dividir la variabilidad de la variable que se estudia
en dos partes:
La originada por el factor en cuestión; (en el ejemplo es la zona geográfica)
La
producida por los restantes factores que entran en juego, conocidos o
no, controlables o no, que se conocen con el nombre de error
experimental, error debido a la aleatoriedad de las muetras residual.
Si mediante los contrastes estadísticos adecuados la variación producida
por cierto factor es significativamente mayor que la producida por el error
experimental se puede aceptar la hipótesis de que los distintos niveles del
factor actúan de forma distinta.
Se procede a calcular la variación en cada valor observado en general. A estos valores se les calcula el cuadrado y luego se procede a realizar la suma total de cuadrados. Este valor se denotará como Suma de Cuadrados Totales (SCT)
Se procede a calcular la variación en cada valor observado en general. A estos valores se les calcula el cuadrado y luego se procede a realizar la suma total de cuadrados. Este valor se denotará como Suma de Cuadrados Totales (SCT)
Por otra parte, por cada fila se calcula la media, (media por fila) obtienen entonces los desviaciones de dichas medias por fila con respecto a la media general y se realiza la suma resultando la siguiente tabla de análisis de la varianza o Tabla ANOVA
Volvamos sobre el ejemplo, estudiado por Plepso, de las cuatro regiones A, B,
C y D, cuya preferencia por un producto pueden presentar variaciones. Seleccionamos
aleatoriamente las ventas de esas regiones en diferentes instantes de tiempo.
Así, para la región A se observa aleatoriamente las ventas en 5 instantes de
tiempo, en la B se observa en 4 instantes, en la C en 6 y, por último la región
D se observa las ventas del producto en 5 instantes de tiempo. En la tabla
siguiente se muestra las ventas en miles de Unidades Monetarias (UM) en cada región. Siendo las
zonas los factores distintos y las observaciones las ventas en los niveles
observados:
Suponiendo que se verifican las hipótesis de normalidad,
aleatoriedad, independencia y homogeneidad de varianzas, se desea contrastar al
nivel de significación del 1% si las ventas media del producto en cada
una de las cuatro zonas o regiones se pueden considerar iguales.
Solución:
La hipótesis nula que se debe
contrastar es:
La tabla ANOVA, en
la que se indican las sumas de cuadrados, sus grados de libertad y las medias
cuadráticas inter-grupos e intra-grupos, es en este ejemplo:
Ahora desarrollemos el mismo ejemplo estudiado por Plepso, haicendo uso de la herramiento SPSS
Primero se crean las dos variables, una Compañias donde se codifica con los números 1, 2, 3 y 4 para las Zonas A, B, C y D respectivamente como se muetra a continuación:
Posteriormente se vacían los datos en la base de datos creada:
Se selecciona en el menú Analizar de SPSS la opción Comparar Medias y
allí se va a Anova de Un Factor, generándose el siguiente cuadro de
diálogo:
Se
selecciona la variable Compañía y se lleva a la celda de Factores y la
variable Ventas para la lista de dependientes, se selecciona Enter y se
genera la tabla ANOVA como se verá a continuación:
Como se puede observar los resultados son coicidentes y adicionalmente SPSS aporta la columna Sig que para este caso es 0,013, lo que quiere decir que la Hipótesis Nula será acetada sólo si el nivel de significación se establese en 1,3% o menor.
Si te gustó el artículo o tienes alguna crítica constructiva coméntalo y recuerda suscribirte al blog. Ah, y comparte con un Tiweet, +1 o por Facebook tus comentarios. Hasta una próxima entrega.
REFERENCIAS BIBLIOGRÁFICAS Y DOCUMENTALES
Aaker, D. y Day, G. S. (1989) Investigación de Mercados. México.
Tercera Edición. Segunda Edición en Castellano. Mc Graw-Hill
Boqué, Ricard y Maroto, Alicia (s/f) EL ANÁLISIS DE LA VARIANZA
(ANOVA); Comparación de múltiples poblaciones. Tarragona – España. Grupo de
Quimiometría y Cualimetría. Universitat Rovira i Virgili. Pl. Imperial Tàrraco,
1. 43005-Tarragona
Chao, Lincoln L. (1999) Estadística para las Ciencias Administrativas. Santa Fe de Bogotá – Colombia. Tercera Edición. McGraw-Hill Interamericana, S. A.
Chao, Lincoln L. (1999) Estadística para las Ciencias Administrativas. Santa Fe de Bogotá – Colombia. Tercera Edición. McGraw-Hill Interamericana, S. A.
Malhotra, N (1997) Investigación de mercado, un enfoque práctico.
Naucalpan de Juárez México. Prentice Hall Segunda Edición
Pérez-Tejada, H. (2009) Estadística para las Ciencias Sociales, del
Comportamiento y de la Salud. México. 3era Edición. CENGAGE Leaning
Salvador Figueras, M (2000): "Introducción al Análisis
Multivariante", [Artículo en línea] disponible en: http://www.5campus.com/leccion/anamul
[Consulta: 2015, julio 04]
Siegel, S. y Castellan, J. (1998) Estadísticas No Paramétrica;
Aplicadas a las ciencias de la conducta. México. Trillas 4ta edición
Uriel, E. y Adás, J. (2005) Análisis Multivariante Aplicado. Madrid –
España. Thomson Edotores Spain
Vicente Villardón, José Luis (s/f) INTRODUCCIÓN AL ANÁLISIS DE LA
VARIANZA. Departamento de Estadística. [documento en línea] disponible en: http://webcache.googleusercontent.com/search?q=cache:U-rnGopqRqQJ:biplot.usal.es/problemas/libro/7%2520ANOVA.pdf+&cd=3&hl=es&ct=clnk&gl=ve
[Consulta: 2015, julio 05]
Seijas Z., Félix L. (1993) Investigación por Muestreo. Caracas – Venezuela. Ediciones FACES/UCV
Seijas Z., Félix L. (1993) Investigación por Muestreo. Caracas – Venezuela. Ediciones FACES/UCV
Comentarios
Publicar un comentario
Aquí puede comentar este artículo o enviar su mensaje directo a asesoriatesis60@gmail.com