ANÁLISIS MULTIVARIANTE: ANÁLISIS PREVIO DE LOS DATOS
Es necesario indicar que la recolección
procesamiento y análisis de los datos estadísticos
tienen muchos momentos claves o
determinantes que deben realizarse con mucho celo y especial cuidado para
garantizar que la información que se produce sea de las más alta calidad
posible, y esta serie de procesos se inician con el mismo planteamiento del problema,
para garantizar la calidad del dato
Esta serie de procesos que se
inician con el planteamiento del problema,
para garantizar la calidad del dato incluyen:
-
Una
Operacionalización
de objetivos
para llevarlo a las variables de investigación que mejor se adecuen a los objetivos
y al problema planteado
y
-
Un
diseño impecable del cuestionario
que se va a emplear para salir al campo a recoger los datos
A esto se sumarán
una serie de factores de las operaciones de
campo que
pueden ir sumando error y sesgo a
los datos si no se está consciente del problema y se toman las previsiones al
respecto.
Y, si en el diseño de la investigación planteado en el Marco Metodológico se prevé la utilización de Análisis
Multivariante, es necesario dar una serie de pasos antes de aplicar
algunas de las técnicas multivariantes previstas.
Algunos de estos
pasos tienen que ver con las propias técnicas multivariantes y la
comprobación del cumplimiento de sus hipótesis estadísticas subyacentes, como por ejemplo la
normalidad, la linealidad y la homoscedasticidad, las cuales se explicarán
posteriormente.
Como se debe estar
consciente que en las operaciones de campo, por muy bien adiestrado y
experiencia que tenga el personal, se trata de seres humanos y pueden ocurrir
cosas como; que queden campos si llenar, aunque se recibe respuesta del
entrevistado esta no fue registrada, o la letra es ilegible y un número no se
entiende, o la coherencia del dato lo hace imposible de registrar o procesar,
como una edad de más de 200 años por ejemplo o menos de 12 años para un jefe de
familia, o el entrevistado se negó a suministrar el dato, entre otras
situaciones que pueden ocurrir y afectar los datos recogidos.
En consecuencia se
debe hacer una serie de comprobaciones previamente antes de la aplicación de
cualquier técnica de análisis estadístico de los datos y tienen que ver
con la fiabilidad de los datos de partida como la presencia de datos
perdidos en la base datos o de observaciones anómalos.
Existencia de valores perdidos
Es prácticamente
inevitable que en la base de datos que recibe el estadístico para realizar sus
análisis se encuentre con la presencia de celdas vacías, sin datos registrados,
es decir, valores perdidos (missings values) y esto es
así en todas las Ciencias Sociales. Distintas circunstancia hace que no se haya
registrado el dato o que aún cuando sea registrado algún dato éste no tiene
coherencia y no puede ser incluido en el análisis.
En este sentido la
existencia de valores perdidos (missings values) va depender del patrón o regularidad estadística
que puedan observase en dichos valores faltantes; cuántos son y por
qué no se encuentran presentes en la base de datos. En consecuencia, antes de
la cantidad de datos perdidos que se tiene es más importante el patrón que
estos siguen, calidad antes que cantidad. Si su distribución es aleatoria en la
matriz de datos no puede causar mayor daño al análisis final pero si
estos valores perdidos (missings values) siguen
un patrón identificable hay que tomar medidas para minimizar el impacto
de estos en el análisis final y de esto se continuará tratando en este
artículo.
Para ilustrar esta
situación se presenta el siguiente ejemplo sobre la actitud de los jóvenes, en
edades comprendidas entre 15 y 27 años, hacia el tabaco, se le formula una
serie de afirmaciones utilizando una escala de medición tipo Licker, para
expresar su nivel de acuerdo o desacuerdo con las afirmaciones.
La escala de
respuesta es 5 = Estoy Totalmente de Acuerdo
4
= Estoy de Acuerdo
3
= No estoy de Acuerdo ni en Desacuerdo
2
= Estoy en Desacuerdo
1
= Estoy Totalmente en Desacuerdo
Además de las
preguntas que tienen que ver con los aspectos del estudio se hacen las
preguntas habituales de clasificación demográfica de los participantes en la
encuesta, edad, sexo, nivel de estudios, estado civil, y preguntas sobre Nivel
Socioeconómico (NSE), también se pregunta sobre los
hábitos de fumador, tanto del entrevistado como de su núcleo familiar.
En el cuadro que se presenta a continuación se recoge
un conjuto de respuestas simuladas al cuestionario del ejemplo, donde los valores perdidos (missings
values) de la variable V4 se han asignado
aleatoriamente (V4a) mientras que por el contario, en V4b los valores perdidos (missings
values) de V4 siguen un patrón de
comportamiento: los Fumadores se niegan a contestar
en mayor medida que los No Fumadores. Tal vez porque los Fumadores piensen que su respuesta puede
influir en nuevas medidas restrictivas o en incremento al precio de los
cigarrillos.
Por otra parte, las variables V4a_d, V4b_d y V2_d
fueron generadas en el proceso de análisis de los valores perdidos y su
construcción será explicada más adelante, en el momento de ser utilizadas.
Cuestionario: Sección Preguntas de actitud acerca del tabaco
Variable
|
Afirmación
|
Escala de Respuestas
|
||||
1
|
2
|
3
|
4
|
5
|
||
V1
|
Fumar perjudica la salud
|
|||||
V2
|
No debe
permitirse fumar en lugares públicos
|
|||||
V3
|
A los poderes
públicos sólo le interesa recaudar impuestos con el tabaco
|
|||||
V4
|
Deben
aumentarse los impuestos sobre el tabaco
|
|||||
V5
|
Debe
informarse más sobre sobre los efectos del tabaco
|
|||||
C1
|
Edad (años
cumplidos)
|
|||||
C2
|
Género (1 = hombre;
2 = Mujer)
|
1 ( ) 2 (
)
|
||||
C3
|
Hábito (1 = fumador;
2 = No Fumador)
|
1 ( ) 2 (
)
|
Respuestas simuladas al cuestionario
Caso
|
V1
|
V2
|
V3
|
V4a
|
V4b
|
V5
|
C1
|
C2
|
C3
|
V4a_d
|
V4b_d
|
V2_d
|
1
|
5
|
5
|
4
|
5
|
5
|
21
|
2
|
2
|
0
|
1
|
1
|
|
2
|
5
|
5
|
4
|
4
|
4
|
5
|
21
|
2
|
2
|
1
|
1
|
1
|
3
|
5
|
5
|
4
|
3
|
2
|
5
|
21
|
1
|
2
|
1
|
1
|
1
|
4
|
5
|
4
|
3
|
3
|
4
|
20
|
2
|
2
|
0
|
1
|
1
|
|
5
|
5
|
5
|
2
|
5
|
5
|
5
|
24
|
2
|
2
|
1
|
1
|
1
|
6
|
5
|
5
|
5
|
5
|
5
|
5
|
26
|
2
|
1
|
1
|
1
|
1
|
7
|
5
|
5
|
1
|
4
|
22
|
2
|
1
|
1
|
0
|
0
|
||
8
|
5
|
4
|
3
|
3
|
3
|
5
|
23
|
1
|
2
|
1
|
1
|
1
|
9
|
4
|
4
|
4
|
1
|
1
|
5
|
22
|
2
|
2
|
1
|
1
|
1
|
10
|
5
|
2
|
3
|
3
|
21
|
2
|
1
|
0
|
0
|
1
|
||
11
|
5
|
5
|
3
|
3
|
3
|
5
|
23
|
1
|
2
|
1
|
1
|
1
|
12
|
5
|
4
|
2
|
4
|
4
|
5
|
21
|
1
|
2
|
1
|
1
|
1
|
13
|
5
|
3
|
4
|
2
|
2
|
4
|
23
|
2
|
2
|
1
|
1
|
1
|
14
|
5
|
4
|
5
|
1
|
1
|
3
|
22
|
2
|
1
|
1
|
1
|
1
|
15
|
5
|
5
|
5
|
3
|
3
|
4
|
24
|
2
|
2
|
1
|
1
|
1
|
16
|
5
|
3
|
2
|
5
|
27
|
1
|
1
|
1
|
0
|
0
|
||
17
|
5
|
5
|
1
|
3
|
21
|
1
|
1
|
1
|
0
|
0
|
||
18
|
5
|
4
|
4
|
3
|
20
|
1
|
1
|
0
|
0
|
1
|
||
19
|
5
|
4
|
2
|
4
|
4
|
4
|
21
|
2
|
2
|
1
|
1
|
1
|
20
|
1
|
5
|
3
|
4
|
4
|
5
|
23
|
2
|
2
|
1
|
1
|
1
|
21
|
5
|
4
|
3
|
4
|
4
|
5
|
20
|
2
|
2
|
1
|
1
|
1
|
22
|
5
|
5
|
3
|
4
|
4
|
5
|
20
|
2
|
2
|
1
|
1
|
1
|
23
|
5
|
4
|
5
|
4
|
4
|
5
|
20
|
2
|
1
|
1
|
1
|
1
|
24
|
5
|
3
|
1
|
5
|
5
|
5
|
22
|
1
|
1
|
1
|
1
|
1
|
25
|
5
|
3
|
5
|
1
|
1
|
3
|
24
|
1
|
1
|
1
|
1
|
1
|
26
|
4
|
5
|
1
|
5
|
23
|
2
|
2
|
1
|
0
|
0
|
||
27
|
2
|
3
|
5
|
1
|
3
|
20
|
2
|
2
|
1
|
0
|
1
|
|
28
|
4
|
4
|
5
|
2
|
5
|
22
|
2
|
2
|
0
|
1
|
1
|
|
29
|
5
|
4
|
4
|
5
|
5
|
22
|
1
|
1
|
0
|
1
|
1
|
|
30
|
5
|
5
|
5
|
5
|
5
|
5
|
23
|
2
|
2
|
1
|
1
|
1
|
En el supuesto de
que el investigador tenga como objetivo
la determinación del nivel de acuerdo con la medida de que se incremente la
tasa impositiva sobre el tabaco, se puede observar que en el primer caso, (Distribución
aleatoria de valores perdidos) la media de V4a no debería diferir
significativamente de la media muestral con los valores completos. Sin embargo,
si son los No Fumadores (quienes estaría en desacuerdo con una medida de
aumento al cobro de impuestos al tabaco) quienes principalmente no responderán
a esa afirmación, la media de V4b puede incrementarse
artificialmente (mayor valor, más Acuerdo)
Observando el
cuadro que se presenta a continuación puede apreciarse que es exactamente lo
que ocurre; al ser mayoritariamente, los No Fumadores quienes no respondieron,
el promedio de respuesta a la medida de aumentar los impuestos es superior en
V4b (donde los valores perdidos (missings values)) son mayoría
de los Fumadores) con respecto a V4a (donde la distribución de los valores perdidos
(missings
values) es aleatoria.
Estadísticos Descriptivos
|
|||||
N
|
Mínimo
|
Máximo
|
Media
|
Desviación Típica
|
|
V4a
|
24
|
1
|
5
|
2,92
|
1,530
|
V4b
|
23
|
1
|
5
|
3,43
|
1,376
|
N
Válido
(según
lista)
|
19
|
Existe la
peligrosa tendencia a asumir que los valores
perdidos (missings values)
se generaron de forma aleatoria pero por lo general esto no es así, y muchos menos es
estudios sociales, donde cada instancia involucrada en el estudio puede tener
cierta parcialidad general o el deseo de que los resultados adquieran cierta
tendencia. Esta situación se puede atacar adoptando ciertas medidas en el Análisis de los Datos para determinar la aleatoriedad
de los valores perdidos. Para ello vamos a describir dos procedimientos:
1.
En
primer lugar se verificará si los valores perdidos (missings values) tienen
valores medios, de otras variables relacionadas, significativamente distintos a
los valores sin los valores perdidos (missings values)
2.
En
segundo lugar se comprobará si existe relación entre la tendencia a no
contestar a dos variables que tengan valores perdidos (missings values).
Si logra
determinarse que los valores perdidos (missings values) son Independientes
tanto de los valores observados del resto de las variables del problema de investigación, como de los valores perdidos
(missings
values) de esas variables se puede decir que se está en
presencia de Valores Perdidos de Manera Completamente Aleatoria (Missing Completely at Random, MCAR)
Diagnóstico de la Aleatoriedad de los Valores Perdidos
1. Para establecer si los valores perdidos (missings
values) guardan o no un
patrón
sistemático de comportamiento el procedimiento se basa en la lógica de
la investigación. Si el patrón es
sistemático, los casos con valores perdidos deberán tener un comportamiento
distinto respecto a otras variables que en los casos sin valores perdidos.
Siguiendo con el ejemplo
planteado, como son los fumadores quienes no han querido contestar
principalmente a la pregunta sobre si debe aumentarse los impuestos (V4b), es
probable que los casos con valores
perdidos (principalmente de fumadores) estén más en desacuerdo con que por
ejemplo, no se
permita fumar en lugares públicos (V2) que los
casos sin valores perdidos. Es evidente que el investigador no puede tener esta hipótesis a priori, y deberá
comprobar qué variables se comportan de manera distinta en los dos grupos para deducir la existencia o no de un patrón de
comportamiento sistemático. De no existir variables cuyas medidas sean
distintas en los casos con y sin valores perdidos, habrá que asumir la
aleatoriedad de los mismos.
En el ejemplo planteado se generaron dos
variables, V4 con valores perdidos
generados aleatoriamente (Va) y
respondiendo a un patrón (V4b). Obsérvese si otras variables como (V2: No
debe permitirse fumar en lugares públicos), tiene el mismo comportamiento en el
grupo de casos con valores perdidos y los que no lo tienen. Para ello es
necesario crear una variable ficticia que tomará el valor 1, si el caso tiene
un valor perdido en V4, y 0 si no lo tiene. En el cuadro principal, donde se
presentan todas las variables, estos casos corresponden a Va_d para los valores
perdidos generados aleatoriamente y Vb_d para los que siguen un patrón.
Para realizar el
contraste de hipótesis
si la media de la variable V2 es igual o distinta en el grupo de casos con
valores pedidos respecto al que no los tiene, se efectuó un prueba t de Student para muestras independientes,
donde la variable dependiente es V2 y el factor serán las variables que especifican
si se está ante un grupo de valores perdidos o del grupo que no los tienen, (Va_d
y Vb_d respectivamente) Los resultados
del Contraste de Hipótesis se muestran a continuación, donde la Hipótesis Nula es que las medias son
iguales en los dos grupos. Valores de la t de Student significativos
implican el rechazo de la hipótesis nula
Prueba
t para Muestras
Independientes
|
||||||
Valores
Perdidos aleatorios
(Va_d)
|
Valores
Perdidos sistemáticos
(Vb_d)
|
|||||
1 (Con VP)
|
0 (Sin VP)
|
t
|
1 (Con VP)
|
0 (Sin VP)
|
t
|
|
3,96
|
3,83
|
0,23
|
4,30
|
2,71
|
-3,95
|
|
P < 0,01 se considera una diferencia no significativa
para H0
|
Como se deduce del
contraste de hipótesis presentado, la variable V2 (no debe permitirse fumar en
lugares públicos) no tiene una media significativamente distinta a los grupos
con y sin Valores Perdidos (missings values) para V4 cuando estos son
aleatorios. Si esta misma conclusión se obtuviera para la mayoría de las
variables, se podría concluir que los valores perdidos no siguen un patrón
sistemático dado.
Sin embargo, se
constata cómo, cuando los Valores Perdidos
(missings values) corresponden a un patrón dado (fumadores), la
media del grupo con Valores Perdidos
(missings values) es significativamente
inferior a la del grupo sin valores perdidos, esto es, están
más en desacuerdo con que se prohíba fumar en lugares públicos.
Si el investigador
obtuviera este resultado para las variables debería concluir que los Valores Perdidos (missings
values) responden a un
patrón sistemático.
El segundo
procedimiento para evaluar la aleatoriedad de los valores pedidos consiste en ver si existe una
coincidencia significativa entre los casos concretos en que las variables toman
Valores Perdidos (missings values). Este procedimiento puede
denominarse como la Prueba de las Correlaciones Dicotomizadas,
En el ejemplo que
se viene desarrollando se puede verificar si lo entrevistados que responden a
V4 son más o menos los mismos que no responden a otras variables, por ejemplo a
V2. Si por ser fumador no se quiere que ser favorable a que se suban los
impuestos, por si se hace, es posible que tampoco se quiera declarar De Acuerdo
con que se impida fumar en lugares públicos. De ser así se estaría en una
situación en que los Valores Perdidos
(missings values) de distintas variables
tienen una causa común y, por tanto, comparten un patrón.
El procedimiento
para detectar esta relación es sencillo, basta con convertir las variables que se quieren analizar en variables ficticias,
que tomarían el valor 1 si para ese caso la variable original no toma Valores Perdidos (missings
values) y o en caso contrario, es decir, lo mismo que se hizo en
el caso anterior con V4 y que ahora se hace también con V2. En el cuadro
original del ejemplo aparece esta nueva variable como V2_d. Seguidamente se
calcula la Matriz de Correlaciones entre las variables implicadas y se
analiza la significatividad de los Coeficientes de Correlación como se
presenta en el siguiente cuadro.
Matriz de Correlaciones
|
||||
Correlaciones
|
||||
V4a
Perdido = 0
Presentes = 1
|
V4b
Perdido = 0
Presentes = 1
|
V2
Perdido = 0
Presentes = 1
|
||
V4a
Perdido = 0
Presentes = 1
|
Correlación de Pearson
Sig. (bilateral)
N
|
1
--
30
|
0,118
0,534
30
|
-0,196
0,299
30
|
V4b
Perdido = 0
Presentes = 1
|
Correlación de Pearson
Sig. (bilateral)
N
|
0,118
0,534
30
|
1
--
30
|
0,711*
0,000
30
|
V2
Perdido = 0
Presentes = 1
|
Correlación de Pearson
Sig. (bilateral)
N
|
-0,196
0,299
30
|
0,711*
0,000
30
|
1
--
30
|
*
La correlación es significativa al nivel 0,01 (bilateral)
|
Por consiguiente,
en el ejemplo que se viene desarrollando es de esperar que cuando la generación
de Valores Perdidos (missings values) ha sido aleatoria (V44a)
su variable dicotomizada no guarde correlación significativa
con la que muestran los casos perdidos de V2, (V2_d), mientras que cuando
la generación de los valores perdidos responde a una causa común (ser fumador),
cabe esperar que la matriz de correlaciones haga aflorar esa relación
El hecho de que la
correlación sea significativa y fuerte entre los casos en que V4 y V2 toman Valores Perdidos (missings values),
debe hacer sospechar al investigador que puede existir un motivo subyacente
(caso V4, que como se recordará no fue una generación aleatoria, sino que
respondía a una negativa de responder los fumadores que se repetía en V2). Si,
por el contrario, la situación fuera la de una correlación no significativa
(V4a, que fueron Valores Perdidos (missings values) generados
aleatoriamente), el investigador puede suponer razonablemente que se encuentra
ante una deseable situación de VPCA (o MCAR en inglés)
Cuando los Valores Perdidos (missings
values) responden a un patrón el investiador se encuentra ante
un grave problema, pues:
a. No
hay medios estadísticos conocidos para reducir el número de Valores Perdidos (missings
values)y
b. Se
imposibilita la generalización de los resultados.
Sin embargo ante
una situación de Valores Perdidos Completamente Aleatorios (VPCA), si se
dispone de estrategias estadísticas para reducirlos.
En resumen, siempre que se maneja gran cantidad de datos la
presencia de valores perdidos puede
introducir un sesgo importante en los resultados finales, distorsiones que
impactan negativamente el análisis e
interpretación de los resultados y en consecuencia una toma de decisión
poco coherente con la realidad, por lo que se hace imperioso un análisis de esto valores perdidos para
determinar sus fuentes y hacer las correcciones y previsiones antes de realizar
el procesamiento definitivo que produzca la información del estudio que ocupa
al investigador
Comparta este material en sus redes y registese en nuestro blog
Palabras Claves: Análisis Multivariante, Valores Perdidos, Missing Values
FUENTES BIBLIOGRÁFICAS Y
DOCUMENTALES
Richard A.
Johnson y Dean
W. Wichern (2007).
Análisis estadístico multivariante aplicado. 6ta edición. Pearson,
Prentice Hall.
Ezequiel Uriel Jimenez y Joaquin
Aldas Manzano (2005) Análisis Multivariante Aplicado. Thomsom Paraninfo, S.A.
Mardia, K.V.,
Kent, J.T. and Bibby, J.M.
(2003) Análisis multivariante aplicado
(Libro de bolsillo). Londres:
Prensa académica.
Morrison, D.F.
(2005) Métodos estadísticos multivariados. 4th ed.
Belmont, CA: Brooks/Cole Thomsom Learning.
Srivastava, M.S.
(2002) Methods of Multivariate
Statistics. New York:
John Wiley.
Comentarios
Publicar un comentario
Aquí puede comentar este artículo o enviar su mensaje directo a asesoriatesis60@gmail.com