ANÁLISIS MULTIVARIANTE: CÓMO HACER UN ANÁLISIS PREVIO DE LOS DATOS


ANÁLISIS MULTIVARIANTE: ANÁLISIS PREVIO DE LOS DATOS


Es necesario indicar que la recolección procesamiento y análisis de los datos estadísticos tienen muchos momentos claves o determinantes que deben realizarse con mucho celo y especial cuidado para garantizar que la información que se produce sea de las más alta calidad posible, y esta serie de procesos se inician con el mismo planteamiento del problema, para garantizar la calidad del dato
 
Esta serie de procesos que se inician con el planteamiento del problema, para garantizar la calidad del dato incluyen:
-       Luego la fijación de los objetivos de investigación de forma adecuada
-       Una Operacionalización de objetivos para llevarlo a las variables de investigación que mejor se adecuen a los objetivos y al problema planteado y
-       Un diseño impecable del cuestionario que se va a emplear para salir al campo a recoger los datos
A esto se sumarán una serie de factores de las operaciones de campo que pueden ir sumando error y sesgo a los datos si no se está consciente del problema y se toman las previsiones al respecto.
Y, si en el diseño de la investigación planteado en el Marco Metodológico se prevé la utilización de Análisis Multivariante, es necesario dar una serie de pasos antes de aplicar algunas de las técnicas multivariantes previstas.
Algunos de estos pasos tienen que ver con las propias técnicas multivariantes y la comprobación del cumplimiento de sus hipótesis estadísticas subyacentes, como por ejemplo la normalidad, la linealidad y la homoscedasticidad, las cuales se explicarán posteriormente.
Como se debe estar consciente que en las operaciones de campo, por muy bien adiestrado y experiencia que tenga el personal, se trata de seres humanos y pueden ocurrir cosas como; que queden campos si llenar, aunque se recibe respuesta del entrevistado esta no fue registrada, o la letra es ilegible y un número no se entiende, o la coherencia del dato lo hace imposible de registrar o procesar, como una edad de más de 200 años por ejemplo o menos de 12 años para un jefe de familia, o el entrevistado se negó a suministrar el dato, entre otras situaciones que pueden ocurrir y afectar los datos recogidos.
En consecuencia se debe hacer una serie de comprobaciones previamente antes de la aplicación de cualquier técnica de análisis estadístico de los datos y tienen que ver con la fiabilidad de los datos de partida como la presencia de datos perdidos en la base datos o de observaciones anómalos.

Existencia de valores perdidos

Es prácticamente inevitable que en la base de datos que recibe el estadístico para realizar sus análisis se encuentre con la presencia de celdas vacías, sin datos registrados, es decir, valores perdidos (missings values) y esto es así en todas las Ciencias Sociales. Distintas circunstancia hace que no se haya registrado el dato o que aún cuando sea registrado algún dato éste no tiene coherencia y no puede ser incluido en el análisis.
En este sentido la existencia de valores perdidos (missings values) va depender del patrón o regularidad estadística que puedan observase en dichos valores faltantes; cuántos son y por qué no se encuentran presentes en la base de datos. En consecuencia, antes de la cantidad de datos perdidos que se tiene es más importante el patrón que estos siguen, calidad antes que cantidad. Si su distribución es aleatoria en la matriz de datos no puede causar mayor daño al análisis final pero si estos valores perdidos (missings values) siguen un patrón identificable hay que tomar medidas para minimizar el impacto de estos en el análisis final y de esto se continuará tratando en este artículo.
Para ilustrar esta situación se presenta el siguiente ejemplo sobre la actitud de los jóvenes, en edades comprendidas entre 15 y 27 años, hacia el tabaco, se le formula una serie de afirmaciones utilizando una escala de medición tipo Licker, para expresar su nivel de acuerdo o desacuerdo con las afirmaciones.
La escala de respuesta es          5 =  Estoy Totalmente de Acuerdo
                                                 4 = Estoy de Acuerdo
                                                 3 = No estoy de Acuerdo ni en Desacuerdo
                                                 2 = Estoy en Desacuerdo
                                                 1 = Estoy Totalmente en Desacuerdo
Además de las preguntas que tienen que ver con los aspectos del estudio se hacen las preguntas habituales de clasificación demográfica de los participantes en la encuesta, edad, sexo, nivel de estudios, estado civil, y preguntas sobre Nivel Socioeconómico (NSE), también se pregunta sobre los hábitos de fumador, tanto del entrevistado como de su núcleo familiar.

En el cuadro que se presenta a continuación se recoge un conjuto de respuestas simuladas al cuestionario del ejemplo, donde los valores perdidos (missings values) de la variable V4 se han asignado aleatoriamente (V4a) mientras que por el contario, en V4b los valores perdidos (missings values) de V4 siguen un patrón de comportamiento: los Fumadores se niegan a contestar  en mayor medida que los No Fumadores. Tal vez porque los Fumadores piensen que su respuesta puede influir en nuevas medidas restrictivas o en incremento al precio de los cigarrillos.

Por otra parte, las variables V4a_d, V4b_d y V2_d fueron generadas en el proceso de análisis de los valores perdidos y su construcción será explicada más adelante, en el momento de ser utilizadas.
Cuestionario: Sección Preguntas de actitud acerca del tabaco
Variable
Afirmación
Escala de Respuestas
1
2
3
4
5
V1
Fumar perjudica la salud





V2
No debe permitirse fumar en lugares públicos





V3
A los poderes públicos sólo le interesa recaudar impuestos con el tabaco





V4
Deben aumentarse los impuestos sobre el tabaco





V5
Debe informarse más sobre sobre los efectos del tabaco





C1
Edad (años cumplidos)

C2
Género (1 = hombre; 2 = Mujer)
1 (   )     2 (   )
C3
Hábito (1 = fumador; 2 = No Fumador)
1 (   )     2 (   )

Respuestas simuladas al cuestionario
Caso
V1
V2
V3
V4a
V4b
V5
C1
C2
C3
V4a_d
V4b_d
V2_d
1
5
5
4

5
5
21
2
2
0
1
1
2
5
5
4
4
4
5
21
2
2
1
1
1
3
5
5
4
3
2
5
21
1
2
1
1
1
4
5
4
3

3
4
20
2
2
0
1
1
5
5
5
2
5
5
5
24
2
2
1
1
1
6
5
5
5
5
5
5
26
2
1
1
1
1
7
5

5
1

4
22
2
1
1
0
0
8
5
4
3
3
3
5
23
1
2
1
1
1
9
4
4
4
1
1
5
22
2
2
1
1
1
10
5
2
3


3
21
2
1
0
0
1
11
5
5
3
3
3
5
23
1
2
1
1
1
12
5
4
2
4
4
5
21
1
2
1
1
1
13
5
3
4
2
2
4
23
2
2
1
1
1
14
5
4
5
1
1
3
22
2
1
1
1
1
15
5
5
5
3
3
4
24
2
2
1
1
1
16
5

3
2

5
27
1
1
1
0
0
17
5

5
1

3
21
1
1
1
0
0
18
5
4
4


3
20
1
1
0
0
1
19
5
4
2
4
4
4
21
2
2
1
1
1
20
1
5
3
4
4
5
23
2
2
1
1
1
21
5
4
3
4
4
5
20
2
2
1
1
1
22
5
5
3
4
4
5
20
2
2
1
1
1
23
5
4
5
4
4
5
20
2
1
1
1
1
24
5
3
1
5
5
5
22
1
1
1
1
1
25
5
3
5
1
1
3
24
1
1
1
1
1
26
4

5
1

5
23
2
2
1
0
0
27
2
3
5
1

3
20
2
2
1
0
1
28
4
4
5

2
5
22
2
2
0
1
1
29
5
4
4

5
5
22
1
1
0
1
1
30
5
5
5
5
5
5
23
2
2
1
1
1

En el supuesto de que el investigador tenga como objetivo la determinación del nivel de acuerdo con la medida de que se incremente la tasa impositiva sobre el tabaco, se puede observar que en el primer caso, (Distribución aleatoria de valores perdidos) la media de V4a no debería diferir significativamente de la media muestral con los valores completos. Sin embargo, si son los No Fumadores (quienes estaría en desacuerdo con una medida de aumento al cobro de impuestos al tabaco) quienes principalmente no responderán a esa afirmación, la media de V4b puede incrementarse artificialmente (mayor valor, más Acuerdo)

Observando el cuadro que se presenta a continuación puede apreciarse que es exactamente lo que ocurre; al ser mayoritariamente, los No Fumadores quienes no respondieron, el promedio de respuesta a la medida de aumentar los impuestos es superior en V4b (donde los valores perdidos (missings values)) son mayoría de los Fumadores) con respecto a V4a (donde la distribución de los valores perdidos (missings values) es aleatoria.
Estadísticos Descriptivos

N
Mínimo
Máximo
Media
Desviación Típica
V4a
24
1
5
2,92
1,530
V4b
23
1
5
3,43
1,376
N Válido
(según lista)
19





Existe la peligrosa tendencia a asumir que los valores perdidos (missings values) se generaron de forma aleatoria pero por lo general esto no es así, y muchos menos es estudios sociales, donde cada instancia involucrada en el estudio puede tener cierta parcialidad general o el deseo de que los resultados adquieran cierta tendencia. Esta situación se puede atacar adoptando ciertas medidas en el Análisis de los Datos para determinar la aleatoriedad de los valores perdidos. Para ello vamos a describir dos procedimientos:
1.    En primer lugar se verificará si los valores perdidos (missings values) tienen valores medios, de otras variables relacionadas, significativamente distintos a los valores sin los valores perdidos (missings values)
2.    En segundo lugar se comprobará si existe relación entre la tendencia a no contestar a dos variables que tengan valores perdidos (missings values).
Si logra determinarse que los valores perdidos (missings values) son Independientes tanto de los valores observados del resto de las variables del problema de investigación, como de los valores perdidos (missings values) de esas variables se puede decir que se está en presencia de Valores Perdidos de Manera Completamente Aleatoria (Missing Completely at Random, MCAR)


Diagnóstico de la Aleatoriedad de los Valores Perdidos

1.    Para establecer si los valores perdidos (missings values) guardan o no un patrón sistemático de comportamiento el procedimiento se basa en la lógica de la investigación. Si el patrón es sistemático, los casos con valores perdidos deberán tener un comportamiento distinto respecto a otras variables que en los casos sin valores perdidos.
Siguiendo con el ejemplo planteado, como son los fumadores quienes no han querido contestar principalmente a la pregunta sobre si debe aumentarse los impuestos (V4b), es probable que los casos con valores perdidos (principalmente de fumadores) estén más en desacuerdo con que por ejemplo, no se permita fumar en lugares públicos (V2) que los casos sin valores perdidos. Es evidente que el investigador no puede tener esta hipótesis a priori, y deberá comprobar qué variables se comportan de manera distinta en los dos grupos para deducir la existencia o no de un patrón de comportamiento sistemático. De no existir variables cuyas medidas sean distintas en los casos con y sin valores perdidos, habrá que asumir la aleatoriedad de los mismos.

En el ejemplo planteado se generaron dos variables, V4 con valores perdidos generados aleatoriamente (Va) y respondiendo a un patrón (V4b). Obsérvese si otras variables como (V2: No debe permitirse fumar en lugares públicos), tiene el mismo comportamiento en el grupo de casos con valores perdidos y los que no lo tienen. Para ello es necesario crear una variable ficticia que tomará el valor 1, si el caso tiene un valor perdido en V4, y 0 si no lo tiene. En el cuadro principal, donde se presentan todas las variables, estos casos corresponden a Va_d para los valores perdidos generados aleatoriamente y Vb_d para los que siguen un patrón.

Para realizar el contraste de hipótesis si la media de la variable V2 es igual o distinta en el grupo de casos con valores pedidos respecto al que no los tiene, se efectuó un prueba t de Student para muestras independientes, donde la variable dependiente es V2 y el factor serán las variables que especifican si se está ante un grupo de valores perdidos o del grupo que no los tienen, (Va_d y Vb_d respectivamente) Los resultados del Contraste de Hipótesis se muestran a continuación, donde la Hipótesis Nula es que las medias son iguales en los dos grupos. Valores de la t de Student significativos implican el rechazo de la hipótesis nula


Prueba t para Muestras Independientes

Valores Perdidos  aleatorios
(Va_d)
Valores Perdidos sistemáticos
(Vb_d)

1 (Con VP)
0 (Sin VP)
t
1 (Con VP)
0 (Sin VP)
t

3,96
3,83
0,23
4,30
2,71
-3,95
P < 0,01 se considera una diferencia no significativa para H0

Como se deduce del contraste de hipótesis presentado, la variable V2 (no debe permitirse fumar en lugares públicos) no tiene una media significativamente distinta a los grupos con y sin Valores Perdidos (missings values) para V4 cuando estos son aleatorios. Si esta misma conclusión se obtuviera para la mayoría de las variables, se podría concluir que los valores perdidos no siguen un patrón sistemático dado.
Sin embargo, se constata cómo, cuando los Valores Perdidos (missings values)  corresponden a un patrón dado (fumadores), la media del grupo con Valores Perdidos (missings values) es significativamente inferior a la del grupo sin valores perdidos, esto es, están más en desacuerdo con que se prohíba fumar en lugares públicos.
Si el investigador obtuviera este resultado para las variables debería concluir que los Valores Perdidos (missings values)  responden a un patrón sistemático.

El segundo procedimiento para evaluar la aleatoriedad de los valores pedidos consiste en ver si existe una coincidencia significativa entre los casos concretos en que las variables toman Valores Perdidos (missings values). Este procedimiento puede denominarse como la Prueba de las Correlaciones Dicotomizadas,
En el ejemplo que se viene desarrollando se puede verificar si lo entrevistados que responden a V4 son más o menos los mismos que no responden a otras variables, por ejemplo a V2. Si por ser fumador no se quiere que ser favorable a que se suban los impuestos, por si se hace, es posible que tampoco se quiera declarar De Acuerdo con que se impida fumar en lugares públicos. De ser así se estaría en una situación en que los Valores Perdidos (missings values) de distintas variables tienen una causa común y, por tanto, comparten un patrón.
El procedimiento para detectar esta relación es sencillo, basta con convertir las variables que se quieren analizar en variables ficticias, que tomarían el valor 1 si para ese caso la variable original no toma Valores Perdidos (missings values) y o en caso contrario, es decir, lo mismo que se hizo en el caso anterior con V4 y que ahora se hace también con V2. En el cuadro original del ejemplo aparece esta nueva variable como V2_d. Seguidamente se calcula la Matriz de Correlaciones entre las variables implicadas y se analiza la significatividad de los Coeficientes de Correlación como se presenta en el siguiente cuadro.
Matriz de Correlaciones
Correlaciones


V4a
Perdido = 0
Presentes = 1
V4b
Perdido = 0
Presentes = 1
V2
Perdido = 0
Presentes = 1
V4a
Perdido = 0
Presentes = 1
Correlación de Pearson
Sig. (bilateral)
N
1
--
30
0,118
0,534
30
-0,196
0,299
30
V4b
Perdido = 0
Presentes = 1
Correlación de Pearson
Sig. (bilateral)
N
0,118
0,534
30
1
--
30
0,711*
0,000
30
V2
Perdido = 0
Presentes = 1
Correlación de Pearson
Sig. (bilateral)
N
-0,196
0,299
30
0,711*
0,000
30
1
--
30
* La correlación es significativa al nivel 0,01 (bilateral)

Por consiguiente, en el ejemplo que se viene desarrollando es de esperar que cuando la generación de Valores Perdidos (missings values) ha sido aleatoria (V44a) su variable dicotomizada no guarde correlación significativa con la que muestran los casos perdidos de V2, (V2_d), mientras que cuando la generación de los valores perdidos responde a una causa común (ser fumador), cabe esperar que la matriz de correlaciones haga aflorar esa relación

El hecho de que la correlación sea significativa y fuerte entre los casos en que V4 y V2 toman Valores Perdidos (missings values), debe hacer sospechar al investigador que puede existir un motivo subyacente (caso V4, que como se recordará no fue una generación aleatoria, sino que respondía a una negativa de responder los fumadores que se repetía en V2). Si, por el contrario, la situación fuera la de una correlación no significativa (V4a, que fueron Valores Perdidos (missings values) generados aleatoriamente), el investigador puede suponer razonablemente que se encuentra ante una deseable situación de VPCA (o MCAR en inglés)

Cuando los Valores Perdidos (missings values) responden a un patrón el investiador se encuentra ante un grave problema, pues:
a. No hay medios estadísticos conocidos para reducir el número de Valores Perdidos (missings values)y
b. Se imposibilita la generalización de los resultados.
Sin embargo ante una situación de Valores Perdidos Completamente Aleatorios (VPCA), si se dispone de estrategias estadísticas para reducirlos.



En resumen, siempre que se maneja gran cantidad de datos la presencia de valores perdidos puede introducir un sesgo importante en los resultados finales, distorsiones que impactan negativamente el análisis e interpretación de los resultados y en consecuencia una toma de decisión poco coherente con la realidad, por lo que se hace imperioso un análisis de esto valores perdidos para determinar sus fuentes y hacer las correcciones y previsiones antes de realizar el procesamiento definitivo que produzca la información del estudio que ocupa al investigador

Comparta este material en sus redes y registese en nuestro blog


Palabras Claves: Análisis Multivariante, Valores Perdidos, Missing Values


FUENTES BIBLIOGRÁFICAS Y DOCUMENTALES
Richard   A.   Johnson   y   Dean   W.   Wichern   (2007).  Análisis estadístico multivariante aplicado. 6ta edición. Pearson, Prentice Hall.
Ezequiel Uriel Jimenez y Joaquin Aldas Manzano (2005) Análisis Multivariante Aplicado. Thomsom Paraninfo, S.A.
Mardia,   K.V.,   Kent,   J.T.   and   Bibby,   J.M.   (2003) Análisis multivariante aplicado
(Libro de bolsillo). Londres: Prensa académica.
Morrison,  D.F.  (2005) Métodos estadísticos multivariados.  4th   ed.  Belmont,  CA:  Brooks/Cole Thomsom Learning.
Srivastava,  M.S.  (2002) Methods  of  Multivariate  Statistics.  New  York:  John Wiley.


Comentarios