PROCESO DE CONSTRUCCIÓN DE UN TEST PSICOMÉTRICO
Redacción y Análisis de Ítems
En el artículo que se desarrolla a continuación se se tratará de describir el proceso
natural que se sigue en la construcción de un test, y que básicamente se resume
en las siguientes fases:
1. Definición del constructo.
2. Construcción del test provisional.
3. Aplicación a una muestra.
4. Análisis de ítems.
5. Estudio de la fiabilidad del test.
6. Estudio de la validez del test.
7. Baremación.
Las cuatro primeras fases se refieren a ciertas estrategias lógicas
(algunas con cierto fundamento estadístico) que conducen a seleccionar la forma
y contenidos más apropiados del test. Las fases 5 y 6 resultan fundamentales,
dado que se refieren a la comprobación empírica de las garantías psicométricas
que la prueba manifiesta como instrumento de medición. Básicamente, estas
garantías se refieren a su precisión (fiabilidad) y a la comprobación práctica
del contenido auténtico que se está evaluando (validez).
Por lo tanto la denominada Teoría
Clásica de los Tests, cuya descripción es parte fundamental de estos
procesos, permite abordar estos problemas con cierto rigor. Una vez que se
disponga de la versión definitiva del test, aplicada a una muestra representativa
de la población de personas a la que va dirigido, se procede a la fase de
baremación, que sirve para interpretar una puntuación concreta en relación con
las que obtiene la muestra seleccionada.
Siguiendo pues la secuencia lógica del proceso, posteriormente se intentará introducir al lector en los fundamentos
de la Teoría de la Respuesta al Ítem,
y será entonces cuando se comentarán las diferencias principales entre ambas
aproximaciones.
Esta secuencia contiene una breve descripción de los
principales contenidos teóricos, muy básicos, de Psicometría. Además se ilustran
con actividades prácticas donde se debe analizar un test de rendimiento óptimo
y elaborar un test de rendimiento típico, para lo cual el lector debe seguir
los pasos indicados previamente.
Definición del constructo
Mientras que la mayoría de los atributos físicos (altura, peso, etc.
...) resultan directamente medibles, los atributos (constructos o rasgos)
psicosociales resultan ser conceptualizaciones teóricas que no son accesibles a
la medición directa y para los que no existen "metros" o "balanzas"
diseñados para medirlos de manera precisa.
Así; la actitud hacia el aborto, el nivel de cohesión grupal, el grado
de extroversión, el cociente intelectual, la postura hacia el consumo de
drogas, el grado de liderazgo, la inseguridad, la satisfacción, el nivel de
acuerdo con ciertas opiniones, etc., todos ellos son constructos que deben
medirse mediante instrumentos específicamente diseñados: los tests,
cuestionarios o inventarios.
Nadie dudaría de que una cinta métrica bien diseñada mide longitud y que
lo hace de manera precisa, pero la bondad y la precisión de un cuestionario no
se puede presuponer; más bien son una cuestión de grado y siempre susceptibles
de mejora.
En definitiva, un cuestionario está formado por una serie de elementos o
ítems (elementos, reactivos, preguntas, cuestiones, situaciones análogas, etc)
a los que cada individuo debe responder. Después de cuantificar las respuestas
de una persona a los elementos del cuestionario, se pretende asignar una
puntuación (a veces varias) a esa persona
respecto al constructo o atributo que se pretende medir con el cuestionario,
una puntuación que debería indicar el grado en que la persona participa del
atributo, constructo o rasgo a evaluar.
Entonces lo que se enfrenta es un proceso de medición indirecta que
incluye la misma construcción del instrumento de medida, proceso que se inicia
con la definición clara del constructo a evaluar.
En consecuencia el primer paso consiste en proporcionar una definición
operacional del constructo o rasgo que se pretende medir. Por ejemplo, si se
habla de dogmatismo, deben establecerse los diversos componentes o
manifestaciones del mismo: dogmatismo ante la política, ante la educación de
los hijos, ante la religión, en las relaciones familiares,... Muy relacionada
con esta definición operativa es la cuestión del establecimiento de los
objetivos que se pretenden conseguir con el cuestionario.
También es necesario especificar el tipo de población al que va a
aplicarse la prueba y las decisiones que se pretenden tomar a partir de las
puntuaciones que ofrezca. Resulta muy diferente, y determinará su contenido,
que un test de inteligencia se vaya a aplicar a personas de la población
general o a personas con problemas intelectuales. Un cuestionario de depresión
puede utilizarse con fines científicos en una investigación o para decidir el
ingreso en un centro psiquiátrico de personas con problemas depresivos.
Qué es un constructo
Un constructo es un concepto. Sin embargo, tienen un sentido adicional, el de
haber sido inventado o adoptado de manera deliberada y consciente
para un propósito científico especial. “Inteligencia”, es un concepto, una abstracción
de la observación de conductas
consideradas como supuestamente inteligentes o no inteligentes. Pero, como
constructo científico, “inteligencia” puede
significar más y
menos de lo
que puede significar como
concepto. Esto quiere decir que los científicos lo usan de manera
consciente y sistemática en dos sentidos. Por un lado el constructo forma parte
de los esquemas teóricos y está relacionado de varias maneras con otros constructos.
Por ejemplo, puede decirse que el aprovechamiento escolar es en parte
una función de la inteligencia y la motivación.
Por otro lado, la “inteligencia”, es tan definida y específica que puede
ser observada y medida. Se pueden hacer observaciones de la inteligencia de los niños, administrándoles una prueba de inteligencia X o preguntar a las maestras acerca del grado de inteligencia relativo de sus
alumnos.
Un constructo es una construcción teórica que se desarrolla para
resolver un cierto problema científico. Para la epistemología, se trata de un
objeto conceptual o ideal que implica una clase de equivalencia con procesos
cerebrales. El constructo está más allá del proceso mental concreto que se
conoce como ideación y del proceso físico y social que implica la comunicación.
Por eso algunas ciencias, como la matemática, consideran a los constructos como
objetos autónomos, aún cuando no tengan existencia real.
Para la psicología, un constructo es una categoría descriptiva bipolar
que permite a cada individuo organizar las experiencias y los datos de la
realidad. El constructo puede entenderse como una entidad hipotética que
resulta difícil de definir en el marco de una teoría científica.
El constructo psicológico, por lo tanto, es una etiqueta verbal que
discrimina entre elementos de acuerdo a la característica que abstrae
(frío/caliente, bueno/malo, nuevo/viejo, etc.).
Construcción Provisional del Cuestionario(test)
De la definición operacional del constructo y de la delimitación de sus
componentes se debe llegar a establecer un conjunto de elementos o ítems
(frases, preguntas, situaciones análogas, tareas, etc.) que representen estos
componentes, o mejor, las conductas mediante las que se manifiestan los
diversos componentes del constructo.
Si, por ejemplo, se pretende evaluar la tolerancia hacia los grupos
marginales, un ítem podría ser el siguiente:
“Deberíamos facilitar la integración de los extranjeros en nuestro país”
Parece razonable suponer que una persona tolerante estaría de acuerdo
con esta afirmación, mientras que otra intolerante estaría en desacuerdo.
En relación con la construcción de los ítems existen dos temas
importantes a tener en cuenta: el formato de respuesta y las normas de
redacción de los ítems que se abordan a continuación
En consecuencia con la construcción de los ítems existen dos temas
importantes a tener en cuenta: el formato de respuesta y las normas de
redacción de los ítems.
Si requiere del procesamiento, análisis e interpretación estadística de
test psicométrico o cualquier otro tipo de cuestionarios de investigación
científica, nos ponemos a la orden a través de asesoriatesis60.gmail.com
Formato de respuesta
En primer lugar se debe considerar que en un tests de rendimiento óptimo (pruebas de
rendimiento y de inteligencia) se pretende medir el rendimiento máximo al que
llega cada persona o individuo ante una serie de preguntas o tareas.
Usualmente, el formato de respuesta de estos ítems se ajusta a uno de los tres
formatos siguientes:
1.- Elección binaria: De dos opciones
posibles de respuesta, se elige la que se considera correcta o adecuada a sus
conocimiento (Sí o No; verdadero-falso, Acuerdo-Desacuerdo, Encendido-Apagado,
etc.).
Por ejemplo, un ítem de un test de rendimiento en
Historia Moderna puede ser: "Simón Bolívar murió en Colombia" Verdadero
___ Falso ___
La elección binaria también es llamada dicotómica por
tener solo dos opciones de respuesta
2.- Elección
múltiple: Entre más de dos alternativas se elige la que se considera
correcta. Es sin duda el formato de respuesta más utilizado, entre otras por
razones de objetividad y otras de tipo operativo.
Por ejemplo, un ítem de un test de aptitud verbal puede ser:
"Automóvil es a volante como bicicleta es a ....”
a) Pedal
b) Sillín
c) Manubrio
d) Parrilla
3.- Emparejamiento
o pareo: Consiste en encontrar las parejas entre dos conjuntos de
conceptos. Por ejemplo, un ítem de un cuestionario sobre conocimientos de
geográfica de Venezuela:
"Enlace mediante una línea la ciudad capital de cada estado de
Venezuela que se le presenta"
Mediante las pruebas de
rendimiento típico se quiere reflejar el comportamiento ordinario de las personas,
no teniendo sentido el concepto de rendimiento máximo dado que el objeto de la
evaluación es algún tipo de opinión, actitud o rasgo de personalidad.
El formato de respuesta de los cuestionarios de rendimiento típico se
ajusta a alguno de los siguientes:
4.- Opción
binaria: La persona debe manifestar si está de acuerdo o en desacuerdo con
una afirmación. Por ejemplo, un ítem de un cuestionario sobre la actitud de los
padres hacia los profesores de sus hijos puede ser:
"En realidad, los profesores en el colegio hacen poco más que
cuidar a nuestros hijos cuando nosotros trabajamos"
Acuerdo ___ Desacuerdo ___
5.- Categorías
ordenadas: El formato establece un continuo ordinal de más de dos categorías,
que permite a la persona matizar mejor su respuesta. Normalmente, este continuo
está formado por 5 ó 7 categorías ordenadas, con una categoría central para
indicar la valencia neutra y a partir de la cual posicionarse en uno u otro
sentido. Por ejemplo, un ítem sobre la actitud de los adolescentes hacia el
consumo de drogas, podría ser el que sigue:
"Las drogas pueden realmente resolver problemas de uno mismo"
___ Muy en Desacuerdo
___ Bastante en Desacuerdo
___ Ni de Acuerdo/Ni en Desacuerdo
___ Bastante de Acuerdo
___ Muy de Acuerdo
A veces, se establecen nominalmente los dos extremos del continuo,
dejando señaladas las restantes categorías del mismo:
Muy en Desacuerdo ____ ____ ____
____ ____ Muy de Acuerdo
O se ordenan numéricamente las categorías sucesivas:
1 2 3 4 5
6 7
6.- Adjetivos
bipolares: Este formato es típico de lo que se denomina "diferencial semántico",
un instrumento formado por pares de adjetivos opuestos, cada uno de los cuales representa
un continuo bipolar con varias categorías, y que permite estudiar el
significado semántico que se atribuye a determinados constructos, personas o
instituciones.
Por ejemplo de Adjetivos bipolares:
Nótese que en el ejemplo se utiliza una escala del -2 al 2, pero el investigador
puede utilizar la escala que crea más conveniente y ordenar los atributos en
orden inverso, los positivos a la izquierda y los negativos a la derecha. En la
etapa de Definición
del Constructo que previamente realizó se formará la idea de la escala y la
forma más conveniente de utilizarla y si es conveniente o no presentarla en el
test que se aplicará.
Tanto en casos como de adjetivos bipolares como en los anteriormente
descritos las escalas cuantitativas puede estar presentes en el test o pueden
estar oculta y serás solamente conocidas por quienes realizan el procesamiento
de los datos.
Redacción de ítems
Algunas de las recomendaciones generales en la redacción de ítems en
pruebas de rendimiento óptimo son las siguientes:
- La idea principal del ítem debe estar en el
enunciado. Evitar inclir más de una idea en un ítem
- Simplicidad en el enunciado. El enunciado debe
ser tan sencillo que cualquier persona pueda comprenderlo, la redacción debe
estar al nivel de la población objeto de estudio
- Evitar los conocimientos excesivamente triviales
o excesivamente “rebuscados”. La sencillez es la consigna
-
Evitar dar información irrelevante en el
enunciado.
- Evitar dar indicios sobre la solución. No redactar
el enunciado de manera tendenciosa, asomando la respuesta que se desea obtener
por parte del investigador. La objetividad es la premisa
- Evitar cuestiones sobre opiniones. Se requieren hallazgos
objetivos no opiniones
- No encadenar unos ítems con otros. Cada enunciado
un ítem, cada ítem un objetivo claro independiente del resto de los ítems
- Anticipar la dificultad e incluir preguntas de
todo rango de dificultad (casi siempre conviene más preguntas de dificultad
media). No perder de vista la población objetivo a la cual se destina el test
- La dificultad no debe estar en la comprensión
del ítem.
- Minimizar el tiempo de lectura. Brevedad del
enunciado, las opciones de respuesta deben ser una palabra o frase muy corta
- Evitar el uso de negaciones (si se incluyen,
subrayarlas), errores gramaticales y ortográficos. Revisar varias veces la
redacción y someter a prueba con personas ajenas a la investigación
En cuanto al número de opciones, con dos distractores es suficiente;
pero si la prueba es corta, es necesario un mayor número de distractores para
evitar los efectos de los aciertos aleatorios. Todos los distractores deben ser
de longitud y lenguaje parecidos y también se deben evitar los solapamientos
entre ellos. Por supuesto, se deben evitar los llamados “ítems defectuosos” que
son aquellos ítems con más de una respuesta correcta; aunque parezca absurdo
son errores que se siguen cometiendo con excesiva frecuencia. Por otro lado, se
deben evitar las opciones del tipo “no lo sé”, “todas las anteriores son
correctas” o “ninguna de las anteriores es correcta”; así como balancear la
posición de la opción correcta en las diferentes preguntas para que no se sitúe
siempre en la misma opción.
En las pruebas de rendimiento óptimo es muy importante tener en cuenta
la dificultad existente en crear las alternativas incorrectas, dado que no
deben ser posibilidades absurdas de respuesta que se puedan eliminar con cierto
grado de sentido común. Bien al contrario, esas alternativas no ciertas deben
ser elegidas entre los errores o confusiones que usualmente tienen las personas
que no conocen la respuesta correcta de la pregunta en cuestión. Deben estar
escritas en lenguaje técnico y ser plausibles para quien no conoce la
respuesta, evitando en todo momento alternativas “graciosas” u otras que no
serían elegidas por nadie.
Otra buena recomendación en este sentido sería el uso de alternativas de
respuesta que son verdaderas para otras preguntas incluidas en el cuestionario.
Desde luego, el establecimiento de alternativas múltiples exige un claro
conocimiento tanto del contenido a evaluar como de las personas a las que va
dirigida la prueba. Una reciente revisión de las orientaciones a seguir a la
hora de escribir ítems de opción múltiple se encuentra en Haladyna, Downing y Rodríguez
(2002).
Otras recomendaciones a tener presente en las pruebas de rendimiento óptimo
Otras recomendaciones a tener presente en las pruebas de rendimiento
óptimo son:
- El número de preguntas debe ser proporcional a la importancia dada a
cada tema.
- Corregir los aciertos obtenidos por azar.
- Cuantos más ítems, mejor.
Respecto a la manera de formular las cuestiones en tests de rendimiento
típico (declaraciones o afirmaciones ante las cuales se debe opinar), se han
propuesto algunas sugerencias que pueden ayudar a su correcta redacción:
- Utilizar el tiempo presente.
- Deben ser “relevantes”, en el sentido de que su contenido debe
relacionarse claramente con el rasgo.
- Contenido claro, evitando excesiva generalidad. Frases cortas, simples
e inteligibles.
Evitar incluir dos contenidos en un ítem.
- Tener en cuenta que lo que se dice en la declaración pueda ser asumido
por alguien, y no por todos.
- En escalas de actitudes, no plantear la existencia o no de hechos,
sino el posicionamiento personal sobre la afirmación. Redactar ítems que
discriminen entre los de actitud positiva y los de actitud negativa.
- Para minimizar la aquiescencia (tendencia a responder afirmativamente,
independientemente del contenido por el que se pregunta) conviene redactar
ítems de modo directo e inverso (declaraciones tanto en sentido positivo como en
sentido negativo). A posteriori, se puede comprobar cómo una persona ha
respondido a los ítems directos e inversos. También puede comprobarse que la
correlación entre ambos tipos de ítems es alta.
- Evitar el uso dobles negaciones (no, ninguno, nunca,...) y de
universales (todo, siempre, nada,...).
- En lo posible, aunque no es fácil, se debe minimizar la posibilidad de
deseabilidad social (emitir respuestas socialmente aceptables para transmitir
una imagen positiva).
Puede deberse a varias cosas: desajuste psicológico, insinceridad
consciente, el grado de deseabilidad social que manifiestan los ítems puede
evaluarse mediante jueces, y comparar las respuestas de una persona con estas
valoraciones. En tests de personalidad puede incluirse una escala de
sinceridad.
El número de categorías que se suelen incluir en este tipo de ítems es
usualmente de cinco ya que, a partir de ese número de categorías no mejoran las
propiedades psicométricas de los ítems. Además, un número muy elevado de
categorías (siete u ocho) lleva a inconsistencias en las respuestas, que es una
fuente de error. Un número muy reducido (dos ó tres) lleva a poca
discriminación (menor variabilidad) y a reducir la fiabilidad, aunque siempre
puede compensarse con un mayor número de ítems. No obstante, en poblaciones
especiales (niños, discapacitados, mayores y otros) se aconseja el uso de un
menor número de categorías.
También se ha planteado en ítems de rendimiento típico (principalmente
en escalas de actitudes o tests de personalidad donde no se pide el grado de
frecuencia de un comportamiento) si es correcto o no la inclusión de una
categoría central en las opciones de respuesta (“indiferente”, “neutral”, “dudo”, “no sé”. Podrían generar
problemas ya que muchas veces son elegidas por aquellas personas que no se
comprometen con lo que se les está preguntando, que el enunciado les resulta ambiguo
o simplemente que ignoran el contenido del enunciado. En realidad, deberían ser
seleccionadas por las personas auténticamente indecisas.
La investigación en este sentido no dice que los indicadores psicométricos de los ítems no se alteran mucho con o
sin categoría central, cuando el número de categorías es mayor de tres. En todo
caso, se puede comprobar si las personas con nivel medio en el total del test
tienden a elegir más frecuentemente las categorías centrales.
Este tema se seguirá desarrollando y explicando en próximas entregas,
por favor haga sus comentarios, críticas constructivas para mejorar este sitio
de discusión y aprendizaje. Suscríbase al blog y comparta este contenido.
Para procesamiento, análisis e interpretación de test psicológicos y
estudios cuantitativos puede contactarnos en el sitio asesoriatesis60.gmail.com
Cuantificación de las respuestas
Una vez establecido el formato de respuesta que se considera más
apropiado para el caso, y de cara al estudio psicométrico de la prueba, es
preciso decidir la manera de cuantificar los posibles resultados a las
cuestiones. En general, para los ítems de cuestionarios de rendimiento óptimo
se cuantificará con 1 el acierto y con 0 el error, de tal manera que la puntuación
directa de un sujeto en un cuestionario determinado será igual al número de
ítems que ese sujeto acierta.
La cuantificación de las respuestas a ítems de pruebas de rendimiento
típico requiere ciertos matices. Dado un formato de respuesta determinado
(opción binaria, categorías ordenadas o adjetivos bipolares) es necesario
cuantificar las posibles respuestas a un ítem teniendo en cuenta que la
alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud y opinión.
Por ejemplo, para un ítem con formato de respuesta de opción binaria
(acuerdo/desacuerdo) puede cuantificarse el acuerdo como 1 y el desacuerdo como
2, o viceversa. Depende de que el ítem esté planteado para medir de manera
directa o inversa el constructo de interés. Estos pueden ser 2 ítems de un
cuestionario de actitud ante al aborto voluntario:
Ítem A: "Abortar es matar".
De acuerdo ( ) En desacuerdo ( )
Ítem B: “El bienestar de la madre también importa”.
De acuerdo ( ) En desacuerdo ( )
En el ítem A, el acuerdo se puntuaría con 1 y el desacuerdo con 2, ya
que estar en desacuerdo con esa afirmación indica una actitud más positiva
hacia el aborto voluntario. En el ítem B, sin embargo, el acuerdo se puntuaría
con 2 y el desacuerdo con 1, ya que estar de acuerdo con esa afirmación indica
una actitud más positiva hacia el aborto.
Si el formato de respuesta es de “n” categorías ordenadas, las diversas
categorías se cuantificarán normalmente desde 1 hasta n, teniendo en
consideración (como en el caso anterior) la dirección de la afirmación o
cuestión. Por ejemplo, para 5 categorías, las dos posibles cuantificaciones
serán:
También se puede asignar el 0 a la categoría central, valores negativos
a las categorías que se encuentran a la izquierda y positivos a las que se
encuentran ubicada a la derecha.
En estos casos, la puntuación directa de un sujeto en un test (o
subtest) resulta de sumar las cantidades asignadas por el constructor de la
prueba a las diferentes respuestas que el sujeto ha emitido; según esto,
convendría cuantificar las diversas alternativas con valores entre 1 y n para
evitar una puntuación directa negativa.
Análisis de ítems
Los ítems o cuestiones se han formulado de manera lógica para que midan
(y lo hagan bien) el constructo, variable, o rasgo que interesa evaluar con el
cuestionario. Ahora bien, el grado en que cada ítem es un "buen
medidor" del rasgo de interés es algo que se puede comprobar estadísticamente
de manera sencilla si se obtienen tres indicadores para cada ítem:
a) El índice de dificultad.
b) El índice de homogeneidad.
c) El índice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de
sujetos representativa de la población a la que va dirigida la prueba (se
aconseja entre 5 y 10 veces más sujetos que ítems), y una vez cuantificadas las
respuestas de cada individuo, se forma una matriz de datos de sujetos x ítems:
Un elemento aij de esta matriz indica el valor asignado a la respuesta
que da el sujeto i al ítem j. Sumando por filas pueden obtenerse las
puntuaciones directas (X) de los sujetos en el total del test.
Véase cómo se obtienen (y qué sentido tiene su obtención) los tres
índices citados anteriormente.
Índice de Dificultad
Este primer indicador sirve para cuantificar el grado de dificultad de
cada cuestión, por lo que sólo tiene sentido su cálculo para ítems de tests de
rendimiento óptimo.
El índice de dificultad de un ítem j se define como el cociente entre el
Nº de sujetos que lo han acertado (Aj) y el Nº total de sujetos que lo han intentado
resolver (Nj)
Atendiendo a la disposición de datos en la matriz expuesta más arriba,
el índice de dificultad de un ítem (columna) j será el cociente entre el nº de
unos y el total de unos y ceros que tiene la columna. Los sujetos que han
omitido el ítem (no han contestado) no se contabilizan en Nj.
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una
muestra de 10 personas a un test formado por 6 ítems dicotómicos (1 indica
acierto y 0 error):
Con estos resultados puede comprobarse varios aspectos de la
interpretación de Dj:
- El valor mínimo que puede asumir Dj es 0 (ningún sujeto
acierta el ítem) y el valor máximo 1 (todos los sujetos que lo intentan lo
aciertan).
- A medida que Dj se acerca a 0 indica que el ítem ha resultado
muy difícil; si se acerca a 1, que ha resultado muy fácil; y si se acerca a
0,5, que no ha resultado ni fácil ni difícil.
- Dj está relacionado con la varianza de los ítems: Si Dj es 0 ó 1, la
varianza es igual a cero; a medida que Dj se acerca a 0,5, la varianza del ítem
aumenta. De nada sirve un ítem con Dj = 0 o Dj = 1, ya que no discriminaría
entre los diferentes sujetos (todos aciertan o todos fallan).
Al diseñar un cuestionario de rendimiento óptimo, al inicio se sitúan
los ítems más fáciles (con mayor Dj); en la parte central, los de dificultad
media (entre 0,30 y 0,70); y al final, los más difíciles (con menor Dj). El
número de ítems de cada categoría de dificultad que deben incluirse en el test
depende de los objetivos que quiera conseguir la persona que diseña el cuestionario.
En general, la mayor parte de los ítems deben ser de dificultad media.
Índice de Homogeneidad
El índice de homogeneidad, llamado a veces índice de discriminación, de
un ítem (Hj) se define como la correlación de Pearson entre las puntuaciones de
los N sujetos en el ítem j y las puntuaciones X en el total del test:
Hj= rjx
Según la disposición de la matriz de datos, para obtener los Hj
de los ítems, debemos calcular la Correlación
Lineal entre las columnas j y la columna X de puntuaciones directas en la
prueba.
Ejemplo: Supongamos un test formado por 3 ítems con formato de respuesta
de categorías ordenadas, que se valoran entre 0 y 5. Después de aplicarse a un
grupo de 5 sujetos se obtienen los siguientes datos:
Puede comprobarse que los índices de homogeneidad de los 3 elementos
son:
H1= r1x= 0,75
H2= r2x= 0,94
H3= r3x= 0,86
El índice de homogeneidad de un ítem nos va a informar del grado en que
dicho ítem está midiendo lo mismo que la prueba globalmente; es decir, del
grado en que contribuye a la homogeneidad o consistencia interna del test. Los
ítems con bajos índices de homogeneidad miden algo diferente a lo que refleja
la prueba en su conjunto.
Si con el test se pretende evaluar un rasgo o constructo unitario,
deberían eliminarse los que tienen un Hj próximo a cero.
En ocasiones, un test está formado por diferentes subtests con
contenidos distintos. En este caso, los Hj deben obtenerse con
relación a las puntuaciones directas del subtest concreto.
Cuando un Hj es negativo y alto, debemos cuestionar el
sistema de cuantificación de las respuestas que se ha seguido en ese ítem. Si
un ítem obtiene una Correlación
Lineal negativa y alta con el total de la prueba, seguramente es debido a
que se ha cuantificado erróneamente el ítem (se ha tomado como directo siendo
inverso, o viceversa).
Cuando un test tiene un número pequeño de ítems, resulta más apropiado
obtener el índice de homogeneidad corregido (rj,x-j). Consiste en correlacionar
las puntuaciones en un ítem con las puntuaciones en el total del test después
de restar de este total las puntuaciones del ítem cuyo índice queremos obtener.
En el ejemplo precedente, el índice de homogeneidad corregido para el ítem 1
será 0.49, resultado de correlacionar la 1ª columna de la tabla (2, 3,
5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3).
Análogamente, los índices de homogeneidad corregidos para los ítems 2 y 3 son,
respectivamente, 0,89 y 0,54.
Como resulta lógico suponer, el Hj corregido de un ítem suele ser
inferior a su Hj sin corregir.
A estas alturas del contenido aquí presentado algunas personas pueden
entrar en pánico por la cantidad de cálculos, matrices, coeficientes y cifras,
sin embargo existen software de fácil acceso que realizan todos estos cálculos.
En particular el autor de este artículo acostumbra utilizar para el Procesamiento
de Datos Estadísticos el programa SPSS
Índice de Validez
Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse
también con las que estos sujetos obtienen en un criterio de validación externo
al test (Y); esta Correlación
Lineal define el índice de validez del ítem j:
Vj= rjy
El criterio de validación "Y" es una medida diferente del test
para reflejar el mismo rasgo u otro muy relacionado, de tal manera que si el
test mide lo que se pretende, debería correlacionar de forma elevada con el
criterio. Por ejemplo, un criterio para validar un test de inteligencia verbal
puede ser otro test que incluye cuestiones verbales; los supervisores de unos
trabajadores podrían valorar el grado de motivación de cada uno y utilizar
estas valoraciones como el criterio de validación de un test de motivación
laboral; el total de ventas en pesetas que realizan los vendedores puede ser un
buen criterio para validar un test de aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que
conocemos las puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y: 5 3 6 0 6
Los índices de validez de los tres ítems serán:
V1= r1Y = 0,87
V2= r2Y = 0,88
V3= r3Y = 0,54
Los elementos que tengan una correlación con el criterio próxima a cero
deberían eliminarse de la prueba, en la medida que no contribuyen a evaluar el
rasgo que se pretende medir. Si lo que se pretende es seleccionar los ítems que
más contribuyen a la validez del cuestionario, de entre los ítems de igual
varianza, serían preferibles los que tienen alto Vj y bajo Hj.
Este tema se seguirá desarrollando y explicando en próximas entregas,
por favor haga sus comentarios, críticas constructivas para mejorar este sitio
de discusión y aprendizaje. Suscríbase al blog y comparta este contenido.
Para procesamiento, análisis e interpretación de test psicológicos y
estudios cuantitativos puede contactarnos en el sitio asesoriatesis60.gmail.com
Hasta una próxima entrega.
REFERENCIAS
BIBLIOGRÁFICAS Y DOCUMENTALES
Amón J. (1984).
Estadística para psicólogos. Probabilidad. Estadística Inferencial. Volumen 2.
3ª edición. Madrid: Pirámide.
Hambleton R.K,
Swaminathan H. y H.J. Rogers (1991). Fundamentals of Item Response Theory. MMSS volumen 2. Londres: Sage.
Hambleton R.K. y Swaminathan H. (1985). Item
Response Theory: Principles and applications. Boston: Kluwer.
Kerlinger, F. (1988).
Investigación del Comportamiento. Segunda Edición. México. Editorial McGraw-Hill.
López Pina, José
Antonio (1995). Teoría de la respuesta al ítem: fundamentos. Barcelona: PPU.
Barcelona.
Muñiz Fernández J.
(1997). Introducción a la Teoría de Respuesta a los Items. Madrid: Pirámide.
Olea, J. y Ponsoda,
V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.
Olea, J., Ponsoda,
V. y Prieto, G. (1997). Tests informatizados. Madrid: Pirámide.
Ponsoda V., Olea J.
y Revuelta J. (1994). ADTEST:
A computer adaptive test based on the maximum information principle.
Educational and Psychological Measurement, 57, 2, 210-221.
Reckase M.D. (1979). Unifactor latent trait
models applied to multi-factor tests: Results and implications. Journal
of Educational Statistics, 4, 207-230.
Renom J. (1993).
Tests adaptativos computerizados. Fundamentos y aplicaciones. Barcelona: PPU.
Comentarios
Publicar un comentario
Aquí puede comentar este artículo o enviar su mensaje directo a asesoriatesis60@gmail.com