Subido por Arisleidy Salgueiro

diseño y validación cuestionarios

Anuncio
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
AUTORES:
LUIS MANUEL LOZANO
EMILIA INMACULADA DE LA FUENTE SOLANA
1. INTRODUCCIÓN
Este texto tiene la intención de mostrar los diferentes pasos para elaborar un test. La
intención del autor es mostrar los pasos que hay que seguir sin realizar excesivas
disquisiciones teóricas. Por ello, este documento trata de ser eminentemente práctico.
Para el lector interesado en las diferentes teorías para la elaboración de cuestionarios se
le recomienda la lectura de Drowning y Haladyna (2006).
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
D I S E Ñ O Y VA L I D A C I Ó N
DE CUESTIONARIOS1
2. TIPOS DE TEST
Atendiendo a la finalidad con la que elabora el cuestionario pueden diferenciarse dos
grandes grupos de test (Crocker y Algina, 1986; Cronbach, 1985; Muñiz, Fidalgo,
García-Cueto, Martínez y Moreno, 2005; Nunally y Bernstein, 1995). Por un lado están
los cuestionarios que pretenden evaluar el rendimiento máximo de las personas (ya sea
en memoria, atención...) y por otro el rendimiento típico (donde tendrían cabida los
cuestionarios de personalidad, actitudes...). Otra clasificación admisible diferencia entre
Test Referidos al Criterio o Test Referidos a la Norma. Sobre estos últimos versará este
capítulo.
1. Adaptación del capítulo, con el mismo nombre, publicado en el liibro: Pantoja, A. (Coord.) (2009). Manual básico para
la realización de tesinas, tesis y trabajos de investigación (pp. 219-248). Madrid: Editorial EOS.
[Esta adaptación ha sido realizada respetando la elaboración de los autores del texto original. Todos los derechos
cedidos a FUNIBER].
1
Y VA LID AC IÓ N D E CU EST IO NA RIO S
2.1.
Tipos de test.
Fuente: Elaboración FUNIBER, 2010.
TEST REFERIDOS A LA NORMA
Bajo esta denominación se agrupan todos los cuestionarios psicométricos que tratan de
comparar a los sujetos entre sí. Se trata de ordenar a los sujetos en función de las
puntuaciones que obtienen en los test, ya sean de personalidad, actitudes, aptitudes o
de cualquier otro tipo. En este caso si decimos que Manuel Fernández tiene un percentil
95 estamos indicando que en la variable medida obtiene una puntuación tal que deja por
debajo de sí al 95% de su grupo de referencia. Este tipo de test son los más frecuentes
y son sobre los que versará este capítulo.
Para este tipo de test todas las respuestas son válidas y correctas, el sujeto que
responde sólo debe señalar la que mejor le define o la que más se ajusta a su conducta
diaria.
Figura 2:
2
Tests referidos a la norma.
Fuente: Elaboración FUNIBER, 2010.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Figura 1:
©
DISEÑO
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
3. PASOS PARA LA ELABORACIÓN DE UN
CUESTIONARIO
3.1.
DEFINICIÓN DE LA VARIABLE MEDIDA
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Antes de comenzar con la labor de construir los ítems que forman un cuestionario un
paso fundamental es definir operativamente la variable. El primer paso, por tanto, es
definir con la máxima precisión posible el constructo que se quiere medir, ya que de
esta forma estaremos en disposición de elaborar ítems que abarquen todo el espectro
de la definición.
Para realizar una buena definición de la variable a medir se debe acudir a las diferentes
fuentes bibliográficas. También puede ser muy útil la ayuda de expertos en aquello que
se quiera evaluar, a la hora de construir los ítems de un test. De no hacer esto,
probablemente, se podrán hacer diferentes ítems que evalúen el constructo pero
dejamos de lado partes relevantes, y difíciles de preguntar, del constructo en cuestión.
Sin contar con el hecho de que nos puede indicar la correcta forma de redactar el ítem
para que la población que queremos evaluar lo comprenda de forma correcta.
3.2.
ELABORACIÓN DE ÍTEMS
Una vez se ha definido aquello que se quiere medir se deben elaborar los ítems que lo
evalúen. Pero, antes de redactar los ítems se deben responder a varias preguntas: ¿a
quién se va a evaluar con el cuestionario?, ¿qué formato de respuesta van a tener los
ítems?
La respuesta de la primera pregunta es esencial para no cometer errores a la hora de
redactar los ítems. En el caso de que no nos planteemos de antemano la población
objetivo del cuestionario nos arriesgamos a elaborar preguntas que no van a ser
entendidas, que van a ser malinterpretadas o que no van a poder ser contestadas.
Otras variables a tomar en cuenta para determinar el número de ítems, así como para
decidir la forma de redacción son:
La edad de las personas que se va a evaluar (no se debe realizar la pregunta de
la misma manera a adolescentes que a ancianos).
El grado de instrucción alcanzado (¿saben leer las personas que vamos a
evaluar?, ¿saben el significado de todas las palabras que componen los
ítems?...).
3
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
El origen de las personas (¿es el idioma en el que realizamos el cuestionario la
lengua madre de quien responde?).
El nivel de desarrollo cognitivo de las personas (¿pueden trabajar con conceptos
abstractos?...).
Elaboración de un cuestionario.
Fuente: Elaboración FUNIBER, 2010.
©
Figura 3:
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Las posibles minusvalías tanto físicas como psíquicas (¿puede escribir la
respuesta?, ¿puede mantener la atención en preguntas largas?...).
Para responder a la segunda pregunta existen multitud de formatos que pueden ser
elegidos. Los más populares en los Test referidos a la norma son:
-
Adjetivos bipolares.
El sujeto debe seleccionar uno de los adjetivos que se le presentan:
Intrépido - Reflexivo
-
Las respuestas dicotómicas.
Me gusta estar solo
a) Sí.
b) No.
4
DISEÑO
-
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
Las escalas tipo Likert.
Me gusta estar solo
1. Nunca.
2. Pocas veces.
3. A veces.
4. Muchas veces.
5. Siempre.
Si bien existen investigaciones (Muñiz, García-Cueto y Lozano, 2005) que recomiendan
el uso de las escalas tipo Likert también para los test de personalidad. El motivo de
esto, aparte de que se mejoran las propiedades psicométricas de los cuestionarios, es
que permiten al sujeto matizar la respuesta. Si se analizan los ejemplos anteriores se
puede apreciar que se fuerza al sujeto a definirse como intrépido o reflexivo, si prefiere
estar solo o acompañado, pero no se le deja ninguna posibilidad de elegir opciones
intermedias. En ocasiones una persona puede ser reflexiva y en otras situaciones
intrépidas. En ciertos momentos se puede preferir estar solo y en otras estar rodeado de
amigos. Al contrario de los formatos anteriores, las escalas tipo Likert sí dejan a la
persona que responde al test ese margen de matización, lo que además revierte en el
hecho de que responde a las preguntas de una forma más cómoda.
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Tradicionalmente tanto el formato de adjetivos bipolares como el de respuesta
dicotómica se emplean en test de personalidad y las escalas tipo Likert se emplean
fundamentalmente en los test de actitudes.
Me gusta estar solo:
1. Nunca.
2. Pocas veces.
3. A veces.
4. Muchas veces.
5. Siempre.
Para construir de forma adecuada escalas tipo Likert, se deben seguir ciertas normas:
-
Sólo se puede preguntar una cosa en cada ítem. Los ítems en los que se les
solicita a los sujetos que se posicionen en dos aspectos diferentes son
incorrectos.
5
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
La construcción de colegios y los hospitales son fundamentales para el
desarrollo del país.
1. Totalmente en desacuerdo.
2. En desacuerdo.
3. Posición neutra.
4. De acuerdo.
5. Totalmente de acuerdo.
-
La redacción de las preguntas debe ser clara y concisa. Se debe evitar cualquier
tipo de redacción que pueda confundir a las personas que respondan el test
(dobles negaciones, vocabulario excesivamente complejo para las personas que
van a responder...).
No puedo hacer nunca nada que no esté mal hecho.
1. Totalmente en desacuerdo.
2. En desacuerdo.
3. Posición neutra.
©
4. De acuerdo.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
En este caso nos podemos encontrar con personas que crean que sólo uno de
ellos es necesario para el desarrollo del país, y por lo tanto no podrán responder
adecuadamente al ítem. Para solucionar este problema se desdoblaría el ítem
construyendo dos diferentes. En uno se preguntaría por las escuelas y en otro
diferente por los hospitales.
5. Totalmente de acuerdo.
Cuándo se responde que está Totalmente en desacuerdo ¿se sabe exactamente
lo que se está respondiendo? Sin duda alguna requiere un serio esfuerzo para
responder a la pregunta que no está en absoluto relacionado con el constructo
medido. Con preguntas como la anterior se puede estar evaluando capacidad de
comprensión lectora y no el rasgo que se pretende medir.
-
El enunciado debe ser coherente con el formato de respuesta. Se deben evitar
incoherencias debidas a cómo se redacta la pregunta y la forma de redacción de
las alternativas.
Siempre me gusta estar rodeado de gente.
1. Nunca.
2. Pocas veces.
3. A veces.
6
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
4. Muchas veces.
5. Siempre.
Como se puede observar no existe coherencia entre la forma en la que la
pregunta se ha realizado y la forma en la que se debe responder a la misma.
-
Las alternativas de respuesta deben ser equidistantes. Debe existir la misma
distancia entre la opción 5 y la 4 que entre la 4 y la 3.
Me gusta estar solo.
1. Nunca.
2. A veces.
3. Muchas veces.
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
4. Siempre.
No existe la misma distancia entre las alternativas 1 y 2 que entre la 2 y la 3.
De esta forma estamos generando un sesgo que provoca que haya más
opciones de respuesta en el lado positivo que en el negativo.
-
Existe mucha investigación en la que se debate cuál es el número de
alternativas de respuesta más adecuado a la hora de elaborar una escala tipo
Likert. Aunque ninguna proporciona un número exacto se suele recomendar
entre 5 y 7 alternativas de respuesta (Lozano, 2004; Lozano, García-Cueto y
Muñiz, 2008). El motivo de esta decisión es que se maximizan tanto la
fiabilidad como la validez del test. Como se puede ver dentro de ese abanico de
alternativas (de 5 a 7) cabe la posibilidad de elegir un número par o impar. Esa
decisión debe tomarla el investigador. Elegir un número par implica no tener una
alternativa intermedia (neutra) a la que los sujetos puedan acogerse cuando no
tienen una opinión formada sobre lo que se les pregunta o simplemente no
quieren decantarse. Por ello, en función de si se quiere forzar a responder o no
se debe elegir una u otra.
7
Figura 4:
3.3.
Escala tipo Likert.
Fuente: Elaboración FUNIBER, 2010.
ANÁLISIS DE LOS ÍTEMS
Una vez se han construido los ítems estos deben ser aplicados a una muestra piloto – o
de prueba - para poder comprobar que funcionan correctamente, que los sujetos
entienden las instrucciones del cuestionario, la redacción de los ítems... De este modo
se pueden corregir errores que invalidarían la aplicación del cuestionario a la muestra
total.
Dado que el paquete estadístico más frecuente es el SPSS2, los siguientes apartados se
ejemplificarán usando el citado programa.
Introducción de datos
Lo primero que se debe saber es que las filas hacen referencia a los sujetos y las
columnas a los ítems que componen la escala. La primera pantalla que se encontrará en
el SPSS es la que se muestra en la figura 5.
2. Statistical Package for the Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias
sociales y las empresas de investigación de mercado. Existen múltiples versiones, y la más actualizada es SPSS for
windows 18 (2009), en la que cambia su denominación de SPSS por PASW 18. No obstante, versiones anteriores son
factibles de uso. (Nota FUNIBER, 2010).
8
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Y VA LID AC IÓ N D E CU EST IO NA RIO S
©
DISEÑO
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
DISEÑO
Figura 5:
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
Editor de datos del SPSS.
Para definir las variables se debe seleccionar la pestaña “Vista de variables”. En esta
pantalla se pueden nombrar las variables, definir el tipo de medida que son, determinar
el código que permitirá al programa tratar a valores como valores perdidos, señalar las
etiquetas en el caso de variables nominales (1=hombre, 2=mujer)... La figura 6 refleja
la pantalla que se obtiene al presionar “Vista de variables”.
9
Figura 6:
Vista de variables.
Análisis del índice de discriminación o de homogeneidad de los ítems
Como se ha visto anteriormente en los test referidos a la norma lo que pretendemos es
escalar a las personas. Por ello es de esperar que los ítems que componen un test sean
capaces de diferenciar entre las personas que obtienen una puntuación alta en el test y
los que obtienen una puntuación baja. Es decir, si se pretende conocer la conducta
prosocial de una persona y se le plantea un ítem:
Robaría y pegaría a un niño perdido.
1. Totalmente en desacuerdo.
2. En desacuerdo.
3. Posición neutra.
4. De acuerdo.
5. Totalmente de acuerdo.
Se estaría empleando un ítem que, es esperable, no diferencia entre las personas con
alta y con baja conducta prosocial, ya que para realizar la conducta presentada en el
10
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Y VA LID AC IÓ N D E CU EST IO NA RIO S
©
DISEÑO
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
ítem hay que tener un nivel en la variable medida nula. Es decir, la pregunta es tan
extrema que difícilmente se encontrará a alguien que responda favorablemente al ítem.
El índice de discriminación u homogeneidad se puede definir como la correlación entre la
puntuación obtenida en el ítem y la obtenida en el test. De la puntuación total en el test
se debe eliminar la parte que corresponde al ítem, ya que si no se hace esto se estaría
aumentando artificialmente la correlación entre ambas puntuaciones.
Para realizar este análisis con el SPSS se deben seguir los siguientes pasos:
Analizar → Escalas → Análisis de fiabilidad.
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Una vez seguidos los pasos anteriores, se deben seleccionar los ítems que quieren ser
analizados pasándolos (usando para ello la flecha) al apartado Elementos.
Posteriormente se debe seleccionar Estadísticos solicitando Escala si se elimina el
elemento (tal y como se presenta en la figura 7).
Figura 7:
Cálculo del Índice de Discriminación de los ítems.
Tras Continuar y Aceptar la salida que se obtiene será muy parecida a la que aparece en
la tabla 1.
11
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
ESTADÍSTICOS TOTAL-ELEMENTO
01
02
03
04
05
06
07
08
09
Correlación elementototal corregida
15,73
16,32
16,78
17,24
16,09
16,18
16,93
15,97
16,43
21,925
19,316
21,667
23,157
20,196
19,118
21,644
20,178
21,948
,385
,460
,372
,324
,413
,361
,399
,378
,300
Índice de discriminación de los ítems.
Para estudiar el índice de discriminación de los ítems se debe observar la columna
Correlación elemento-total corregido. Se deben eliminar aquellos ítems que tengan un
índice de discriminación inferior a 0,20. Los puntos de corte fueron propuestos por Ebel
(1965) y se presentan en la tabla 2.
VALORES
Tabla 2.
INTERPRETACIÓN
Igual o mayor que 0,40
El ítem discrimina muy bien
Entre 0,30 y 0,39
El ítem discrimina bien
Entre 0,20 y 0,29
El ítem discrimina poco
Entre 0,10 y 0,19
Ítem límite. Se debe mejorar
Menor de 0,10
El ítem carece de utilidad para discriminar
Interpretación del índice de discriminación.
Como se puede apreciar todos los ítems del ejemplo tienen un índice de discriminación
superior a 0,20 (el más bajo tiene un valor de 0,30), por lo que no se debe eliminar
ninguno de ellos. En el caso de que el valor de alguno fuese inferior a 0,20 se debería
eliminar y volver a realizar el análisis.
Fiabilidad
El problema de la fiabilidad afecta a todas las ciencias. Cuando aplicamos un test nos
debe preocupar qué cantidad de error cometemos a la hora de calcular la puntuación.
Precisamente ese aspecto es el que se aborda desde la fiabilidad.
12
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Tabla 1.
Varianza de la escala si se
elimina el elemento
©
Ítem
Ítem
Ítem
Ítem
Ítem
Ítem
Ítem
Ítem
Ítem
Media de la escala si se
elimina el elemento
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Existen dos posibles definiciones de la fiabilidad de un cuestionario. Por un lado está la
de “estabilidad en la medida”. Según esta definición un test es fiable si obtenemos la
misma puntuación en dos aplicaciones diferentes del mismo test o de dos test paralelos
(para profundizar más en el concepto de test paralelos acudir a Muñiz, 2002 o GarcíaCueto, 1993). Según esta definición, para calcular la fiabilidad sólo es necesario
calcular el coeficiente de correlación de Pearson entre las puntuaciones obtenidas en
ambas aplicaciones. El principal inconveniente de este método para calcular la fiabilidad
es precisamente la necesidad de aplicar el cuestionario dos veces. Esto conlleva el
riesgo de que las personas que han respondido recuerden lo que contestaron y por lo
tanto la segunda vez respondan en función de lo que pusieron en la primera aplicación.
Para solucionar este problema se puede demorar más tiempo la segunda aplicación del
cuestionario, pero entonces se corre el riesgo de no poder reunir de nuevo a todos los
miembros a los que se les realizó la primera aplicación perdiendo sujetos que sí se
tendrían si sólo se tuviese que realizar una única aplicación (mortandad experimental).
La segunda definición que se puede realizar de fiabilidad es “consistencia interna entre
dos mitades aleatorias de un test”. Siguiendo esta lógica se debería dividir un test en
dos partes aleatorias y calcular el coeficiente de correlación de Pearson entre las
puntuaciones obtenidas en ambas partes por los sujetos, corrigiéndola posteriormente
mediante Spearman-Brown (cualquier texto de psicometría explica este procedimiento
en detalle). Si en vez de calcular la consistencia entre dos mitades aleatorias de un
cuestionario, se calcula la consistencia entre todos los ítems que componen el
cuestionario, también se está calculando la fiabilidad del test. Lo único que se estaría
haciendo es saber hasta qué punto todos los ítems que componen el test están
midiendo lo mismo. Basándose en esta idea Cronbach (1951) propone otra forma de
acercarse a la fiabilidad, el coeficiente α.
Para calcular el coeficiente alfa mediante el SPSS, se deben seguir las siguientes
instrucciones Analizar → Escalas → Análisis de fiabilidad (al igual que cuando se estudia
el índice de discriminación de los ítems). Una vez hemos obtenido el desplegable, sólo
se deben introducir los ítems del cuestionario en la casilla de Elementos, tal y como se
aprecia en la figura 8.
13
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
Figura 8:
Análisis de fiabilidad mediante el coeficiente alfa.
Tabla 3.
Alfa de Cronbach
N de elementos
,695
9
Resultado del coeficiente de fiabilidad.
Tal y como se puede apreciar en este ejemplo el coeficiente de fiabilidad es de 0,695. El
coeficiente de fiabilidad oscila entre 0 y 1, comenzando a ser aceptables valores
superiores a 0,80. Por ello el valor que se obtiene se puede considerar bajo, siendo
necesario incrementar el número de ítems (ya que sólo son 9 ítems los que se analizan)
para incrementar la fiabilidad del test. Otra forma de incrementar la fiabilidad del
cuestionario es modificar el número de alternativas de respuesta de una escala tipo
Likert. Cuanto mayor sea el número de alternativas mayor será la varianza que se
genere, incrementando de este modo la fiabilidad del cuestionario (Lozano, García-Cueto
y Muñiz, 2008, Muñiz, García-Cueto y Lozano, 2005). A la hora de aumentar el número
de alternativas hay que tener en cuenta que no se puede superar la capacidad
discriminativa de los sujetos. Es decir, el número de alternativas debe estar muy
relacionado con las características de la muestra a la que se le va a aplicar el
cuestionario. Un estudiante universitario puede diferenciar perfectamente en una escala
de 0 a 10 puntos (intervalo en el que se califica a los estudiantes), pudiendo distinguir
entre un 6 y un 7. Por el contrario una persona sin estudios puede tener más problemas
a la hora de diferenciar entre un 6 y un 7 si no está acostumbrada a trabajar en dicha
escala. Por ello, como norma general, no es recomendable superar las 7 alternativas de
respuesta cuando se trate de evaluar población general.
14
©
ESTADÍSTICOS DE FIABILIDAD
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
El coeficiente de fiabilidad que se obtiene en el ejemplo se puede observar en la tabla 3.
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
Tal y como se dijo anteriormente, la fiabilidad del cuestionario evaluada mediante el
coeficiente alfa, es consistencia interna. Por ello, al calcular la fiabilidad de un
cuestionario se debe hacer para cada factor por separado (en el siguiente apartado se
introduce el concepto de factor y análisis factorial), ya que, de no hacerlo así, se
estarían obteniendo valores más bajos de la fiabilidad del cuestionarios sólo por el hecho
de estar analizando conjuntamente dimensiones que están midiendo aspectos
diferentes.
Validez
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Empleamos los cuestionarios para poder realizar inferencias sobre la conducta de las
personas. Cuando se comprueba la validez de un cuestionario, lo que realmente se está
realizando es garantizar la pertinencia de tales inferencias (Muñiz, 2002). Existen
múltiples definiciones de validez, pero todas ellas con un claro denominador común “un
test es válido si mide aquello para lo que fue creado”:
• “Podemos definir la validez de un test como el grado con el que mide o predice
cualquier criterio de interés” (Lord y Novick, 1968).
• “Un test es válido si mide lo que pretende medir” (Allen y Yen, 1979).
• “Un test es válido si sirve para lo que con él se pretende” (Yela, 1987).
• “Un test, como cualquier otro instrumento de medida, es válido si sirve para medir
adecuadamente aquello para lo que fue pensado como instrumento de medida”
(García-Cueto, 1993).
Existen diferentes tipos de validez, lo que lleva asociado la necesidad de realizar una
clasificación. La que se presenta a continuación si bien no es la única es la más
extendida:
• Validez de contenido: hace referencia al punto en que los ítems de un cuestionario
son una muestra representativa del contenido o contenidos que se pretende
evaluar. Un test tendrá una buena validez de contenido si sus ítems cubren
correctamente todo el espectro de la conducta que se trata de evaluar. El paso
imprescindible para poder asegurarse de que el test posee una adecuada validez de
contenido es realizar una correcta revisión bibliográfica. De este modo se asegurará
de conocer todos los aspectos relevantes sobre los que realizar los ítems. Para
demostrar esta validez hay que recurrir a expertos en la temática evaluada por el
cuestionario que nos señalen que todas las dimensiones del constructo han sido
evaluadas.
15
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
• Validez predictiva: hace referencia hasta qué punto se pueden emplear las
puntuaciones obtenidas en el cuestionario para predecir conductas futuras. Un test
tendrá una correcta validez predictiva si el cuestionario sirve para predecir
correctamente conductas futuras.
• Validez de constructo: hace referencia a la recogida de evidencia empírica que
garantice la existencia de un constructo psicológico (Cronbach y Meehl, 1955). Es
decir, trata de comprobar qué constructos está evaluando un test.
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Cada una de estas categorías está compuesta a su vez por múltiples tipos de
subcategorías. Para el lector interesado en profundizar más se le recomienda la lectura
de Muñiz (2002), García-Cueto (1993) y la lectura más especializada Messick (1996).
En este capítulo sólo se hará referencia a la validez de constructo, ya que es la más
frecuentemente comprobada en la literatura científica.
Figura 9:
Análisis de los ítems.
Fuente: Elaboración FUNIBER, 2010.
Validez de constructo
Dentro de esta validez se pueden diferenciar a su vez dos subtipos; la validez
convergente-discriminante y la validez factorial.
Dentro de la validez convergente-discriminante se evalúa la validez convergente como la
correlación alta con otros test que midan lo mismo que se pretende medir con el
cuestionario elaborado, aunque se hayan realizado por diferentes métodos. Para evaluar
la validez divergente se deben obtener correlaciones bajas con otros cuestionarios que
16
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
evalúan diferente constructo aunque sea por medio del mismo método. La matriz en la
que se representan estas correlaciones se denomina matrices multirrasgo-multimétodo.
Como se puede apreciar, para realizar esta matriz sólo es necesario realizar
correlaciones. Mediante el SPSS sólo se debe seguir el siguiente procedimiento:
Analizar → Correlaciones → Bivariadas
A continuación se representa una matriz multirrasgo-multimétodo en la que se
correlaciona el test que se está elaborando sobre depresión infantil (Depresión 1) con
otro cuestionario que ya está en el mercado pero en el que se pregunta a los padres en
vez de responder el propio niño (Depresión 2). Asimismo se correlaciona el test con
otros de habilidades sociales (Habilidades 1 y Habilidades 2) en el que se pregunta al
niño y a los padres respectivamente.
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
DEPRESIÓN 1
DEPRESIÓN 2
HABILIDADES 1
DEPRESIÓN 1
0,900
DEPRESIÓN 2
0,773
0,880
HABILIDADES 1
0,003
0,004
0,890
HABILIDADES 2
0,000
0,001
0,790
Tabla 4.
HABILIDADES 2
0,900
Matriz Multirrasgo-Multimétodo.
Como se puede apreciar, la diagonal principal (en negrita) es la correlación del test
consigo mismo (obviamente en dos aplicaciones diferentes), es decir, es la fiabilidad de
cada uno de los test.
La correlación entre los test que evalúan depresión es alta (0,773) lo que indica que el
cuestionario tiene una buena validez convergente. Al tener bajas correlaciones con los
test de habilidades sociales (0,003 y 0,000 respectivamente) también se puede
defender que el test que se está realizando tiene una buena validez divergente. Así pues
se puede afirmar que el test tiene una adecuada validez de constructo.
El inconveniente principal de este método es el hecho de tener que aplicar varios
cuestionarios, e incluso aplicarlos dos veces (para poder obtener los valores de la
fiabilidad, la diagonal principal). Por ello el método más empleado para comprobar la
validez de constructo es la validez factorial, ya que sólo requiere una aplicación del
cuestionario al que se le está comprobando la validez.
17
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
Para comprender el significado de la validez factorial en primer lugar es necesario
comentar la técnica estadística que se emplea, el Análisis Factorial. A un nivel casi
profano, se puede decir que esta técnica tiene como objeto agrupar los ítems en función
de sus correlaciones. Es esperable que los ítems que miden lo mismo tengan altas
correlaciones entre sí, agrupándose estos ítems como un factor. Así pues, puede
decirse que un test tiene validez factorial cuando al observar que los ítems elaborados
para medir una dimensión se agrupan diferenciándose de otros ítems destinados a
evaluar otra dimensión diferente.
Para poder realizar un Análisis Factorial con el SPSS se deben seguir los siguientes
pasos:
Analizar → Reducción de datos → Análisis Factorial
©
La pantalla que nos ofrece el programa es la que se ofrece en la figura 11.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Figura 10: Validez de constructo.
Fuente: Elaboración FUNIBER, 2010.
Figura 11: Análisis Factorial.
18
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
En esta situación se deben seleccionar los ítems que se quieran analizar (usualmente
todo el cuestionario) y pasarlos a la ventana de variables.
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Como se dijo anteriormente el análisis factorial requiere que las variables estén
intercorrelacionadas. Para comprobarlo se emplea el test de esfericidad de Bartlett, que
somete a prueba la hipótesis nula de que las correlaciones entre las variables son cero.
Otra medida que nos permite saber si es adecuada la realización del análisis factorial es
el índice de Kaiser-Mayer-Olkin (KMO). Cuanto más próximo esté a 1, más aconsejable
resulta la utilización del análisis factorial, indicando los valores inferiores a 0,5 que
dicha prueba no es adecuada. Para calcular estas pruebas en el menú anterior se debe
seleccionar la opción de Descriptivos, obteniendo una ventana como la que se muestra
a continuación (figura 12). En dicha ventana se debe seleccionar la opción de KMO y
prueba de esfericidad de Bartlett.
Figura 12: KMO y prueba de esfericidad de Bartlett.
El siguiente paso es la selección del método de extracción de factores. Los más
frecuentes son Componentes (si bien entonces no se habla de análisis factorial si no de
análisis de componentes), Ejes Principales y Máxima Verosimilitud. Las diferencias entre
los diferentes métodos supera la intención de este capítulo por lo que al lector
interesado en las diferencias entre los tipos de extracción se le recomienda el libro de
Ferrando (1993).
19
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
Cuando se obtienen dos o más dimensiones, conviene utilizar algún tipo de rotación (por
defecto el SPSS no utiliza ninguna rotación) que clarifique la interpretación de los
factores. Para determinar qué rotación se desea realizar hay que desplegar la opción de
Rotación que aparece en la figura 11, obteniéndose un menú como el que aparece en la
figura 14.
Figura 14: Método de Rotación en el Análisis Factorial.
20
©
También se debe determinar cuál es el número de factores que se quiere retener, es
decir, cuántos factores se quieren obtener (pueden extraerse tantas dimensiones como
ítems compongan el cuestionario). La opción que el SPSS tiene programada por defecto
la opción de extraer autovalores mayores que uno (criterio de Kaiser), que es el que
aparece señalado en la figura 13. Otra alternativa es señalar el número de factores que
se quieren extraer con independencia del autovalor (varianza de cada dimensión). Otro
procedimiento utilizado para determinar cuántas dimensiones hay que extraer es el
estudio del gráfico de sedimentación (también aparece señalado en la figura 13).
Usualmente se realiza primero un análisis factorial para comprobar en el gráfico de
sedimentación cuántas dimensiones se pueden extraer y posteriormente se fuerza al
SPSS a que extraiga tantas dimensiones como indica el gráfico.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Figura 13: Método de extracción en el Análisis Factorial.
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
Existen diversos métodos de rotación. Los más utilizados son la rotación ortogonal
“Varimax” y la rotación oblicua “Oblimin”. Si se emplea el método Varimax, se respeta
la ortogonalidad de los factores, es decir, la independencia de los factores. Mediante
este método se trata de obtener coeficientes lo más altos posibles en una dimensión y
bajos en la otra. Por el contrario, mediante la rotación Oblimin las dimensiones que se
obtengan no serán independientes sino que tendrán algún tipo de relación entre ellas. Es
el psicólogo el que debe determinar si las dimensiones pueden estar relacionadas o no y
por tanto emplear una rotación u otra.
Tras realizar todos estos pasos, ya se puede comenzar con el Análisis Factorial. Entre
los resultados que aporta el SPSS hay que destacar en primer lugar la prueba de
esfericidad de Bartlett y el KMO (ver tabla 5).
KMO Y PRUEBA DE BARTLETT
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Medida de adecuación muestral de Kaiser-Meyer-Olkin
Prueba de esfericidad de Bartlett
Tabla 5.
,956
Chi-cuadrado aproximado
28561,255
gl
1225
Sig.
,000
Prueba de esfericidad y KMO.
Como se puede apreciar en la tabla 5, tanto el valor de KMO (0,956) como la prueba de
Bartlett (p<0,001) indican que se cumplen las condiciones necesarias para realizar un
Análisis Factorial.
En segundo lugar se debe saber cuántos factores se deben extraer. Para ello se puede
utilizar el Gráfico de Sedimentación (figura 15).
21
Figura 15: Gráfico de Sedimentación.
La forma de interpretar esta figura es la siguiente. En el eje horizontal están los factores
(tantos como ítems tenga el cuestionario), y en el eje vertical el autovalor de cada uno
de ellos. El criterio para determinar cuántas dimensiones retener es analizar el gráfico de
derecha a izquierda, observar donde cambia de forma brusca la pendiente y retener los
factores a partir de ese punto. Como se puede apreciar en la figura 15, la pendiente
cambia bruscamente en el 2º factor, por lo que sólo hay una única dimensión en este
cuestionario.
Al concluir que sólo hay una única dimensión, se deben repetir todos los pasos
anteriores para realizar el análisis factorial pero en este caso pidiendo que se extraiga
sólo un único factor (esto se programa en la figura 13).
En la tabla 6 se muestran los autovalores de cada componente y el porcentaje de
varianza total que explica la dimensión extraída. Como se puede observar, la dimensión
extraída explica el 26,68% de la varianza total generada por todos los ítems que
componen el cuestionario.
22
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Y VA LID AC IÓ N D E CU EST IO NA RIO S
©
DISEÑO
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
VARIANZA TOTAL EXPLICADA
Sumas de las saturaciones al
cuadrado de la extracción
Autovalores iniciales
Factor
1
2
3
4
5
6
7
8
9
10
% de la
varianza
%
acumulado
13,340
2,170
1,723
1,566
1,406
1,280
1,255
1,210
1,118
1,003
26,679
4,339
3,445
3,132
2,811
2,559
2,510
2,420
2,236
2,005
26,679
31,019
34,464
37,596
40,408
42,967
45,477
47,897
50,133
52,138
Total
% de la
varianza
%
acumulado
12,607
25,214
25,214
Varianza total explicada por el factor.
Una vez que se sabe que sólo existe una dimensión, se puede apreciar el orden de
importancia de los ítems dentro del factor (ver tabla 7). Así en este ejemplo el ítem más
importante es el 5 seguido por el 10 y así sucesivamente.
MATRIZ FACTORIAL
Factor
1
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Tabla 6.
Total
v5
v10
v7
v2
v3
v1
v8
v4
v9
v6
Tabla 7.
,488
,462
,452
,443
,443
,440
,430
,397
,376
,359
Matriz factorial.
Cuando se extraen dos o más factores, la tabla que hay que analizar en los resultados
es la Matriz de Configuración, en la que nos indicará a qué dimensión pertenece cada
ítem. En estos casos la asignación es muy simple, el ítem se va al factor en el que tenga
un valor numérico (en valor absoluto) más alto.
23
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
Una vez que se sabe en qué dimensión se han agrupado los diferentes ítems le
corresponde al investigador analizar con detenimiento si la agrupación tiene sentido o
no. Es decir, le corresponde interpretar qué es lo que se está midiendo con ese factor. Si
la dimensión o las diferentes dimensiones miden aquello para lo que fueron elaborados
los ítems, se puede defender que el cuestionario tiene Validez Factorial y por tanto
Validez de Constructo.
Baremación del cuestionario
Figura 16: Baremar el cuestionario.
Fuente: Elaboración FUNIBER, 2010.
Una de las escalas más populares es la de los centiles. Un percentil se interpreta como
el porcentaje de gente que obtiene menos puntuación que el sujeto. Así, si decimos que
Manuel Fernández obtiene un percentil 75 en inteligencia, estamos defendiendo que es
más hábil que el 75% de la población (lo que también lleva asociado que es más torpe
que el 25% de la población).
Para obtener los centiles con el SPSS sólo es necesario calcular la puntuación total en el
factor.
Para sumar las puntuaciones se deben seguir los siguientes pasos:
Transformar → Calcular Variable
24
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Con lo que se tiene hasta el momento ya se puede conocer cuál es la puntuación directa
de un sujeto en el test que se esté construyendo. Sólo es necesario sumar la puntuación
obtenida en cada uno de los ítems de las diferentes dimensiones que se estén
evaluando. Lo que ocurre con esto es que no nos permite determinar si alguien tiene
mucha o poca puntuación en la variable medida. Para ello es necesario tener tablas de
conversión que permitan transformar las puntuaciones directas de los sujetos en
puntuaciones que puedan ser interpretadas, teniendo en cuenta las puntuaciones que
obtenga el grupo con el que se quiera comparar al sujeto.
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
Se debe nombrar una variable de destino (variable que se va a crear) y se construye la
expresión numérica correspondiente (p. ej. v1+v2+...+vn).
Con esa puntuación final se pueden calcular los percentiles:
Analizar → Estadísticos descriptivos → Frecuencias
Posteriormente una vez que se está en el menú de Frecuencias se debe pasar la variable
de la puntuación directa a Variables y solicitar los Estadísticos.
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Una vez en los estadísticos se pueden solicitar los cuartiles (25%, 50% y 75%) así
como los valores de los percentiles que nos interesen (5%, 10%, 20%,...,90%, 95%,
99%). Los pasos anteriores se ven reflejados en la figura 17.
Figura 17: Pasos para el cálculo de los percentiles.
Como resultado de lo anteriormente calculado se puede obtener una tabla como la que
aparece a continuación.
25
DISEÑO
Y VA LID AC IÓ N D E CU EST IO NA RIO S
ESTADÍSTICOS
Total
Tabla 8.
5
10
20
25
30
40
50
60
70
75
80
90
95
99
1748
0
60,00
66,00
75,00
79,00
83,00
90,00
97,00
103,00
110,00
114,75
119,00
132,00
148,00
169,51
Baremación por percentiles.
Como se puede apreciar en la tabla 8 aquella persona que obtenga una puntuación
directa de 110 obtiene un percentil de 70, es decir, el 70% de la población de referencia
tiene menos puntuación que él en la variable medida.
Tras la consecución de los pasos anteriormente expuestos se posee un cuestionario
fiable, válido y baremado para poder usarlo con la garantía de que el cuestionario mide
exactamente y de forma correcta el constructo deseado.
4. REFERENCIAS BIBLIOGRÁFICAS
26
[1]
Allen, M. J. y Yen, W. M. (1979). Introduction to measurement theory.
California: Brooks/Cole Publishing Company.
[2]
Crocker, L. y Algina, G. (1986). Introduction to classical and modern test
theory. New York: Holt, Rinehart and Winston.
[3]
Cronbach, L.J. (1951). Coefficient alpha and the internal structure of test.
Psychometrika, 12, 1-16.
[4]
Cronbach, L. J. (1985). Fundamentos de la exploración psicológica. Madrid:
Biblioteca Nueva.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Percentiles
Válidos
Perdidos
©
N
DISEÑO
Y VAL ID ACIÓ N DE CUEST IO NAR IO S
[5]
Cronbach, L.J. y Meehl, P.E. (1955). Construct validity in Psychological
test. Psychological Bulletin, 52, 281-302.
[6]
Drowning, S.M. y Haladyna, T.M. (2006). Handbook of test development.
Londres: Routledge.
[7]
Ebel, R.L. (1965). Measuring educational achievement. Englewoods Cliffs, N.
J.: Prentice-Hall.
[8]
Educational Measurement: Issues and Practice (1994). Número monográfico
dedicado a los treinta años los Test Referidos al Criterio, 13(4).
[9]
Ferrando, P. J. (1993). Introducción al Análisis Factorial. Barcelona: PPU.
[10] García-Cueto, E. (1993). Introducción a la psicometría. Madrid: Siglo XXI de
España Editores, S.A.
[11] Glaser, R. (1963). Instructional Technology and the measurement of
learning outcomes some questions. American Psychologist, 18, 519-521.
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
[12] Hambleton, R.K. (1994). The rise and fall of criterion-referenced
measurement. Educational Measurement: Issues and Practice, 13(4), 21-26.
[13] Lozano, L.M. (2004). Efecto del número de alternativas en las propiedades
psicométricas de las escalas tipo Likert. Oviedo: Universidad de Oviedo.
[14] Lozano, L.M., García-Cueto, E. y Muñiz, J. (2008). Effect of the number of
response categories on the reliability and validity of rating scales.
Methodology, 4(2), 73-79.
[15] Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test scores.
Massachusetts: Addison-Wesley.
[16] Messick, S. (1996). Validity of Performance Assessment. En Philips, G.
(1996). Technical Issues in Large-Scale Performance Assessment.
Washington, DC: National Center for Educational Statistics.
[17] Moreno, R., Martínez, R.J. y Muñiz, J. (2004). Directrices para la
construcción de ítems de elección múltiple. Psicothema, 16(3), 490-497.
[18] Muñiz, J. (2002). Teoría Clásica de los Test. Madrid: Pirámide.
[19] Muñiz, J., Fidalgo, A. M., García-Cueto, E., Martínez, R. y Moreno, R.
(2005). Análisis de los ítems. Madrid: La Muralla.
[20] Muñiz, J., García-Cueto, E. y Lozano, L.M. (2005). Item format and the
psychometric properties of the Eysenck Personality Questionnaire.
Personality and Individual Differences, 38(1), 61-69.
[21] Nunnally, J. C. y Bernstein, I. J. (1995). Teoría Psicométrica. México:
McGraw-Hill.
[22] Yela, M. (1987). Apuntes de psicología matemática, II. Madrid: Facultad de
Psicología.
27
Y VA LID AC IÓ N D E CU EST IO NA RIO S
©
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
DISEÑO
28
Descargar