1. confiabilidad

Anuncio
UNIVERSIDAD PERUANA CAYETANO HEREDIA
FACULTAD DE PSICOLOGIA
GABINETE DE INSTRUMENTOS PSICOLÓGICOS
MATERIALES DE INFORMÁTICA
MCP 1.0
Módulos de Cálculos
Psicométricos
Lic. Andrés Burga León
LIMA, 2003
©Derechos Reservados
Universidad Peruana Cayetano Heredia
Facultad de Psicología
PRESENTACION DE LA SERIE
El presente programa constituye parte de una serie producida por el Gabinete
de Instrumentos Psicológicos de la Facultad de Psicología de la Universidad
Peruana Cayetano Heredia, dirigida a estudiantes y profesionales de la
psicología y diversas especialidades.
Esta serie denominada “Materiales de Informática” surge a partir de la
experiencia de los docentes de los cursos vinculados a las áreas de
matemáticas, estadística y psicometría, pues el realizar los cálculos de forma
manual, si bien fomenta el aprendizaje matemático, hace más probable la
ocurrencia de errores de cálculo, los cuales pueden impactar de forma
negativa al proceso de toma de decisiones.
Sabemos que una decisión se toma sobre la base de la información, y esta
información debe ser lo más válida y confiable posible.
En ese sentido, con esta serie de programas, creemos que al reducir la
probabilidad del error de cálculo, estamos contribuyendo de una forma
sustancial a la calidad de la información de base cuantitativa sobre la cual se
basan muchas de las decisiones profesionales.
En nuestro medio, además en muchos caso no encontramos un software
accesible por cuestiones económicas que cumpla las funciones que desempeñan
los programas de esta serie, que por su sencillez, creemos que son de gran
utilidad.
La serie hasta el momento cuenta con los siguientes paquetes informáticos:

TAPF v.1.0, programa para el manejo de notas

Estadísticos para Tablas de Contingencia

Módulo de Cálculos Psicométricos v. 1.0

Estimación de Parámetros y Prueba de Hipótesis
Esperemos que esta tercera entrega le resulte útil y sea de su agrado.
Andrés Burga León
INDICE
INTRODUCCIÓN .............................................................................................. 7
PRIMERA PARTE: ASPECTOS TEORICOS
1. LA PSICOMETRÍA COMO PROCESO .................................................... 15
2. LA TEORIA CLÁSICA DE LOS TESTS .................................................. 19
2.1 LA CONFIABILIDAD .......................................................................21
2.1.1 METODO DE LAS FORMAS PARALELAS ........................25
2.1.2 METODO TEST – RETEST ...................................................26
2.1.3 COMBINACIÓN DE FORMAS PARALELAS Y TEST
RETEST ..................................................................................27
2.1.4 METODOS DE DIVISIÓN POR MITADES Y
CONSISTENCIA INTERNA ..................................................28
2.1.5 INFERENCIAS SOBRE EL COEFICIENTE ALPHA ..........32
2.1.6 FACTORES QUE AFECTAN LA CONFIABILIDAD ..........34
2.1.7 CONFIABILIDAD DE LAS DIFERENCIAS ........................35
2.2 VALIDEZ ...........................................................................................36
2.2.1 VALIDEZ DE CONTENIDO .................................................37
2.2.2 VALIDEZ PREDICTIVA .......................................................42
2.2.3 RELACIÓN DE LA VALIDEZ PREDICTIVA CON
OTROS PARÁMETROS ........................................................43
2.2.4 VALIDEZ DE CONSTRUCTO ..............................................46
2.2.5 VALIDEZ ECOLÓGICA ........................................................51
2.3 SIGNIFICACION DE LAS PUNTUACIONES .................................52
2.3.1 PERCENTILES .......................................................................53
2.3.2 PUNTUACIONES TÍPICAS (Z) ............................................53
2.4 ALGUNAS APROXIMACIONES A LA CONSTRUCCIÓN
DE UNA PRUEBA PSICOMÉTRICA. ..............................................55
SEGUNDA PARTE: USO DEL PROGRAMA MCP v. 1.0
1. CONFIABILIDAD ..................................................................................... 67
1.1 ESTIMACIÓN DE PUNTUACIONES VERDADERAS .................. 67
1.2 CONFIABILIDAD Y LONGITUD.................................................... 69
1.3 CONFIABILIDAD Y VARIABILIDAD ........................................... 70
1.4 CONFIABILIDAD DE LAS DIFERENCIAS.................................... 71
2. INFERENCIAS SOBRE ALPHA .............................................................. 72
2.1 UN SOLO COEFICIENTE ................................................................ 73
2.2 CONTRASTE EN DOS GRUPOS INDEPENDIENTES................... 74
2.3 CONTRASTE EN DOS GRUPOS DEPENDIENTES ....................... 75
3. VALIDEZ REFERIDA AL CRITERIO ..................................................... 76
3.1 VALIDEZ Y VARIABILIDAD ......................................................... 76
3.2 USO DE UN NUEVO TEST COMO PREDICTOR........................... 77
3.3 VALIDEZ Y LONGITUD ................................................................. 79
3.4 CORRECCION DE ERRORES Y MEDIDA ..................................... 80
4. BAREMACION ......................................................................................... 83
5. FUNCIONAMIENTO DIFERENCIAL DE LOS ÍTEMS ......................... 85
5.1 METODO DE SCHEUNEMAN ........................................................ 85
5.2 METODO DE CAMILLI ................................................................... 88
6. REFERENCIAS ......................................................................................... 91
INTRODUCCION
Se ha desarrollado una serie de módulos en Excel, permita realizar una serie de
cálculos psicométricos basados en la Teoría Clásica de los Tests. Hemos
elegido este modelo teórico porque la mayoría de tests que se usan en la
actualidad lo siguen, aunque de ninguna manera le restamos importancia a los
avances realizados en la línea de la Teoría de Respuesta al Ítem
Este proyecto surge de nuestra experiencia en la enseñanza del curso Teoría de
los Test, conscientes de la dificultades que tienen los alumnos para realizar
muchos de los cálculos manualmente, además de no haber en el mercado un
software accesible que permita realizar dichas operaciones matemáticas.
Estos módulos no contiene toda la diversidad de operaciones psicométricas que
pueden realizarse, como por ejemplo el análisis de ítems, el cálculo de la
confiabilidad, del índice de validez predictiva, etc. Para ello creemos que
existen en el mercado buenos programas como por ejemplo el SPSS, que si
bien no es un software especializado en el análisis psicométrico, permite
calcular correlaciones ítem test corregidas, índices de dificultad, la
confiabilidad utilizando diversos métodos, la validez referida al criterio por
medio de correlaciones y análisis discriminante, además de aproximarnos a la
validez de constructo por medio del análisis factorial.
Creemos que el presente trabajo será un aporte significativo para todo
estudiante de psicometría y para los profesionales de la psicología en general,
pues facilitará considerablemente el proceso de toma de decisiones. Es por eso
que hemos considerado cinco módulos de cálculos, organizados de la siguiente
manera:
7
1.
Confiabilidad
Es esta parte usted podrá realizar un conjunto de cálculos, que permiten
observar como el cambio de algunos parámetros de un test, afectan a su
confiabilidad.
a)
Estimación de puntuaciones verdaderas: sabemos que la confiabilidad es
una estimación estadística del error de medición. A partir del conocimiento
de la puntuación observada en un test, y conociendo la confiabilidad del
mismo, se pueden determinas intervalos para las puntuaciones verdaderas.
Los métodos considerados para estimar las puntuaciones verdaderas son:
-
Desigualdad de Chebychev: no asume ninguna forma concreta en la
distribución de los errores de medición, por lo cual da intervalos
bastante amplios.
-
Basada en la regresión lineal: usa el criterio de los mínimos cuadrados,
para estimar un intervalos de confianza de los puntajes verdaderos, a
partir de los puntajes observados.
-
Distribución normal de errores: asume la distribución normal de los
errores, dando intevalos más ajustados.
b) Confiabilidad y variabilidad de la muestra: matemáticamente la
confiabilidad de un test y la variabilidad de la muestra tiene una relación
directa. Al aumentar la variabilidad, aumenta la confiabilidad.
8
c)
Confiabilidad y longitud del tests: La confiabilidad de un tests depende
también de la cantidad de ítems que lo componen. Si se aumentan ítems
paralelos a los ya existentes, es posible aumentar la confiabilidad del tests.
d) Confiabilidad de las diferencias de puntuaciones: estima hasta que punto
son confiables las diferencias de puntuaciones de una persona en dos tests.
2.
Inferencias sobre el coeficiente de consistencia interna alpha de
Cronbach
Este módulo busca establecer inferencias estadísticas respecto a los valores de
alpha, basándose en sus distribuciones muestrales, a saber F para la población y
muestras independientes, y t de Student para muestras dependientes.
a)
Una muestra: permite contrastar la hipótesis nula referida a que alpha tome
determinado valor en la población.
b) Dos muestras independientes: permite contrastar la existencia de
diferencias estadísticamente significativas entre dos coeficientes alpha,
obtenidos en muestras independientes.
c)
Dos muestras dependientes: permite contrastar la existencia de diferencias
estadísticamente significativas entre dos coeficientes alpha, obtenidos en
muestras dependientes.
9
3.
Validez Predictiva
La validez predictiva es básicamente entendida como la correlación existente
entre el puntaje en una prueba psicométrica y un criterio externo. Los cálculos
incluidos en el presente módulo suponen que existe una relación lineal entre
ambas variables (test y criterio)
a)
Validez predictiva y variabilidad en la muestra: el índice de validez
calculado en un grupo de personas seleccionadas queda subestimado si se
trata de extrapolarlo a los postulantes. Este módulo permite estimar dicho
índice de validez, conociendo la variabilidad en la muestra.
b) Validez predictiva y longitud de la prueba: al aumentar el número de ítems
paralelos a los ya existentes, mejora la confiabilidad de una prueba, lo cual
tiene como efecto una mejora el índice de validez predictiva.
c)
Validez predictiva y errores de medición: los errores de medida cometidos
repercuten en el índice de validez. Es posible calcular las mejoras en el
índice de validez al aumentar la confiabilidad del tests, la del criterio o
ambas.
d) Uso de un nuevo tests como predictor: Permite estimar si es conveniente
utilizar un nuevo tests como predictor de un test que ya se venía usando
para predecir determinado criterio.
10
4.
Baremación
Este módulo permite construir baremos, partiendo del supuesto de la
distribución normal de las puntuaciones. Concretamente, ajusta los puntajes
obtenidos a una distribución normal, a partir de la media y desviación estándar
obtenidas, generando baremos en:
-
Pentas: dividen la distribución normal en 5 intervalos
-
Eneatipos: dividen la distribución normal en 9 intervalos
-
Percentiles: dividen la distribución normal en 100 intervalos
5.
Funcionamiento Diferencial de los Items
a)
Método de Scheuneman: realiza el análisis del sesgo sobre la base del
número de aciertos en el ítem dentro de diferentes rangos de puntajes
directos.
b) Método de Camilli: una no solo la información proporcionada por los
aciertos al ítem, sino que también considera la información dada por los
fallos.
El presenta manual se divide en dos partes, en la primera de ellas encontrará
una introducción a los principales aspectos de la Teoría Clásica de los Test. En
la segunda parte se proporcionan instrucciones y ejemplos sobré como usar e
interpretar los diferentes resultados que proporciona este programa.
11
12
PRIMERA PARTE
ASPECTOS TEORICOS
13
14
1.
LA PSICOMETRÍA COMO PROCESO
Suen (1990) afirma que el objetivo fundamental de la medición en psicología es
describir alguna característica de las personas como un puntaje numérico. Así,
Muñiz (1996a) define a la psicometría cómo el conjunto de métodos, técnicas y
teorías implicadas en la medición de las variables psicológicas. Lo que
constituye lo específico de la psicometría sería su énfasis y especialización en
aquellas propiedades métricas exigibles a las mediciones psicológicas
independientemente del campo de aplicación y de los instrumentos utilizados.
Las teorías psicométricas implican básicamente la aplicación de modelos
matemáticos y estadísticos para su formulación, tratando de justificar los
procesos subyacentes a la medición en psicología y educación.
La capacidad de un puntaje en un test para reflejar de una manera fehaciente la
cantidad de una característica de interés requiere un gran salto inferencial. El
proceso de transformar las respuestas a un test en valores numéricos se conoce
como escalamiento. El resultado de ese proceso de escalamiento es el puntaje
para cada persona. Dicho puntaje se denomina puntaje observado. Es
importante considerar que respecto a la cualidad que se desea medir, ya sea por
limitaciones de tiempo u otras, sólo se puede general un número limitado de
ítems o reactivos. Estos ítems representan una muestra de todos los posibles
destinados a medir dicha característica. En otras palabras, el puntaje obtenido
por una persona sólo representa el puntaje en una muestra particular de ítems
dados en un tiempo y espacio particulares. (Suen, 1990)
Si se pudiese probar a la persona en todos los ítems similares, en todas las
condiciones similares en diferentes momentos, seríamos capaces de obtener el
puntaje verdadero de dicha persona. Cómo es imposible realizar lo anterior,
15
hacemos inferencias a partir del puntaje observado, asumiendo que este resulta
un buen estimador del puntaje verdadero. El grado en el cual el puntaje
observado refleja al puntaje verdadero se denomina confiabilidad (Muñiz,
1996).
Si los puntajes de un test demuestran ser confiables, no por ello se puede
asumir que realmente el puntaje verdadero inferido a partir del puntaje
observado es un buen indicador de lo que el test pretende medir. La capacidad
del puntaje verdadero para reflejar lo que el test intenta medir se denomina
validez. Lo que un test intenta medir se denomina objeto de medición. El objeto
de medición en la mayoría de test psicológicos es por lo general un constructo
(Nunnally, 1991; Thorndike, 1989). Este se define como una cualidad
inobservable, atributo o característica de una persona (Suen, 1990). Estos
constructos son literalmente construidos para explicar un fenómeno
determinado.
De esta manera, nosotros consideramos que es mejor enterder, como lo hace
Suen (1990), a la psicometría como un proceso, que queda descrito como se
muestra en la ilustración 1.
Esencialmente en una situación de test, primero se define una regla para
convertir las respuestas en valores numéricos. Luego esos valores numéricos
constituyen el puntaje observado. El siguiente paso implica definir que ese
puntaje observado refleje al puntaje verdadero de una manera adecuada.
Finalmente debemos inferir si ese puntaje verdadero refleja de una manera
adecuada la cantidad del constructo, que se pretende medir.
16
Cualidad inobservable de interés
CONSTRUCTO
Validez
Cantidad verdadera
cualidad desconocida
PUNTAJE VERDADERO
de
una
Confiabilidad
Muestra de una cantidad producto de la
PUNTAJE OBSERVADO
administración de un test con una muestra
de todos los ítems posibles
Escalamiento
Test
INSTRUMENTO
de
inteligencia,
inventario
de
intereses, escalas de actitudes, métodos
proyectivos, etc.
Ilustración 1: El Proceso Psicométrico, tomado de Suen (1990)
Todo este proceso puede verse dentro del marco general de la investigación
psicológica, con lo cual nos queremos referir a la investigación psicométrica,
que incluye la adaptación de tests extranjeros y la obtención de nuevos índices
de confiabilidad y validez, además de la confección de las normas o baremos.
Se incluye en este rubro también la construcción de nuevas pruebas
psicológicas (Alarcón, 1996, 2000)
En la actualidad hay básicamente dos enfoques psicométricos fundamentales
(Suen, 1990; Muñiz 1996a). Estas son de acuerdo a Suen (1990) la teoría del
17
muestreo aleatorio, que incluye a la teoría clásica de los tests y a la teoría de la
generalibizidad; y la teoría de respuesta al ítem.
La teoría del muestreo aleatorio ve la conexión del puntaje observado con el
puntaje verdadero como un problema de generalización desde una muestra a
una población más grande o universo. Este enfoque consta de 2 modelos. El
primero de ellos es la Teoría Clásica de los Tests que plantea una relación de
tipo lineal entre el puntaje observado, el puntaje verdadero y el error en la
medición. El segundo modelo es la Teoría de la Generalizabilidad, propuesta
por Cronbach y colaboradores (Suen, 1990). Muñiz (1996a) afirma que se
puede considerar a esta teoría cómo una extensión del modelo clásico que
utiliza el análisis de varianza para analizar las fuentes de error de un modo
sistemático y desglosado.
La teoría de respuesta al ítem sugiere que si se puede determinar cómo cada
ítem en un test opera con una persona, podemos estimar el puntaje verdadero de
cada persona de manera directa. Suen (1990) afirma que dentro de esta
aproximación hay tres modelos fundamentales, a saber, el Modelo Logístico de
2 Parámetros y el Modelo Logístico de 3 Parámetros, ambos de Birnbaum; y el
Modelo de Rasch.
Como señalábamos en la introducción, nosotros nos vamos a centrar en la
Teoría Clásica de los Tests
18
2.
LA TEORIA CLÁSICA DE LOS TESTS
A pesar del desarrollo de modelos más sofisticados, la teoría clásica sigue
siendo muy popular en nuestros días y ampliamente usada para obtener
evidencias de la calidad psicométrica de muchos test que se emplean en la
actualidad.
La Teoría Clásica de los Tests (TCT) se conoce también como la Teoría Clásica
de la Confiabilidad. Esto se debe a que su tarea fundamental es estimar la
confiabilidad de los puntajes observados en un test. Es decir se ocupa de
estimar la fuerza de la relación entre el puntaje observado y el puntaje
verdadero.
Se considera que el nacimiento formal de la TCT puede ubicarse en los trabajos
de Spearman entre 1904 y 1913. (Nunnally y Bernstein, 1995; Muñiz, 1996a).
Spearman buscaba un modelo estadístico que fundamentase adecuadamente las
puntuaciones de los tests y permitiera la estimación de los errores de medida
asociados a todo proceso de medición. Así postula un modelo lineal que asume
que el puntaje observado (el obtenido directamente en un test) consta de dos
componentes aditivos. Dichos componentes son la puntuación verdadera de la
persona en un test (V) y otro, el error (e) que inevitablemente aparece en todo
proceso de medición.
Muñiz (1996b) señala que el error de medición se produce de manera aleatoria
y puede provenir de diversas fuentes.
Respecto a la persona que se le
administra el test puede influir entre otros: su estado de ánimo, sus actitudes
ante el test, o cualquier evento previo que le haya ocurrido. Otra posible fuente
de error es el mismo test con sus diferentes ítems y formatos. Influye también el
evaluador con sus características personales como sexo, edad, forma de
19
interactuar con los evaluados. Además influyen factores ambientales como luz,
temperatura, ruidos, etc. Sin embargo sea cual fuera la fuente del error, la TCT
lo incluye en el término genérico e y lo asume aleatorio, con una media de 0.
El punto clave en la historia de la TCT se encuentra en el año 1950, cuando
Gulliksen publica su libro Theory of Mental Test que recoge y sistematiza los
conocimientos sobre el tema hasta el momento.
El modelo de la TCT se puede simbolizar de la siguiente manera:
X V e
Además del planteamiento central de dicho modelo, cuyo objetivo central es
estimar los errores de medida, se tienen tres supuestos básicos:
1. V  E (X )
2.
ρ v, e  0
3.
ρ e j , ek   0
De acuerdo al supuesto 1, la puntuación verdadera (V) es la esperanza
matemática (E) de la puntuación observada(X). Si pudiésemos administrar el
mismo test, a la misma persona en todas las condiciones posibles en diferentes
momentos, utilizando diferentes ítems, tendríamos diferentes puntajes
observados (X). La media de todos esos puntajes observados constituye su
esperanza matemática (E), que a su vez es estimador menos sesgado del puntaje
verdadero (V). Lo cual implica que la esperanza matemática del error (e) es 0,
pues este se distribuye de manera aleatoria.
20
El segundo supuesto asume que no existe correlación entre las puntuaciones
verdaderas de la personas en un test y sus respectivos errores de medida. Es
decir, el tamaño del error no se encuentra sistemáticamente asociado al tamaño
de las puntuaciones verdaderas.
Con respecto al tercer supuesto, este afirma que los errores de medida de una
persona en un test determinado no se encuentran correlacionados con sus
errores de medida en otro test. Esto implica que si se aplican correctamente los
test, los errores serán aleatorios en cada situación.
2.1
LA CONFIABILIDAD
Cerdá (1984) afirma que un test es fiable “cuando al aplicarlo dos o más veces
a la misma persona o grupo, en circunstancias similares, obtenemos resultados
análogos.” (p. 97)
Aiken (1996) nos dice: “Si en ausencia de cualquier cambio permanente en una
persona debido al crecimiento, aprendizaje, enfermedad o accidente), las
calificaciones de las pruebas varían en gran medida de tiempo en tiempo o en
distintas situaciones, es probable que la prueba no sea confiable y no pueda
utilizarse para explicar o realizar predicciones sobre el comportamiento de la
persona.” (p. 87)
Como vemos en las definiciones anteriores, tradicionalmente se considera que
la confiabilidad es la garantía de estabilidad de los resultados. Dentro del
modelo de la modelo de la TCT las mediciones en psicología deben verse libres
de errores de medición. Si las evaluaciones efectuadas con un instrumento son
consistentes, si carecen de errores de medida, se les considera fiables. Así, el
objetivo principal de la confiabilidad es tratar de estimar el error existente en
21
las medidas mediante un indicador denominado coeficiente de confiabilidad
(Muñiz, 1996a, 1996b). En esta misma línea, podemos citar a Suen (1990): “La
confiabilidad es la fuerza de la relación entre el puntaje observado y el puntaje
verdadero. Esto puede ser expresado como la correlación obtenida mediante el
coeficiente de Pearson entre el puntaje observado y el puntaje verdadero; eso es
xt. Esta correlación es denominada índice de confiabilidad.” (p. 28)
Nunnally y Bernstein (1995) definen la confiabilidad cómo la libertad de error
aleatorio, es decir cuan repetibles son las observaciones cuando diferentes
personas hacen las mismas mediciones, con instrumentos alternativos que
intentan medir lo mismo y cuando hay variación incidental de las condiciones
de medición. Así, la medición es confiable cuando la cantidad de error aleatorio
es pequeña, de tal manera que la medida obtenida es un buen estimador del
puntaje verdadero. El índice de confiabilidad queda así definido como la
correlación entre una serie de puntajes observados en una prueba y los
correspondientes puntajes verdaderos.
El problema radica en que no podemos estimar directamente xt de los datos
observados, pues los puntajes verdaderos son desconocidos. Sin embargo,
como lo señala Suen (1990) es posible estimar el cuadrado de xt, si se parte de
una serie de axiomas, conocidos como los supuestos de los tests paralelos.
Para que dos test sean paralelos, tienen que cumplir, tres supuestos básicos, que
son: tienen la misma desviación estándar; se correlacionan igual con una serie
de puntajes verdaderos; toda su varianza que no es explicable por puntajes
verdaderos es puro error aleatorio. Además según este mismo autor, hay otros
tres postulados que sigue al tercer supuesto. En primer lugar los errores
aleatorios se equilibran entre sí por definición y se espera que la media de los
puntajes de error en cada prueba sea cero. En segundo lugar, el error en una
22
prueba no está correlacionado con el error de la otra. Y en tercer y último lugar,
los errores en ambas pruebas no correlacionan con los puntajes verdaderos,
pues estos son producto del azar y no deben presentar covarianzas con nada
excepto el azar.
Suen (1990) señala que si dos test, A y B, han sido diseñados para medir el
mismo dominio y los dos se aplican al mismo grupo de personas, el puntaje
verdadero para cada persona será el mismo en cada uno de dichos tests. Para
ello se hacen necesarias dos condiciones básicas: los puntajes en los tests A y B
tienen varianzas homogéneas y los tests A y B son mutuamente independientes,
es decir, la cantidad de error en el test A no guarda relación con la cantidad del
error en el test B. Nunnally y Bernstein (1995) resumen lo anterior al afirmar
que en el modelo de los tests paralelos se asume que dos o más pruebas
producen puntajes verdaderos iguales pero que generan error de medición
aleatorio independiente.
Si se obtiene el coeficiente r de Pearson entre los dos puntajes observados se
puede usar para estimar el coeficiente de confiabilidad. En caso de no haber
errores, la correlación sería perfecta, es decir, sería 1. Mientras más se aleje el
coeficiente del valor 1 habrá mayor cantidad de error de medición. Es decir, el
cálculo del coeficiente de confiabilidad, constituye un indicador y una manera
de controlar estadísticamente la cuantía de dicho error.
Si podemos identificar dos tests A y B que cumplen con la condición de ser
paralelos, el coeficiente r de Pearson entre los puntajes observados en los dos
test es equivalente al cociente entre la varianza de las puntuaciones verdaderas
y la de las empíricas (Suen, 1990; Muñiz 1996a, 1996b):
23
 AB
 V2
 V2
En la fórmula anterior se expresa la proporción que la varianza verdadera es de
la varianza empírica. Cuanto mayor sea esta proporción, menos corresponderá a
los errores, resultando el coeficiente de fiabilidad en la expresión de la cantidad
de error en las medidas, o si se quiere que proporción de la varianza empírica es
la varianza verdadera.
La correlación anterior se convierte en la correlación elevada al cuadrado entre
los puntajes observados y los puntajes verdaderos. Para una explicación
matemática acerca de lo anterior, se remite al lector al texto “Principles of Test
Theories” de Suen (1990) o “Teoría Clásica de los Tests” de Muñiz (1996a).
Si obtenemos un alto coeficiente 2xt el puntaje observado x esta altamente
relacionado con el puntaje verdadero v. Entonces el puntaje observado puede
ser considerado como una transformación lineal del puntaje verdadero, o si se
quiere, como el puntaje verdadero expresado en una escala diferente. Es decir,
mis observaciones están relativamente libres de errores de medición.
Suen (1990) señala que dentro de la TCT, una vez que se ha estimado 2xt, la
confiabilidad, la varianza de error y el error estándar de medición pueden ser
estimados. Sin embargo esto depende de la capacidad de dos tests diferentes
para lograr los supuestos referidos a ser paralelos.
24
2.1.1
METODO DE LAS FORMAS PARALELAS
Una primera posibilidad para calcular la confiabilidad de un test está en
construir deliberadamente dos versiones equivalentes o formas paralelas (por
ejemplo forma A y forma B. En principio, deben tener el mismo número de
ítems, estos deben ser de dificultad análoga, deben medir los mismo y las
instrucciones, tiempos límites de administración, ejemplos y otros aspectos de
cada uno de los tests, tienen que ser equiparables. Una manera da calcular dicha
correlación (aunque no la única) viene dada por el cociente de la covarianza
(SAB) entre el producto de la varianza de las puntuaciones en ambos test:
rxx' 
SAB 
s AB
s As B
 (A - A)(B B)
n
Los supuestos de paralelismo son aceptados puesto que ambas versiones del
test han sido construidas lo más similares posibles. Sin embargo, a pesar de
haber sido construidas lo más similares posibles, Suen (1990) afirma que ello
no garantiza que los supuestos de paralelismo se cumplan, por lo cual el
coeficiente r de Pearson entre ambas formas del test se conoce como
coeficiente de equivalencia. El problema de la forma paralela es que es costosa
y con frecuencia muy difícil de elaborar (Cerdá, 1984; Aiken, 1996)
25
2.1.2
METODO TEST – RETEST
Un método sencillo para obtener dos tests paralelos es usar el mismo test en el
diseño denominado test - retest. Esto implica aplicar el test a un grupo, en un
momento en el tiempo, y luego de un lapso temporal volver a aplicar dicho test
en el mismo grupo, calculando la correlación de las puntuaciones entre ambas
aplicaciones como se indicó anteriormente.
Desafortunadamente el alcance del supuesto referido al paralelismo de los test
en el diseño test – retest es sólo aproximado y no está garantizado. Esto se debe
a que muchos factores cómo la maduración de las personas a las que se aplicó
el test o el efecto del aprendizaje entre la primera y segunda aplicación pueden
interferir, de tal manera que el puntaje verdadero en el retest, pues ser diferente
que el obtenido en la primera aplicación. Es decir, esta constituye sólo una
aproximación que se conoce con el nombre de coeficiente de estabilidad.
Hay que tomar en cuenta el efecto del aprendizaje, pues algunos tests al
haberlos pasado una vez, los aprendizajes así adquiridos pueden afectar en
forma considerable los resultados en la segunda aplicación. Por ejemplo,
supongamos que se ha aplicado una prueba de vocabulario a un conjunto de
alumnos, y varios de ellos, luego de terminada la prueba, van a buscar los
significados en un diccionario. Si les volvemos a aplicar la prueba, estos
efectos estarán afectando la confiabilidad, pues es probable que reduzca la
varianza de las puntuaciones y con ello la correlación entre ambas aplicaciones.
Para Aiken (1996) esta forma de calcular la confiabilidad básicamente indica el
grado en que se pueden afectar las puntuaciones de un test por las fluctuaciones
que se pueden producir en el intervalo temporal. Además es importante tener en
26
cuenta el intervalo entre test y retest, pues si este es corto, el coeficiente suele
ser más alto, pues los efectos de la memoria juegan un rol más significativo.
A partir de lo anterior nos enfrentamos al problema de determinar cuál es el
tiempo adecuado que debe transcurrir entre cada aplicación. Aunque no hay
reglas específicas respecto a dicho lapso, generalmente suele ser mayor a 1
mes. Lo importante es tener claro cual es la variable que nos interesa medir y
como puede verse afectada por el aprendizaje y/o la memoria, indicando
claramente en el manual de la prueba o reporte de investigación, el lapso
considerado entre ambas aplicaciones. Por ejemplo puede redactarse de la
siguiente: “La confiabilidad se obtuvo mediante el método test – retest, con un
lapso de 3 meses entre ambas aplicaciones. El coeficiente calculado fue de
0.84.”
2.1.3
COMBINACIÓN DE FORMAS PARALELAS Y TEST RETEST
Una alternativa que busca controlar los efectos del aprendizaje implica
construir dos formas paralelas y combinarlas con el método de test retest. Es
decir, se aplica en un primer momento al grupo la forma A del tests, y en el
segundo momento, se aplica la forma B.
El problema con este método es que sigue sujeto a los inconvenientes que
presentan las formas paralelas.
27
2.1.4
METODOS DE DIVISIÓN POR MITADES Y CONSISTENCIA
INTERNA
Una buena alternativa para el problema del paralelismo de los tests, consiste en
construir un solo test, pero dividirlo en dos mitades y tratar los puntajes de cada
una de esas mitades como si fueran los puntajes obtenidos por medio de dos
versiones equivalentes del mismo test. El coeficiente r de Pearson obtenido
entre las dos mitades se conoce como Confiabilidad Por Mitades es una
expresión del grado en el que covarían las dos mitades de un test (Muñiz
(1996b)
Se considera a una sola prueba como consistente de dos partes, cada una de las
cuales mide lo mismo es decir, se les trata como formas paralelas. Para ello una
previa condición a la aplicación de este método es que las dos partes en que
vayamos a dividir el test sean verdaderamente equivalentes. Por ejemplo, en
las pruebas de ejecución máxima los ítems suelen estar ordenados según su
índice de dificultad de forma creciente. Por lo tanto, el dividir una prueba en
una primera parte formada por los ítems del 1 al 10 y otra con los ítems del 11
al 20, produce dos mitades que rompen el supuesto de la dificultad análoga de
las formas paralelas.
Una alternativa a este problema está en dividir la prueba en ítems pares e
impares. Luego se calcula el coeficiente de correlación r de Pearson entre los
puntajes obtenidos en cada mitad.
Es sumamente importante considerar que el coeficiente r de Pearson obtenido
con el método anterior se ve afectado por la longitud del test cómo fue
demostrado por Lord en 1957 (Suen,1990). Así, este coeficiente r de Pearson se
constituye en una subestimación de la confiabilidad. Para corregir este
28
problema relacionado con la reducción de la cantidad de ítems a la mitad, se
debe emplear la fórmula profética de Spearman – Brown:
rtotal 
2r
1 r
Con la aplicación de dicha corrección, se obtiene un r que sea un mejor
estimador de 2xt. Sin embargo, a pesar de la corrección de Spearman – Brown,
aún queda un inconveniente principal en dicha metodología. Suen (1990) señala
que hay distintas maneras en las cuales se puede dividir un test, lo cual conduce
a diferentes coeficientes de consistencia dos - mitades.
La pregunta que queda abierta es ¿cuál de dichos coeficientes resulta ser el más
adecuado? Para tratar de solucionar ese problema se asume que el promedio de
los coeficientes r de Pearson obtenidos entre las diferentes formas de dividir un
test en dos mitades es el mejor estimador de2xt , desarrollándose las fórmulas
de Kuder – Richardson y la de Cronbach.
2.1.4.1
COEFICIENTES DE CONSISTENCIA INTERNA
Nunnally y Bernstein (1995) señalan que la consistencia interna describe
estimaciones de confiabilidad basadas en la correlación promedio entre
reactivos dentro de una prueba. Existen diversos métodos para calcular este tipo
de coeficiente. Entre los más usados podemos mencionar 2 de ellos.
2.1.4.2
FÓRMULAS KUDER – RICHARDSON
Se emplea como una estimación de la media de todos los coeficientes
obtenidos por las diversas formas de división por mitades, siempre y cuando los
ítems se califiquen de manera dicotómica.:
29
k


pi 1-pi  


 k 

r 
 1  i 1 2
s

 k - 1 


En esta fórmula k es la cantidad de reactivos, s2 es la varianza de las
calificaciones totales en la prueba, y p es la proporción de personas que
respondieron correctamente al reactivo i. Esta formula se conoce como la
fórmula 20 de Kuder – Richardson.
Por otro lado, tenemos también la fórmula 21 de Kuder – Richardson, que se
basa en la suposición de que todos los reactivos son de igual dificultad:
 k  x k - x 
r 
1 
ks2 
 k - 1 
Cómo lo señala Suen (1990), las fórmulas anteriores son empleadas sobretodo
en la medición de habilidades u otras características cognitivas.
2.1.4.3
COEFICIENTE ALPHA DE CRONBACH
Cómo se señaló anteriormente, las formulas de Kuder – Richardson pueden
aplicarse sólo cuando los reactivos se califican de manera dicotómica, mientras
que el coeficiente  puede calcular la confiabilidad de una prueba que consiste
en reactivos a los que se les asigna dos o más valores estimados de respuesta.
Su formula viene dada por:
30
k

2

s
i 
 k   i 1 
 
 1
sx 2 
 k - 1 





Nunnally y Bernstein (1995) indican que a pesar que el coeficiente  ignora
ciertas fuentes de error de medición potencialmente importantes, es
sorprendente la poca diferencia que por lo general implican estas fuentes.
Agrega además que el valor obtenido en una muestra de 300 o más personas es
muy similar al valor obtenido empleando el método de las formas equivalentes.
Cerdá (1984) afirma que el problema con estos coeficientes de consistencia
interna es que sólo consideran los efectos de los diferentes reactivos en la
confiabilidad. Los errores de medición que provocan las diferentes condiciones
o momentos de aplicación no se reflejan en este tipo de coeficientes
A la pregunta que tan alto debe ser un coeficiente de confiabilidad, se puede
responder según Aiken (1996) “depende de lo que planeamos hacer con los
resultados”. Sin embargo él considera que para las pruebas objetivas de
personalidad un coeficiente de 0.85 es bueno.
31
2.1.5
2.1.5.1
INFERENCIAS SOBRE EL COEFICIENTE ALPHA
UN SOLO COEFICIENTE
Muñiz (1996a) indica que una vez que se ha calculado el valor del coeficiente 
en una muestra, se debe considerar si a determinado nivel de confianza, el valor
obtenido es compatible con la hipótesis acerca que  tenga determinado valor
en la población, siendo habitual preguntarse si el valor obtenido en la muestra
resulta estadísticamente significativo. Para ello, indica que en Kristof en 1963 y
Feldt en 1965 han propuesto el siguiente estadístico de contraste para la
hipótesis nula referida a que alpha tenga cierto valor en la población:
F
1
1'
el cual se distribuye según F con (N-1) y (n -1)(N - 1) grados de libertad y
donde:
N: Número de personas de la muestra
n: Número de ítems del test
: Valor de alfa en la población
’: Valor de alpha en la muestra
32
2.1.5.2
DOS MUESTRAS INDEPENDIENTES
Otra situación con la cual podemos enfrentarnos en la investigación
psicométrica está referida a si una prueba aplicada a dos muestras
independientes, resulta ser más confiable para uno de los grupos frente a otro.
Por ejemplo, podemos preguntarnos si una prueba de Inteligencia Espacial tiene
distinta confiabilidad entre los hombres y las mujeres.
Para ello, Feldt ha propuesto en 1969 (Muñiz, 1996a) la razón w, que permite
contrastar la existencia de diferencias estadísticamente significativas entre dos
coeficientes alpha, obtenidos en muestras independientes.
1 - α1
w
1 - α2
2.1.5.3
Se distribuye según F con n1-1 y n2-1 g.l.
DOS MUESTRAS DEPENDIENTES
Una situación similar a la anterior es cuando aplicamos dos tests que miden el
mismo constructo en una sola muestra, y tratamos de identificar cual de los dos
resulta ser más confiable.
Para ello, Feldt ha propuesto en 1980 (Muñiz, 1996a) el uso de la prueba t de
Student, que permite contrastar la existencia de diferencias estadísticamente
significativas entre dos coeficientes alpha, obtenidos en muestras dependientes.
33
t
(α1  α 2 ) n - 2
Se distribuye según t con n-2 g.l.
2
ρ
=
12
4(1 - α1 )(1  α 2 )(1  ρ )
2
12
correlación puntajes en
ambos tests
2.1.6
FACTORES QUE AFECTAN LA CONFIABILIDAD
2.1.6.1
LONGITUD DEL TEST
Al hablar de la longitud del test nos estamos refiriendo al número de ítems que
lo componen. De acuerdo a la fórmula de Spearman Brown, al aumentar en
número de ítems, también aumenta la confiabilidad. Pero esto no quiere decir
que el agregar ítems a diestra y siniestra va a hacer que nuestra prueba sea más
confiable. Sólo aquellos ítems que muestren buenas propiedades psicométricas
(adecuada dificultad, discriminación y ausencia de sesgo) podrán contribuir al
incremento de la confiabilidad; es decir, tiene que ser ítems paralelos a los ya
existentes.
Para estimar el nuevo coeficiente de confiabilidad de un test se puede emplear
la siguiente fórmula:
nρ xx'
ρ'xx' 
1  (n  1)ρ xx'
xx’ : coeficiente de confiabilidad original
n : número de veces que debe aumentar el
test
Una pregunta que podemos hacernos muchas veces es ¿en cuanto se debe
aumentar el test original para obtener una confiabilidad deseada?. La respuesta
está dada por una simple conversión matemática de la fórmula anterior,
quedando de la siguiente manera:
34
n
2.1.6.2
ρ'xx' (1  ρ xx' )
ρ xx' (1  ρ'xx' )
.
CONFIABILIDAD Y VARIABILIDAD
Hemos visto que la manera de calcular el coeficiente de confiabilidad implica
el uso de la correlación. El problema con la correlación es que esta se ve
afectada por la homogeneidad del grupo en la cual fue calculada. Es decir,
mientras más heterogéneo es el grupo, mayor suele ser la confiabilidad.
Mediante la fórmula que se presenta a continuación, es posible estimar el
aumento de la confiabilidad al aumentar la variabilidad de la muestra, siempre
y cuando se cumpla el supuesto que la varianza de los errores de medida es la
misma en ambas poblaciones, la homogénea y la heterogénea (Muñiz, 1996a).
Debemos tener en cuenta que aquí usamos los términos homogéneo y
heterogéneo en sentido relativo, para referirnos al grupo con menor y mayor
variabilidad respectivamente.
ρ 22'
2.1.7
δ2
 1  12 (1  ρ11' )
δ2
21 : varianza del grupo heterogéneo
22 : varianza del grupo homogéneo
11’ : confiabilidad del grupo homogéneo
CONFIABILIDAD DE LAS DIFERENCIAS
Muchas nos interesa obtener puntuaciones provenientes de restar otras dos
puntuaciones (en diferentes tests, o entre subtests). En esos casos, es importante
conocer la confiabilidad de dichos puntajes diferenciales. (Muñiz 1996b)
35
La confiabilidad de dichas diferencias puede ser calculada mediante la
siguiente fórmula:
 x2  xx'   z2  zz '  2 x z  xz
 dd ' 
 x2   z2  2 x z  xz
2x : varianza en el test “x”
xx’ : confiabilidad del test “x”
2z : varianza del test “z”
zz’ : confiabilidad del test “z”
xz : correlación de puntajes tests “x”
y “z”
2.2
VALIDEZ
Es importante considerar que un alto coeficiente de confiabilidad solo indica
que el puntaje observado es un estimador efectivo del puntaje verdadero; pero
no indica que dicho puntaje observado sea un indicador de la cantidad del
constructo que se pretende medir. Entonces nos enfrentamos al problema de
que tan lícito es emplear los puntajes observados en un test para realizar
inferencias acerca de determinado constructo. Este problema esta referido a la
validez del test
Tradicionalmente la validez de un test se define como el grado en el cual este
mide aquello para lo cual se le diseñó; es decir en que grado el test mide lo que
pretende medir. (Cerdá 1984; Aiken, 1996; Hernández, Fernández y Baptista,
1997).
Para Muñiz (1996a) un test representa una muestra de conductas a partir de la
cual se pretende realizar ciertas inferencias. La validez se refiere en este
36
contexto al conjunto de pruebas que permiten garantizar la pertinencia de tales
inferencias.
Mientras la confiabilidad puede ser representada de manera numérica, la
validez no siempre puede ser adecuadamente recogida por un índice numérico.
La validez del uso particular del puntaje en un test es respaldada por la
acumulación de datos empíricos, estadísticos, teóricos y evidencia conceptual.
Así, no existe un único coeficiente de validez para un determinado
procedimiento de medición. Varios estadísticos empleados para determinar la
validez de una prueba son descriptores numéricos de la fuerza de una entre
varias piezas de evidencia empírica respecto a la validez. Al final la validez es
la adecuación del uso particular de los puntajes de un test para realizar
inferencias respecto a un constructo y que la validación de un test que refiere al
proceso mediante el cual se acumula evidencia para respaldar el uso
determinado de los puntajes observados.
Generalmente se propone una división tripartita de los procesos o modalidades
que se emplean para la validación de un instrumento. Estos son: la validez de
contenido, la validez predictiva y la validez de constructo. Respecto a estas
modalidades de validez, Aiken (1996) afirma que una prueba puede tener
muchos tipos de validez, dependiendo de los propósitos específicos con los que
se le diseñó y la población a la cual se orienta.
2.2.1
VALIDEZ DE CONTENIDO
Muñiz (1996a) define a este tipo de validez como “la necesidad de garantizar
que el test constituye una muestra adecuada y representativa de los contenidos
que se pretende evaluar con él.” (p. 119). Aiken (1996) la define cómo la
medida en la cual los ítems de la prueba representan un área o universo
37
completo de habilidades, comprensiones y otros comportamientos que se
supone la prueba debe medir.
Desde la TCT los ítems en un test supuestamente constituyen una muestra
representativa de todos los ítems que se pueden emplear para medir el
constructo de interés. Si este supuesto se cumple, entonces se podrá decir que la
prueba tiene validez de contenido, quedando esta definida como la
representatividad de los ítems empleados en un test para medir un constructo
particular.
La representatividad de un test puede definirse como la precisión con que
podemos hacer inferencias acerca de la puntuación de la persona en el universo,
a partir de la puntuación en la muestra de ítems que constituyen la prueba (Paz,
1996). Esto es posible gracias a que la muestra de ítems en la prueba reproduce
las características esenciales del universo de ítems relevantes destinados a
medir cierto constructo, en la proporción y balance adecuado.
Muñiz (1996a) señala que la práctica más usual para lograr este tipo de validez
consiste en enumerar todas las áreas de contenido que se consideren
importantes o imprescindibles y luego asegurarse que la prueba contenga ítems
que hagan referencia a cada una de ellas en una proporción adecuada.
Sin embargo, es muy frecuente que no se disponga de una definición explícita
de la población de contenidos; en cuyo caso hay que proceder por caminos
indirectos, cómo la consulta a expertos en el área que trata el test. Aiken (1996)
agrega que este tipo de validez se corrobora mas bien por cuestiones de juicio
que de correlación empírica. Kerlinger (1997) señala que deben estudiarse los
ítems de una prueba y ponderar cada uno de ellos de acuerdo con su
38
representatividad supuesta del universo, lo cual constituye básicamente una
cuestión de juicio.
Para Aiken (1996), la validez de contenido es sobretodo importante en las
pruebas de aprovechamiento, y se basa en el grado que la prueba representa los
objetivos de la enseñanza. Sin embargo creemos que si bien en las situaciones
señaladas por Aiken, la validez de contenido cobra mayor relevancia, estamos
de acuerdo con Hernández, Fernández y Baptista (1997) quienes señalan que
todo instrumento de medición debe contener representados a todos los ítems del
dominio del contenido de las variables a medir.
En general, el proceso de validación de contenido implica la definición del
universo de indicadores y sus respectivos ítems representativos, la
identificación de jueces competentes dentro del área que el test pretende medir;
y el juicio par parte de estos expertos respecto a la relevancia y
representatividad de cada ítems empleado para medir el constructo o los
constructos implicados en el test que se está construyendo. Este procedimiento
es denominado criterio de jueces (Cerdá, 1984; Escurra, 1988; Aiken 1996).
Escurra (1988) indica que la modalidad más común para obtener la validez de
contenido mediante el criterio de jueces es solicitar la aprobación o
desaprobación de un ítem de la prueba por parte de varios jueces, cuyo número
varía según los propósitos del autor del instrumento. Además señala que los
resultados pueden ser cuantificados y así evaluar su significación estadística
mediante el cálculo de un índice de concordancia entre jueces conocido como
coeficiente de validez V de Aiken, cuya fórmula se presenta a continuación:
39
V 
S
(n(c  1))
En dicha ecuación tenemos que:
S: sumatoria de si
si: valor asignado por el juez i
n: número de jueces
c: número de valores en la escala de valoración
El coeficiente de Validez V de Aiken puede obtener valores entre 0 y 1. A
medida que sea más elevado, el ítem tendrá mayor validez de contenido. El
resultado puede evaluarse estadísticamente haciendo uso de la tabla de
probabilidades asociadas de cola derecha, tabulada por Escurra (1988) para
calificaciones dicotómicas (aprueba / desaprueba el ítem):
Tabla 1 : Nivel de significancia del coeficiente V de Aiken, de
acuerdo al número de jueces y acuerdos entre ellos.
Jueces
5
6
7
Acuerdos
V
3
0.60
4
0.80
5
1.00
4
0.67
5
0.83
6
1.00
5
0.71
6
0.86
7
1.00
40
p
.032
.016
.008
8
9
10
6
0.75
7
0.88
.035
8
1.00
.004
7
0.77
8
0.89
.020
9
1.00
.002
8
0.80
.049
9
0.90
.001
10
1.00
.001
Muñiz (1996a) señala que suele incluirse como una submodalidad de validez de
contenido a la validez aparente. Esta se define como la necesidad que el test de
la impresión a los que se le aplica, que efectivamente es adecuado, tiene sentido
para medir lo que se pretende. Esta es la manera mas informal de obtener
validez en una prueba y es generalmente considerada inaceptable por si misma,
a menos que se use en combinación con otras formas más fuertes de garantizar
la validez del test.
Esta se refiere al aspecto físico de una prueba, es decir, si de primera impresión
parece medir aquello que pretende. En este sentido no se refiere a lo que el test
mide, sino más bien a lo que a primera vista parece que mide. La validez
aparente resulta ser sinónimo de adecuación del material al objetivo del
examen. Si el test es interesante y adecuado habrá más posibilidades de que
provoque una mejor cooperación y motivación por parte del examinado (Aiken,
1996). Se puede en muchas ocasiones mejorar la validez aparente de un test
remodelando sus ítems, de tal manera que su aspecto se relacione de manera
más específica con aquello que pretende medir. Con esto lo que se pretende
mejorar es las posibilidades de aceptación del test por parte del sujeto.
41
2.2.2
VALIDEZ PREDICTIVA
Uno de los usos más frecuentes de los tests está relacionado con la predicción a
partir de los puntajes observados, de alguna variable o criterio de interés.
(Muñiz, 1996a). Así se define la validez predictiva como el grado de eficacia
con el cual se puede predecir una variable de interés o criterio a partir de las
puntuaciones en un test determinado.
Por su parte, Cerdá (1984) la define como la amplitud con la que la varianza de
un test utilizado con fines predictivos, correlaciona con la varianza de una
futura conducta.
El método para su calcula se basa en la correlación entre una serie de puntajes
en un test y otra serie de conductas, que se toman como criterio. Por
consiguiente un solo test puede tener más de una validez predictiva, puesto que
se le puede correlacionar con diversas formas de conducta. Sin embargo es
importante definir con la mayor exactitud el fin al cual se le destina, de tal
manera que se puede construir con el rigor correspondiente el criterio, el cual a
su vez debe ser válido y confiable.
En principio el calculo de este coeficiente de validez implica la correlación de
los puntajes obtenidos en determinado test y los obtenidos en el criterio de
interés. El problema radica en que los criterios de interés suelen ser muy
complejos y difíciles de definir de manera unívoca (Muñiz, 1996a)
Para el presente trabajo nos vamos a centrar sólo en predicción de un criterio
sobre la base de una sola puntuación, aunque es posible realizar predicciones
más exactas cuando se utilizan múltiples predictores, como es el caso de la
Regresión Lineal Múltiple, el Análisis Discriminante y la Regresión Logística
42
Aiken (1996) considera que debido a las fuentes de varianza primaria y
secundaria, sólo puede predecirse el 36% de la varianza en las calificaciones de
criterio, por lo cual la predicción o validez de criterio de la mayor parte de
pruebas es de .60.
Cuando el puntaje del test y el del criterio se toman al mismo tiempo, se habla
de validez concurrente. Cerdá (1984) la define cómo el grado de correlación
que existe entre la varianza de un test y la varianza de un criterio tomando
ambos al mismo tiempo. Se usa cada vez que se aplica una prueba a personas
en distintas categorías, con el objetivo de determinar si las calificaciones
promedio de distintos tipos de personas son diferentes de manera significativa.
Este tipo de validez es más importante cuando se utiliza un test para la
descripción y el diagnóstico de una conducta.
2.2.3
RELACIÓN DE LA VALIDEZ PREDICTIVA CON OTROS
PARÁMETROS
2.2.3.1
CON LA CONFIABILIDAD
Matemáticamente (véase Muñiz, 1996a) puede establecerse que el índice de
validez de un test es menor o igual que la confiabilidad del mismo.
Además se ha dicho que este índice es calculado mediante la correlación de los
puntajes en el test y la calificación en el criterio. Como sabemos que la
medición en psicología no es perfecta, tanto es test como el criterio se ven
afectados por los errores de medición.
43
Por este motivo Spearman ha propuesto en 1904 (Muñiz 1996b) una fórmula de
atenuación que permite hacer una estimación de cual sería la validez predictica,
si tanto el test como el criterio estarían libres de errores de medición. Dicha
fórmula se presenta a continuación:
rxy
ρ VxVy 
ρ VxVy  rxy
rxx'
rxx' ryy'
A partir de lo anterior se puede señalar que el índice de validez aumenta al
aumentar la fiabilidad del test y/o del criterio, según se consigna en la siguiente
fórmula:
ρ xy 
2.2.3.2
rxy rxx'n ryy'n
n: hace referencia a los nuevos
coeficientes de confiabilidad
rxx' ryy'
CON LA LONGITUD DEL TEST
Habíamos señalado anteriormente que el índice de validez de una prueba se
encuentra íntimamente relacionado con la confiabilidad de los puntajes de un
tests y con la confiabilidad del criterio. Decíamos que si mejora la confiabilidad
de una prueba, mejora también el índice de validez de la misma. Sabemos que
una manera de mejorar la confiabilidad de una prueba es aumentar ítems
paralelos a los ya existentes. Considerando lo anterior, es posible calcular cuál
sería el nuevo índice de validez, dado un aumento en el número de ítems que
componen un tests.
44
La formula para calcular ese nuevo índice de validez, luego de aumentar en un
número de veces determinado (n) el test se expresa de la siguiente manera:
ρ xy' 
2.2.3.3
ρ xy n
1  (n - 1)ρ xx'
CON LA VARIABILIDAD
Como ya habíamos dicho al tratar de la confiabilidad, un coeficiente de
correlación se ve afectado por la variabilidad de la muestra en la cual fue
calculado, y al ser el índice de validez una correlación, se encuentra afectada
por la variabilidad.
Esta es una situación muy común que ocurre en todo tipo de selección, el
coeficiente de correlación calculado en una muestra homogénea, es decir
correlacionando las puntuaciones de las personas seleccionadas con el criterio,
resulta infraestimado. Si se trata de obtener un índice de validez, este debería
ser calculado en base a la muestra total de postulantes (muestra heterogénea).
Como no siempre se dispone de las puntuaciones en el criterio para la totalidad
de los postulantes (estas generalmente sólo están disponibles para los
seleccionados), se puede estimar el valor del índice de validez mediante la
siguiente fórmula:
ρ xy 
2X : varianza de la muestra
δ X rxy
2
2
δ 2X rxy
 δ 2x  δ 2x rxy
heterogénea (postulantes)
2x : varianza de la muestra
homogénea(seleccionados)
45
2.2.4
VALIDEZ DE CONSTRUCTO
Suen (1990) señala que a pesar que la validez de contenido y la validez referida
al criterio (validez predictiva y validez concurrente) proporcionan una
evidencia importante respecto al uso apropiados del puntaje observado en un
test, ninguno de esos tipos de validez provee evidencia directa para realizar el
salto inferencial desde los puntajes del test al constructo que se pretende medir.
La validez de constructo se refiere al grado en el cual un instrumento es una
medida de un constructo en particular, es decir, se refiere a la extensión en la
cual los puntajes de un test son un indicador válido de un constructo en
particular. Paz (1996) señala que la validación de un test implica la obtención
de pruebas a favor de la existencia del constructo psicológico de interés, así
como la demostración que el test es adecuado para medir dicho constructo.
Cerdá (1984) la define como el grado en que la varianza en una serie de
medidas está en relación con la varianza de algún aspecto de la conducta sobre
el que previamente se ha elaborado una hipótesis o una teoría. Afirma que un
test tiene validez de constructo si el resultado obtenido es el esperado de
acuerdo a la teoría formulada, lo cual significa que la validez de constructo
lleva implícita la idea de predicción.
Un test estará ligado al sistema de constructos dentro del que fue construido; es
este tipo de validez el que nos indicará el grado en que el instrumento de
evaluación es una medida adecuada del constructo y hasta qué punto las
hipótesis derivadas de él pueden confirmarse mediante la utilización del test.
46
La validez de constructo no se determina de una sola manera o por medio de
una investigación, sino que comprende un conjunto de investigaciones y
procedimientos (Aiken, 1996):
1.
Juicios de expertos. Evalúan si el contenido corresponde al constructo de
interés.
2.
Análisis de consistencia interna. La correlación de cada ítem con el puntaje
total del test y los diversos subtests con el puntaje total de la prueba. Si se
obtienen correlaciones elevadas entre cada ítem y el puntaje total se infiere
que los reactivos miden el mismo atributo.
3.
Estudios de las relaciones, tanto en grupos que se forman con fines
experimentales como de manera natural, de las calificaciones de la prueba
con otras variables en las que difieren los grupos.
4.
Correlaciones de la prueba con otras pruebas y variables con que se espera
que la prueba tenga cierta relación y análisis de factores de estas
correlaciones
5.
Método experimental: pre test, pos test.
6.
Interrogar con detenimiento a los sujetos o a los calificadores acerca de las
respuestas que dieron en una prueba o su escala de calificaciones, con el
objeto de revelar los procesos mentales específicos que tuvieron lugar al
decidir dar esas respuestas.
A pesar de las múltiples modalidades señaladas por Aiken (1996), Muñiz
(1996a) afirma que dos son los procedimientos más empleados para obtener
datos respecto a la validez de constructo. Dichos procedimientos son el análisis
factorial y la matriz multirrasgo - multimétodo, que dan información acerca de
la validez factorial y la validez convergente - discriminante, respectivamente.
Estas modalidades se refieren a un punto de vista interno cuando implican las
47
relaciones entre los ítems de un test, reflejando la estructura hipotetizada; y a
un punto de vista externo cuando implican la relación del test con otras
medidas, reflejando las relaciones implicadas en la teoría del constructo
analizado.
2.2.4.1
VALIDEZ FACTORIAL
Paz (1996) afirma que es una de las técnicas más utilizadas para determinar la
validez de constructo de un test. El análisis factorial es una técnica de análisis
multivariado que permite estimar los factores que dan cuanta de un conjunto de
interrelaciones entre variables. Es pues una técnica estadística diseñada para
reducir un conjunto de variables, medidas o ítems a un grupo más pequeño de
factores comunes. Estos factores comunes resultan ser los constructos
subyacentes respecto a los cuales las variables, medidas o ítems se configuran
como indicadores imperfectos.
Los factores obtenidos son artificios matemáticos, que pueden ser interpretados
a la luz de una teoría psicológica a partir de las variables que lo componen. Los
factores se constituyen como constructos provisionales, que necesitan de
ulteriores confirmaciones por otros caminos a parte del análisis factorial (Paz,
1996).
El análisis factorial es un procedimiento idóneo para obtener evidencia a favor
de la validez de constructo, pues puede demostrar de manera empírica si las
interrrelaciones entre los ítems de un test son consistentes con la estructura
interna del constructo que se pretende medir.
Para determinar la validez factorial de los ítems de un test, se someten a los
mismos al análisis factorial de tal manera que se obtienen los factores
48
pertinentes (Muñiz, 1996a, Paz 1996). Por ejemplo, si el test está destinado a
medir un constructo unitario, es de esperar que los ítems se agrupen mediante el
análisis factorial en torno a un solo factor. En la medida que los ítems se
comportan de dicha manera, se podrá decir que le test posee validez factorial.,
Muñiz (1996a) habla de validez factorial de un constructo cuando todas las
medidas diseñadas para evaluarlo muestran coherencia factorial cuando se
someten a un análisis factorial. En suma, la validez factorial de un test queda
definida por su grado de saturación en uno o varios factores y se determina
mediante el análisis factorial. Esta saturación factorial de un test es equivalente
a su correlación con un factor previamente determinado. (Cerdá, 1984; Muñiz,
1996a).
Suen (1990) postula que para realizar un análisis factorial, inicialmente se
postula una estructura factorial unitaria. Dicho factor es identificado generando
matemáticamente una variable imaginaria que tenga la máxima carga factorial
en los ítems. La correlación entre un ítem y un factor se denomina carga
factorial.
Dada la hipótesis que un grupo de ítems son la manifestación de un número
menor de factores comunes, nos enfrentamos al problema de diferenciar los
factores relevantes de los no relevantes que pueden estar contribuyendo al error
de medición. Entonces, se hace necesaria una decisión respecto a cuales de
estos factores retener y cuales descartar.
Rrespecto a las decisión referida a cuales factores conservar y cuales descartar,
comúnmente se han empleado dos criterios (Suen, 1990). Ellos son, en primer
lugar el criterio de Kaiser, con el cual se descarta un factor si este no da cuenta
de la varianza significativa de por lo menos un ítem. En segundo lugar esta el
Test Scree de Cattell, que descarta los factores en el punto en el cual el monto
49
de varianza explicada por un factor y otro factor se vuelve estable. A pesar de
usarse esos criterios, como indicación práctica, es recomendable conservarse
tantos factores como sean necesarios para emular la estructura interna del
constructo que se pretende medir.
Una vez identificados los factores por medio de las técnicas del análisis
factorial, se pueden emplear dichos factores para describir la composición
factorial del test, pudiéndose a sí caracterizar cada test en función de los
factores que más influencia ejercen en la determinación de sus puntuaciones, es
decir, se calcula su peso o saturación en uno o varios factores. (Cerdá, 1984)
El siguiente paso, luego de identificar los factores implica definir que ítems se
encuentran asociados con que factores. Esto se puede hacer examinando la
carga factorial de cada ítem. Aquellos ítems que supuestamente han sido
diseñados para medir la misma dimensión, deben tener altas cargas en el mismo
factor. Esto sólo se puede realizar si los factores son previamente rotados.
Dependiendo de las relaciones teóricas entre las dimensiones del constructo
representado por los factores, se realizará una rotación de tipo ortogonal o de
tipo oblicua, siendo el método más común, la rotación tipo varimax. La
ortogonal se emplea cuando las dimensiones son teóricamente independientes
una de la otra. La rotación oblicua se empleará cuando las dimensiones se
encuentran interrelacionadas, siendo el método más común, la rotación tipo
oblimin (Suen, 1990).
Cómo limitación del análisis factorial podemos señalar que este procedimiento
de validación nos proporciona el grado de saturación de un test en uno o varios
factores previamente descritos, pero ¿cuál es la validez empírica de dichos
factores? Cerdá (1984) afirma que se ha imputado a los factorialistas el haberse
50
mas bien limitado a aislar y describir factores en vez de utilizar esos resultados
para confirmar o rechazar hipótesis o sugerir otras nuevas.
2.2.4.2
MATRIZ MULTIRASGO - MULTIMÉTODO
Este procedimiento fue sistematizado por Campbell y Fiske en 1959 (Suen,
1990; Muñiz, 1996a; Paz, 1996). Se evalúa por medio de la matriz multirasgo –
multimétodo, que viene a ser la matriz de correlaciones en la cual aparecen
varios rasgos psicológicos o constructos, medidos por varios métodos.
Para hablar de validez convergente, la matriz debe mostrar correlaciones altas
entra las medidas de un mismo constructo con diversos métodos para medirlo.
Las medidas de un mismo rasgo convergen aunque se hayan hecho por distintos
métodos.
La validez discriminante implica que las correlaciones entre las medidas del
mismo constructo por distintos métodos deben ser más altas que las
correlaciones entre las medidas de rasgos distintos por el mismo método. Para
tener validez de constructo, un test debe tener validez convergente y validez
discriminante (Cerdá, 1984).
2.2.5
VALIDEZ ECOLÓGICA
Zinser (1987) nos dice que este tipo de validez hace referencia a la posibilidad
de generalizar los resultados de un estudio a otras condiciones del medio
ambiente no incluidas en un principio. En cuanto a los tests, se refiere
específicamente a sí podemos generalizar la validez del instrumento a otras
situaciones o características de la muestra que no se hallan considerado en un
momento inicial. Se relaciona con este tipo de validez, la validez lingüística,
51
que implica que el lenguaje en el cual está planteado el test sea acorde al medio
en el cual se aplica.
Como lo señala Marín (1986), muy pocas pruebas consideran los factores
“émicos”, es decir los constructos o conceptos con características específicas
de un grupo cultural.
Para Suen (1990), la validez ecológica es un tipo particular de la validez de
contenido que se relaciona con los aspectos ambientales dentro de los cuales se
pretende aplicar determinado test.
2.3
SIGNIFICACION DE LAS PUNTUACIONES. BAREMACIÓN
Existen una serie de problemas en la medición de las variables psicológicas:
ausencia de cero absoluto; carencia, por lo general, de unidades de medición
constantes; falta de valores límites; etc. Todo esto hace que sea muy difícil
interpretar las puntuaciones directas, por lo que se suele llevar a cabo
transformaciones de las puntuaciones directas, a fin de facilitar su comprensión
e interpretación (Muñiz, 1996a).
Esto da como resultado las tablas o baremos que nos permiten interpretar el
atributo medido en una persona, en función de la distribución de dicho atributo
dentro de un grupo de referencia (que comparte algunas similitudes entre si).
Si bien existen diferentes formatos para presentar las tablas o baremos,
generalmente se utilizan los percentiles y las puntuaciones típicas con sus
derivados.
52
2.3.1
PERCENTILES
Un percentil nos está indicando el porcentaje de personas que tienen una
puntuación directa inferior a la obtenida por una persona en un test
determinado. Por ejemplo, si Juan obtuvo un puntaje directo de 18 en un test de
Aptitud Espacial, y al buscar dicho valor en el baremo, vemos que corresponde
al percentil 70, estamos diciendo que Juan obtuvo un puntaje superior al 70%
de personas en el grupo normativo.
Las ventajas de estas puntuaciones es que se pueden calcular fácilmente,
además su interpretación es bastante directa y sencilla.
Los inconvenientes son, falta de unidad constante que impide realizar
determinadas operaciones (sumar, restar,...). Sólo podemos hacernos una idea
clara del orden en que se encuentran las personas en su grupo, pero no de la
cuantía o magnitud de las diferencias.
2.3.2
PUNTUACIONES TÍPICAS (Z)
Las puntuaciones típicas implican una transformación de las
puntuaciones directas en una nueva escala llamada puntajes Z, que tiene una
media de 0 y una desviación estándar de 1, restándole a cada puntaje directo, la
media, y dividiendo el resultado entre la desviación estándar.
Z
xx
s
53
Las puntuaciones Z se interpretan como las unidades que una persona se aparta
de la media de su grupo, que se toma como origen. Si una persona tiene una z =
1 quiere decir que se aparta de la media en exactamente una desviación
estándar. Además el signo nos permite saber si la puntuación de la persona está
sobre la media (valores positivos) o debajo de la media (valores negativos).
2.3.2.1
PUNTUACIONES TÍPICAS DERIVADAS (ZD)
Un inconveniente con las puntuaciones típicas (Z) es que nos encontramos
frente a calificaciones con signos negativos y con puntos decimales. Para evitar
tanto los decimales como los signos negativos, las puntuaciones típicas son
transformadas linealmente:
ZD = a + bZ,
En la fórmula anterior a y b son respectivamente la media y desviación estándar
deseadas en la nueva distribución de puntuaciones. Como ejemplos de las
puntuaciones típicas derivadas podemos señalar:
a
b
Puntajes T
50
10
CI WAIS
100
15
CI Stanford -Binet
100
16
54
2.3.2.2
PUNTUACIONES TIPICAS NORMALIZADAS. ZN
E posible transformar las puntuaciones directas a fin de que su distribución se
ajuste a la curva normal. Dicha transformación es sólo justificable cuando el
atributo que estamos midiendo se distribuje normalmente en nuestra población.
Para comprobar el supuesto de la distribución normal en la población, se
recomienda aplicar alguna prueba de bondad de ajuste a la curva normal, como
puede ser el Test de Normalidad de Kolmogorov – Smirnov o la Pruba Chi
Cuadrado de Bondad de Ajuste.
A partir de las puntuaciones típicas normalizadas se suelen derivar otras
puntuaciones, constituyendo fundamentalmente dos tipos de escalas:
-
Estaninos o eneatipos: escala que divide la serie en nueve rangos. Su media
es 5 y su desviación típica es 2.
-
Escala de pentas: divide a la serie en cinco grandes unidades con media de
3 y desviación típica de 1.
2.4
ALGUNAS APROXIMACIONES A LA CONSTRUCCIÓN DE
UNA PRUEBA PSICOMÉTRICA.
La meta en lo que respecta a la construcción de una prueba es la de desarrollar
un instrumento técnicamente apropiado dentro de las limitaciones prácticas
(Brown, 1980). Por esto cada día se pone mayor énfasis en establecer de forma
precisa una metodología a la cual deben atenerse los constructores de pruebas
(Prieto y Delgado, 1996).
Thorndike (1989) considera que en la psicometría, el interés se centra en los
atributos o rasgos de las personas, en las pruebas que intentan medirlos y en los
55
ítems empleados para dicho propósito. Dicho autor define los rasgos como
aquellos conceptos que se refieren a cierta característica en la conducta de la
persona, que se evidencia con cierto grado de congruencia temporal y
situacional. Como dichas características no son directamente observables, se
habla de rasgos latentes, refiriéndose a la característica hipotética que explica el
conjunto específico de las semejanzas y diferencias individuales, que presentan
en forma consistente las personas. Son algo que en cierta forma reside en la
persona, como su habilidad espacial o su neuroticismo. Los tests que se diseñan
para medir los rasgos, serían manifestaciones de las diferencias individuales en
las aptitudes o la personalidad (Prieto y Delgado, 1996). Una distinción
importante que puede hacerse en este punto es la señalada por Brown (1980),
quien diferencia entre pruebas de ejecución máxima y pruebas de ejecución
típica. En las primeras, la persona debe tratar de obtener la mejor calificación
que pueda, y se refieren a las pruebas de rendimiento y de aptitudes. En las
segundas nos interesa el comportamiento habitual de la persona, es decir, se
vinculan a la medición de diversos rasgos de la personalidad.
Thorndike (1989) postula que un atributo es cuantificable, de tal manera que la
puntuación de una prueba constituya una representación imperfecta de algún
rasgo latente. Además, dicha relación es monotónica, es decir, el aumento en
los niveles de un rasgo determinado, implica un incremento sostenido en la
puntuación esperada en la prueba. Así, se espera que todos los ítems estén
demostrando de alguna manera la existencia del rasgo latente de interés para
quien elaboró la prueba (Nunnally y Bernstein, 1993).
Nunnally (1991) señala que el modelo lineal se constituye como el más
adecuado parta desarrollar la mayoría de las medidas de atributos psicológicos,
siendo empleado en casi el 95% de los casos. Este modelo señala que los
puntajes de una prueba se deben obtener sumando los puntajes obtenidos en
56
cada ítems, lo cuales pueden ser ponderados, o tener una combinación de
signos positivos y negativo.
Una prueba psicométrica debe ser construida sobre la base de un plan formal y
un cronograma de trabajo, lo cual tiene como ventajas el proporcionar una idea
clara de lo que se va a hacer y como va a hacerse, además de facilitar la
comunicación entre todas las personas que participan en la construcción del
instrumento.
Basándonos fundamentalmente en el modelo propuesto por Thorndike (1989) y
considerando los aportes de otros autores, los componentes de un plan
incluyen:
1.
Definición inicial del dominio o atributo a evaluarse. Se considera que
este es el paso previo fundamental a realizarse antes de la construcción
de cualquier tipo de prueba (Cerdá, 1984; Prieto y Delgado, 1996).
Este debe estar definido de la forma más explícita posible, pues los
rótulos pueden significar cosas diferentes para personas diferentes, por
lo cual se hace necesaria una definición operacional del constructo a
trabajarse (Kerlinger, 1997).
Thorndike (1989) considera que el procedimiento de preparar una
prueba es un proceso de interacción continua en el cual se avanza y se
retrocede, por ello, conforme se van desarrollando los procesos de
evaluación, estos se van modificando a medida que se va clarificando
la
definición
del
atributo.
Dichas
definiciones
surgen
fundamentalmente a partir de la revisión bibliográfica pertinente, es
decir, se encuentran soportadas por modelos teóricos, en la mayoría de
casos.
57
2.
Especificación de los usos para los cuales se destina el instrumento.
Un instrumento será construido fundamentalmente para tomar una
serie de decisiones sobre la base de los resultados obtenidos. Prieto y
Delgado (1996) señalan que esto incrementará la utilidad de una
prueba explicitando la interpretación que pueda hacerse a partir de sus
puntuaciones y determinará el tipo de ítems que habrá que construir.
Los objetivos pueden clasificarse, según Prieto y Delgado (1996) en :
a)
Medición de un constructo teórico : se busca medir un rasgo a
partir de las definiciones surgidas de una teoría acerca del
atributo. Se pone énfasis en la validez de contructo.
b) Evaluación académica o conductual : este es el objetivo de la
evaluación del rendimiento y la evaluación conductual. Se
basa sobre todo en los test referidos a la norma aunque
también se emplean los referidos al criterio. Se busca que los
items constituyan una muestra representativa de un dominio
cuyos límites y estructura están determinados por los
objetivos de instrucción o el conjunto de conductas
relevantes.
c)
Selección de personal : los test se diseñan para identificar a
las personas con rasgos apropiados para ser contratados en
una empresa, ser promovidos o acceder a una beca, etc. Los
items deben reflejar los aspectos pertinentes para diferenciar
a las personas con distintos niveles en un criterio.
58
d) Clasificación diagnostica : se busca construir test para asignar
a las personas a distintas categorías diagnósticas o a las
ocupaciones o tipos de instrucción mas adecuados según las
características o perfiles psicológicos. La construcción de los
items se guía sobre todo por la validez referida al criterio,
seleccionando las conductas mas relevantes para diferenciar
entre las categorías de clasificación.
3.
Indicación de las restricciones del instrumento. Entre las restricciones
más frecuentes se incluye los límites de tiempo, la forma de aplicación
en tanto colectiva o individual (Thorndike, 1989), el medio de
procedencia (rural o urbano), la lengua materna, la presencia de
discapacidades (Prieto y Delgado, 1996), el nivel socioeconómico de
los usuarios, el nivel intelectual, y el nivel de lectura (Brown, 1980),
entre otros. Prieto y Delgado (1996) señalan que todos estos aspectos
influyen en la definición del contenido y en las características formales
de los ítems.
4.
Especificación del contenido, indicando los temas, las habilidades y/o
indicadores a evaluarse. A esto se le llama también plan detallado de
la prueba (Brown, 1980; Thorndike, 1989). Implica la especificación
detallada de los temas y procesos que se van a incluir en la prueba. Es
identificar el dominio, o “conjunto de indicadores apropiados para
representar el nivel de una persona en el constructo o atributo que se
va a evaluar” (Prieto y Delgado, 1996, p.116).
Thorndike (1989) señala que dicho plan suele ser más explícito cuando
se trata de una prueba de rendimiento académico, y muchas veces los
procesos se pueden basar en la taxonomía de Bloom. Esto sirve como
59
guía para establecer la importancia relativa de cada área de contenido,
a partir de lo cual se puede planificar cual será el número de ítems a
construirse. (Brown, 1980)
En cuanto a las prueba destinadas a medir intereses, actitudes u otros
rasgos de personalidad, estas no pueden plantearse de una manera tan
esquemática como las pruebas de rendimiento (Thorndike, 1989).
Generalmente se acepta que en este tipo de pruebas lo que hace es
señalarse cuales serán los indicadores específicos, además de definirse
cual será el número aproximado de ítems para cada indicador
(Thorndike, 1989). Los constructores de este tipo de pruebas
seleccionan una serie de conductas, que según la teoría, son
representativas del constructo que se pretende evaluar (Prieto y
Delgado, 1996).
5.
Especificación del formato de los ítems de la prueba, señalando el tipo
de respuesta a obtenerse y la calificación que se empleará.
Prieto y Delgado (1996) recomiendan revisar los instrumentos
similares que existen para medir el mismo constructo, o analizar las
investigaciones referidas a la adecuación formato-constructo, de tal
manera que se pueda facilitar la decisión respecto al formato a
emplearse en los ítems de la prueba que se está construyendo.
Para las pruebas de habilidad, generalmente suele emplearse el
formato de elección múltiple, aunque existen otras opciones, como el
distinguir
entre
dos
alternativas
(verdadero
o
falso),
el
emparejamiento; o la redacción de las respuestas (Brown, 1980;
Thorndike, 1989).
60
En cuanto a las pruebas de personalidad, suele usarse el formato
dicotómico o el formato tipo escala, siendo las más comunes, la tipo
Likert y la escala de Guttman (Prieto y Delgado, 1996). Otros autores,
como Cerdá (1984) recomiendan evitar el formato dicotómico, pues
muchas veces la elección resulta ser difícil, ya que en el continuo de la
personalidad no se dan de manera tan marcada dichas polaridades.
También se define en esta etapa si la prueba contará de una hoja de
respuestas a parte, o será respondida en el mismo cuadernillo que
contiene los ítems – estímulo; además de establecer la forma de
calificación, que puede ser el conteo de las respuestas correctas o la
inclusión de alguna penalización por los errores cometidos
(Thorndike, 1989).
6.
Establecimiento del procedimiento a usarse para la evaluación
preliminar de la eficacia de la prueba.
Esta etapa implica básicamente la aplicación de una prueba piloto, con
el objeto de detectar si algún ítem no está funcionando de una manera
adecuada o no está siendo comprendido por los usuarios de la prueba.
En la aplicación piloto, el formato debe ser el mismo que se ha
previsto para la forma definitiva del test, lo mismo se aplica para las
condiciones de aplicación del test, es decir, serán las mismas
instrucciones, los mismos límites de Tiempo (Cerdá, 1984). Thorndike
(1989) nos dice que en caso de no haberse podido definir a priori el
tiempo límite, esta aplicación piloto también nos puede dar una idea
acerca del tiempo requerido para contestar la prueba. En el caso de las
61
pruebas de ejecución máxima, se toma generalmente el tiempo que
necesitan el 80 a 90% de las personas para finalizarlo (Cerdá, 1984).
7.
Especificación de los parámetros estadísticos que asegurarán la
correcta elección de los ítems que componen la prueba. Esta etapa se
encuentra centrada en el análisis de ítems; el interés se centra
básicamente en obtener datos referidos a la dificultad del ítem o a su
capacidad para discriminar entre quienes puntúan alto en el atributo
latente y quienes puntúan bajo en dicho atributo (Nunnaly, 1991;
Thorndike, 1989).
Para analizar los ítems den las pruebas de ejecución máxima se
emplean diversos métodos para calcular índice de dificultad (Muñiz,
1996). Cerdá (1984) sugiere que el nivel de dificultad de una prueba
sea lo más homogéneo posible. Es decir, la mayoría de ítems deben ser
de dificultad media. Otra metodología de trabajo puede estar centrada
en el análisis de las respuestas incorrectas en las pruebas de elección
múltiple, observándose el número de personas que seleccionan cada
una de las alternativas incorrectas (Brown, 1980; Muñiz, 1996; Prieto
y Delgado, 1996).
En cuanto a los test de personalidad o de ejecución típica, se
recomienda trabajar la consistencia interna de los ítems, por medio de
la correlación ítem-test corregida, que debe ser igual o superior a .20
(Nunnally, 1991; Nunnally y Bernstein, 1993)
8.
Definir los procedimientos que se van a emplear para estandarizar la
prueba y obtener los criterios normativos. Se deben establecer los
grupos de referencia adecuados, con los cuales será evaluado el
62
desempeño o la posición relativa de una persona (Prieto y Delgado,
1996). Implica el diseñar un procedimiento de muestreo que pueda
reproducir las características de la población de la forma más exacta
posible. Esta etapa incluye la decisión respecto al tipo de puntuaciones
convertidas que se vana a obtener a partir de los puntajes directos
(Nunnally, 1991)
9.
Especificación de los análisis que deban llevarse a cabo para evaluar la
confiabilidad y validez de la prueba. Una vez que se han determinado
los ítems que quedarán en la versión final de la prueba, se deben
definir los procedimientos estadísticos con los cuales se obtendrán la
información psicométrica básica de la prueba
10. Planificación de la elaboración del manual de la prueba y cualquier
otro material auxiliar que sea necesario. El manual, debe incluir:
-
Ficha Técnica
-
Indicación de los usos de la prueba.
-
Marco Teórico
-
Instrucciones completas para aplicar la prueba.
-
Datos sobre la confiabilidad y validez de la prueba.
-
Instrucciones sobre la interpretación de los resultados.
-
Tablas de normas o baremos.
-
Bibliografía
63
64
SEGUNDA PARTE
USO DEL PROGRAMA MCP v.1.0
65
66
1.
CONFIABILIDAD
Al ingresar al módulo “Confiabilidad”, haciendo click en la etiqueta
correspondiente, usted podrá realizar un conjunto de operaciones, tal y como se
muestran a continuación.
1.1
ESTIMACIÓN DE PUNTUACIONES VERDADERAS
Como ya hemos señalado, la confiabilidad es una estimación del error de
medición. Ello implica es posible estimar un intervalo de confianza para las
puntuaciones verdaderas, si se conoce el puntaje obtenido en una prueba y la
confiabilidad de una prueba.
Es importante considerar, que este intervalo es mucho más adecuado si se
calcula para un grupo que para una persona (Muñiz, 1996)
Supongamos que hemos aplicado una prueba de Ansiedad ante los Exámenes,
cuya media es 44.74, su desviación estándar 8.94 y que además la confiabilidad
de la prueba es de 0.86.
Si queremos estimar un intervalo de confianza para las puntuaciones verdaderas
de una persona que tuvo 54 puntos en esa prueba, basta con introducir todos los
datos antes mencionados en la matriz y se podrá estimar las puntuaciones
utilizando tres métodos distintos.
67
Ilustración 2: Estimación de Puntuaciones Verdaderas, Resultados
La desigualdad de Chebychev nos da intervalos más amplios, esto se debe
fundamentalmente a que no hace ninguna suposición respecto a la forma en que
se distribuyen los puntajes de la prueba (Muñiz, 1996). Con este método
podemos asumir con un 95% de confianza que el puntaje verdadero de dicha
persona estará entre 39 y 69 puntos.
Según el Modelo de regresión, el puntaje verdadero (V) de una persona que
obtiene 54 puntos, se estima puntualmente en 52.70. Sin embargo al considerar
los errores de predicción, se establece un intervalo de confianza, según el cual
las puntuaciones verdaderas se encontrarán entre 47 y 59.
Si suponemos la distribución normal de los errores de medición y por ende la
de las puntuaciones verdaderas, podemos plantear un intervalo desde 47 a 61
puntos para el puntaje verdadero, con un 95% de confianza.
68
1.2
CONFIABILIDAD Y LONGITUD
Esta parte nos permite calcular como cambia la confiabilidad al aumentar el
número de ítems de una prueba, además de estimar cuantos ítems se debe
agregar a unja prueba a fin de obtener una confiabilidad determinada.
Por ejemplo, supongamos que se ha construido un test de “Razonamiento
Verbal” de 35 ítems, cuya confiabilidad es de 0.72. ¿Qué pasaría con la
confiabilidad si se agregan 10 ítems paralelos a los que ya existían?
Para ello sólo debemos insertar los datos antes señalados:
Ilustración 3: Confiabilidad y Longitud, Nueva Confiabilidad
Como vemos, el nuevo test, de 45 ítems, implica un aumento de 1.29 veces con
respecto a la versión original de 35 ítems. Este aumento del número de ítems en
1.29 veces, produce un aumento de la confiabilidad de 0.72 a 0.77.
Por otro lado, podemos preguntarnos cuántos ítems deben agregarse a una
prueba ya dada a fin de tener una confiabilidad determinada.
69
Por ejemplo, si hemos construido una prueba pata medir las “Actitudes frente a
las Matemáticas”, formada por 18 ítems, cuya confiabilidad es de 0.67, y
nosotros deseamos una confiabilidad de 0.75, ¿cuantos ítems debemos
aumentar?
Ilustración 4: Confiabilidad y Longitud, Cantidad de ítems a aumentar
Como vemos en la ilustración anterior, debemos aumentar nuestra prueba 1.48
veces, lo cual equivale a aumentar 9 ítems (este valor se encuentra redondeado
hacia arriba). Es decir, para alcanzar una confiabilidad de 0.75, nuestra nueva
prueba debe tener 27 ítems.
1.3
CONFIABILIDAD Y VARIABILIDAD
El coeficiente de confiabilidad se ve afectado por la variabilidad de la muestra
en la cual fue calculado. Este módulo nos permite apreciar los cambios en la
confiabilidad al cambiar la variabilidad de una muestra.
Por ejemplo, si una empresa aplica una prueba de inteligencia general en un
grupo de 200 postulantes para 20 vacantes de mando medio. Con los resultados
de esa prueba se eligen a 20 personas y se calcula la confiabilidad en esas 20
70
personas, obteniendo un coeficiente de 0.52. Además sabemos que los puntajes
de la prueba tienen una desviación estándar de 10.34, en el grupo de postulantes
y de 4.67 en el grupo de seleccionados, ¿cuál sería la confiabilidad general de
la prueba?
Ilustración 5: Confiabilidad y Variabilidad
Luego de introducir todos los datos en el lugar correspondiente de la matriz,
vemos que el coeficiente de confiabilidad de la prueba se estima en 0.90.
1.4
CONFIABILIDAD DE LAS DIFERENCIAS
Si queremos saber qué tan confiables son las diferencias entre los puntajes
obtenidos en dos pruebas, podemos utilizar este módulo.
Por ejemplo, si queremos ver qué tan confiables son las diferencias entre los
puntajes de una prueba de Lenguaje y otra de Ciencias, sólo debemos ingresar
los datos referidos a la desviación estandar en cada prueba, la confiabilidad de
las mismas, y el coeficiente de correlación entre ambas:
71
Ilustración 6: Confiabilidad de las Diferencias
En este ejemplo, la confiabilidad de las diferencias es de 0.65. Es decir,
podemos considerar que las diferencias de puntuaciones en ambas pruebas son
confiables.
2.
INFERENCIAS SOBRE ALPHA
Luego de calcular un coeficiente de confiabilidad alpha de Cronbach en una
muestra, podemos efectuar una serie de inferencias, contrastándolo con un
valor teórico o con el obtenido en otro grupo.
Además vamos a encontrar un recuadro en el cual debemos marcar con un click
la hipótesis nula que buscamos contrastar a fin de obtener el valor p
correspondiente (bilateral, unilateral izquierdo, unilateral derecho).
Ho: Alpha 1 = Alpha 2
Ho: Alpha 1 = Alpha 2
Ho: Alpha 1 = Alpha 2
72
2.1
UN SOLO COEFICIENTE
Nos permite contrastar el valor del alpha obtenido en la muestra con un valor
en la población o valor teórico. Además nos da el intervalo de confianza en la
población para nuestro alpha, al nivel especificado (por ejemplo al 99%).
Supongamos que deseamos una confiabilidad en la población que sea por lo
menos de 0.80 para una prueba de “Niveles de Ansiedad”. Si aplicamos esa
escala en una muestra de 400 personas, y calculamos un coeficiente alpha de
0.78, ¿podemos afirmar al 95% que este coeficiente es menor que el
teóricamente deseado?
De acuerdo a nuestro ejemplo, postulamos las siguientes hipótesis:
H0: alpha de la muestra  alpha en la población (teórico)
H1: alpha de la muestra  alpha en la población (teórico)
Lo primero que hacemos es marcar en el recuadro correspondiente la hipótesis
nula y luego insertar todos los datos enunciados en el problema como se ve a
continuación.
Ilustración 7: Contraste de alpha con valor teórico
73
Según nuestros resultados hemos obtenido un valor F399,19511 = 0.91 que tiene
asociado un valor p = 0.099. Además, observamos un intervalo de confianza al
95% para el alpha calculado de 0.748 a 0.810. Todos estos resultados nos
llevan a aceptar la hipótesis nula y concluir que nuestro alpha calculado no
alcanza un nivel de significancia estadística que nos permita suponer que la
confiabilidad de nuestra prueba en la población es menor que 0.80.
2.2
CONTRASTE EN DOS GRUPOS INDEPENDIENTES
En esta sección podemos calcular la significancia estadística de las diferencias
entre dos coeficientes alpha calculados en dos grupos independientes, como por
ejemplo: varones y mujeres, pacientes y no pacientes, etc.
Por ejemplo, hemos construimos una prueba de “Estrategias de Aprendizaje” y
la hemos aplicado en una muestra de 400 personas, de las cuales 180 son
varones y 220 mujeres. Luego calculamos el alpha para cada uno de los grupos,
obteniendo valores de 0.84 para los varones y 0.87 para las mujeres, ¿podemos
afirmar que esta diferencia es estadísticamente significativa?
En este ejemplo, nuestro sistema de hipótesis sería el siguiente:
H0: alpha de la muestra 1 = alpha de la muestra 2
H1: alpha de la muestra 1  alpha de la muestra 2
74
Ilustración 8: Contraste para dos grupos independientes
Como vemos, hemos obtenido un valor W179,219 = 1.23 que tiene asociado un
valor p = 0.143. Estos resultados nos llevan a aceptar la hipótesis nula
concluyendo que no existen diferencias estadísticamente significativas entre la
confiabilidad de la prueba para los varones y las mujeres.
2.3
CONTRASTE EN DOS GRUPOS DEPENDIENTES
Con este módulo podemos analizar las diferencias entre los coeficientes alpha
calculados en una misma muestra que para efectos es considerada como dos
grupos independientes. Esto puede ocurrir cuando se aplica la misma prueba en
dos momentos distintos a la misma muestra o cuando se aplican dos pruebas
similares a la misma muestra.
Considere el siguiente ejemplo: se han aplicado dos pruebas que miden
comprensión lectora a una misma muestra de 250 personas, siendo la
confiabilidad del primer test de 0.75 y la del segundo de 0.70. Además la
correlación entre los puntajes de ambas pruebas es de 0.78, ¿podemos afirmar
que la confiabilidad de la primera prueba es mayor que la confiabilidad que la
segunda?
Nuestro sistema de hipótesis sería el siguiente:
75
H0: alpha de la prueba 1  alpha de la prueba 2
H1: alpha de la prueba 1  alpha de la prueba 2
Ilustración 9: Contraste para grupos relacionados
Nuestro resultado muestra un t248 = 2.30, con un valor p = 0.011, que nos lleva
a rechazar la hipótesis nula, concluyendo que el alpha del primer test es mayor
que el del segundo test.
3.
VALIDEZ REFERIDA AL CRITERIO
Para ingresar a este módulo sólo debe hacer click en la etiqueta
correspondiente. Mostramos a continuación los diferentes cálculos que pueden
efectuarse.
3.1
VALIDEZ Y VARIABILIDAD
Al igual que la confiabilidad se ve afectada por la variabilidad de la muestra, el
coeficiente de validez también se ve afectado de la misma manera.
Supongamos que hemos aplicado una prueba de “Aptitud Motora Fina (AMF)”
para seleccionar a un conjunto de trabajadores en una planta de ensamblaje de
76
relojes. De la muestra total (200 personas) que se presentan al puesto, se calcula
una d.s. de 13.45.
Luego de un tiempo, se evalúa a los 30 empleados, obteniéndose puntajes de
eficiencia de 1 a 10 (criterio). Para determinar si nuestra prueba AMF tiene
validez predictiva, correlacionamos los puntajes de esos 30 trabajadores en la
prueba, cuya d.s. es 4.67 con los puntajes el criterio. Obtenemos un coeficiente
de correlación de 0.32. A fin de corregir los efectos de la varianza disminuida,
introducimos los datos en la matriz correspondiente y obtenemos:
Ilustración 10: Validez y Variabilidad
Como apreciamos en la ilustración anterior, el coeficiente de validez de nuestra
prueba AMF es de 0.70. Según estos resultados, podemos concluir que la
validez predictiva de nuestra prueba, como instrumento de selección de
personal es adecuada.
3.2
USO DE UN NUEVO TEST COMO PREDICTOR
Muchas veces nos puede interesar si un nuevo test resulta ser mejor predictor
que otro test que ya se venía aplicando con fines de selección. Para saber si este
77
nuevo instrumentos tiene un mejor coeficiente de validez, podemos usar este
módulo.
Supongamos que un test de “Inteligencia General (IG)” para seleccionar
empleados en una línea de ensamblaje. La d.s. en el grupo de aspirantes al
puesto fue de 17.2, mientras que en el grupo de selccionados fue de 7.54. La
correlación de IG con el criterio fue de 0.28. Al insertar estos datos vemos que
el coeficiente de validez es 0.55.
Además aplicados en el grupo de seleccionados un test de “Aptitud Mecánica
(AM)” y correlacionarlo con el criterio, obtenemos un valor de 0.24; mientras
que su correlación con IG es de 0.43.
Ilustración 11: Uso de un nuevo test como predictor
Como vemos en los resultados anteriores, el coeficiente de validez del test AM
es de 0.63, frente a 0.55 del test IG, por lo tanto el primer test es una mejor
predictor.
78
3.3
VALIDEZ Y LONGITUD
Como ya hemos señalado anteriormente, el coeficiente de confiabilidad de un
test se ve afectado por la cantidad de ítems que lo componen, lo cual a su vez
afecta a la confiabilidad.
Es también importante señalar que desde un punto de vista matemático, el
índice de validez debe ser menor o igual a la raíz cuadrada del coeficiente de
confiabilidad. Si introducimos datos en el módulo que contradicen este
requerimiento, nos aparecerá una indicación de ello en pantalla.
Si hemos contraído una prueba de “Aptitud Numérica”, conformada por 35
ítems, cuya confiabilidad es de 0.76 y su índice de validez 0.64; ¿cuál sería la
nueva validez, si nuestra prueba estaría formada por 50 ítems?
Para responder a esa pregunta y otras similares, introducimos los datos en el
lugar apropiado de la matriz:
Ilustración 12: Nueva validez al cambiar el número de ítems
Como vemos, la prueba ha aumentado de tamaño, siendo ahora 1.43 veces su
tamaño original. Además el nuevo coeficiente de validez será 0.66.
79
También podemos preguntarnos en cuantas veces debe aumentar una prueba a
fin de alcanzar un coeficiente de validez específico. Si tenemos una prueba
conformada por 25 ítems, cuya confiabilidad es de 0.75, y su validez de 0.60,
¿en cuanto debemos aumentar nuestra prueba para lograr un coeficiente de
validez de 0.65?.
Ilustración 13: Nuevo número de ítems
Luego de introducir todos los datos vemos que debemos aumentar la prueba
2.45 veces, es decir nuestra nueva prueba tendrá 62 ítems. Es importante
considerar que en algunas situaciones, por cuestiones de la formula empleada y
las relaciones entre validez, confiabilidad y longitud, el programa nos dará
como respuesta “Límite”, implicando con ello que no es posible alcanzar el
coeficiente de validez deseado mediante el aumento del número de ítems.
3.4
CORRECCION DE ERRORES Y MEDIDA
Como hemos señalado en la primera parte de este manual, la confiabilidad y el
coeficiente de validez se encuentran relacionadas.
80
Estos módulos nos permiten apreciar cómo cambia un índice de validez, al
cambiar la confiabilidad del predictor (prueba psicológica) o la del criterio.
En muchas situaciones desconocemos cuál es la confiabilidad del criterio. De
ser este el caso, debemos poner en nuestra matriz el valor de 1.00 en los
espacios destinados para la “Confiabilidad del criterio”, “Confiabilidad original
del criterio” y “Nueva confiabilidad del criterio”.
Por ejemplo, supongamos que tenemos una prueba de “Comprensión Lectora”
que tiene un índice de validez predictiva de 0.54, usando como criterio las
calificaciones en el curso “Redacción y Composición” y que además se le ha
calculado un coeficiente de confiabilidad de 0.74.
Si queremos saber cuál sería el índice de validez, si la confiabilidad fuese
perfecta sólo debemos meter los datos en nuestra matriz, poniendo como valor
1.00 como “Confiabilidad del Criterio”, pues desconocemos su verdadero
coeficiente de confiabilidad.
Ilustración 14: Coeficiente de validez asumiendo una confiabilidad
perfecta.
81
Estos resultados nos indican que en ausencia de errores de media, la correlación
entre los puntajes en la prueba y el criterio (índice de validez) sería 0.63.
También podemos preguntarnos cuales son los cambios en la validez de un test
al cambiar la confiabilidad del mismo, la del criterio o ambas. Si tenemos una
prueba de “Aptitud Verbal” cuya confiabilidad es de 0.79, que posee una
validez
de
0.60
para
predecir
el
rendimiento
en
“Comunicación
Integral”(criterio con una confiabilidad de .086), y aumentamos la confiabilidad
d ela prueba a 0.85 y la del criterio a 0.90, ¿cuál será la nueva validez?
Ilustración 15: Cambios en el coeficiente de validez al cambiar la
confiabilidad
Vemos en la ilustración anterior, que el coeficiente de validez aumenta de 0.60
a 0.64, como resultado de las mejoras en la confiabilidad.
82
4.
BAREMACION
Para ingresar al módulo de baremación, debe hacer click en la etiqueta con el
nombre “baremación (normalizada)”, en la cual encontrará una matriz en
blanco como la siguiente:
Recuerde que para utilizar este módulo las puntuaciones de su prueba deben
aproximarse a una distribución normal. Para comprobar este supuesto se
pueden utilizar algunas pruebas estadísticas como la Z de Kolmogorov –
Smirnov. Si sus puntuaciones no se distribuyen asemejando una curva normal,
los baremos proporcionados por este módulo se encontrarán sesgados.
En este módulo se ofrece la posibilidad de construir a partir de la media y
desviación estándar de las puntuaciones tres baremos en forma simultánea:
pentas, eneatipos y percentiles.
Los únicos datos que debe ingresar son la media y desviación estándar
correspondientes en las casillas marcadas en gris. Por ejemplo, suponga que
quiere baremar una prueba de actitudes hacia las matemáticas, en la cual se
83
obtuvo una media de 23.48 y una desviación estándar de 7.32. Basta con
ingresar estos datos en el lugar correspondiente para obtener simultáneamente
las tres puntuaciones derivadas.
Este programa automáticamente redondea los números obtenidos al entero más
próximo:
Por ejemplo, suponga que Juan obtuvo 22 puntos en la prueba, lo cual lo ubica
en el penta 3, eneatipo 5 y percentil 44.
En la distribución de percentiles vamos a notar que muchas veces a diferentes
percentiles le corresponden la misma puntuación directa. Esto se debe a los
efectos del redondeo. En estos casos, lo que debe hacerse es asignarle a la
puntuación directa, el percentil más alto.
84
En el ejemplo vemos que el puntaje directo de 36 se encuentra emparejado
tanto con el percentil 95 como con el 96. En este caso, a una persona que
obtenga 36 puntos, le corresponderá el percentil 96.
5.
FUNCIONAMIENTO DIFERENCIAL DE LOS ÍTEMS
Se refiere a la presencia del sesgo en los ítems de una prueba. Un ítem o test
estará sesgado si para dos o más grupos con el mismo valor en la variable
medida, se generan mediciones distintas (Muñiz, 1996).
En esta parte podremos aplicar dos de las diferentes medidas que existen para
detectar el sesgo en ítems de ejecución máxima, que pueden puntuarse de forma
dicotómica (acierto – fallo). Ambas medidas presentadas se basan en la prueba
Chi-Cuadrado.
5.1
METODO DE SCHEUNEMAN
Si un ítem no presenta sesgo, se espera que dentro de los diferentes niveles de
habilidad, las proporciones de aciertos sean similares. Este contraste debe
aplicarse para cada uno de los ítems que componen nuestra prueba.
El primer paso, consiste en definir cuantos grupos vamos a contarstar, y en
cuantos niveles vamos a dividir las puntuaciones directas. Para hacerlo,
debemos dividir el rango de puntajes directos obtenidos en nuestra muestra en
intervalos de igual amplitud. Es recomendable tener entre 5 y 10 intervalos,
aunque podrían trabajarse con menos.
85
Ilustración 16: Selección de intervalos de puntajes y grupos
Como vemos en el ejemplo, podemos hacer un click en los botones
correspondientes a fin de aumentar o disminuír el número de grupos y/o
intervalos de puntuaciones con los cuales vamos a trabajar. En nuestro ejemplo,
vamos a contrastar la presencia del sesgo en un ítem, entre los grupos
“costeños”, “andinos” y “selváticos”, por lo cual señalamos que nuestro
número de grupos es tres. Además dividimos nuestros puntajes directos en seis
intervalos. El módulo nos permite trabajar hasta con 10 intervalos y 4 grupos.
Luego vamos a ver en este módulo, una tabla, que en su parte extrema
izquierda, nos permite poner los valores numéricos que marcan el límite
inferior y superior de cada intervalo de puntuaciones directas. Inmediatamente
a la derecha, encontramos un espacio que nos permite ingresar la información
respecto a la cantidad de personas en cada grupo y dentro de cada intervalo de
puntaje. Al costado ingresamos información referida a la cantidad de personas
que acertó el ítem dentro de cada uno de los intervalos de puntuaciones
directas.
86
Ilustración 17: Personas y Aciertos en grupos e intervalos de puntajes
Por ejemplo, podemos apreciar en la ilustración que de aquellas personas que
tuvieron como puntaje directo en la prueba entre 31 y 40 puntos, 48 son de la
costa, 55 de la sierra y 79 de la selva. De ellos un total de 33 costeños acertaron
al ítem, al igual que 42 andinos y 49 personas de la selva. Nuestra muestra total
fue de 990 personas, 330 de la costa, 325 de la sierra y 335 de la selva.
El cuadro que encontramos al bajar en nuestro módulo, nos presenta las
frecuencias obervadas (O) y las esperadas (E) para cada uno de los grupos, en
cada uno de los intervalos de puntuaciones. Estas frecuencias nos servirán para
el cálculo del valor de Chi-Cuadrado, que lo encontramos al final, junto con su
valor p y grados de libertad.
Ilustración 18: Resultados de la prueba de Scheuneman
87
Según nuestro ejemplo, el valor Chi calculado es de 19.07, y tiene un valor p
asociado de 0.039 para 10 grados de libertad. Estos resultados nos llevan a
suponer que existe un sesgo en el ítem.
Para saber donde se ubica ese sesgo, podemos mirar la tabla de tiene como
encabezado a los grupos y en el cuerpo un conjunto de signos “+” y “-”. Se
asigna un signo positivo cuando el valor esperado es mayor o igual que el valor
observado y el negativo cuando es menor. Esta tabla nos muestra que aquel
grupo con más signos negativos es el que se encuentra más perjudicado por el
ítem. (véase por ejemplo, Muñiz, 1996). En nuestro caso el grupo más
perjudicado es el de las personas que habitan en la selva (6), seguido por
aquellas que habitan en el ande (4).
5.2
METODO DE CAMILLI
En este método se calcula no sólo un valor chi para los aciertos, sino que
también se calcula un valor para los errores, sumando luego ambos para hallar
su valor p asociado.
En este módulo no tenemos que agregar ninguna información adicional, pues se
efectúan automáticamente todos los cálculos a partir de la información
proporcionada en el módulo anterior.
88
En este ejemplo vemos un valor chi de 71.11 que para 12 grados de libertad
posee un valor p de 0.000. Este resultado también nos lleva a aceptar la
presencia del sesgo en este ítem.
89
90
6.
REFERENCIAS
AIKEN, L. (1996) Tests psicológicos y Evaluación.
8ª edición.
México:
Prentice Hall
ALARCÓN,
R.
(1991)
Métodos
y
Diseños
de
Investigación
del
Comportamiento. Lima: Universidad Peruana Cayetano Heredia, Fondo
Editorial
BROWN, F. (1980) Principios de la Medición en Psicología y Educación.
México: El Manual Moderno.
CERDA, E. (1984) Psicometría General. Barcelona: Herder.
ESCURRA, M. (1998) Cuantificación de la validez de contenido por criterio de
jueces. Revista de Psicología. Pontificia Universidad Católica. Año IV
vol. VI. Primer y segundo semestre de 1998.
HERNÁNDEZ, R.; FERNÁNDEZ, C. y BAPTISTA, P. (1997) Metodología de
la Investigación. México: McGraw - Hill.
KERLINGER, F. (1997) Investigación del Comportamiento. 3ª ed. México:
Mc Graw-Hill.
MARIN, Gerardo (1986) Consideraciones metodológicas básicas para conducir
investigaciones en América Latína. Acta Psicquíatrica Psicológica
América Latína 1986, 32. 183-192
MUÑIZ, J. (1996a) Teoría Clásica de los Tests, 2ª. ed. Madrid: Ediciones
Pirámide
MUÑIZ, J. (1996b) Fiabilidad. EN: MUÑIZ, J. (coordinador) Psicometría.
Madrid: Universitas.
NUNNALLY, J. (1991) Teoría Psicométrica. México: Trillas.
NUNNALLY, J. y BERNSTEIN, I. (1995) Teoría Psicométrica. 3ª ed. México.
McGraw - Hill.
PAZ, M. (1996) Validez. En: MUÑIZ, J. (coordinador) Psicometría. Madrid:
Universitas.
91
PRIETO, G. y DELGADO, A. (1996) Construcción de Items. En : MUÑIZ, J.
(Coordinador) (1996) Psicometría. Madrid : Universitas.
SIERRA BRAVO, R. (1995) Técnicas de Investigación Social, Teoría y
Ejercicios. 10ª ed. Madrid: Paraninfo.
THORNDIKE, R. (1989) Psicometría Aplicada. México: Limusa.
ZINSER, O. (1987) Psicología Experimental. Bogotá: McGraw - Hill.
92
Descargar