UNIVERSIDAD PERUANA CAYETANO HEREDIA FACULTAD DE PSICOLOGIA GABINETE DE INSTRUMENTOS PSICOLÓGICOS MATERIALES DE INFORMÁTICA MCP 1.0 Módulos de Cálculos Psicométricos Lic. Andrés Burga León LIMA, 2003 ©Derechos Reservados Universidad Peruana Cayetano Heredia Facultad de Psicología PRESENTACION DE LA SERIE El presente programa constituye parte de una serie producida por el Gabinete de Instrumentos Psicológicos de la Facultad de Psicología de la Universidad Peruana Cayetano Heredia, dirigida a estudiantes y profesionales de la psicología y diversas especialidades. Esta serie denominada “Materiales de Informática” surge a partir de la experiencia de los docentes de los cursos vinculados a las áreas de matemáticas, estadística y psicometría, pues el realizar los cálculos de forma manual, si bien fomenta el aprendizaje matemático, hace más probable la ocurrencia de errores de cálculo, los cuales pueden impactar de forma negativa al proceso de toma de decisiones. Sabemos que una decisión se toma sobre la base de la información, y esta información debe ser lo más válida y confiable posible. En ese sentido, con esta serie de programas, creemos que al reducir la probabilidad del error de cálculo, estamos contribuyendo de una forma sustancial a la calidad de la información de base cuantitativa sobre la cual se basan muchas de las decisiones profesionales. En nuestro medio, además en muchos caso no encontramos un software accesible por cuestiones económicas que cumpla las funciones que desempeñan los programas de esta serie, que por su sencillez, creemos que son de gran utilidad. La serie hasta el momento cuenta con los siguientes paquetes informáticos: TAPF v.1.0, programa para el manejo de notas Estadísticos para Tablas de Contingencia Módulo de Cálculos Psicométricos v. 1.0 Estimación de Parámetros y Prueba de Hipótesis Esperemos que esta tercera entrega le resulte útil y sea de su agrado. Andrés Burga León INDICE INTRODUCCIÓN .............................................................................................. 7 PRIMERA PARTE: ASPECTOS TEORICOS 1. LA PSICOMETRÍA COMO PROCESO .................................................... 15 2. LA TEORIA CLÁSICA DE LOS TESTS .................................................. 19 2.1 LA CONFIABILIDAD .......................................................................21 2.1.1 METODO DE LAS FORMAS PARALELAS ........................25 2.1.2 METODO TEST – RETEST ...................................................26 2.1.3 COMBINACIÓN DE FORMAS PARALELAS Y TEST RETEST ..................................................................................27 2.1.4 METODOS DE DIVISIÓN POR MITADES Y CONSISTENCIA INTERNA ..................................................28 2.1.5 INFERENCIAS SOBRE EL COEFICIENTE ALPHA ..........32 2.1.6 FACTORES QUE AFECTAN LA CONFIABILIDAD ..........34 2.1.7 CONFIABILIDAD DE LAS DIFERENCIAS ........................35 2.2 VALIDEZ ...........................................................................................36 2.2.1 VALIDEZ DE CONTENIDO .................................................37 2.2.2 VALIDEZ PREDICTIVA .......................................................42 2.2.3 RELACIÓN DE LA VALIDEZ PREDICTIVA CON OTROS PARÁMETROS ........................................................43 2.2.4 VALIDEZ DE CONSTRUCTO ..............................................46 2.2.5 VALIDEZ ECOLÓGICA ........................................................51 2.3 SIGNIFICACION DE LAS PUNTUACIONES .................................52 2.3.1 PERCENTILES .......................................................................53 2.3.2 PUNTUACIONES TÍPICAS (Z) ............................................53 2.4 ALGUNAS APROXIMACIONES A LA CONSTRUCCIÓN DE UNA PRUEBA PSICOMÉTRICA. ..............................................55 SEGUNDA PARTE: USO DEL PROGRAMA MCP v. 1.0 1. CONFIABILIDAD ..................................................................................... 67 1.1 ESTIMACIÓN DE PUNTUACIONES VERDADERAS .................. 67 1.2 CONFIABILIDAD Y LONGITUD.................................................... 69 1.3 CONFIABILIDAD Y VARIABILIDAD ........................................... 70 1.4 CONFIABILIDAD DE LAS DIFERENCIAS.................................... 71 2. INFERENCIAS SOBRE ALPHA .............................................................. 72 2.1 UN SOLO COEFICIENTE ................................................................ 73 2.2 CONTRASTE EN DOS GRUPOS INDEPENDIENTES................... 74 2.3 CONTRASTE EN DOS GRUPOS DEPENDIENTES ....................... 75 3. VALIDEZ REFERIDA AL CRITERIO ..................................................... 76 3.1 VALIDEZ Y VARIABILIDAD ......................................................... 76 3.2 USO DE UN NUEVO TEST COMO PREDICTOR........................... 77 3.3 VALIDEZ Y LONGITUD ................................................................. 79 3.4 CORRECCION DE ERRORES Y MEDIDA ..................................... 80 4. BAREMACION ......................................................................................... 83 5. FUNCIONAMIENTO DIFERENCIAL DE LOS ÍTEMS ......................... 85 5.1 METODO DE SCHEUNEMAN ........................................................ 85 5.2 METODO DE CAMILLI ................................................................... 88 6. REFERENCIAS ......................................................................................... 91 INTRODUCCION Se ha desarrollado una serie de módulos en Excel, permita realizar una serie de cálculos psicométricos basados en la Teoría Clásica de los Tests. Hemos elegido este modelo teórico porque la mayoría de tests que se usan en la actualidad lo siguen, aunque de ninguna manera le restamos importancia a los avances realizados en la línea de la Teoría de Respuesta al Ítem Este proyecto surge de nuestra experiencia en la enseñanza del curso Teoría de los Test, conscientes de la dificultades que tienen los alumnos para realizar muchos de los cálculos manualmente, además de no haber en el mercado un software accesible que permita realizar dichas operaciones matemáticas. Estos módulos no contiene toda la diversidad de operaciones psicométricas que pueden realizarse, como por ejemplo el análisis de ítems, el cálculo de la confiabilidad, del índice de validez predictiva, etc. Para ello creemos que existen en el mercado buenos programas como por ejemplo el SPSS, que si bien no es un software especializado en el análisis psicométrico, permite calcular correlaciones ítem test corregidas, índices de dificultad, la confiabilidad utilizando diversos métodos, la validez referida al criterio por medio de correlaciones y análisis discriminante, además de aproximarnos a la validez de constructo por medio del análisis factorial. Creemos que el presente trabajo será un aporte significativo para todo estudiante de psicometría y para los profesionales de la psicología en general, pues facilitará considerablemente el proceso de toma de decisiones. Es por eso que hemos considerado cinco módulos de cálculos, organizados de la siguiente manera: 7 1. Confiabilidad Es esta parte usted podrá realizar un conjunto de cálculos, que permiten observar como el cambio de algunos parámetros de un test, afectan a su confiabilidad. a) Estimación de puntuaciones verdaderas: sabemos que la confiabilidad es una estimación estadística del error de medición. A partir del conocimiento de la puntuación observada en un test, y conociendo la confiabilidad del mismo, se pueden determinas intervalos para las puntuaciones verdaderas. Los métodos considerados para estimar las puntuaciones verdaderas son: - Desigualdad de Chebychev: no asume ninguna forma concreta en la distribución de los errores de medición, por lo cual da intervalos bastante amplios. - Basada en la regresión lineal: usa el criterio de los mínimos cuadrados, para estimar un intervalos de confianza de los puntajes verdaderos, a partir de los puntajes observados. - Distribución normal de errores: asume la distribución normal de los errores, dando intevalos más ajustados. b) Confiabilidad y variabilidad de la muestra: matemáticamente la confiabilidad de un test y la variabilidad de la muestra tiene una relación directa. Al aumentar la variabilidad, aumenta la confiabilidad. 8 c) Confiabilidad y longitud del tests: La confiabilidad de un tests depende también de la cantidad de ítems que lo componen. Si se aumentan ítems paralelos a los ya existentes, es posible aumentar la confiabilidad del tests. d) Confiabilidad de las diferencias de puntuaciones: estima hasta que punto son confiables las diferencias de puntuaciones de una persona en dos tests. 2. Inferencias sobre el coeficiente de consistencia interna alpha de Cronbach Este módulo busca establecer inferencias estadísticas respecto a los valores de alpha, basándose en sus distribuciones muestrales, a saber F para la población y muestras independientes, y t de Student para muestras dependientes. a) Una muestra: permite contrastar la hipótesis nula referida a que alpha tome determinado valor en la población. b) Dos muestras independientes: permite contrastar la existencia de diferencias estadísticamente significativas entre dos coeficientes alpha, obtenidos en muestras independientes. c) Dos muestras dependientes: permite contrastar la existencia de diferencias estadísticamente significativas entre dos coeficientes alpha, obtenidos en muestras dependientes. 9 3. Validez Predictiva La validez predictiva es básicamente entendida como la correlación existente entre el puntaje en una prueba psicométrica y un criterio externo. Los cálculos incluidos en el presente módulo suponen que existe una relación lineal entre ambas variables (test y criterio) a) Validez predictiva y variabilidad en la muestra: el índice de validez calculado en un grupo de personas seleccionadas queda subestimado si se trata de extrapolarlo a los postulantes. Este módulo permite estimar dicho índice de validez, conociendo la variabilidad en la muestra. b) Validez predictiva y longitud de la prueba: al aumentar el número de ítems paralelos a los ya existentes, mejora la confiabilidad de una prueba, lo cual tiene como efecto una mejora el índice de validez predictiva. c) Validez predictiva y errores de medición: los errores de medida cometidos repercuten en el índice de validez. Es posible calcular las mejoras en el índice de validez al aumentar la confiabilidad del tests, la del criterio o ambas. d) Uso de un nuevo tests como predictor: Permite estimar si es conveniente utilizar un nuevo tests como predictor de un test que ya se venía usando para predecir determinado criterio. 10 4. Baremación Este módulo permite construir baremos, partiendo del supuesto de la distribución normal de las puntuaciones. Concretamente, ajusta los puntajes obtenidos a una distribución normal, a partir de la media y desviación estándar obtenidas, generando baremos en: - Pentas: dividen la distribución normal en 5 intervalos - Eneatipos: dividen la distribución normal en 9 intervalos - Percentiles: dividen la distribución normal en 100 intervalos 5. Funcionamiento Diferencial de los Items a) Método de Scheuneman: realiza el análisis del sesgo sobre la base del número de aciertos en el ítem dentro de diferentes rangos de puntajes directos. b) Método de Camilli: una no solo la información proporcionada por los aciertos al ítem, sino que también considera la información dada por los fallos. El presenta manual se divide en dos partes, en la primera de ellas encontrará una introducción a los principales aspectos de la Teoría Clásica de los Test. En la segunda parte se proporcionan instrucciones y ejemplos sobré como usar e interpretar los diferentes resultados que proporciona este programa. 11 12 PRIMERA PARTE ASPECTOS TEORICOS 13 14 1. LA PSICOMETRÍA COMO PROCESO Suen (1990) afirma que el objetivo fundamental de la medición en psicología es describir alguna característica de las personas como un puntaje numérico. Así, Muñiz (1996a) define a la psicometría cómo el conjunto de métodos, técnicas y teorías implicadas en la medición de las variables psicológicas. Lo que constituye lo específico de la psicometría sería su énfasis y especialización en aquellas propiedades métricas exigibles a las mediciones psicológicas independientemente del campo de aplicación y de los instrumentos utilizados. Las teorías psicométricas implican básicamente la aplicación de modelos matemáticos y estadísticos para su formulación, tratando de justificar los procesos subyacentes a la medición en psicología y educación. La capacidad de un puntaje en un test para reflejar de una manera fehaciente la cantidad de una característica de interés requiere un gran salto inferencial. El proceso de transformar las respuestas a un test en valores numéricos se conoce como escalamiento. El resultado de ese proceso de escalamiento es el puntaje para cada persona. Dicho puntaje se denomina puntaje observado. Es importante considerar que respecto a la cualidad que se desea medir, ya sea por limitaciones de tiempo u otras, sólo se puede general un número limitado de ítems o reactivos. Estos ítems representan una muestra de todos los posibles destinados a medir dicha característica. En otras palabras, el puntaje obtenido por una persona sólo representa el puntaje en una muestra particular de ítems dados en un tiempo y espacio particulares. (Suen, 1990) Si se pudiese probar a la persona en todos los ítems similares, en todas las condiciones similares en diferentes momentos, seríamos capaces de obtener el puntaje verdadero de dicha persona. Cómo es imposible realizar lo anterior, 15 hacemos inferencias a partir del puntaje observado, asumiendo que este resulta un buen estimador del puntaje verdadero. El grado en el cual el puntaje observado refleja al puntaje verdadero se denomina confiabilidad (Muñiz, 1996). Si los puntajes de un test demuestran ser confiables, no por ello se puede asumir que realmente el puntaje verdadero inferido a partir del puntaje observado es un buen indicador de lo que el test pretende medir. La capacidad del puntaje verdadero para reflejar lo que el test intenta medir se denomina validez. Lo que un test intenta medir se denomina objeto de medición. El objeto de medición en la mayoría de test psicológicos es por lo general un constructo (Nunnally, 1991; Thorndike, 1989). Este se define como una cualidad inobservable, atributo o característica de una persona (Suen, 1990). Estos constructos son literalmente construidos para explicar un fenómeno determinado. De esta manera, nosotros consideramos que es mejor enterder, como lo hace Suen (1990), a la psicometría como un proceso, que queda descrito como se muestra en la ilustración 1. Esencialmente en una situación de test, primero se define una regla para convertir las respuestas en valores numéricos. Luego esos valores numéricos constituyen el puntaje observado. El siguiente paso implica definir que ese puntaje observado refleje al puntaje verdadero de una manera adecuada. Finalmente debemos inferir si ese puntaje verdadero refleja de una manera adecuada la cantidad del constructo, que se pretende medir. 16 Cualidad inobservable de interés CONSTRUCTO Validez Cantidad verdadera cualidad desconocida PUNTAJE VERDADERO de una Confiabilidad Muestra de una cantidad producto de la PUNTAJE OBSERVADO administración de un test con una muestra de todos los ítems posibles Escalamiento Test INSTRUMENTO de inteligencia, inventario de intereses, escalas de actitudes, métodos proyectivos, etc. Ilustración 1: El Proceso Psicométrico, tomado de Suen (1990) Todo este proceso puede verse dentro del marco general de la investigación psicológica, con lo cual nos queremos referir a la investigación psicométrica, que incluye la adaptación de tests extranjeros y la obtención de nuevos índices de confiabilidad y validez, además de la confección de las normas o baremos. Se incluye en este rubro también la construcción de nuevas pruebas psicológicas (Alarcón, 1996, 2000) En la actualidad hay básicamente dos enfoques psicométricos fundamentales (Suen, 1990; Muñiz 1996a). Estas son de acuerdo a Suen (1990) la teoría del 17 muestreo aleatorio, que incluye a la teoría clásica de los tests y a la teoría de la generalibizidad; y la teoría de respuesta al ítem. La teoría del muestreo aleatorio ve la conexión del puntaje observado con el puntaje verdadero como un problema de generalización desde una muestra a una población más grande o universo. Este enfoque consta de 2 modelos. El primero de ellos es la Teoría Clásica de los Tests que plantea una relación de tipo lineal entre el puntaje observado, el puntaje verdadero y el error en la medición. El segundo modelo es la Teoría de la Generalizabilidad, propuesta por Cronbach y colaboradores (Suen, 1990). Muñiz (1996a) afirma que se puede considerar a esta teoría cómo una extensión del modelo clásico que utiliza el análisis de varianza para analizar las fuentes de error de un modo sistemático y desglosado. La teoría de respuesta al ítem sugiere que si se puede determinar cómo cada ítem en un test opera con una persona, podemos estimar el puntaje verdadero de cada persona de manera directa. Suen (1990) afirma que dentro de esta aproximación hay tres modelos fundamentales, a saber, el Modelo Logístico de 2 Parámetros y el Modelo Logístico de 3 Parámetros, ambos de Birnbaum; y el Modelo de Rasch. Como señalábamos en la introducción, nosotros nos vamos a centrar en la Teoría Clásica de los Tests 18 2. LA TEORIA CLÁSICA DE LOS TESTS A pesar del desarrollo de modelos más sofisticados, la teoría clásica sigue siendo muy popular en nuestros días y ampliamente usada para obtener evidencias de la calidad psicométrica de muchos test que se emplean en la actualidad. La Teoría Clásica de los Tests (TCT) se conoce también como la Teoría Clásica de la Confiabilidad. Esto se debe a que su tarea fundamental es estimar la confiabilidad de los puntajes observados en un test. Es decir se ocupa de estimar la fuerza de la relación entre el puntaje observado y el puntaje verdadero. Se considera que el nacimiento formal de la TCT puede ubicarse en los trabajos de Spearman entre 1904 y 1913. (Nunnally y Bernstein, 1995; Muñiz, 1996a). Spearman buscaba un modelo estadístico que fundamentase adecuadamente las puntuaciones de los tests y permitiera la estimación de los errores de medida asociados a todo proceso de medición. Así postula un modelo lineal que asume que el puntaje observado (el obtenido directamente en un test) consta de dos componentes aditivos. Dichos componentes son la puntuación verdadera de la persona en un test (V) y otro, el error (e) que inevitablemente aparece en todo proceso de medición. Muñiz (1996b) señala que el error de medición se produce de manera aleatoria y puede provenir de diversas fuentes. Respecto a la persona que se le administra el test puede influir entre otros: su estado de ánimo, sus actitudes ante el test, o cualquier evento previo que le haya ocurrido. Otra posible fuente de error es el mismo test con sus diferentes ítems y formatos. Influye también el evaluador con sus características personales como sexo, edad, forma de 19 interactuar con los evaluados. Además influyen factores ambientales como luz, temperatura, ruidos, etc. Sin embargo sea cual fuera la fuente del error, la TCT lo incluye en el término genérico e y lo asume aleatorio, con una media de 0. El punto clave en la historia de la TCT se encuentra en el año 1950, cuando Gulliksen publica su libro Theory of Mental Test que recoge y sistematiza los conocimientos sobre el tema hasta el momento. El modelo de la TCT se puede simbolizar de la siguiente manera: X V e Además del planteamiento central de dicho modelo, cuyo objetivo central es estimar los errores de medida, se tienen tres supuestos básicos: 1. V E (X ) 2. ρ v, e 0 3. ρ e j , ek 0 De acuerdo al supuesto 1, la puntuación verdadera (V) es la esperanza matemática (E) de la puntuación observada(X). Si pudiésemos administrar el mismo test, a la misma persona en todas las condiciones posibles en diferentes momentos, utilizando diferentes ítems, tendríamos diferentes puntajes observados (X). La media de todos esos puntajes observados constituye su esperanza matemática (E), que a su vez es estimador menos sesgado del puntaje verdadero (V). Lo cual implica que la esperanza matemática del error (e) es 0, pues este se distribuye de manera aleatoria. 20 El segundo supuesto asume que no existe correlación entre las puntuaciones verdaderas de la personas en un test y sus respectivos errores de medida. Es decir, el tamaño del error no se encuentra sistemáticamente asociado al tamaño de las puntuaciones verdaderas. Con respecto al tercer supuesto, este afirma que los errores de medida de una persona en un test determinado no se encuentran correlacionados con sus errores de medida en otro test. Esto implica que si se aplican correctamente los test, los errores serán aleatorios en cada situación. 2.1 LA CONFIABILIDAD Cerdá (1984) afirma que un test es fiable “cuando al aplicarlo dos o más veces a la misma persona o grupo, en circunstancias similares, obtenemos resultados análogos.” (p. 97) Aiken (1996) nos dice: “Si en ausencia de cualquier cambio permanente en una persona debido al crecimiento, aprendizaje, enfermedad o accidente), las calificaciones de las pruebas varían en gran medida de tiempo en tiempo o en distintas situaciones, es probable que la prueba no sea confiable y no pueda utilizarse para explicar o realizar predicciones sobre el comportamiento de la persona.” (p. 87) Como vemos en las definiciones anteriores, tradicionalmente se considera que la confiabilidad es la garantía de estabilidad de los resultados. Dentro del modelo de la modelo de la TCT las mediciones en psicología deben verse libres de errores de medición. Si las evaluaciones efectuadas con un instrumento son consistentes, si carecen de errores de medida, se les considera fiables. Así, el objetivo principal de la confiabilidad es tratar de estimar el error existente en 21 las medidas mediante un indicador denominado coeficiente de confiabilidad (Muñiz, 1996a, 1996b). En esta misma línea, podemos citar a Suen (1990): “La confiabilidad es la fuerza de la relación entre el puntaje observado y el puntaje verdadero. Esto puede ser expresado como la correlación obtenida mediante el coeficiente de Pearson entre el puntaje observado y el puntaje verdadero; eso es xt. Esta correlación es denominada índice de confiabilidad.” (p. 28) Nunnally y Bernstein (1995) definen la confiabilidad cómo la libertad de error aleatorio, es decir cuan repetibles son las observaciones cuando diferentes personas hacen las mismas mediciones, con instrumentos alternativos que intentan medir lo mismo y cuando hay variación incidental de las condiciones de medición. Así, la medición es confiable cuando la cantidad de error aleatorio es pequeña, de tal manera que la medida obtenida es un buen estimador del puntaje verdadero. El índice de confiabilidad queda así definido como la correlación entre una serie de puntajes observados en una prueba y los correspondientes puntajes verdaderos. El problema radica en que no podemos estimar directamente xt de los datos observados, pues los puntajes verdaderos son desconocidos. Sin embargo, como lo señala Suen (1990) es posible estimar el cuadrado de xt, si se parte de una serie de axiomas, conocidos como los supuestos de los tests paralelos. Para que dos test sean paralelos, tienen que cumplir, tres supuestos básicos, que son: tienen la misma desviación estándar; se correlacionan igual con una serie de puntajes verdaderos; toda su varianza que no es explicable por puntajes verdaderos es puro error aleatorio. Además según este mismo autor, hay otros tres postulados que sigue al tercer supuesto. En primer lugar los errores aleatorios se equilibran entre sí por definición y se espera que la media de los puntajes de error en cada prueba sea cero. En segundo lugar, el error en una 22 prueba no está correlacionado con el error de la otra. Y en tercer y último lugar, los errores en ambas pruebas no correlacionan con los puntajes verdaderos, pues estos son producto del azar y no deben presentar covarianzas con nada excepto el azar. Suen (1990) señala que si dos test, A y B, han sido diseñados para medir el mismo dominio y los dos se aplican al mismo grupo de personas, el puntaje verdadero para cada persona será el mismo en cada uno de dichos tests. Para ello se hacen necesarias dos condiciones básicas: los puntajes en los tests A y B tienen varianzas homogéneas y los tests A y B son mutuamente independientes, es decir, la cantidad de error en el test A no guarda relación con la cantidad del error en el test B. Nunnally y Bernstein (1995) resumen lo anterior al afirmar que en el modelo de los tests paralelos se asume que dos o más pruebas producen puntajes verdaderos iguales pero que generan error de medición aleatorio independiente. Si se obtiene el coeficiente r de Pearson entre los dos puntajes observados se puede usar para estimar el coeficiente de confiabilidad. En caso de no haber errores, la correlación sería perfecta, es decir, sería 1. Mientras más se aleje el coeficiente del valor 1 habrá mayor cantidad de error de medición. Es decir, el cálculo del coeficiente de confiabilidad, constituye un indicador y una manera de controlar estadísticamente la cuantía de dicho error. Si podemos identificar dos tests A y B que cumplen con la condición de ser paralelos, el coeficiente r de Pearson entre los puntajes observados en los dos test es equivalente al cociente entre la varianza de las puntuaciones verdaderas y la de las empíricas (Suen, 1990; Muñiz 1996a, 1996b): 23 AB V2 V2 En la fórmula anterior se expresa la proporción que la varianza verdadera es de la varianza empírica. Cuanto mayor sea esta proporción, menos corresponderá a los errores, resultando el coeficiente de fiabilidad en la expresión de la cantidad de error en las medidas, o si se quiere que proporción de la varianza empírica es la varianza verdadera. La correlación anterior se convierte en la correlación elevada al cuadrado entre los puntajes observados y los puntajes verdaderos. Para una explicación matemática acerca de lo anterior, se remite al lector al texto “Principles of Test Theories” de Suen (1990) o “Teoría Clásica de los Tests” de Muñiz (1996a). Si obtenemos un alto coeficiente 2xt el puntaje observado x esta altamente relacionado con el puntaje verdadero v. Entonces el puntaje observado puede ser considerado como una transformación lineal del puntaje verdadero, o si se quiere, como el puntaje verdadero expresado en una escala diferente. Es decir, mis observaciones están relativamente libres de errores de medición. Suen (1990) señala que dentro de la TCT, una vez que se ha estimado 2xt, la confiabilidad, la varianza de error y el error estándar de medición pueden ser estimados. Sin embargo esto depende de la capacidad de dos tests diferentes para lograr los supuestos referidos a ser paralelos. 24 2.1.1 METODO DE LAS FORMAS PARALELAS Una primera posibilidad para calcular la confiabilidad de un test está en construir deliberadamente dos versiones equivalentes o formas paralelas (por ejemplo forma A y forma B. En principio, deben tener el mismo número de ítems, estos deben ser de dificultad análoga, deben medir los mismo y las instrucciones, tiempos límites de administración, ejemplos y otros aspectos de cada uno de los tests, tienen que ser equiparables. Una manera da calcular dicha correlación (aunque no la única) viene dada por el cociente de la covarianza (SAB) entre el producto de la varianza de las puntuaciones en ambos test: rxx' SAB s AB s As B (A - A)(B B) n Los supuestos de paralelismo son aceptados puesto que ambas versiones del test han sido construidas lo más similares posibles. Sin embargo, a pesar de haber sido construidas lo más similares posibles, Suen (1990) afirma que ello no garantiza que los supuestos de paralelismo se cumplan, por lo cual el coeficiente r de Pearson entre ambas formas del test se conoce como coeficiente de equivalencia. El problema de la forma paralela es que es costosa y con frecuencia muy difícil de elaborar (Cerdá, 1984; Aiken, 1996) 25 2.1.2 METODO TEST – RETEST Un método sencillo para obtener dos tests paralelos es usar el mismo test en el diseño denominado test - retest. Esto implica aplicar el test a un grupo, en un momento en el tiempo, y luego de un lapso temporal volver a aplicar dicho test en el mismo grupo, calculando la correlación de las puntuaciones entre ambas aplicaciones como se indicó anteriormente. Desafortunadamente el alcance del supuesto referido al paralelismo de los test en el diseño test – retest es sólo aproximado y no está garantizado. Esto se debe a que muchos factores cómo la maduración de las personas a las que se aplicó el test o el efecto del aprendizaje entre la primera y segunda aplicación pueden interferir, de tal manera que el puntaje verdadero en el retest, pues ser diferente que el obtenido en la primera aplicación. Es decir, esta constituye sólo una aproximación que se conoce con el nombre de coeficiente de estabilidad. Hay que tomar en cuenta el efecto del aprendizaje, pues algunos tests al haberlos pasado una vez, los aprendizajes así adquiridos pueden afectar en forma considerable los resultados en la segunda aplicación. Por ejemplo, supongamos que se ha aplicado una prueba de vocabulario a un conjunto de alumnos, y varios de ellos, luego de terminada la prueba, van a buscar los significados en un diccionario. Si les volvemos a aplicar la prueba, estos efectos estarán afectando la confiabilidad, pues es probable que reduzca la varianza de las puntuaciones y con ello la correlación entre ambas aplicaciones. Para Aiken (1996) esta forma de calcular la confiabilidad básicamente indica el grado en que se pueden afectar las puntuaciones de un test por las fluctuaciones que se pueden producir en el intervalo temporal. Además es importante tener en 26 cuenta el intervalo entre test y retest, pues si este es corto, el coeficiente suele ser más alto, pues los efectos de la memoria juegan un rol más significativo. A partir de lo anterior nos enfrentamos al problema de determinar cuál es el tiempo adecuado que debe transcurrir entre cada aplicación. Aunque no hay reglas específicas respecto a dicho lapso, generalmente suele ser mayor a 1 mes. Lo importante es tener claro cual es la variable que nos interesa medir y como puede verse afectada por el aprendizaje y/o la memoria, indicando claramente en el manual de la prueba o reporte de investigación, el lapso considerado entre ambas aplicaciones. Por ejemplo puede redactarse de la siguiente: “La confiabilidad se obtuvo mediante el método test – retest, con un lapso de 3 meses entre ambas aplicaciones. El coeficiente calculado fue de 0.84.” 2.1.3 COMBINACIÓN DE FORMAS PARALELAS Y TEST RETEST Una alternativa que busca controlar los efectos del aprendizaje implica construir dos formas paralelas y combinarlas con el método de test retest. Es decir, se aplica en un primer momento al grupo la forma A del tests, y en el segundo momento, se aplica la forma B. El problema con este método es que sigue sujeto a los inconvenientes que presentan las formas paralelas. 27 2.1.4 METODOS DE DIVISIÓN POR MITADES Y CONSISTENCIA INTERNA Una buena alternativa para el problema del paralelismo de los tests, consiste en construir un solo test, pero dividirlo en dos mitades y tratar los puntajes de cada una de esas mitades como si fueran los puntajes obtenidos por medio de dos versiones equivalentes del mismo test. El coeficiente r de Pearson obtenido entre las dos mitades se conoce como Confiabilidad Por Mitades es una expresión del grado en el que covarían las dos mitades de un test (Muñiz (1996b) Se considera a una sola prueba como consistente de dos partes, cada una de las cuales mide lo mismo es decir, se les trata como formas paralelas. Para ello una previa condición a la aplicación de este método es que las dos partes en que vayamos a dividir el test sean verdaderamente equivalentes. Por ejemplo, en las pruebas de ejecución máxima los ítems suelen estar ordenados según su índice de dificultad de forma creciente. Por lo tanto, el dividir una prueba en una primera parte formada por los ítems del 1 al 10 y otra con los ítems del 11 al 20, produce dos mitades que rompen el supuesto de la dificultad análoga de las formas paralelas. Una alternativa a este problema está en dividir la prueba en ítems pares e impares. Luego se calcula el coeficiente de correlación r de Pearson entre los puntajes obtenidos en cada mitad. Es sumamente importante considerar que el coeficiente r de Pearson obtenido con el método anterior se ve afectado por la longitud del test cómo fue demostrado por Lord en 1957 (Suen,1990). Así, este coeficiente r de Pearson se constituye en una subestimación de la confiabilidad. Para corregir este 28 problema relacionado con la reducción de la cantidad de ítems a la mitad, se debe emplear la fórmula profética de Spearman – Brown: rtotal 2r 1 r Con la aplicación de dicha corrección, se obtiene un r que sea un mejor estimador de 2xt. Sin embargo, a pesar de la corrección de Spearman – Brown, aún queda un inconveniente principal en dicha metodología. Suen (1990) señala que hay distintas maneras en las cuales se puede dividir un test, lo cual conduce a diferentes coeficientes de consistencia dos - mitades. La pregunta que queda abierta es ¿cuál de dichos coeficientes resulta ser el más adecuado? Para tratar de solucionar ese problema se asume que el promedio de los coeficientes r de Pearson obtenidos entre las diferentes formas de dividir un test en dos mitades es el mejor estimador de2xt , desarrollándose las fórmulas de Kuder – Richardson y la de Cronbach. 2.1.4.1 COEFICIENTES DE CONSISTENCIA INTERNA Nunnally y Bernstein (1995) señalan que la consistencia interna describe estimaciones de confiabilidad basadas en la correlación promedio entre reactivos dentro de una prueba. Existen diversos métodos para calcular este tipo de coeficiente. Entre los más usados podemos mencionar 2 de ellos. 2.1.4.2 FÓRMULAS KUDER – RICHARDSON Se emplea como una estimación de la media de todos los coeficientes obtenidos por las diversas formas de división por mitades, siempre y cuando los ítems se califiquen de manera dicotómica.: 29 k pi 1-pi k r 1 i 1 2 s k - 1 En esta fórmula k es la cantidad de reactivos, s2 es la varianza de las calificaciones totales en la prueba, y p es la proporción de personas que respondieron correctamente al reactivo i. Esta formula se conoce como la fórmula 20 de Kuder – Richardson. Por otro lado, tenemos también la fórmula 21 de Kuder – Richardson, que se basa en la suposición de que todos los reactivos son de igual dificultad: k x k - x r 1 ks2 k - 1 Cómo lo señala Suen (1990), las fórmulas anteriores son empleadas sobretodo en la medición de habilidades u otras características cognitivas. 2.1.4.3 COEFICIENTE ALPHA DE CRONBACH Cómo se señaló anteriormente, las formulas de Kuder – Richardson pueden aplicarse sólo cuando los reactivos se califican de manera dicotómica, mientras que el coeficiente puede calcular la confiabilidad de una prueba que consiste en reactivos a los que se les asigna dos o más valores estimados de respuesta. Su formula viene dada por: 30 k 2 s i k i 1 1 sx 2 k - 1 Nunnally y Bernstein (1995) indican que a pesar que el coeficiente ignora ciertas fuentes de error de medición potencialmente importantes, es sorprendente la poca diferencia que por lo general implican estas fuentes. Agrega además que el valor obtenido en una muestra de 300 o más personas es muy similar al valor obtenido empleando el método de las formas equivalentes. Cerdá (1984) afirma que el problema con estos coeficientes de consistencia interna es que sólo consideran los efectos de los diferentes reactivos en la confiabilidad. Los errores de medición que provocan las diferentes condiciones o momentos de aplicación no se reflejan en este tipo de coeficientes A la pregunta que tan alto debe ser un coeficiente de confiabilidad, se puede responder según Aiken (1996) “depende de lo que planeamos hacer con los resultados”. Sin embargo él considera que para las pruebas objetivas de personalidad un coeficiente de 0.85 es bueno. 31 2.1.5 2.1.5.1 INFERENCIAS SOBRE EL COEFICIENTE ALPHA UN SOLO COEFICIENTE Muñiz (1996a) indica que una vez que se ha calculado el valor del coeficiente en una muestra, se debe considerar si a determinado nivel de confianza, el valor obtenido es compatible con la hipótesis acerca que tenga determinado valor en la población, siendo habitual preguntarse si el valor obtenido en la muestra resulta estadísticamente significativo. Para ello, indica que en Kristof en 1963 y Feldt en 1965 han propuesto el siguiente estadístico de contraste para la hipótesis nula referida a que alpha tenga cierto valor en la población: F 1 1' el cual se distribuye según F con (N-1) y (n -1)(N - 1) grados de libertad y donde: N: Número de personas de la muestra n: Número de ítems del test : Valor de alfa en la población ’: Valor de alpha en la muestra 32 2.1.5.2 DOS MUESTRAS INDEPENDIENTES Otra situación con la cual podemos enfrentarnos en la investigación psicométrica está referida a si una prueba aplicada a dos muestras independientes, resulta ser más confiable para uno de los grupos frente a otro. Por ejemplo, podemos preguntarnos si una prueba de Inteligencia Espacial tiene distinta confiabilidad entre los hombres y las mujeres. Para ello, Feldt ha propuesto en 1969 (Muñiz, 1996a) la razón w, que permite contrastar la existencia de diferencias estadísticamente significativas entre dos coeficientes alpha, obtenidos en muestras independientes. 1 - α1 w 1 - α2 2.1.5.3 Se distribuye según F con n1-1 y n2-1 g.l. DOS MUESTRAS DEPENDIENTES Una situación similar a la anterior es cuando aplicamos dos tests que miden el mismo constructo en una sola muestra, y tratamos de identificar cual de los dos resulta ser más confiable. Para ello, Feldt ha propuesto en 1980 (Muñiz, 1996a) el uso de la prueba t de Student, que permite contrastar la existencia de diferencias estadísticamente significativas entre dos coeficientes alpha, obtenidos en muestras dependientes. 33 t (α1 α 2 ) n - 2 Se distribuye según t con n-2 g.l. 2 ρ = 12 4(1 - α1 )(1 α 2 )(1 ρ ) 2 12 correlación puntajes en ambos tests 2.1.6 FACTORES QUE AFECTAN LA CONFIABILIDAD 2.1.6.1 LONGITUD DEL TEST Al hablar de la longitud del test nos estamos refiriendo al número de ítems que lo componen. De acuerdo a la fórmula de Spearman Brown, al aumentar en número de ítems, también aumenta la confiabilidad. Pero esto no quiere decir que el agregar ítems a diestra y siniestra va a hacer que nuestra prueba sea más confiable. Sólo aquellos ítems que muestren buenas propiedades psicométricas (adecuada dificultad, discriminación y ausencia de sesgo) podrán contribuir al incremento de la confiabilidad; es decir, tiene que ser ítems paralelos a los ya existentes. Para estimar el nuevo coeficiente de confiabilidad de un test se puede emplear la siguiente fórmula: nρ xx' ρ'xx' 1 (n 1)ρ xx' xx’ : coeficiente de confiabilidad original n : número de veces que debe aumentar el test Una pregunta que podemos hacernos muchas veces es ¿en cuanto se debe aumentar el test original para obtener una confiabilidad deseada?. La respuesta está dada por una simple conversión matemática de la fórmula anterior, quedando de la siguiente manera: 34 n 2.1.6.2 ρ'xx' (1 ρ xx' ) ρ xx' (1 ρ'xx' ) . CONFIABILIDAD Y VARIABILIDAD Hemos visto que la manera de calcular el coeficiente de confiabilidad implica el uso de la correlación. El problema con la correlación es que esta se ve afectada por la homogeneidad del grupo en la cual fue calculada. Es decir, mientras más heterogéneo es el grupo, mayor suele ser la confiabilidad. Mediante la fórmula que se presenta a continuación, es posible estimar el aumento de la confiabilidad al aumentar la variabilidad de la muestra, siempre y cuando se cumpla el supuesto que la varianza de los errores de medida es la misma en ambas poblaciones, la homogénea y la heterogénea (Muñiz, 1996a). Debemos tener en cuenta que aquí usamos los términos homogéneo y heterogéneo en sentido relativo, para referirnos al grupo con menor y mayor variabilidad respectivamente. ρ 22' 2.1.7 δ2 1 12 (1 ρ11' ) δ2 21 : varianza del grupo heterogéneo 22 : varianza del grupo homogéneo 11’ : confiabilidad del grupo homogéneo CONFIABILIDAD DE LAS DIFERENCIAS Muchas nos interesa obtener puntuaciones provenientes de restar otras dos puntuaciones (en diferentes tests, o entre subtests). En esos casos, es importante conocer la confiabilidad de dichos puntajes diferenciales. (Muñiz 1996b) 35 La confiabilidad de dichas diferencias puede ser calculada mediante la siguiente fórmula: x2 xx' z2 zz ' 2 x z xz dd ' x2 z2 2 x z xz 2x : varianza en el test “x” xx’ : confiabilidad del test “x” 2z : varianza del test “z” zz’ : confiabilidad del test “z” xz : correlación de puntajes tests “x” y “z” 2.2 VALIDEZ Es importante considerar que un alto coeficiente de confiabilidad solo indica que el puntaje observado es un estimador efectivo del puntaje verdadero; pero no indica que dicho puntaje observado sea un indicador de la cantidad del constructo que se pretende medir. Entonces nos enfrentamos al problema de que tan lícito es emplear los puntajes observados en un test para realizar inferencias acerca de determinado constructo. Este problema esta referido a la validez del test Tradicionalmente la validez de un test se define como el grado en el cual este mide aquello para lo cual se le diseñó; es decir en que grado el test mide lo que pretende medir. (Cerdá 1984; Aiken, 1996; Hernández, Fernández y Baptista, 1997). Para Muñiz (1996a) un test representa una muestra de conductas a partir de la cual se pretende realizar ciertas inferencias. La validez se refiere en este 36 contexto al conjunto de pruebas que permiten garantizar la pertinencia de tales inferencias. Mientras la confiabilidad puede ser representada de manera numérica, la validez no siempre puede ser adecuadamente recogida por un índice numérico. La validez del uso particular del puntaje en un test es respaldada por la acumulación de datos empíricos, estadísticos, teóricos y evidencia conceptual. Así, no existe un único coeficiente de validez para un determinado procedimiento de medición. Varios estadísticos empleados para determinar la validez de una prueba son descriptores numéricos de la fuerza de una entre varias piezas de evidencia empírica respecto a la validez. Al final la validez es la adecuación del uso particular de los puntajes de un test para realizar inferencias respecto a un constructo y que la validación de un test que refiere al proceso mediante el cual se acumula evidencia para respaldar el uso determinado de los puntajes observados. Generalmente se propone una división tripartita de los procesos o modalidades que se emplean para la validación de un instrumento. Estos son: la validez de contenido, la validez predictiva y la validez de constructo. Respecto a estas modalidades de validez, Aiken (1996) afirma que una prueba puede tener muchos tipos de validez, dependiendo de los propósitos específicos con los que se le diseñó y la población a la cual se orienta. 2.2.1 VALIDEZ DE CONTENIDO Muñiz (1996a) define a este tipo de validez como “la necesidad de garantizar que el test constituye una muestra adecuada y representativa de los contenidos que se pretende evaluar con él.” (p. 119). Aiken (1996) la define cómo la medida en la cual los ítems de la prueba representan un área o universo 37 completo de habilidades, comprensiones y otros comportamientos que se supone la prueba debe medir. Desde la TCT los ítems en un test supuestamente constituyen una muestra representativa de todos los ítems que se pueden emplear para medir el constructo de interés. Si este supuesto se cumple, entonces se podrá decir que la prueba tiene validez de contenido, quedando esta definida como la representatividad de los ítems empleados en un test para medir un constructo particular. La representatividad de un test puede definirse como la precisión con que podemos hacer inferencias acerca de la puntuación de la persona en el universo, a partir de la puntuación en la muestra de ítems que constituyen la prueba (Paz, 1996). Esto es posible gracias a que la muestra de ítems en la prueba reproduce las características esenciales del universo de ítems relevantes destinados a medir cierto constructo, en la proporción y balance adecuado. Muñiz (1996a) señala que la práctica más usual para lograr este tipo de validez consiste en enumerar todas las áreas de contenido que se consideren importantes o imprescindibles y luego asegurarse que la prueba contenga ítems que hagan referencia a cada una de ellas en una proporción adecuada. Sin embargo, es muy frecuente que no se disponga de una definición explícita de la población de contenidos; en cuyo caso hay que proceder por caminos indirectos, cómo la consulta a expertos en el área que trata el test. Aiken (1996) agrega que este tipo de validez se corrobora mas bien por cuestiones de juicio que de correlación empírica. Kerlinger (1997) señala que deben estudiarse los ítems de una prueba y ponderar cada uno de ellos de acuerdo con su 38 representatividad supuesta del universo, lo cual constituye básicamente una cuestión de juicio. Para Aiken (1996), la validez de contenido es sobretodo importante en las pruebas de aprovechamiento, y se basa en el grado que la prueba representa los objetivos de la enseñanza. Sin embargo creemos que si bien en las situaciones señaladas por Aiken, la validez de contenido cobra mayor relevancia, estamos de acuerdo con Hernández, Fernández y Baptista (1997) quienes señalan que todo instrumento de medición debe contener representados a todos los ítems del dominio del contenido de las variables a medir. En general, el proceso de validación de contenido implica la definición del universo de indicadores y sus respectivos ítems representativos, la identificación de jueces competentes dentro del área que el test pretende medir; y el juicio par parte de estos expertos respecto a la relevancia y representatividad de cada ítems empleado para medir el constructo o los constructos implicados en el test que se está construyendo. Este procedimiento es denominado criterio de jueces (Cerdá, 1984; Escurra, 1988; Aiken 1996). Escurra (1988) indica que la modalidad más común para obtener la validez de contenido mediante el criterio de jueces es solicitar la aprobación o desaprobación de un ítem de la prueba por parte de varios jueces, cuyo número varía según los propósitos del autor del instrumento. Además señala que los resultados pueden ser cuantificados y así evaluar su significación estadística mediante el cálculo de un índice de concordancia entre jueces conocido como coeficiente de validez V de Aiken, cuya fórmula se presenta a continuación: 39 V S (n(c 1)) En dicha ecuación tenemos que: S: sumatoria de si si: valor asignado por el juez i n: número de jueces c: número de valores en la escala de valoración El coeficiente de Validez V de Aiken puede obtener valores entre 0 y 1. A medida que sea más elevado, el ítem tendrá mayor validez de contenido. El resultado puede evaluarse estadísticamente haciendo uso de la tabla de probabilidades asociadas de cola derecha, tabulada por Escurra (1988) para calificaciones dicotómicas (aprueba / desaprueba el ítem): Tabla 1 : Nivel de significancia del coeficiente V de Aiken, de acuerdo al número de jueces y acuerdos entre ellos. Jueces 5 6 7 Acuerdos V 3 0.60 4 0.80 5 1.00 4 0.67 5 0.83 6 1.00 5 0.71 6 0.86 7 1.00 40 p .032 .016 .008 8 9 10 6 0.75 7 0.88 .035 8 1.00 .004 7 0.77 8 0.89 .020 9 1.00 .002 8 0.80 .049 9 0.90 .001 10 1.00 .001 Muñiz (1996a) señala que suele incluirse como una submodalidad de validez de contenido a la validez aparente. Esta se define como la necesidad que el test de la impresión a los que se le aplica, que efectivamente es adecuado, tiene sentido para medir lo que se pretende. Esta es la manera mas informal de obtener validez en una prueba y es generalmente considerada inaceptable por si misma, a menos que se use en combinación con otras formas más fuertes de garantizar la validez del test. Esta se refiere al aspecto físico de una prueba, es decir, si de primera impresión parece medir aquello que pretende. En este sentido no se refiere a lo que el test mide, sino más bien a lo que a primera vista parece que mide. La validez aparente resulta ser sinónimo de adecuación del material al objetivo del examen. Si el test es interesante y adecuado habrá más posibilidades de que provoque una mejor cooperación y motivación por parte del examinado (Aiken, 1996). Se puede en muchas ocasiones mejorar la validez aparente de un test remodelando sus ítems, de tal manera que su aspecto se relacione de manera más específica con aquello que pretende medir. Con esto lo que se pretende mejorar es las posibilidades de aceptación del test por parte del sujeto. 41 2.2.2 VALIDEZ PREDICTIVA Uno de los usos más frecuentes de los tests está relacionado con la predicción a partir de los puntajes observados, de alguna variable o criterio de interés. (Muñiz, 1996a). Así se define la validez predictiva como el grado de eficacia con el cual se puede predecir una variable de interés o criterio a partir de las puntuaciones en un test determinado. Por su parte, Cerdá (1984) la define como la amplitud con la que la varianza de un test utilizado con fines predictivos, correlaciona con la varianza de una futura conducta. El método para su calcula se basa en la correlación entre una serie de puntajes en un test y otra serie de conductas, que se toman como criterio. Por consiguiente un solo test puede tener más de una validez predictiva, puesto que se le puede correlacionar con diversas formas de conducta. Sin embargo es importante definir con la mayor exactitud el fin al cual se le destina, de tal manera que se puede construir con el rigor correspondiente el criterio, el cual a su vez debe ser válido y confiable. En principio el calculo de este coeficiente de validez implica la correlación de los puntajes obtenidos en determinado test y los obtenidos en el criterio de interés. El problema radica en que los criterios de interés suelen ser muy complejos y difíciles de definir de manera unívoca (Muñiz, 1996a) Para el presente trabajo nos vamos a centrar sólo en predicción de un criterio sobre la base de una sola puntuación, aunque es posible realizar predicciones más exactas cuando se utilizan múltiples predictores, como es el caso de la Regresión Lineal Múltiple, el Análisis Discriminante y la Regresión Logística 42 Aiken (1996) considera que debido a las fuentes de varianza primaria y secundaria, sólo puede predecirse el 36% de la varianza en las calificaciones de criterio, por lo cual la predicción o validez de criterio de la mayor parte de pruebas es de .60. Cuando el puntaje del test y el del criterio se toman al mismo tiempo, se habla de validez concurrente. Cerdá (1984) la define cómo el grado de correlación que existe entre la varianza de un test y la varianza de un criterio tomando ambos al mismo tiempo. Se usa cada vez que se aplica una prueba a personas en distintas categorías, con el objetivo de determinar si las calificaciones promedio de distintos tipos de personas son diferentes de manera significativa. Este tipo de validez es más importante cuando se utiliza un test para la descripción y el diagnóstico de una conducta. 2.2.3 RELACIÓN DE LA VALIDEZ PREDICTIVA CON OTROS PARÁMETROS 2.2.3.1 CON LA CONFIABILIDAD Matemáticamente (véase Muñiz, 1996a) puede establecerse que el índice de validez de un test es menor o igual que la confiabilidad del mismo. Además se ha dicho que este índice es calculado mediante la correlación de los puntajes en el test y la calificación en el criterio. Como sabemos que la medición en psicología no es perfecta, tanto es test como el criterio se ven afectados por los errores de medición. 43 Por este motivo Spearman ha propuesto en 1904 (Muñiz 1996b) una fórmula de atenuación que permite hacer una estimación de cual sería la validez predictica, si tanto el test como el criterio estarían libres de errores de medición. Dicha fórmula se presenta a continuación: rxy ρ VxVy ρ VxVy rxy rxx' rxx' ryy' A partir de lo anterior se puede señalar que el índice de validez aumenta al aumentar la fiabilidad del test y/o del criterio, según se consigna en la siguiente fórmula: ρ xy 2.2.3.2 rxy rxx'n ryy'n n: hace referencia a los nuevos coeficientes de confiabilidad rxx' ryy' CON LA LONGITUD DEL TEST Habíamos señalado anteriormente que el índice de validez de una prueba se encuentra íntimamente relacionado con la confiabilidad de los puntajes de un tests y con la confiabilidad del criterio. Decíamos que si mejora la confiabilidad de una prueba, mejora también el índice de validez de la misma. Sabemos que una manera de mejorar la confiabilidad de una prueba es aumentar ítems paralelos a los ya existentes. Considerando lo anterior, es posible calcular cuál sería el nuevo índice de validez, dado un aumento en el número de ítems que componen un tests. 44 La formula para calcular ese nuevo índice de validez, luego de aumentar en un número de veces determinado (n) el test se expresa de la siguiente manera: ρ xy' 2.2.3.3 ρ xy n 1 (n - 1)ρ xx' CON LA VARIABILIDAD Como ya habíamos dicho al tratar de la confiabilidad, un coeficiente de correlación se ve afectado por la variabilidad de la muestra en la cual fue calculado, y al ser el índice de validez una correlación, se encuentra afectada por la variabilidad. Esta es una situación muy común que ocurre en todo tipo de selección, el coeficiente de correlación calculado en una muestra homogénea, es decir correlacionando las puntuaciones de las personas seleccionadas con el criterio, resulta infraestimado. Si se trata de obtener un índice de validez, este debería ser calculado en base a la muestra total de postulantes (muestra heterogénea). Como no siempre se dispone de las puntuaciones en el criterio para la totalidad de los postulantes (estas generalmente sólo están disponibles para los seleccionados), se puede estimar el valor del índice de validez mediante la siguiente fórmula: ρ xy 2X : varianza de la muestra δ X rxy 2 2 δ 2X rxy δ 2x δ 2x rxy heterogénea (postulantes) 2x : varianza de la muestra homogénea(seleccionados) 45 2.2.4 VALIDEZ DE CONSTRUCTO Suen (1990) señala que a pesar que la validez de contenido y la validez referida al criterio (validez predictiva y validez concurrente) proporcionan una evidencia importante respecto al uso apropiados del puntaje observado en un test, ninguno de esos tipos de validez provee evidencia directa para realizar el salto inferencial desde los puntajes del test al constructo que se pretende medir. La validez de constructo se refiere al grado en el cual un instrumento es una medida de un constructo en particular, es decir, se refiere a la extensión en la cual los puntajes de un test son un indicador válido de un constructo en particular. Paz (1996) señala que la validación de un test implica la obtención de pruebas a favor de la existencia del constructo psicológico de interés, así como la demostración que el test es adecuado para medir dicho constructo. Cerdá (1984) la define como el grado en que la varianza en una serie de medidas está en relación con la varianza de algún aspecto de la conducta sobre el que previamente se ha elaborado una hipótesis o una teoría. Afirma que un test tiene validez de constructo si el resultado obtenido es el esperado de acuerdo a la teoría formulada, lo cual significa que la validez de constructo lleva implícita la idea de predicción. Un test estará ligado al sistema de constructos dentro del que fue construido; es este tipo de validez el que nos indicará el grado en que el instrumento de evaluación es una medida adecuada del constructo y hasta qué punto las hipótesis derivadas de él pueden confirmarse mediante la utilización del test. 46 La validez de constructo no se determina de una sola manera o por medio de una investigación, sino que comprende un conjunto de investigaciones y procedimientos (Aiken, 1996): 1. Juicios de expertos. Evalúan si el contenido corresponde al constructo de interés. 2. Análisis de consistencia interna. La correlación de cada ítem con el puntaje total del test y los diversos subtests con el puntaje total de la prueba. Si se obtienen correlaciones elevadas entre cada ítem y el puntaje total se infiere que los reactivos miden el mismo atributo. 3. Estudios de las relaciones, tanto en grupos que se forman con fines experimentales como de manera natural, de las calificaciones de la prueba con otras variables en las que difieren los grupos. 4. Correlaciones de la prueba con otras pruebas y variables con que se espera que la prueba tenga cierta relación y análisis de factores de estas correlaciones 5. Método experimental: pre test, pos test. 6. Interrogar con detenimiento a los sujetos o a los calificadores acerca de las respuestas que dieron en una prueba o su escala de calificaciones, con el objeto de revelar los procesos mentales específicos que tuvieron lugar al decidir dar esas respuestas. A pesar de las múltiples modalidades señaladas por Aiken (1996), Muñiz (1996a) afirma que dos son los procedimientos más empleados para obtener datos respecto a la validez de constructo. Dichos procedimientos son el análisis factorial y la matriz multirrasgo - multimétodo, que dan información acerca de la validez factorial y la validez convergente - discriminante, respectivamente. Estas modalidades se refieren a un punto de vista interno cuando implican las 47 relaciones entre los ítems de un test, reflejando la estructura hipotetizada; y a un punto de vista externo cuando implican la relación del test con otras medidas, reflejando las relaciones implicadas en la teoría del constructo analizado. 2.2.4.1 VALIDEZ FACTORIAL Paz (1996) afirma que es una de las técnicas más utilizadas para determinar la validez de constructo de un test. El análisis factorial es una técnica de análisis multivariado que permite estimar los factores que dan cuanta de un conjunto de interrelaciones entre variables. Es pues una técnica estadística diseñada para reducir un conjunto de variables, medidas o ítems a un grupo más pequeño de factores comunes. Estos factores comunes resultan ser los constructos subyacentes respecto a los cuales las variables, medidas o ítems se configuran como indicadores imperfectos. Los factores obtenidos son artificios matemáticos, que pueden ser interpretados a la luz de una teoría psicológica a partir de las variables que lo componen. Los factores se constituyen como constructos provisionales, que necesitan de ulteriores confirmaciones por otros caminos a parte del análisis factorial (Paz, 1996). El análisis factorial es un procedimiento idóneo para obtener evidencia a favor de la validez de constructo, pues puede demostrar de manera empírica si las interrrelaciones entre los ítems de un test son consistentes con la estructura interna del constructo que se pretende medir. Para determinar la validez factorial de los ítems de un test, se someten a los mismos al análisis factorial de tal manera que se obtienen los factores 48 pertinentes (Muñiz, 1996a, Paz 1996). Por ejemplo, si el test está destinado a medir un constructo unitario, es de esperar que los ítems se agrupen mediante el análisis factorial en torno a un solo factor. En la medida que los ítems se comportan de dicha manera, se podrá decir que le test posee validez factorial., Muñiz (1996a) habla de validez factorial de un constructo cuando todas las medidas diseñadas para evaluarlo muestran coherencia factorial cuando se someten a un análisis factorial. En suma, la validez factorial de un test queda definida por su grado de saturación en uno o varios factores y se determina mediante el análisis factorial. Esta saturación factorial de un test es equivalente a su correlación con un factor previamente determinado. (Cerdá, 1984; Muñiz, 1996a). Suen (1990) postula que para realizar un análisis factorial, inicialmente se postula una estructura factorial unitaria. Dicho factor es identificado generando matemáticamente una variable imaginaria que tenga la máxima carga factorial en los ítems. La correlación entre un ítem y un factor se denomina carga factorial. Dada la hipótesis que un grupo de ítems son la manifestación de un número menor de factores comunes, nos enfrentamos al problema de diferenciar los factores relevantes de los no relevantes que pueden estar contribuyendo al error de medición. Entonces, se hace necesaria una decisión respecto a cuales de estos factores retener y cuales descartar. Rrespecto a las decisión referida a cuales factores conservar y cuales descartar, comúnmente se han empleado dos criterios (Suen, 1990). Ellos son, en primer lugar el criterio de Kaiser, con el cual se descarta un factor si este no da cuenta de la varianza significativa de por lo menos un ítem. En segundo lugar esta el Test Scree de Cattell, que descarta los factores en el punto en el cual el monto 49 de varianza explicada por un factor y otro factor se vuelve estable. A pesar de usarse esos criterios, como indicación práctica, es recomendable conservarse tantos factores como sean necesarios para emular la estructura interna del constructo que se pretende medir. Una vez identificados los factores por medio de las técnicas del análisis factorial, se pueden emplear dichos factores para describir la composición factorial del test, pudiéndose a sí caracterizar cada test en función de los factores que más influencia ejercen en la determinación de sus puntuaciones, es decir, se calcula su peso o saturación en uno o varios factores. (Cerdá, 1984) El siguiente paso, luego de identificar los factores implica definir que ítems se encuentran asociados con que factores. Esto se puede hacer examinando la carga factorial de cada ítem. Aquellos ítems que supuestamente han sido diseñados para medir la misma dimensión, deben tener altas cargas en el mismo factor. Esto sólo se puede realizar si los factores son previamente rotados. Dependiendo de las relaciones teóricas entre las dimensiones del constructo representado por los factores, se realizará una rotación de tipo ortogonal o de tipo oblicua, siendo el método más común, la rotación tipo varimax. La ortogonal se emplea cuando las dimensiones son teóricamente independientes una de la otra. La rotación oblicua se empleará cuando las dimensiones se encuentran interrelacionadas, siendo el método más común, la rotación tipo oblimin (Suen, 1990). Cómo limitación del análisis factorial podemos señalar que este procedimiento de validación nos proporciona el grado de saturación de un test en uno o varios factores previamente descritos, pero ¿cuál es la validez empírica de dichos factores? Cerdá (1984) afirma que se ha imputado a los factorialistas el haberse 50 mas bien limitado a aislar y describir factores en vez de utilizar esos resultados para confirmar o rechazar hipótesis o sugerir otras nuevas. 2.2.4.2 MATRIZ MULTIRASGO - MULTIMÉTODO Este procedimiento fue sistematizado por Campbell y Fiske en 1959 (Suen, 1990; Muñiz, 1996a; Paz, 1996). Se evalúa por medio de la matriz multirasgo – multimétodo, que viene a ser la matriz de correlaciones en la cual aparecen varios rasgos psicológicos o constructos, medidos por varios métodos. Para hablar de validez convergente, la matriz debe mostrar correlaciones altas entra las medidas de un mismo constructo con diversos métodos para medirlo. Las medidas de un mismo rasgo convergen aunque se hayan hecho por distintos métodos. La validez discriminante implica que las correlaciones entre las medidas del mismo constructo por distintos métodos deben ser más altas que las correlaciones entre las medidas de rasgos distintos por el mismo método. Para tener validez de constructo, un test debe tener validez convergente y validez discriminante (Cerdá, 1984). 2.2.5 VALIDEZ ECOLÓGICA Zinser (1987) nos dice que este tipo de validez hace referencia a la posibilidad de generalizar los resultados de un estudio a otras condiciones del medio ambiente no incluidas en un principio. En cuanto a los tests, se refiere específicamente a sí podemos generalizar la validez del instrumento a otras situaciones o características de la muestra que no se hallan considerado en un momento inicial. Se relaciona con este tipo de validez, la validez lingüística, 51 que implica que el lenguaje en el cual está planteado el test sea acorde al medio en el cual se aplica. Como lo señala Marín (1986), muy pocas pruebas consideran los factores “émicos”, es decir los constructos o conceptos con características específicas de un grupo cultural. Para Suen (1990), la validez ecológica es un tipo particular de la validez de contenido que se relaciona con los aspectos ambientales dentro de los cuales se pretende aplicar determinado test. 2.3 SIGNIFICACION DE LAS PUNTUACIONES. BAREMACIÓN Existen una serie de problemas en la medición de las variables psicológicas: ausencia de cero absoluto; carencia, por lo general, de unidades de medición constantes; falta de valores límites; etc. Todo esto hace que sea muy difícil interpretar las puntuaciones directas, por lo que se suele llevar a cabo transformaciones de las puntuaciones directas, a fin de facilitar su comprensión e interpretación (Muñiz, 1996a). Esto da como resultado las tablas o baremos que nos permiten interpretar el atributo medido en una persona, en función de la distribución de dicho atributo dentro de un grupo de referencia (que comparte algunas similitudes entre si). Si bien existen diferentes formatos para presentar las tablas o baremos, generalmente se utilizan los percentiles y las puntuaciones típicas con sus derivados. 52 2.3.1 PERCENTILES Un percentil nos está indicando el porcentaje de personas que tienen una puntuación directa inferior a la obtenida por una persona en un test determinado. Por ejemplo, si Juan obtuvo un puntaje directo de 18 en un test de Aptitud Espacial, y al buscar dicho valor en el baremo, vemos que corresponde al percentil 70, estamos diciendo que Juan obtuvo un puntaje superior al 70% de personas en el grupo normativo. Las ventajas de estas puntuaciones es que se pueden calcular fácilmente, además su interpretación es bastante directa y sencilla. Los inconvenientes son, falta de unidad constante que impide realizar determinadas operaciones (sumar, restar,...). Sólo podemos hacernos una idea clara del orden en que se encuentran las personas en su grupo, pero no de la cuantía o magnitud de las diferencias. 2.3.2 PUNTUACIONES TÍPICAS (Z) Las puntuaciones típicas implican una transformación de las puntuaciones directas en una nueva escala llamada puntajes Z, que tiene una media de 0 y una desviación estándar de 1, restándole a cada puntaje directo, la media, y dividiendo el resultado entre la desviación estándar. Z xx s 53 Las puntuaciones Z se interpretan como las unidades que una persona se aparta de la media de su grupo, que se toma como origen. Si una persona tiene una z = 1 quiere decir que se aparta de la media en exactamente una desviación estándar. Además el signo nos permite saber si la puntuación de la persona está sobre la media (valores positivos) o debajo de la media (valores negativos). 2.3.2.1 PUNTUACIONES TÍPICAS DERIVADAS (ZD) Un inconveniente con las puntuaciones típicas (Z) es que nos encontramos frente a calificaciones con signos negativos y con puntos decimales. Para evitar tanto los decimales como los signos negativos, las puntuaciones típicas son transformadas linealmente: ZD = a + bZ, En la fórmula anterior a y b son respectivamente la media y desviación estándar deseadas en la nueva distribución de puntuaciones. Como ejemplos de las puntuaciones típicas derivadas podemos señalar: a b Puntajes T 50 10 CI WAIS 100 15 CI Stanford -Binet 100 16 54 2.3.2.2 PUNTUACIONES TIPICAS NORMALIZADAS. ZN E posible transformar las puntuaciones directas a fin de que su distribución se ajuste a la curva normal. Dicha transformación es sólo justificable cuando el atributo que estamos midiendo se distribuje normalmente en nuestra población. Para comprobar el supuesto de la distribución normal en la población, se recomienda aplicar alguna prueba de bondad de ajuste a la curva normal, como puede ser el Test de Normalidad de Kolmogorov – Smirnov o la Pruba Chi Cuadrado de Bondad de Ajuste. A partir de las puntuaciones típicas normalizadas se suelen derivar otras puntuaciones, constituyendo fundamentalmente dos tipos de escalas: - Estaninos o eneatipos: escala que divide la serie en nueve rangos. Su media es 5 y su desviación típica es 2. - Escala de pentas: divide a la serie en cinco grandes unidades con media de 3 y desviación típica de 1. 2.4 ALGUNAS APROXIMACIONES A LA CONSTRUCCIÓN DE UNA PRUEBA PSICOMÉTRICA. La meta en lo que respecta a la construcción de una prueba es la de desarrollar un instrumento técnicamente apropiado dentro de las limitaciones prácticas (Brown, 1980). Por esto cada día se pone mayor énfasis en establecer de forma precisa una metodología a la cual deben atenerse los constructores de pruebas (Prieto y Delgado, 1996). Thorndike (1989) considera que en la psicometría, el interés se centra en los atributos o rasgos de las personas, en las pruebas que intentan medirlos y en los 55 ítems empleados para dicho propósito. Dicho autor define los rasgos como aquellos conceptos que se refieren a cierta característica en la conducta de la persona, que se evidencia con cierto grado de congruencia temporal y situacional. Como dichas características no son directamente observables, se habla de rasgos latentes, refiriéndose a la característica hipotética que explica el conjunto específico de las semejanzas y diferencias individuales, que presentan en forma consistente las personas. Son algo que en cierta forma reside en la persona, como su habilidad espacial o su neuroticismo. Los tests que se diseñan para medir los rasgos, serían manifestaciones de las diferencias individuales en las aptitudes o la personalidad (Prieto y Delgado, 1996). Una distinción importante que puede hacerse en este punto es la señalada por Brown (1980), quien diferencia entre pruebas de ejecución máxima y pruebas de ejecución típica. En las primeras, la persona debe tratar de obtener la mejor calificación que pueda, y se refieren a las pruebas de rendimiento y de aptitudes. En las segundas nos interesa el comportamiento habitual de la persona, es decir, se vinculan a la medición de diversos rasgos de la personalidad. Thorndike (1989) postula que un atributo es cuantificable, de tal manera que la puntuación de una prueba constituya una representación imperfecta de algún rasgo latente. Además, dicha relación es monotónica, es decir, el aumento en los niveles de un rasgo determinado, implica un incremento sostenido en la puntuación esperada en la prueba. Así, se espera que todos los ítems estén demostrando de alguna manera la existencia del rasgo latente de interés para quien elaboró la prueba (Nunnally y Bernstein, 1993). Nunnally (1991) señala que el modelo lineal se constituye como el más adecuado parta desarrollar la mayoría de las medidas de atributos psicológicos, siendo empleado en casi el 95% de los casos. Este modelo señala que los puntajes de una prueba se deben obtener sumando los puntajes obtenidos en 56 cada ítems, lo cuales pueden ser ponderados, o tener una combinación de signos positivos y negativo. Una prueba psicométrica debe ser construida sobre la base de un plan formal y un cronograma de trabajo, lo cual tiene como ventajas el proporcionar una idea clara de lo que se va a hacer y como va a hacerse, además de facilitar la comunicación entre todas las personas que participan en la construcción del instrumento. Basándonos fundamentalmente en el modelo propuesto por Thorndike (1989) y considerando los aportes de otros autores, los componentes de un plan incluyen: 1. Definición inicial del dominio o atributo a evaluarse. Se considera que este es el paso previo fundamental a realizarse antes de la construcción de cualquier tipo de prueba (Cerdá, 1984; Prieto y Delgado, 1996). Este debe estar definido de la forma más explícita posible, pues los rótulos pueden significar cosas diferentes para personas diferentes, por lo cual se hace necesaria una definición operacional del constructo a trabajarse (Kerlinger, 1997). Thorndike (1989) considera que el procedimiento de preparar una prueba es un proceso de interacción continua en el cual se avanza y se retrocede, por ello, conforme se van desarrollando los procesos de evaluación, estos se van modificando a medida que se va clarificando la definición del atributo. Dichas definiciones surgen fundamentalmente a partir de la revisión bibliográfica pertinente, es decir, se encuentran soportadas por modelos teóricos, en la mayoría de casos. 57 2. Especificación de los usos para los cuales se destina el instrumento. Un instrumento será construido fundamentalmente para tomar una serie de decisiones sobre la base de los resultados obtenidos. Prieto y Delgado (1996) señalan que esto incrementará la utilidad de una prueba explicitando la interpretación que pueda hacerse a partir de sus puntuaciones y determinará el tipo de ítems que habrá que construir. Los objetivos pueden clasificarse, según Prieto y Delgado (1996) en : a) Medición de un constructo teórico : se busca medir un rasgo a partir de las definiciones surgidas de una teoría acerca del atributo. Se pone énfasis en la validez de contructo. b) Evaluación académica o conductual : este es el objetivo de la evaluación del rendimiento y la evaluación conductual. Se basa sobre todo en los test referidos a la norma aunque también se emplean los referidos al criterio. Se busca que los items constituyan una muestra representativa de un dominio cuyos límites y estructura están determinados por los objetivos de instrucción o el conjunto de conductas relevantes. c) Selección de personal : los test se diseñan para identificar a las personas con rasgos apropiados para ser contratados en una empresa, ser promovidos o acceder a una beca, etc. Los items deben reflejar los aspectos pertinentes para diferenciar a las personas con distintos niveles en un criterio. 58 d) Clasificación diagnostica : se busca construir test para asignar a las personas a distintas categorías diagnósticas o a las ocupaciones o tipos de instrucción mas adecuados según las características o perfiles psicológicos. La construcción de los items se guía sobre todo por la validez referida al criterio, seleccionando las conductas mas relevantes para diferenciar entre las categorías de clasificación. 3. Indicación de las restricciones del instrumento. Entre las restricciones más frecuentes se incluye los límites de tiempo, la forma de aplicación en tanto colectiva o individual (Thorndike, 1989), el medio de procedencia (rural o urbano), la lengua materna, la presencia de discapacidades (Prieto y Delgado, 1996), el nivel socioeconómico de los usuarios, el nivel intelectual, y el nivel de lectura (Brown, 1980), entre otros. Prieto y Delgado (1996) señalan que todos estos aspectos influyen en la definición del contenido y en las características formales de los ítems. 4. Especificación del contenido, indicando los temas, las habilidades y/o indicadores a evaluarse. A esto se le llama también plan detallado de la prueba (Brown, 1980; Thorndike, 1989). Implica la especificación detallada de los temas y procesos que se van a incluir en la prueba. Es identificar el dominio, o “conjunto de indicadores apropiados para representar el nivel de una persona en el constructo o atributo que se va a evaluar” (Prieto y Delgado, 1996, p.116). Thorndike (1989) señala que dicho plan suele ser más explícito cuando se trata de una prueba de rendimiento académico, y muchas veces los procesos se pueden basar en la taxonomía de Bloom. Esto sirve como 59 guía para establecer la importancia relativa de cada área de contenido, a partir de lo cual se puede planificar cual será el número de ítems a construirse. (Brown, 1980) En cuanto a las prueba destinadas a medir intereses, actitudes u otros rasgos de personalidad, estas no pueden plantearse de una manera tan esquemática como las pruebas de rendimiento (Thorndike, 1989). Generalmente se acepta que en este tipo de pruebas lo que hace es señalarse cuales serán los indicadores específicos, además de definirse cual será el número aproximado de ítems para cada indicador (Thorndike, 1989). Los constructores de este tipo de pruebas seleccionan una serie de conductas, que según la teoría, son representativas del constructo que se pretende evaluar (Prieto y Delgado, 1996). 5. Especificación del formato de los ítems de la prueba, señalando el tipo de respuesta a obtenerse y la calificación que se empleará. Prieto y Delgado (1996) recomiendan revisar los instrumentos similares que existen para medir el mismo constructo, o analizar las investigaciones referidas a la adecuación formato-constructo, de tal manera que se pueda facilitar la decisión respecto al formato a emplearse en los ítems de la prueba que se está construyendo. Para las pruebas de habilidad, generalmente suele emplearse el formato de elección múltiple, aunque existen otras opciones, como el distinguir entre dos alternativas (verdadero o falso), el emparejamiento; o la redacción de las respuestas (Brown, 1980; Thorndike, 1989). 60 En cuanto a las pruebas de personalidad, suele usarse el formato dicotómico o el formato tipo escala, siendo las más comunes, la tipo Likert y la escala de Guttman (Prieto y Delgado, 1996). Otros autores, como Cerdá (1984) recomiendan evitar el formato dicotómico, pues muchas veces la elección resulta ser difícil, ya que en el continuo de la personalidad no se dan de manera tan marcada dichas polaridades. También se define en esta etapa si la prueba contará de una hoja de respuestas a parte, o será respondida en el mismo cuadernillo que contiene los ítems – estímulo; además de establecer la forma de calificación, que puede ser el conteo de las respuestas correctas o la inclusión de alguna penalización por los errores cometidos (Thorndike, 1989). 6. Establecimiento del procedimiento a usarse para la evaluación preliminar de la eficacia de la prueba. Esta etapa implica básicamente la aplicación de una prueba piloto, con el objeto de detectar si algún ítem no está funcionando de una manera adecuada o no está siendo comprendido por los usuarios de la prueba. En la aplicación piloto, el formato debe ser el mismo que se ha previsto para la forma definitiva del test, lo mismo se aplica para las condiciones de aplicación del test, es decir, serán las mismas instrucciones, los mismos límites de Tiempo (Cerdá, 1984). Thorndike (1989) nos dice que en caso de no haberse podido definir a priori el tiempo límite, esta aplicación piloto también nos puede dar una idea acerca del tiempo requerido para contestar la prueba. En el caso de las 61 pruebas de ejecución máxima, se toma generalmente el tiempo que necesitan el 80 a 90% de las personas para finalizarlo (Cerdá, 1984). 7. Especificación de los parámetros estadísticos que asegurarán la correcta elección de los ítems que componen la prueba. Esta etapa se encuentra centrada en el análisis de ítems; el interés se centra básicamente en obtener datos referidos a la dificultad del ítem o a su capacidad para discriminar entre quienes puntúan alto en el atributo latente y quienes puntúan bajo en dicho atributo (Nunnaly, 1991; Thorndike, 1989). Para analizar los ítems den las pruebas de ejecución máxima se emplean diversos métodos para calcular índice de dificultad (Muñiz, 1996). Cerdá (1984) sugiere que el nivel de dificultad de una prueba sea lo más homogéneo posible. Es decir, la mayoría de ítems deben ser de dificultad media. Otra metodología de trabajo puede estar centrada en el análisis de las respuestas incorrectas en las pruebas de elección múltiple, observándose el número de personas que seleccionan cada una de las alternativas incorrectas (Brown, 1980; Muñiz, 1996; Prieto y Delgado, 1996). En cuanto a los test de personalidad o de ejecución típica, se recomienda trabajar la consistencia interna de los ítems, por medio de la correlación ítem-test corregida, que debe ser igual o superior a .20 (Nunnally, 1991; Nunnally y Bernstein, 1993) 8. Definir los procedimientos que se van a emplear para estandarizar la prueba y obtener los criterios normativos. Se deben establecer los grupos de referencia adecuados, con los cuales será evaluado el 62 desempeño o la posición relativa de una persona (Prieto y Delgado, 1996). Implica el diseñar un procedimiento de muestreo que pueda reproducir las características de la población de la forma más exacta posible. Esta etapa incluye la decisión respecto al tipo de puntuaciones convertidas que se vana a obtener a partir de los puntajes directos (Nunnally, 1991) 9. Especificación de los análisis que deban llevarse a cabo para evaluar la confiabilidad y validez de la prueba. Una vez que se han determinado los ítems que quedarán en la versión final de la prueba, se deben definir los procedimientos estadísticos con los cuales se obtendrán la información psicométrica básica de la prueba 10. Planificación de la elaboración del manual de la prueba y cualquier otro material auxiliar que sea necesario. El manual, debe incluir: - Ficha Técnica - Indicación de los usos de la prueba. - Marco Teórico - Instrucciones completas para aplicar la prueba. - Datos sobre la confiabilidad y validez de la prueba. - Instrucciones sobre la interpretación de los resultados. - Tablas de normas o baremos. - Bibliografía 63 64 SEGUNDA PARTE USO DEL PROGRAMA MCP v.1.0 65 66 1. CONFIABILIDAD Al ingresar al módulo “Confiabilidad”, haciendo click en la etiqueta correspondiente, usted podrá realizar un conjunto de operaciones, tal y como se muestran a continuación. 1.1 ESTIMACIÓN DE PUNTUACIONES VERDADERAS Como ya hemos señalado, la confiabilidad es una estimación del error de medición. Ello implica es posible estimar un intervalo de confianza para las puntuaciones verdaderas, si se conoce el puntaje obtenido en una prueba y la confiabilidad de una prueba. Es importante considerar, que este intervalo es mucho más adecuado si se calcula para un grupo que para una persona (Muñiz, 1996) Supongamos que hemos aplicado una prueba de Ansiedad ante los Exámenes, cuya media es 44.74, su desviación estándar 8.94 y que además la confiabilidad de la prueba es de 0.86. Si queremos estimar un intervalo de confianza para las puntuaciones verdaderas de una persona que tuvo 54 puntos en esa prueba, basta con introducir todos los datos antes mencionados en la matriz y se podrá estimar las puntuaciones utilizando tres métodos distintos. 67 Ilustración 2: Estimación de Puntuaciones Verdaderas, Resultados La desigualdad de Chebychev nos da intervalos más amplios, esto se debe fundamentalmente a que no hace ninguna suposición respecto a la forma en que se distribuyen los puntajes de la prueba (Muñiz, 1996). Con este método podemos asumir con un 95% de confianza que el puntaje verdadero de dicha persona estará entre 39 y 69 puntos. Según el Modelo de regresión, el puntaje verdadero (V) de una persona que obtiene 54 puntos, se estima puntualmente en 52.70. Sin embargo al considerar los errores de predicción, se establece un intervalo de confianza, según el cual las puntuaciones verdaderas se encontrarán entre 47 y 59. Si suponemos la distribución normal de los errores de medición y por ende la de las puntuaciones verdaderas, podemos plantear un intervalo desde 47 a 61 puntos para el puntaje verdadero, con un 95% de confianza. 68 1.2 CONFIABILIDAD Y LONGITUD Esta parte nos permite calcular como cambia la confiabilidad al aumentar el número de ítems de una prueba, además de estimar cuantos ítems se debe agregar a unja prueba a fin de obtener una confiabilidad determinada. Por ejemplo, supongamos que se ha construido un test de “Razonamiento Verbal” de 35 ítems, cuya confiabilidad es de 0.72. ¿Qué pasaría con la confiabilidad si se agregan 10 ítems paralelos a los que ya existían? Para ello sólo debemos insertar los datos antes señalados: Ilustración 3: Confiabilidad y Longitud, Nueva Confiabilidad Como vemos, el nuevo test, de 45 ítems, implica un aumento de 1.29 veces con respecto a la versión original de 35 ítems. Este aumento del número de ítems en 1.29 veces, produce un aumento de la confiabilidad de 0.72 a 0.77. Por otro lado, podemos preguntarnos cuántos ítems deben agregarse a una prueba ya dada a fin de tener una confiabilidad determinada. 69 Por ejemplo, si hemos construido una prueba pata medir las “Actitudes frente a las Matemáticas”, formada por 18 ítems, cuya confiabilidad es de 0.67, y nosotros deseamos una confiabilidad de 0.75, ¿cuantos ítems debemos aumentar? Ilustración 4: Confiabilidad y Longitud, Cantidad de ítems a aumentar Como vemos en la ilustración anterior, debemos aumentar nuestra prueba 1.48 veces, lo cual equivale a aumentar 9 ítems (este valor se encuentra redondeado hacia arriba). Es decir, para alcanzar una confiabilidad de 0.75, nuestra nueva prueba debe tener 27 ítems. 1.3 CONFIABILIDAD Y VARIABILIDAD El coeficiente de confiabilidad se ve afectado por la variabilidad de la muestra en la cual fue calculado. Este módulo nos permite apreciar los cambios en la confiabilidad al cambiar la variabilidad de una muestra. Por ejemplo, si una empresa aplica una prueba de inteligencia general en un grupo de 200 postulantes para 20 vacantes de mando medio. Con los resultados de esa prueba se eligen a 20 personas y se calcula la confiabilidad en esas 20 70 personas, obteniendo un coeficiente de 0.52. Además sabemos que los puntajes de la prueba tienen una desviación estándar de 10.34, en el grupo de postulantes y de 4.67 en el grupo de seleccionados, ¿cuál sería la confiabilidad general de la prueba? Ilustración 5: Confiabilidad y Variabilidad Luego de introducir todos los datos en el lugar correspondiente de la matriz, vemos que el coeficiente de confiabilidad de la prueba se estima en 0.90. 1.4 CONFIABILIDAD DE LAS DIFERENCIAS Si queremos saber qué tan confiables son las diferencias entre los puntajes obtenidos en dos pruebas, podemos utilizar este módulo. Por ejemplo, si queremos ver qué tan confiables son las diferencias entre los puntajes de una prueba de Lenguaje y otra de Ciencias, sólo debemos ingresar los datos referidos a la desviación estandar en cada prueba, la confiabilidad de las mismas, y el coeficiente de correlación entre ambas: 71 Ilustración 6: Confiabilidad de las Diferencias En este ejemplo, la confiabilidad de las diferencias es de 0.65. Es decir, podemos considerar que las diferencias de puntuaciones en ambas pruebas son confiables. 2. INFERENCIAS SOBRE ALPHA Luego de calcular un coeficiente de confiabilidad alpha de Cronbach en una muestra, podemos efectuar una serie de inferencias, contrastándolo con un valor teórico o con el obtenido en otro grupo. Además vamos a encontrar un recuadro en el cual debemos marcar con un click la hipótesis nula que buscamos contrastar a fin de obtener el valor p correspondiente (bilateral, unilateral izquierdo, unilateral derecho). Ho: Alpha 1 = Alpha 2 Ho: Alpha 1 = Alpha 2 Ho: Alpha 1 = Alpha 2 72 2.1 UN SOLO COEFICIENTE Nos permite contrastar el valor del alpha obtenido en la muestra con un valor en la población o valor teórico. Además nos da el intervalo de confianza en la población para nuestro alpha, al nivel especificado (por ejemplo al 99%). Supongamos que deseamos una confiabilidad en la población que sea por lo menos de 0.80 para una prueba de “Niveles de Ansiedad”. Si aplicamos esa escala en una muestra de 400 personas, y calculamos un coeficiente alpha de 0.78, ¿podemos afirmar al 95% que este coeficiente es menor que el teóricamente deseado? De acuerdo a nuestro ejemplo, postulamos las siguientes hipótesis: H0: alpha de la muestra alpha en la población (teórico) H1: alpha de la muestra alpha en la población (teórico) Lo primero que hacemos es marcar en el recuadro correspondiente la hipótesis nula y luego insertar todos los datos enunciados en el problema como se ve a continuación. Ilustración 7: Contraste de alpha con valor teórico 73 Según nuestros resultados hemos obtenido un valor F399,19511 = 0.91 que tiene asociado un valor p = 0.099. Además, observamos un intervalo de confianza al 95% para el alpha calculado de 0.748 a 0.810. Todos estos resultados nos llevan a aceptar la hipótesis nula y concluir que nuestro alpha calculado no alcanza un nivel de significancia estadística que nos permita suponer que la confiabilidad de nuestra prueba en la población es menor que 0.80. 2.2 CONTRASTE EN DOS GRUPOS INDEPENDIENTES En esta sección podemos calcular la significancia estadística de las diferencias entre dos coeficientes alpha calculados en dos grupos independientes, como por ejemplo: varones y mujeres, pacientes y no pacientes, etc. Por ejemplo, hemos construimos una prueba de “Estrategias de Aprendizaje” y la hemos aplicado en una muestra de 400 personas, de las cuales 180 son varones y 220 mujeres. Luego calculamos el alpha para cada uno de los grupos, obteniendo valores de 0.84 para los varones y 0.87 para las mujeres, ¿podemos afirmar que esta diferencia es estadísticamente significativa? En este ejemplo, nuestro sistema de hipótesis sería el siguiente: H0: alpha de la muestra 1 = alpha de la muestra 2 H1: alpha de la muestra 1 alpha de la muestra 2 74 Ilustración 8: Contraste para dos grupos independientes Como vemos, hemos obtenido un valor W179,219 = 1.23 que tiene asociado un valor p = 0.143. Estos resultados nos llevan a aceptar la hipótesis nula concluyendo que no existen diferencias estadísticamente significativas entre la confiabilidad de la prueba para los varones y las mujeres. 2.3 CONTRASTE EN DOS GRUPOS DEPENDIENTES Con este módulo podemos analizar las diferencias entre los coeficientes alpha calculados en una misma muestra que para efectos es considerada como dos grupos independientes. Esto puede ocurrir cuando se aplica la misma prueba en dos momentos distintos a la misma muestra o cuando se aplican dos pruebas similares a la misma muestra. Considere el siguiente ejemplo: se han aplicado dos pruebas que miden comprensión lectora a una misma muestra de 250 personas, siendo la confiabilidad del primer test de 0.75 y la del segundo de 0.70. Además la correlación entre los puntajes de ambas pruebas es de 0.78, ¿podemos afirmar que la confiabilidad de la primera prueba es mayor que la confiabilidad que la segunda? Nuestro sistema de hipótesis sería el siguiente: 75 H0: alpha de la prueba 1 alpha de la prueba 2 H1: alpha de la prueba 1 alpha de la prueba 2 Ilustración 9: Contraste para grupos relacionados Nuestro resultado muestra un t248 = 2.30, con un valor p = 0.011, que nos lleva a rechazar la hipótesis nula, concluyendo que el alpha del primer test es mayor que el del segundo test. 3. VALIDEZ REFERIDA AL CRITERIO Para ingresar a este módulo sólo debe hacer click en la etiqueta correspondiente. Mostramos a continuación los diferentes cálculos que pueden efectuarse. 3.1 VALIDEZ Y VARIABILIDAD Al igual que la confiabilidad se ve afectada por la variabilidad de la muestra, el coeficiente de validez también se ve afectado de la misma manera. Supongamos que hemos aplicado una prueba de “Aptitud Motora Fina (AMF)” para seleccionar a un conjunto de trabajadores en una planta de ensamblaje de 76 relojes. De la muestra total (200 personas) que se presentan al puesto, se calcula una d.s. de 13.45. Luego de un tiempo, se evalúa a los 30 empleados, obteniéndose puntajes de eficiencia de 1 a 10 (criterio). Para determinar si nuestra prueba AMF tiene validez predictiva, correlacionamos los puntajes de esos 30 trabajadores en la prueba, cuya d.s. es 4.67 con los puntajes el criterio. Obtenemos un coeficiente de correlación de 0.32. A fin de corregir los efectos de la varianza disminuida, introducimos los datos en la matriz correspondiente y obtenemos: Ilustración 10: Validez y Variabilidad Como apreciamos en la ilustración anterior, el coeficiente de validez de nuestra prueba AMF es de 0.70. Según estos resultados, podemos concluir que la validez predictiva de nuestra prueba, como instrumento de selección de personal es adecuada. 3.2 USO DE UN NUEVO TEST COMO PREDICTOR Muchas veces nos puede interesar si un nuevo test resulta ser mejor predictor que otro test que ya se venía aplicando con fines de selección. Para saber si este 77 nuevo instrumentos tiene un mejor coeficiente de validez, podemos usar este módulo. Supongamos que un test de “Inteligencia General (IG)” para seleccionar empleados en una línea de ensamblaje. La d.s. en el grupo de aspirantes al puesto fue de 17.2, mientras que en el grupo de selccionados fue de 7.54. La correlación de IG con el criterio fue de 0.28. Al insertar estos datos vemos que el coeficiente de validez es 0.55. Además aplicados en el grupo de seleccionados un test de “Aptitud Mecánica (AM)” y correlacionarlo con el criterio, obtenemos un valor de 0.24; mientras que su correlación con IG es de 0.43. Ilustración 11: Uso de un nuevo test como predictor Como vemos en los resultados anteriores, el coeficiente de validez del test AM es de 0.63, frente a 0.55 del test IG, por lo tanto el primer test es una mejor predictor. 78 3.3 VALIDEZ Y LONGITUD Como ya hemos señalado anteriormente, el coeficiente de confiabilidad de un test se ve afectado por la cantidad de ítems que lo componen, lo cual a su vez afecta a la confiabilidad. Es también importante señalar que desde un punto de vista matemático, el índice de validez debe ser menor o igual a la raíz cuadrada del coeficiente de confiabilidad. Si introducimos datos en el módulo que contradicen este requerimiento, nos aparecerá una indicación de ello en pantalla. Si hemos contraído una prueba de “Aptitud Numérica”, conformada por 35 ítems, cuya confiabilidad es de 0.76 y su índice de validez 0.64; ¿cuál sería la nueva validez, si nuestra prueba estaría formada por 50 ítems? Para responder a esa pregunta y otras similares, introducimos los datos en el lugar apropiado de la matriz: Ilustración 12: Nueva validez al cambiar el número de ítems Como vemos, la prueba ha aumentado de tamaño, siendo ahora 1.43 veces su tamaño original. Además el nuevo coeficiente de validez será 0.66. 79 También podemos preguntarnos en cuantas veces debe aumentar una prueba a fin de alcanzar un coeficiente de validez específico. Si tenemos una prueba conformada por 25 ítems, cuya confiabilidad es de 0.75, y su validez de 0.60, ¿en cuanto debemos aumentar nuestra prueba para lograr un coeficiente de validez de 0.65?. Ilustración 13: Nuevo número de ítems Luego de introducir todos los datos vemos que debemos aumentar la prueba 2.45 veces, es decir nuestra nueva prueba tendrá 62 ítems. Es importante considerar que en algunas situaciones, por cuestiones de la formula empleada y las relaciones entre validez, confiabilidad y longitud, el programa nos dará como respuesta “Límite”, implicando con ello que no es posible alcanzar el coeficiente de validez deseado mediante el aumento del número de ítems. 3.4 CORRECCION DE ERRORES Y MEDIDA Como hemos señalado en la primera parte de este manual, la confiabilidad y el coeficiente de validez se encuentran relacionadas. 80 Estos módulos nos permiten apreciar cómo cambia un índice de validez, al cambiar la confiabilidad del predictor (prueba psicológica) o la del criterio. En muchas situaciones desconocemos cuál es la confiabilidad del criterio. De ser este el caso, debemos poner en nuestra matriz el valor de 1.00 en los espacios destinados para la “Confiabilidad del criterio”, “Confiabilidad original del criterio” y “Nueva confiabilidad del criterio”. Por ejemplo, supongamos que tenemos una prueba de “Comprensión Lectora” que tiene un índice de validez predictiva de 0.54, usando como criterio las calificaciones en el curso “Redacción y Composición” y que además se le ha calculado un coeficiente de confiabilidad de 0.74. Si queremos saber cuál sería el índice de validez, si la confiabilidad fuese perfecta sólo debemos meter los datos en nuestra matriz, poniendo como valor 1.00 como “Confiabilidad del Criterio”, pues desconocemos su verdadero coeficiente de confiabilidad. Ilustración 14: Coeficiente de validez asumiendo una confiabilidad perfecta. 81 Estos resultados nos indican que en ausencia de errores de media, la correlación entre los puntajes en la prueba y el criterio (índice de validez) sería 0.63. También podemos preguntarnos cuales son los cambios en la validez de un test al cambiar la confiabilidad del mismo, la del criterio o ambas. Si tenemos una prueba de “Aptitud Verbal” cuya confiabilidad es de 0.79, que posee una validez de 0.60 para predecir el rendimiento en “Comunicación Integral”(criterio con una confiabilidad de .086), y aumentamos la confiabilidad d ela prueba a 0.85 y la del criterio a 0.90, ¿cuál será la nueva validez? Ilustración 15: Cambios en el coeficiente de validez al cambiar la confiabilidad Vemos en la ilustración anterior, que el coeficiente de validez aumenta de 0.60 a 0.64, como resultado de las mejoras en la confiabilidad. 82 4. BAREMACION Para ingresar al módulo de baremación, debe hacer click en la etiqueta con el nombre “baremación (normalizada)”, en la cual encontrará una matriz en blanco como la siguiente: Recuerde que para utilizar este módulo las puntuaciones de su prueba deben aproximarse a una distribución normal. Para comprobar este supuesto se pueden utilizar algunas pruebas estadísticas como la Z de Kolmogorov – Smirnov. Si sus puntuaciones no se distribuyen asemejando una curva normal, los baremos proporcionados por este módulo se encontrarán sesgados. En este módulo se ofrece la posibilidad de construir a partir de la media y desviación estándar de las puntuaciones tres baremos en forma simultánea: pentas, eneatipos y percentiles. Los únicos datos que debe ingresar son la media y desviación estándar correspondientes en las casillas marcadas en gris. Por ejemplo, suponga que quiere baremar una prueba de actitudes hacia las matemáticas, en la cual se 83 obtuvo una media de 23.48 y una desviación estándar de 7.32. Basta con ingresar estos datos en el lugar correspondiente para obtener simultáneamente las tres puntuaciones derivadas. Este programa automáticamente redondea los números obtenidos al entero más próximo: Por ejemplo, suponga que Juan obtuvo 22 puntos en la prueba, lo cual lo ubica en el penta 3, eneatipo 5 y percentil 44. En la distribución de percentiles vamos a notar que muchas veces a diferentes percentiles le corresponden la misma puntuación directa. Esto se debe a los efectos del redondeo. En estos casos, lo que debe hacerse es asignarle a la puntuación directa, el percentil más alto. 84 En el ejemplo vemos que el puntaje directo de 36 se encuentra emparejado tanto con el percentil 95 como con el 96. En este caso, a una persona que obtenga 36 puntos, le corresponderá el percentil 96. 5. FUNCIONAMIENTO DIFERENCIAL DE LOS ÍTEMS Se refiere a la presencia del sesgo en los ítems de una prueba. Un ítem o test estará sesgado si para dos o más grupos con el mismo valor en la variable medida, se generan mediciones distintas (Muñiz, 1996). En esta parte podremos aplicar dos de las diferentes medidas que existen para detectar el sesgo en ítems de ejecución máxima, que pueden puntuarse de forma dicotómica (acierto – fallo). Ambas medidas presentadas se basan en la prueba Chi-Cuadrado. 5.1 METODO DE SCHEUNEMAN Si un ítem no presenta sesgo, se espera que dentro de los diferentes niveles de habilidad, las proporciones de aciertos sean similares. Este contraste debe aplicarse para cada uno de los ítems que componen nuestra prueba. El primer paso, consiste en definir cuantos grupos vamos a contarstar, y en cuantos niveles vamos a dividir las puntuaciones directas. Para hacerlo, debemos dividir el rango de puntajes directos obtenidos en nuestra muestra en intervalos de igual amplitud. Es recomendable tener entre 5 y 10 intervalos, aunque podrían trabajarse con menos. 85 Ilustración 16: Selección de intervalos de puntajes y grupos Como vemos en el ejemplo, podemos hacer un click en los botones correspondientes a fin de aumentar o disminuír el número de grupos y/o intervalos de puntuaciones con los cuales vamos a trabajar. En nuestro ejemplo, vamos a contrastar la presencia del sesgo en un ítem, entre los grupos “costeños”, “andinos” y “selváticos”, por lo cual señalamos que nuestro número de grupos es tres. Además dividimos nuestros puntajes directos en seis intervalos. El módulo nos permite trabajar hasta con 10 intervalos y 4 grupos. Luego vamos a ver en este módulo, una tabla, que en su parte extrema izquierda, nos permite poner los valores numéricos que marcan el límite inferior y superior de cada intervalo de puntuaciones directas. Inmediatamente a la derecha, encontramos un espacio que nos permite ingresar la información respecto a la cantidad de personas en cada grupo y dentro de cada intervalo de puntaje. Al costado ingresamos información referida a la cantidad de personas que acertó el ítem dentro de cada uno de los intervalos de puntuaciones directas. 86 Ilustración 17: Personas y Aciertos en grupos e intervalos de puntajes Por ejemplo, podemos apreciar en la ilustración que de aquellas personas que tuvieron como puntaje directo en la prueba entre 31 y 40 puntos, 48 son de la costa, 55 de la sierra y 79 de la selva. De ellos un total de 33 costeños acertaron al ítem, al igual que 42 andinos y 49 personas de la selva. Nuestra muestra total fue de 990 personas, 330 de la costa, 325 de la sierra y 335 de la selva. El cuadro que encontramos al bajar en nuestro módulo, nos presenta las frecuencias obervadas (O) y las esperadas (E) para cada uno de los grupos, en cada uno de los intervalos de puntuaciones. Estas frecuencias nos servirán para el cálculo del valor de Chi-Cuadrado, que lo encontramos al final, junto con su valor p y grados de libertad. Ilustración 18: Resultados de la prueba de Scheuneman 87 Según nuestro ejemplo, el valor Chi calculado es de 19.07, y tiene un valor p asociado de 0.039 para 10 grados de libertad. Estos resultados nos llevan a suponer que existe un sesgo en el ítem. Para saber donde se ubica ese sesgo, podemos mirar la tabla de tiene como encabezado a los grupos y en el cuerpo un conjunto de signos “+” y “-”. Se asigna un signo positivo cuando el valor esperado es mayor o igual que el valor observado y el negativo cuando es menor. Esta tabla nos muestra que aquel grupo con más signos negativos es el que se encuentra más perjudicado por el ítem. (véase por ejemplo, Muñiz, 1996). En nuestro caso el grupo más perjudicado es el de las personas que habitan en la selva (6), seguido por aquellas que habitan en el ande (4). 5.2 METODO DE CAMILLI En este método se calcula no sólo un valor chi para los aciertos, sino que también se calcula un valor para los errores, sumando luego ambos para hallar su valor p asociado. En este módulo no tenemos que agregar ninguna información adicional, pues se efectúan automáticamente todos los cálculos a partir de la información proporcionada en el módulo anterior. 88 En este ejemplo vemos un valor chi de 71.11 que para 12 grados de libertad posee un valor p de 0.000. Este resultado también nos lleva a aceptar la presencia del sesgo en este ítem. 89 90 6. REFERENCIAS AIKEN, L. (1996) Tests psicológicos y Evaluación. 8ª edición. México: Prentice Hall ALARCÓN, R. (1991) Métodos y Diseños de Investigación del Comportamiento. Lima: Universidad Peruana Cayetano Heredia, Fondo Editorial BROWN, F. (1980) Principios de la Medición en Psicología y Educación. México: El Manual Moderno. CERDA, E. (1984) Psicometría General. Barcelona: Herder. ESCURRA, M. (1998) Cuantificación de la validez de contenido por criterio de jueces. Revista de Psicología. Pontificia Universidad Católica. Año IV vol. VI. Primer y segundo semestre de 1998. HERNÁNDEZ, R.; FERNÁNDEZ, C. y BAPTISTA, P. (1997) Metodología de la Investigación. México: McGraw - Hill. KERLINGER, F. (1997) Investigación del Comportamiento. 3ª ed. México: Mc Graw-Hill. MARIN, Gerardo (1986) Consideraciones metodológicas básicas para conducir investigaciones en América Latína. Acta Psicquíatrica Psicológica América Latína 1986, 32. 183-192 MUÑIZ, J. (1996a) Teoría Clásica de los Tests, 2ª. ed. Madrid: Ediciones Pirámide MUÑIZ, J. (1996b) Fiabilidad. EN: MUÑIZ, J. (coordinador) Psicometría. Madrid: Universitas. NUNNALLY, J. (1991) Teoría Psicométrica. México: Trillas. NUNNALLY, J. y BERNSTEIN, I. (1995) Teoría Psicométrica. 3ª ed. México. McGraw - Hill. PAZ, M. (1996) Validez. En: MUÑIZ, J. (coordinador) Psicometría. Madrid: Universitas. 91 PRIETO, G. y DELGADO, A. (1996) Construcción de Items. En : MUÑIZ, J. (Coordinador) (1996) Psicometría. Madrid : Universitas. SIERRA BRAVO, R. (1995) Técnicas de Investigación Social, Teoría y Ejercicios. 10ª ed. Madrid: Paraninfo. THORNDIKE, R. (1989) Psicometría Aplicada. México: Limusa. ZINSER, O. (1987) Psicología Experimental. Bogotá: McGraw - Hill. 92