REVISIÓN DE LA CONSISTENCIA INTERNA DEL INVENTARIO DE INTELIGENCIA EMOCIONAL DE BAR-ON, EQ-I: YV Revista de Peruana de Psicología y Trabajo Social 2014, Volumen 3- N° 1: 141-154 REVISIÓN DE LA CONSISTENCIA INTERNA DEL INVENTARIO DE INTELIGENCIA EMOCIONAL DE BAR-ON, EQ-I: YV REVIEW OF THE INTERNAL CONSISTENCY OF BARON EMOTIONAL QUOTIENT INVENTORY (EQ-I) César Merino Soto1, Jhonatan Navarro Loli, Walter García Ramirez Universidad de San Martín de Porres, Lima, Perú Recibido 02 de mayo de 2014; aceptado 07 de junio de 2014 RESUMEN Se realiza una revisión de la consistencia interna reportados para la adaptación y estandarización peruana de la versión aplicable a niños y adolescentes del Inventario de Inteligencia Emocional de Bar-On, EQ-i: YV. Esta revisión aborda específicamente los datos publicados por Ugarriza y Pajares (2004, 2005) sobre el coeficiente α de cronbach y la homogeneidad de los puntajes de las versiones larga y breve del EQ-i: YV. El análisis de estos aspectos, de acuerdo al género y al tipo de colegio (público o privado), muestra que los coeficientes son generalmente bajos, manteniéndose en un nivel satisfactorio el puntaje total. Esta revisión pone en cuestionamiento la utilidad del EQ-i: YV para aplicaciones clínicas y de investigación, dado el alto grado de varianza de error involucrado en los puntajes del EQ-i: YV . Estos resultados ocurrieron en la versión larga y corta, y en los subgrupos separados por el sexo y el tipo de colegio. Se discute el impacto de estos resultados en la práctica de la evaluación psicológica. Palabras clave: inteligencia emocional, Bar-On, confiabilidad, niños, metodología, psicometría. ABSTRACT The aim of the research is a review of internal consistency reported for the Peruvian adaptation and standardization Emotional Intelligence Bar-On ICE-NA, the version applicable to children and adolescents. This review deals specifically with data published by Ugarriza and Pajares (2004, 2005) on the Cronbach alpha coefficient and the item homogeneity of the scores of long and short versions of the ICE-NA. The analysis of these issues, according to sex and school type (public or private), is showing coefficients generally low and satisfactory level for the total score. This review calls into question the usefulness of the ICE-NA for research and clinical applications, given the high degree of error variance involved in the ICE-NA scores. These results occurred in the long version and short, and in the sample separated by sex and school. We discuss the impact of these results in practice of psychological assessment. Key words: emotional intelligence, Bar-On, reliability, children, methodology, psychometry Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 1 Contacto: sikayax@yahoo.com.ar 141 César Merino Soto / Jhonatan Navarro Loli / Walter García Ramirez En la investigación psicológica, el constructo inteligencia emocional (IE) ha sido de gran interés y una fuente constante de debate para investigadores y profesionales. Existen diversos modelos teóricos sobre la IE, pero uno que ha ganado popularidad (Day, 2004; Geher & Renstrom, 2004) es el planteado por el Dr. Bar-On desde su primera publicación (Bar-On, 1997), quien estableció que la IE marca su orientación hacia el desarrollo y formación de atributos psicológicos estables que se configuraban en rasgos. El modelo utilizado por Bar-On define a la IE como un conjunto de habilidades no cognitivas y capacidades que ayudan a las personas a hacer frente para salir a un problema, identificando cinco componentes de la inteligencia emocional: habilidad interpersonal, funcionamiento intrapersonal, adaptabilidad, manejo del estrés y estado de ánimo en general (BarOn, 1997; Day, 2004). Este modelo teórico ha sido fuertemente criticado (Barchard & Russell, 2004; Day & Carroll, 2007) y se han planteado alternativas como el modelo conceptual basado en competencias (Mayer, Salovey & Carusso, 1999; Barchard & Russell, 2006). Sin embargo, el modelo de Bar-On continua vigente ante las críticas y se aplica como un marco conceptual para explicar y explorar los correlatos con otros constructos. Pero al igual que otros planteamientos teóricos, un gran desafío para el modelo de la IE, es la medición de sus constructos y sus procesos que intenta operacionalizar. No hay duda que el método más utilizado para estimar cuantitativamente atributos como la IE en las personas es el auto-reporte (Day, 2004; Barchard, & Hakstian, 2004). Desde la propuesta de Likert, esta metodología ha sido una práctica frecuente en la medición psicológica para escalar las respuestas con propiedades asumidas en el nivel intervalo (Babbie, 2005; Barchard & Russell, 2006). Derivados del modelo de Bar-On, se han propuesto inventarios de auto-reporte para cuantificar la IE en un amplio rango de edades. En la actualidad, circulan comercialmente varios métodos de evaluación, basados en entrevista (Bar-On EQ-interview, Bar-On & Handley, s/f), en evaluaciones de 360° (The Bar-On EQ-360, Bar-On & Handley, 2003) y cuestionarios de auto-reporte para adultos (EQ-I, Bar-On, 1997) y niños (EQ-i:YV, Bar-On & Parker, 2000). Todos estos instrumentos circulan en idioma anglosajón y algunas de ellas están adaptadas al idioma español. En Perú, circulan varias adaptaciones (Abanto, Higueras & Cueto, 2000; Bisquerra, 2000; Ugarriza, 2001; Ugarriza & Pajares, 2004, 2005). A través de los años a nivel internacional, se han realizado investigaciones para evaluar la calidad psicométrica del EQ-i:YV, reportándose resultados satisfactorios en países como España (Ferrándiz, Ferrando, Bermejo & Prieto, 2006; Prieto, Bai, Ferrándiz & Cerna, 2007; Ferrando, 2006), Estados Unidos (Betlow, 2005), México (Zavala, Valadez & Vargas, 2008), Portugal (Candeias, Almeida, Roazzi & Primi, 2008) y Líbano (Hassan & Sader, 2005); estos estudios respaldaron las propiedades psicométricas reportadas por Bar-On y Parker (2000). Uno de los parámetros más importantes para determinar la calidad técnica de un test es la fiabilidad de las puntuaciones, porque teóricamente relaciona la variabilidad del desempeño de un examinado con el atributo medido por la prueba, permitiendo la estimación de la imprecisión del puntaje (Muñiz, 1999; Charter, 1996). Su reporte es una práctica recomendada cuando se toman decisiones importantes sobre los evaluados o aún en situaciones de reporte descriptivo (American Educational Research Association, American Psychological Association & National Council on Measurement in Education, 1999), por lo tanto su estimación e interpretación debe ser una práctica rutinaria. En la medición de los atributos emocionales, la estimación de la fiabilidad por consistencia interna a través del coeficiente α (Cronbach, 1951) parece ser la medida más recomendada cuando se tiene una sola aplicación de una prueba (Larsen y Fredrikson, 1999) y la más conocida en la práctica profesional y de investigación (Feldt & Brennan, 1989; Cronbach & Shavelson, 2004). Sobre el EQ-i:YV a nivel internacional generalmente se reportan valores del coeficiente α considerados como aceptables hasta valores cercanos a (pero debajo de) 0.90. Por ejemplo, en un estudio mexicano se reportaron coeficientes α alrededor de 0.85 (Zavala et al., 2008) y en los estudios españoles, los coeficientes α están alrededor de 0.75 (Ferrándiz et al., 2006; Prieto et al., 2007). Otro Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 142 REVISIÓN DE LA CONSISTENCIA INTERNA DEL INVENTARIO DE INTELIGENCIA EMOCIONAL DE BAR-ON, EQ-I: YV estudio no hispano reporta coeficientes debajo de 0.76 para el puntaje total y alrededor de 0.78 para las subescalas (Betlow, 2005); pero también ocurren coeficientes más elevados (Candeias et al., 2008). En algunos estudios, la información sobre la consistencia interna no se reporta en la propia muestra (por ejemplo, Prieto et al., 2008; Sotil et al., 2008), aún cuando la práctica recomendada actualmente establece que el reporte de la confiabilidad es esencial para describir técnicamente los puntajes de pruebas psicológicas (American Educational Research Association et al., 1999). En Perú, la adaptación del EQ-i:YV se efectuó por Ugarriza y Pajares (2004, 2005) y es uno de los esfuerzos contemporáneos más encomiables para la obtención de normas interpretativas de un instrumento de auto-reporte aplicable a niños y adolescentes. Su trabajo ha sido bien recibido por la comunidad peruana y la observación informal sobre su difusión y su uso en Perú puede identificarlo como un instrumento preferido y moderno en la práctica profesional. Sus hallazgos se comunicaron en su manual (Ugarriza & Pajares, 2004) y en un artículo publicado en el mismo país (Ugarriza & Pajares, 2005); sin embargo, esta última publicación presentó lo que ya se había realizado en el manual. Por lo tanto, no se pudo conocer la replicabilidad de sus primeros aportes psicométricos obtenidos de su muestra de estandarización y específicamente sobre las estimaciones de la confiabilidad de los puntajes. El manual en cuestión (Ugarriza & Pajares, 2004) describe que los niveles de confiabilidad “…son bastantes satisfactorios” (pág. 27), pero pasa por alto hacer una descripción prolija de la variación en estas estimaciones respecto a la edad, género o tipo de colegio muestreados; pero sobre todo, no hace una valoración cualitativa apropiada de la magnitud de los coeficientes reportados. Debido a que el EQ-i: YV puede ser utilizado para perfilar las facetas de IE evaluadas, tampoco aparece información sobre la diferencia confiable o anormal entre los puntajes. Este tipo de información incluye las estimaciones de confiabilidad de los puntajes (Silverstein, 1981, 1982). El objetivo del presente trabajo es revisar los datos psicométricos reportados por Ugarriza y Pajares (2004) respecto a la adaptación del EQ-i: YV en niños y adolescentes peruanos, específicamente las estimaciones de consistencia interna de los puntajes de las versiones larga y breve, informados para la muestra de estandarización de acuerdo al género y a la edad (Ugarriza & Pajares, 2004, 2005). Considerando que la magnitud de la confiabilidad reportada tiene un importante efecto para la interpretación de los puntajes, esta revisión evaluará cualitativamente las estimaciones de confiabilidad halladas, pues esta no fue apropiadamente discutida en ambas publicaciones (Ugarriza & Pajares, 2004, 2005). Por lo tanto, el presente trabajo aportará en la evaluación de este aspecto psicométrico del EQ-i: YV. Los aspectos de validez no serán tratados en este artículo por motivos de espacio y de insuficientes trabajos publicados en el Perú con este instrumento. MÉTODO Participantes Para el presente estudio se tomó la muestra reportada en las publicaciones del ICE- NA en niños y adolescentes (Ugarriza & Pajares, 2004, 2005), que estuvo constituida por 3374 sujetos cuyas edades oscilan de 7 a 18 años, de ambos sexos y de colegios diferenciados por el tipo gestión educativa (pública y privada). Instrumento El instrumento es el Inventario de Inteligencia Emocional para Niños y Adolescentes, adaptación peruana (identificado como EQ-i:YV en Perú; Ugarriza & Pajares, 2004, 2005). Esta versión consta de dos formas: la completa y la abreviada. La forma completa consta de 60 ítems y la forma abreviada de 30 ítems; en ésta última los ítems se distribuyen en cinco subescalas: Intrapersonal (6 ítems), Interpersonal (6 ítems), Adaptabilidad (6 ítems), Manejo del Estrés (6 ítems) y Estado de Ánimo General (6 ítems), siendo de un formato de respuesta politómico de 4 puntos y de aplicación individual o grupal en condiciones estandarizadas. La forma larga posee una escala de evaluación de Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 143 César Merino Soto / Jhonatan Navarro Loli / Walter García Ramirez inconsistencia en las respuestas, cuya finalidad es identificar respuestas emitidas de manera aleatoria. El ámbito donde se utiliza esa prueba es en áreas jurídicas, médicas, educacional, clínica y en la investigación. La evaluación de este instrumento permite dar un significado de las habilidades emocionales y sociales de la persona evaluada. Procedimiento Se hizo una revisión de los valores de consistencia interna obtenidos con el coeficiente α reportados en las publicaciones de Ugarriza y Pajares (2004, 2005). La revisión aplicará criterios seleccionados para identificar claramente el nivel de confiabilidad logrado por la forma larga y corta del instrumento. Existen muchos criterios disponibles para cualificar la consistencia interna y que han circulado desde los años 50 (Charter, 2003b). Entre los que pueden ser los más citados y aceptados, Nunnally y Bernstein (1995) indican que para aplicación de grupo un mínimo valor >= 0.80 es recomendable y para decisiones clínicas importantes valores >= 0.90 es ideal. Por el contrario, Sattler (2001) establece como aceptable una magnitud desde 0.70. Cicchetti (1994) sugiere las siguientes guías para establecer la significancia clínica: < 0.70 (inaceptable), 0.70 - 0.80 (Aceptable), 0.80 - 0 .90 (Bueno), y > 0 .90 (Excelente). Por otro lado, Anastasi y Urbina (1997) presenta niveles aproximadamente concordantes con los anteriores. Charter (2003a; 2003b), luego de una revisión de las estimaciones de confiabilidad publicadas, pone en relevancia el desacuerdo en establecer criterios uniformes para los niveles de confiabilidad entre los expertos en medición. En concordancia con algunos autores, la presente investigación adoptará un criterio que converge con la revisión de Charter (2003b) en medidas clínicas para niños, con uno de los autores frecuentemente citados en la literatura (Cicchetti, 1994) y con las recomendaciones de Hunsley y Marsh (2008) dentro del enfoque basado en evidencias. Este criterio será: Inaceptable: < 0.70; Aceptable: 0.70 - 0.79; Bueno: 0.80 - 0.89; y Excelente: > 0.90. Otro aspecto que se evaluará será la homogeneidad de los ítems, que se operacionaliza como el promedio de las correlaciones entre los ítems de un puntaje (Clark & Watson, 1995; Nunnally & Bernstein, 1995). Existen varias recomendaciones sobre este estadístico; por ejemplo, Clark y Watson (1995) sugirieron que una correlación inter-ítem promedio entre 0.15 y 0.20 es apropiada para constructos de amplio espectro, mientras que un rango de 0.40 y 0.50 es apropiado para constructos menos amplios. Laatsch y Choca (1991) proponen niveles similares. Niveles más generales de homogeneidad apropiada fueron sugeridos por Briggs y Cheek (1986), en el que las correlaciones inter-ítem halladas entre 0.20 y 0.40 son óptimos niveles de homogeneidad. Considerando las anteriores recomendaciones, se elaboró unos criterios que lo harían congruente con la consistencia interna, de tal modo que correlaciones inter-ítem promedio balancearan entre los extremos de la máxima heterogeneidad y el riesgo de redundancia inter-ítem (Boyle, 1991). En el presente estudio usaremos la siguiente clasificación: <0.15, 0.15 – 0.20, 0.21 – 0.40, >0.40. Estos niveles indican el grado de varianza compartida entre los ítems, específicamente; bajo, moderado y alto. Finalmente, se presentarán tablas sumarias de la distribución de la consistencia interna y de las correlaciones inter-ítem promedio, desde los cuales se describirá la similaridad de la distribución de estos coeficientes con el índice de similaridad proporcional (h, Vegelius, Janson & Johansson, 1986); para este coeficiente, los valores cercanos a 1.0 indican mayor similaridad en la distribución de los porcentajes analizados. RESULTADOS Efectos del género En la adaptación peruana de la versión para niños y adolescente, los varones obtienen un rango de coeficientes α que va desde 0.23 hasta 0.88, con una mediana de 0.69 (media = 0.65) para las formas larga y breve; en mujeres, el coeficiente mínimo es 0.27 y el máximo 0.87 y la mediana 0.70 (media = 0.66) para ambas formas. Los coeficientes de consistencia interna entre varones y mujeRev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 144 REVISIÓN DE LA CONSISTENCIA INTERNA DEL INVENTARIO DE INTELIGENCIA EMOCIONAL DE BAR-ON, EQ-I: YV res, y entre los de colegios privados y estatales han sido similares entre sí, y pueden considerarse equivalentes. En la Tabla 1 mostramos los niveles cualitativos de la consistencia interna, derivados de las tablas del manual de Ugarriza y Pajares (2004). En los cuatro rangos de edad, más del 50% de coeficientes fueron cualitativamente inaceptables y mientras menos es el rango de edad, la cantidad de coeficientes inaceptables es mayor. Las escalas que más frecuentemente no alcanzaron apropiados niveles de consistencia interna fueron Interpersonal e Intrapersonal; esta última no tuvo ningún coeficiente aceptable en todos los rangos de edades. Efectos del tipo de colegio En la forma corta (Tabla 2), los puntajes de los niños de colegios estatales fueron menos confiables que los de colegios privados, ya que la mayoría de los coeficientes de las subescalas fueron inaceptables. Hubo una aparente influencia de la edad en los niños de los colegios privados, pues ahí el número de coeficientes aceptables aumentó con la edad. La distribución de la magnitud de las confiabilidades fue similar entre los colegios. Ningún coeficiente entre las submuestras estuvo en el nivel excelente y alrededor del 20% tuvo un buen nivel (exceptuando los puntajes provenientes de colegios estatales que fueron frecuentemente bajos). Este nivel más alto lo alcanzó consistentemente la subescala Estado de Ánimo General, pero esta escala tiene un mayor número de ítems y por lo tanto, su elevada confiabilidad no representa solamente la correlación entre sus ítems. En general, la ocurrencia de coeficientes ha sido más elevada cuando se considera al tipo de colegio como fuente de variación de la consistencia interna. Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 145 146 (.71) Acep. (.62) Inacep. (.70) Acep. (.84) Bueno Adaptabilidad Manejo del Estrés C.E. Total Estado de Ánimo General (.69) Inacep. (.63) Inacep. (.70) Acep. (.82) Acep. Manejo del Estrés C.E. Total Estado de Ánimo General (.68) Inacep. Interpersonal Adaptabilidad (.27) Inacep. Intrapersonal (.64) Inacep. (.66) Inacep. (.65) Inacep. (.50) Inacep. (.27) Inacep. (.66) Inacep. (.65) Inacep. (.67) Inacep. (.58) Inacep. (.23) Inacep. F. corta (.86) Acep. (.76) Acep. (.71) Acep. (.70) Acep. (.70) Acep. (.46) Inacep. (.86) Bueno (.77) Acep. (.63) Inacep. (.71) Acep. (.68) Inacep. (.41) Inacep. F. larga (.73) Acep. (.72) Acep. (.70) Acep. (.60) Inacep. (.46) Inacep. (.72) Acep. (.62) Inacep. (.72) Acep. (.58) Inacep. (.41) Inacep. F. corta 10 – 12 años : Descriptores en el cuerpo de la tabla: Inacep = Inaceptable; Acep. = Aceptable. .a (.69) Inacep. Interpersonal Mujeres (.23) Inacep. Intrapersonal Varones F. larga 7 – 9 años (.87) Acep. (.73) Acep. (.68) Inacep. (.76) Acep. (.73) Acep. (.47) Inacep. (.87) Bueno (.77) Acep. (.68) Inacep. (.75) Acep. (.72) Acep. (.46) Inacep. F. larga (.73) Acep. (.72) Acep. (.72) Acep. (.59) Inacep. (.47) Inacep. (.70) Acep. (.70) Acep. (.74) Acep. (.58) Inacep. (.46) Inacep. F. corta 13 – 15 años (.87) Acep. (.79) Acep. (.67) Inacep. (.80) Acep. (.71) Acep. (.58) Inacep. (.88) Bueno (.78) Acep. (.69) Inacep. (.73) Acep. (.70) Acep. (.56) Inacep. F. larga (.73) Acep. (.71) Acep. (.80) Acep. (.58) Inacep. (.58) Inacep. (.77) Acep. (.67) Inacep. (.72) Acep. (.58) Inacep. (.56) Inacep. F. corta 16 – 18 años Tabla 1 Descripción cualitativa de la consistencia interna para varones y mujeres, forma larga y cortaa reportados en Ugarriza y Pajares (2004, 2005) César Merino Soto / Jhonatan Navarro Loli / Walter García Ramirez Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 147 (.63) Inacep. (.43) Inacep. (.62) Inacep. (.67) Inacep. Adaptabilidad Manejo del Estrés C.E. Total Estado de Ánimo General (.26) Inacep. (.67) Inacep. (.69) Inacep. (.57) Inacep. (.73) Acep. (.70) Acep. Intrapersonal Interpersonal Adaptabilidad Manejo del Estrés C.E. Total Estado de Ánimo General (.61) Inacep. (.71) Acept. (.61) Inacep. (.56) Inacep. (.26) Inacep. (.52) Inacep. (.56) Inacep. (.57) Inacep. (.48) Inacep. (.20) Inacep. F. corta (.79) Acep. (.79) Acep. (.63) Inacep. (.73) Acep. (.68) Inacep. (.57) Inacep. (.76) Acep. (.73) Acep. (.49) Inacep. (.64) Inacep. (.66) Inacep. (.27) Inacep. F. larga (.72) Acep. (.70) Acep. (.70) Acep. (.59) Inacep. (.57) Inacep. (.64) Inacep. (.63) Inacep. (.59) Inacep. (.57) Inacep. (.27) Inacep. F. corta 10 – 12 años : Descriptores en el cuerpo de la tabla: Inacep = Inaceptable; Acep. = Aceptable. .a (.55) Inacep. Interpersonal Particular (.20) Inacep. Intrapersonal Estatal F. larga 7 – 9 años (.81) Bueno (.80) Bueno (.70) Acep. (.78) Acep. (.72) Acep. (.69) Inacep. (.75) Acep. (.78) Acep. (.54) Inacep. (.72) Acep. (.71) Acep. (.34) Inacep. F. larga (.71) Acep. (.76) Acep. (.72) Acep. (.65) Inacep. (.69) Inacep. (.64) Inacep. (.69) Inacep. (.65) Inacep. (.58) Inacep. (.34) Inacep. F. corta 13 – 15 años (.84) Bueno (.82) Bueno (.73) Acep. (.80) Acep. (.75) Acep. (.76) Acep. (.78) Acep. (.78) Acep. (.55) Inacep. (.75) Acep. (.68) Inacep. (.49) Inacep. F. larga (.77) Acept. Bueno (.75) Acept. (.68) Inacep. (.76) Acep (.69) Inacep. (.66) Inacep. (.70) Acep. (.60) Inacep. (.49) Inacep. F. corta 16 – 18 años Tabla 2 Descripción cualitativa de la consistencia interna para I.E Estatales y Particulares, forma larga y cortaa reportados en Ugarriza y Pajares (2004, 2005) REVISIÓN DE LA CONSISTENCIA INTERNA DEL INVENTARIO DE INTELIGENCIA EMOCIONAL DE BAR-ON, EQ-I: YV César Merino Soto / Jhonatan Navarro Loli / Walter García Ramirez Los estadísticos sumarios (media, mínimo y máximo) de la Tabla 3 muestran que el coeficiente α mínimo en cada submuestra fue alrededor de 0.24; en otras palabras, que varios de los puntajes contienen elevada inestabilidad, y sus correlaciones inter-ítems no parecen representar un constructo homogéneo en la muestra de estandarización. Tabla 3 Distribución de la consistencia interna en las subescalas de la forma larga y corta Varones Mujeres Estatal Privado N % N % N % N % < 0.70 10 41.7 9 37.5 15 62.5 8 33.3 0.70 - 0.79 10 41.7 10 41.7 9 37.5 11 45.8 0.80 - 0.89 4 16.7 5 20.8 0 0.0 5 20.8 > 0.90 0 0.0 0 0.0 0 0.0 0 0.0 Media 0.68 - 0.69 - 0.61 - 0.71 0.71 Mínimo 0.23 - 0.27 - 0.2 - 0.26 0.26 Máximo 0.88 - 0.87 - 0.78 - 0.84 0.84 N % N % N % N % < 0.70 13 65.0 11 55.0 19 95.0 9 45.0 0.70 - 0.79 7 35.0 8 40.0 1 5.0 10 50.0 0.80 - 0.89 0 0.0 1 5.0 0 0.0 1 5.0 > 0.90 0 0.0 0 0.0 0 0.0 0 0.0 Media 0.62 - 0.63 - 0.55 - 0.67 - Mínimo 0.23 - 0.27 - 0.2 - 0.26 - Máximo 0.77 - 0.8 - 0.7 - 0.81 - Forma larga Rango de coef. Sumario Forma corta Rango de coef. Sumario En la forma corta (Tabla 3), los resultados de la confiabilidad han sido peores entre los subgrupos de la muestra de estandarización. Más del 50% de los coeficientes ha estado en el nivel inaceptable, y particularmente en los niños de colegios estatales. La distribución de los niveles de confiabilidad entre hombres y mujeres para la forma larga (h = 0.95) y corta (h = 0.90) fue muy similar; en cambio, entre los colegios fue menor en ambas formas (h = 0.71 y h = 0.50, respectivamente) Correlaciones inter-ítem (Homogeneidad) La similaridad porcentual en la distribución de las correlaciones inter-ítems fue elevada en la forma larga (h = 0.91) y corta (h = 0.95) según el sexo, pero entre los colegios se observó una diferencia mayor en ambas formas (h = 0.62 y h = 0.75, respectivamente). En la Tabla 4 se observa que, Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 148 REVISIÓN DE LA CONSISTENCIA INTERNA DEL INVENTARIO DE INTELIGENCIA EMOCIONAL DE BAR-ON, EQ-I: YV en los colegios privados las correlaciones se concentraron los mejores niveles de homogeneidad. Interesantemente, las correlaciones inter-ítem fueron algo más elevadas en la forma corta comparada con la forma larga. Los valores sumarios mostrados en la Tabla 4 son generalmente superiores en la forma corta en todos los grupos muestrales. Tabla 4 Frecuencia de las correlaciones inter-ítem en la forma larga y forma corta Varones Mujeres Estatal Privado N % N % N % N % < 0.15 9 37.5 9 37.5 15 62.5 7 29.2 0.15 - 0.20 10 41.7 12 50.0 4 16.7 6 25.0 0.21 - 0.40 5 20.8 3 12.5 4 16.7 11 45.8 > 0.40 0 0.0 0 0.0 1 4.2 0 0.0 Media 0.16 - 0.16 - 0.14 - 0.19 - Mínimo 0.05 - 0.06 - 0.04 - 0.06 - Máximo 0.23 - 0.29 - 0.41 - 0.34 - N % N % N % N % < 0.15 7 35.0 8 40.0 9 45.0 5 25.0 0.15 - 0.20 5 25.0 4 20.0 4 20.0 3 15.0 0.21 - 0.40 8 40.0 8 40.0 7 35.0 11 55.0 > 0.40 0 0.0 1 5.0 0 0.0 1 5.0 Media 0.19 - 0.19 - 0.16 - 0.24 - Mínimo 0.05 - 0.06 - 0.04 - 0.06 - Máximo 0.32 - 0.4 - 0.32 - 0.42 - Forma larga Sumario Forma corta Sumario DISCUSIÓN El presente estudio se ha concentrado en un análisis de revisión de la consistencia interna del Inventario de Inteligencia Emocional para niños EQ-i:YV, adaptada y publicada en el Perú por Ugarriza y Pajares (2004, 2005). Este análisis puede ayudar a dar respuestas a dos preguntas que desde hace más de 20 años se plantean respecto al uso de un test para un objetivo concreto, “Primero, ¿es el test suficientemente bueno como medida de la característica que pretende evaluar? Segundo, ¿debería utilizarse el test para el objetivo propuesto?” (p. 962, Messick 1975). Al analizar los coeficientes de consistencia interna reportados dos veces por Ugarriza y Pajares (2004; 2005), observamos que la mayoría se concentró en el nivel de inaceptable y aceptable, que Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 149 César Merino Soto / Jhonatan Navarro Loli / Walter García Ramirez cuantitativamente significan coeficientes menores de 0.80. Basados en las recomendaciones sobre este tema (Nunnally & Bernstein, 1995; Cicchetti, 1994; Anastasi & Urbina, 1997; Charter, 2003a; 2003b; Hunsley & Marsh, 2008), ninguno de estos coeficientes alcanza el nivel de excelente, y apenas solo una logró un buen nivel (> 0.80). En general, la distribución de los coeficientes entre los niveles cualitativos hallados ha mostrado una asimetría positiva, pues se han concentrado entre los niveles inaceptable y aceptable. Estos resultados no sugerirían que el instrumento sea elegible para uso clínico, pues los niveles recomendados para instrumentos utilizados en la práctica clínica son claramente muy superiores comparados con los obtenidos en el EQ-i:YV. Al observar las magnitudes obtenidas de los coeficientes α tan bajos, surge la duda sobre si el instrumento pueda proporcionar información lo suficientemente confiable en la práctica clínica y aún para fines de descripción grupal y de investigación científica. Una consecuencia inmediata de esta situación es que las inferencias que se realicen de los puntajes obtenidos, contengan elevada varianza de error de medición. que los puntajes no sean replicables y altamente inestables, y que su variación se deba principalmente a fuentes aleatorias y no a su dependencia con el constructo latente (Charter, 1996; Charter & Feldt, 2001). Esta posible inconsistencia en los puntajes que se obtendrían con el EQ-i: YV es una consideración muy importante para determinar su uso en cualquier ámbito aplicado o científico. Si el EQ-i: YV podría ser considerado como un «tests de alto riesgo», según el uso de este término en los Standards” (American Educational Research Association et al., 1999), entonces las estimaciones de confiabilidad reportadas ponen un límite para su uso, debido a que proporciona mediciones que comprometen la medición efectiva del constructo que se intenta cuantificar y la validez consecuencial del instrumento. La variabilidad de los puntajes por el error de medición expone al examinador a realizar conclusiones equivocadas sobre el desempeño del examinado y a sufrir la percepción de otros profesionales sobre la cuestionada práctica de utilizar instrumentos con baja confiabilidad de sus puntajes, específicamente porque la magnitud de la confiabilidad es inversamente proporcional al error de clasificación (Charter & Feldt, 2001). En otras palabras, el incremento de falsos positivos y falsos negativos es mayor mientras menor sea la confiabilidad (Charter & Feldt, 2001). Una situación así lleva no solo a cuestionar la utilidad general del EQ-i: YV , sino también a revisar las prácticas sugeridas por las autoras (Ugarriza & Pajares, 2004, 2005) para hacer un análisis de las fuerzas y debilidades que se observaron en el patrón de resultados visualizados en el perfil de puntajes. En este punto, si se aplican a los puntajes obtenidos de la adaptación peruana del EQ-i: YV para establecer un perfil de la IE y comparar el rendimiento con, por ejemplo, los métodos de diferencia confiable y diferencia anormal (Silverstein, 1981, 1982), se necesitaría una muy larga diferencia para concluir que el examinado muestra confiablemente diferencias entre una área y otra. Una larga diferencia entre un puntaje y otro puede sugerir una verdadera distancia entre una habilidad y otra, indicando un significativo contraste que merece atención clínica, pero si esta diferencia se origina por variaciones de error de medición (como lo sugiere una baja confiabilidad entre los puntajes), no se podrá tener certeza del origen de las diferencias. Esto es un elocuente ejemplo de las consecuencias de los bajos índices de consistencia interna que poseen las puntuaciones del instrumento. Existen varios aspectos que pueden afectar las estimaciones de la confiabilidad y que la literatura científica ha logrado descubrir, como la violación de los presupuestos (Zimmerman, Zumbo & Lalonde, 1993), la normalidad de la distribución de los datos (Wilcox, 1992), la correlación entre los ítems y número de ítems (Nunnally & Bernstein, 1995), valores extremos en las distribuciones (Liu, Wu & Zumbo, 2010; Liu & Zumbo, 2007), y otros problemas que limitarían el uso de la consistencia interna cuantificada por el coeficiente α (Sijtsma, 2009). Estas consideraciones pueden ser evaluadas para explicar los resultados bajos o elevados de la consistencia interna, pero no fueron incluidos como un análisis post hoc para los pobres coeficientes α reportados en Ugarriza y Pajares (2004, 2005). Uno de los factores técnicamente identificable de la baja consistencia interna de los puntajes es la Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 150 REVISIÓN DE LA CONSISTENCIA INTERNA DEL INVENTARIO DE INTELIGENCIA EMOCIONAL DE BAR-ON, EQ-I: YV correlación entre los ítems (Nunnally & Bernstein, 1995). Este aspecto fue reportado en el manual de la adaptación peruana del EQ-i: YV, mostrando bajos niveles (generalmente, estas correlaciones inter-ítem promedio estuvieron debajo de 0.11) cuando se lo compara con algunos criterios. Por ejemplo, los niveles descriptivos indicados por Clark y Watson (1995) sugirieron que una correlación inter-ítem promedio entre 0.15 y 0.20 es apropiada para constructos de amplio espectro, mientras que un rango de 0.40 y 0.50 es apropiado para constructos menos amplios y homogéneos. Frente a otros criterios recomendados para calificar la homogeneidad de los ítems (Laatsch & Choca, 1991; Briggs & Cheek, 1986), el EQ-i: YV tampoco puede superar el límite inferior óptimo de las correlaciones. El impacto del error de medición en el ámbito aplicado ha sido largamente explicado (American Educational Research Association et al., 1999; Anastasi & Urbina, 1997; Charter & Feldt, 2001; Feldt & Brennan, 1989; Thorndike, 1989), y es especialmente en el contexto clínico que su importancia es mucho más seria, pues en situaciones en que se deben tomar decisiones individuales, el clínico espera el menor error posible cuando estas decisiones se apoyan en pruebas estandarizadas (Nunnally & Bersntein, 1995; Charter, 1996). Adicionalmente, la confiabilidad pone límites a la magnitud de los coeficientes de validez (Nunnally & Bersntein, 1995) y las estimaciones de correlación tenderán a ser infraestimadas en puntajes en que la varianza de error sea mayor que la varianza verdadera. Uno de los aspectos que ponemos en relevancia, y que es concordante con otras observaciones críticas (Charter, 2003a, 2003b), es que los estándares de determinación de la calidad psicométrica no están bien establecidos en las ciencias sociales, considerando que las guías existentes son, básicamente, opiniones de expertos y no provenientes de resultados empíricos (Charter & Feldt, 2001; Charter, 2003a, 2003b). Aunque la racionalidad para crearlas sugiere un extenso conocimiento de contexto de aplicación de las pruebas, estas pueden ser muy variables de autor en autor. Los criterios usados en el presente reporte pueden mantener una generalización aceptable en otras situaciones de evaluación de la consistencia interna, pero el lector debería aplicar su juicio para ponderar su valor descriptivo. Los resultados de los análisis efectuados y reportados por Ugarriza y Pajares (2004, 2005) pueden ser considerados poblacionalmente representativos, y si esto es así realmente, entonces la consistencia interna reportada puede sugerir un efecto constante en el auto-reporte del EQ-i:YV . En la práctica, las mediciones con este instrumento podrían atenuar los verdaderos efectos en programas de intervención (por ejemplo, ver Sotil et al., 2008), y magnificar la variación entre el pretest y postest como efectos de error de medición esencialmente, y no por cambios verdaderos (Silverstein, 1981, 1982). Debemos de tener en cuenta que la popularidad de un instrumento puede tener el efecto de canto de sirena: su popularidad precedente hace atraer irresistiblemente al usuario sin ver críticamente la información técnica que lleva y sus consecuencias para la práctica; y pensamos que esto podría describir el estatus actual del uso del EQ-i: YV . Desde el primer reporte del uso de instrumentos en Perú (Livia & Ortiz, 2001) no se han publicado revisiones parecidas hasta la fecha, y no se puede conocer la frecuencia del uso del EQ-i: YV actualmente en Perú. Sin embargo, una evaluación informal de los autores indica que la adaptación peruana del EQ-i: YV es relativamente frecuente en la instrucción de pregraduados, así como en la práctica profesional. La frecuencia de este uso puede ejemplificar el efecto de canto de sirena con un instrumento que tiene elevada aceptación pero con problemas técnicos que limitarían su uso. Finalmente, hay varios méritos propios a un trabajo de adaptación intercultural de una prueba psicológica, y pensamos que este es la situación para la adaptación del EQ-i:YV ; sin embargo, pensamos que se debe hacer un balance entre los beneficios de disponer de una medida conocida internacionalmente y su calidad técnica para la práctica profesional y de investigación en un contexto cultural diferente. Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 151 César Merino Soto / Jhonatan Navarro Loli / Walter García Ramirez REFERENCIAS Abanto, Z., Higueras, L., & Cueto, J. (2000). ICE. Inventario de Cociente Emocional de Bar-On. Test para la medida de la Inteligencia Emocional: Manual Técnico. Lima: Grafimac. American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington DC: American Educational Research Association. Anastasi, A., & Urbina, S. (1997). Psychological testing (7th ed.). Upper Saddle River, NJ: Prentice Hall. Babbie, E. R. (2005). The Basics of Social Research. Belmont, CA: Thomson Wadsworth. Barchard, K. A., & Hakstian, A. R. (2004). The nature and measurement of emotional intelligence abilities: Basic dimensions and their relationships with other cognitive-ability and personality variables. Educational and Psychological Measurement, 64, 437-462. Barchard, K. A., & Russell, J.A. (2004). Psychometric issues in the measurement of emotional intelligence. In G. Geher (Ed.), Measuring Emotional Intelligence: Common Ground and Controversy (pp. 51-70). Hauppauge, NY: Nova Science Publishers. Barchard, K. A., & Russell, J.A. (2006). Bias in consensus scoring, with examples from ability emotional intelligence tests. Psicothema, 18, 49-54. Bar-On, R. (1997). The Bar-On Emotional Quotient Inventory (EQ-i): A Test of Emotional Intelligence. Toronto, Canada: Multi-Health Systems. Bar-On, R., & Handley, R. (2003). The Bar-On EQ-360. Toronto, Canada: Multi-HealthSystems. Bar-On, R., & Handley, R. (s/f ). The Bar-On EQ-Interview. Toronto, Canada: Multi-Health Systems. Bar-On, R., & Parker, J.D.A. (2000). The Bar-On Emotional Quotient Inventory: Youth Version (EQi:YV). Toronto, Canada: Multi-Health Systems. Betlow, M. B. (2005) The effect of the social skills intervention on the emotional intelligence of children in limited social skills. Unpublished dissertation. Seton Hall University. Bisquerra, R. (2000). Inventario del Cociente Emocional de Bar-On: Manual Técnico. Lima: CISSPRAXIS. Boyle, G. J. (1991). Does item homogeneity indicate internal consistency or item redundancy in psychometric scales? Personality and Individual Differences, 12, 291-294. Briggs, S. R., & Cheek, J. M. (1986). The role of factor analysis in the development and evaluation of personality scales. Journal of Personality, 54(1), 106-148. Candeias, A. A., Almeida, L. S., Roazzi, A., & Primi, R. (2008). Inteligência: Definição e medida na confluência de múltiplas concepções. São Paulo: Casa do Psicólogo. Charter, R. A. (1996). Revisiting the standard errors of measurement, estimate, and prediction and their application to test scores. Perceptual and Motor Skills, 82, 1139-1144. Charter, R. A. (2003a). Study samples are too small to produce sufficiently precise reliability coefficients. The Journal of General Psychology, 130(2), 117-129. Charter, R. A. (2003b). A breakdown of reliability coefficients by test type and reliability method, and clinical implications of low reliability. The Journal of General Psychology, 130(3), 290304. Charter, R. A., & Feldt, L. S. (2001). Meaning of reliability in terms of correct and incorrect clinical decisions: The art of decision making is still alive. Journal of Clinical and Experimental Neuropsychology, 23, 530–537. Cicchetti, D. V. (1994). Guidelines, criteria, and rules of thumb for evaluating normed and estandardized assessment instruments in psychology. Psychological Assessment, 6, 284-290. Clark, L. A., & Watson, D. (1995). Constructing validity: Basic issues in scale development. Psychological Assessment, 7, 309-319. Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 152 REVISIÓN DE LA CONSISTENCIA INTERNA DEL INVENTARIO DE INTELIGENCIA EMOCIONAL DE BAR-ON, EQ-I: YV Cronbach, L. J. (1951). Coefficient alpha and the internal structure of test. Psychometrika, 16, 297-334. Cronbach, L. J., & Shavelson. R. J. (2004). My current thoughts on coefficient alpha and successor procedures. Educational and Psychological Measurement, 64(3): 391-418 Day, A. (2004). The measurement of emotional intelligence: the good, the bad, and the ugly. In G. Geher (Ed.), Measuring Emotional Intelligence: Common Ground and Controversy (pp. 245-270). Hauppauge, NY: Nova Science Publishing. Day, A., & Carroll, S. (2007). Faking emotional intelligence (EI): comparing response distorsion on ability and trait-based EI measures. Journal of Organizational Behavior, 29, 761-784. Feldt, L. S., & Brennan, R. L. (1989). Reliability. In R. H. Linn (Ed.), Educational Measurement (3rd ed.).New York: Macmillan/American Counsel of Education. Ferrándiz, C., Ferrando, M., Bermejo, M. R., & Prieto, M. D. (2006, September). Emotional intelligence and personality. Paper presented in the Annual Meeting British Educational Research Association (BERA). September (6-9), Warwick University (UK). Geher, G., & Renstrom, K. (2004). Measurement issues in emotional intelligence research. In G. Geher (Ed.), Measuring Emotional Intelligence: Common Ground and Controversy, (pp. 3-19). Hauppauge, NY: Nova Science Publishing. Hassan, K., & Sader, M. (2005). Adapting and Validating the Bar-On EQ-i:YV in the Lebanese Context. International. Journal of Testing, 5(3), 301 – 317. Hunsley, J., & Marsh, E. J. (2008). Developing criteria for evidence-based assessment: An introduction to assessment that work. In J. Hunsley & E. J. Marsh (Eds.) A guide to assessments that work (pp. 3-14). Oxford: Oxford University Press. Laatsch, L. K., & Choca, J. (1991). Understanding the Halstead Category Test using item analysis. Psychological Assessment. Journal of Consulting and Clinical Psychology, 3(4), 701704 Larsen, R. J., & Fredrikson, B. L. (1999). Measurement issues in emotion research. In D. Kahneman, E. Diener & N. Schwarz (Eds), Well-being: The foundations of the hedonic psychology (pp. 40-60). New York: Russell Sage Fundation. Liu, Y., & Zumbo, B. D. (2007). The impact of outliers on Cronbach’s Coefficient alpha estimate of reliability: Visual analogue scales. Educational and Psychological Measurement, 67(4), 620-634. Liu, Y., Wu, A. D., & Zumbo, B. D. (2010). The impact of outliers on Cronbach’s coefficient alpha estimate of reliability: Ordinal/rating scale item responses. Educational and Psychological Measurement, 70(1), 15-21. Livia, J., & Ortiz, M. (2001). Los test psicológicos en el Perú: Investigación, uso y abuso. Revista de Psicología Actual, 8, 12-16. Mayer, J. D., Salovey, P., & Carusso, D.R. (1999). Emotional intelligence meets traditional standards for an intelligence. Intelligence, 27 (4), 267-298. Messick, S. (1975). The standard problem: meaning and values in measurement and evaluation. American Psychologist, 30, 955-966. Nunnally, J. C, & Bernstein, I. J. (1995). Teoría Psicométrica (3ra ed.). México, D.F: McGrawHill. Prieto, M. D., Bai, L., Ferrándiz, C., & Cerna, B. (2007, Setiembre). Psychometric characteristics in of EQ-I: YV an English sample. Trabajo presentado en el First International Congress of Emotional Inteligence. Málaga, España, Setiembre 19 – 21. Prieto, M. D., Ferrándiz, C., Ferrando, M., Sáinz, M., Bermejo, R., & Hernández, D. (2008). inteligencia emocional en alumnos superdotados: Un estudio comparativo entre España e Inglaterra. Revista electrónica de Investigación Educativa, 6(2), 297-320. Sijtsma, K. (2009). On the use, the misuse, and the very limited usefulness of Cronbach’s alpha. Psychometrika, 74, 107-120. Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 153 César Merino Soto / Jhonatan Navarro Loli / Walter García Ramirez Silverstein, A. B. (1981). Reliability and abnormality of test score differences. Journal of Clinical Psychology, 37, 392-394. Silverstein, A. B. (1982). Pattern analysis as simultaneous statistical inference. Journal of Consulting and Clinical Psychology, 50, 234-240. Sotil, A., Escurra, L., Huerta, R., Rosas, M., Campos, E. & Llaños, A. (2008). Efectos de un programa para desarrollar la inteligencia emocional en alumnos del sexto grado de educación primaria. Revista de Investigación en Psicología. 11(2), 55-65. Thorndike, R. L. (1989). Psicometría aplicada. México, D.F.: Limusa. Ugarriza, N., & Pajares, L. (2004). Adaptación y estandarización del Inventario de Inteligencia Emocional de Bar-On ICE: NA, en niños y adolescentes: Manual técnico. Lima: Autor. Ugarriza, N., & Pajares, L. (2005). La evaluación de la inteligencia emocional a través del Inventario de Bar-On ICE: NA, en una muestra de niños y adolescentes. Personas, 8, 11-58. Ugarriza, N. (2001). La evaluación de la Inteligencia Emocional a través del Inventario de Bar On (ICE) en una muestra de Lima Metropolitana. Lima: Libro Amigo. Vegelius, J., Janson, S., & Johansson, F. (1986). Measures of similarity between distributions. Quality and Quantity, 20, 437-441. Wilcox, R. R. (1992). Robust generalizations of classical test reliability and Cronbach’s alpha. British Journal of Mathematical and Statistical Psychology, 45, 239-54. Zavala, M., Valadez, M., & Vargas, M. (2008) Inteligencia emocional y habilidades sociales en adolescentes con alta aceptación social. Revista Electrónica de Investigación Psicoeducativa, 6(2), 319-338. Zimmerman, D. W., Zumbo, B. D., & Lalonde, C. (1993). Coefficient alpha as an estimate of test reliability under violation of two assumptions. Education and Psychological Measurement, 53, 33-49. Rev. Per. Psi. y Trab. Soc. 2013, Volumen 2- N° 1: 131-136 154