Estudios de postgrado en Metodología de la investigación en Ciencias de la Salud www.metodo.uab.cat Coeficiente de correlación intraclase Medida B El coeficiente de correlación intraclase ICC (intraclass correlation coefficient) permite medir la concordancia entre dos o más valoraciones cuantitativas (continuas) obtenidas con diferentes instrumentos de medida o evaluadores. La siguiente figura ayuda a distinguir los conceptos de acuerdo absoluto (absolute agreement) medido por el ICCA, de consistencia (consistency) medido por el ICCC, y de correlación de Pearson (r), conceptos que en muchas ocasiones se confunden cuando se valora la concordancia. Figura 1A Concordancia total Consistencia: ICCC = 1 Acuerdo absoluto: ICCA = 1 Correlación de Pearson: r = 1 ←Β=Α 50 ← A. 1. 2. ... ... 10 11 12 13 . .. . .. 50 ← A. 1. 2. ... ... 10 11 12 13 . .. . .. 50 .. .. 5 6 7 8 .. . .. . 45 ← A. 1. 2. ... ... 10 11 12 13 . .. . .. 50 B. 0.5 1.0 .. .. 5.0 5.5 6.0 6.5 .. . .. . 25 ← A. 1. 2. ... ... 10 11 12 13 . .. . .. 50 40 30 20 10 0 0 10 20 30 40 B. 1 2 .. .. 10 11 12 13 .. . .. . 50 50 Figura 1B Discordancia constante Medida B Medida A Consistencia: ICCC = 1 Acuerdo absoluto: ICCA = 0.94 Correlación de Pearson: r = 1 50 ← Β = Α−5 40 30 20 10 0 0 10 20 30 40 50 B. −4 −3 Figura 1C Discordancia proporcional Medida B Medida A 50 40 30 Consistencia: ICCC = 0.80 Acuerdo absoluto: ICCA = 0.50 Correlación de Pearson: r = 1 ← Β = Α/2 20 10 0 0 10 20 30 40 50 Figura 1D Discordancia proporcional y constante Consistencia: ICCC = 0.80 Acuerdo absoluto: ICCA = 0.37 Correlación de Pearson: r = 1 Medida B Medida A 50 40 30 ← Β = Α/2 − 5 20 10 0 0 10 20 30 40 50 B . −4.5 −4.0 .. .. 0.0 0.5 1.0 1.5 . .. . .. 20 Medida A Figura 1. Acuerdo absoluto, consistencia y correlación lineal Coeficiente de correlación intraclase Laboratori d’Estadística Aplicada (www.metodo.uab.cat) Pág. 1 de 8 Última revisión 30.5.2014 Los índices (ICC y r) de esta figura se han calculado con la matriz de datos que aparece a la derecha de cada uno de los gráficos. La Figura 1A indica que cuando las valoraciones A y B de cada sujeto son idénticas los coeficientes ICCC y ICCA, y el coeficiente de correlación de Pearson, valen exactamente 1. La Figura 1B muestra que cuando una valoración es igual a otra decrementada en 5 unidades (Β = Α−5), el coeficiente ICCC vale exactamente 1, es decir, la consistencia no considera como discrepancias las diferencias sistemática (de tipo aditivo), mientras que el ICC que valora acuerdo absoluto tiene en cuenta las discrepancias sistemáticas. Así pues, tanto el ICC que valora consistencia como el coeficiente de correlación (r) tienen en común su falta de sensibilidad para recoger una diferencia constante entre dos series de observaciones La Figura 1C presenta una valoración exactamente proporcional a otra (B=A/2); en este caso el ICC de consistencia, a diferencia del coeficiente de correlación de Pearson, es sensible a las diferencias de tipo proporcional (ICCC = 0.80), como lo es también el ICC de acuerdo (ICCA=0.50). La Figura 1D presenta una valoración que se obtiene exactamente de otra con una transformación lineal (B=A/2 −5). En este caso el ICC de consistencia no cambia respecto a la anterior porque se ha añadido una transformación constante (ICCC = 0.80), pero el ICC de acuerdo disminuye al añadirle esta diferencia sistemática (ICCA=0.37). En resumen, la Figura 1 indica que: a) ICCA que cuantifica acuerdo absoluto contempla cualquier diferencia entre medidas como una discordancia, independientemente de que sean de tipo constante, proporcional u otro; cuando más fuentes de discrepancia, más bajo es el valor que se obtiene. b) ICCC que cuantifica consistencia no considera las diferencias constantes entre medidas como una discordancia, sólo detecta las discordancias de otros tipos. c) El coeficiente de correlación lineal de Pearson (r) no valora concordancia porque no es sensible a las diferencias de tipo constante y proporcional entre las medidas. Puede observar en la Figura 1D que las medidas A y B no concuerdan en absoluto y sin embargo el coeficiente de correlación entre ellas es igual a 1. Los coeficientes de correlación intraclase de consistencia y de acuerdo calculados en la Figura 1 indican la concordancia para una valoración. Sin embargo también se pueden calcular los ICC de consistencia y acuerdo para el promedio de valoraciones; estos coeficientes sólo tienen interés cuando se usará como medida la combinación de las k=2 valoraciones. Un ejemplo real sería el caso de realizar en cada paciente k determinaciones de la PAS y usar como resultado la media de las k medidas. En general, el promedio de valoraciones acostumbra a indicar más concordancia lo que se traduce en un ICC de mayor magnitud. Por ejemplo, si en la Figura 1D se quisiera usar como medida final el promedio de las medidas A y B, el ICCC pasaría de 0.80 a 0.89, y el ICCA pasaría de 0.37 a 0.54. Coeficiente de correlación intraclase Laboratori d’Estadística Aplicada (www.metodo.uab.cat) Pág. 2 de 8 Última revisión 30.5.2014 Cuadro 1. Resultado de k valoraciones realizadas a n sujetos Sujetos (especímenes) 1 1 2 . i . n x11 x21 . xi1 . xn1 Valoraciones (evaluadores) 2 … j x12 x22 . xi2 . xn2 … ... x1j x2j . xij . xnj ... ... … k … ... x1k x2k . xik . xnk ... ... Cuadro 2. Descomposición de la variación total de k evaluaciones realizadas a n sujetos SSTotal = ↑ Variación total dfT = kn−1 + ↑ Variación debida a los sujetos dfS = n−1 dfT = kn−1 SSTotal SSSujetos = SSSujetos SSEvaluadores ↑ Variación debida a los evaluadores dfE = k−1 + dfS = n−1 + SSResidual ↑ Variación residual ANOVA de 2 factores (two way) dfR = (n−1)(k−1) SSIntra-sujetos dfR = n(k−1) ANOVA de 1 factor (one way) Cálculo de los coeficientes de correlación intraclase La noción que subyace a la formulación del ICC fue introducida por Fisher (1921), quien propuso una definición especial del coeficiente de correlación de Pearson para distribuciones de igual media y variancia. El ICC que se utiliza actualmente para evaluar la concordancia entre diferentes métodos o evaluadores se basa en el modelo de análisis de la variancia con medidas repetidas o intrasujeto (Fleiss, 1986). Si se dispone de n sujetos y k evaluadores, el punto de partida para realizar el análisis es la matriz de orden n×k que contiene cada valoración xij del sujeto i realizada por el evaluador j (Cuadro 1). Para hallar el ICC se debe descomponer la variación total de las n×k observaciones en tres componentes que recogen las siguientes fuentes de variación: SSSuj : Variación entre sujetos SSEval : Variación entre evaluadores SSRes : Variación residual y calcular sus medias cuadráticas (MS) dividiendo cada suma de cuadrados (SS) por sus correspondientes grados de libertad (df). Esta descomposición permite realizar un análisis de la variancia de dos factores (TwoWay) tal como muestra la parte superior del Cuadro 2. Sin embargo, si cada una de las valoraciones no la realiza el mismo evaluador, de manera que no es posible distinguir a los evaluadores, entonces la variación debida a los evaluadores se confunde con la residual dando lugar a la variación intra-sujetos (SSIntra-sujetos = SSEval + SSRes), lo que conduce a un análisis de la variancia de un factor (OneWay) tal como muestra la parte inferior del Cuadro 2. Un ejemplo real de esta situación es el caso de disponer de n pacientes que al ingreso se someten a dos determinaciones de la presión arterial realizadas por enfermeras diferentes de Urgencias que, según el momento de ingreso, cambian de un paciente a otro. Coeficiente de correlación intraclase Laboratori d’Estadística Aplicada (www.metodo.uab.cat) Pág. 3 de 8 Última revisión 30.5.2014 Cuadro 3. Fórmulas de cálculo de los diferentes coeficientes de correlación intraclase Acuerdo ICCA;1 = Acuerdo ICCA;1 = Consistencia 2 factores (Two Way) 1 factor (One Way) Una valoración ICCC;1 = MSSuj − MSIntra −suj MSSuj + ( k − 1) MSIntra −suj MSSuj − MSRe s k MSSuj + ( k − 1) MSRe s + ( MSEval − MSRe s ) n MSSuj − MSRe s MSSuj + ( k − 1) MSRe s Promedio de k valoraciones ICCA;k = ICCA;k = ICCC;k = MSSuj − MSIntra −suj MSIntra −suj MSSuj − MSRe s MSEval − MSRe s MSSuj + n MSSuj − MSRe s MSSuj Entre los diversos estimadores del ICC (Bravo y Potvin, 1991; McGraw y Wong, 1996; Shrout y Fleiss, 1979), definiremos los resumidos en el Cuadro 3 que permiten valorar todos los aspectos expuestos. El análisis de la variancia de medidas repetidas de un factor (One way) sólo permite calcular el ICC de acuerdo. Se trata de un modelo de efectos aleatorios porque supone que los n sujetos o especímenes son una muestra aleatoria de la población. El análisis de la variancia de medidas repetidas con dos factores (Two way) permite calcular el ICC de acuerdo absoluto y el ICC de consistencia con las fórmulas del Cuadro 3. Además, estos análisis de acuerdo y consistencia se pueden realizar con dos tipos de modelos: a) Modelo de efectos aleatorios. Supone que tanto los n sujetos o especímenes como los k evaluadores son muestras aleatorias de sus respectivas poblaciones. b) Modelo de efectos mixtos. Supone que los n sujetos o especímenes son una muestra aleatoria de la población mientras que los k evaluadores constituyen la totalidad de la población de evaluadores. El Cuadro 3 no distingue estos dos tipos porque ambos modelos conducen a las mismas fórmulas de cálculo del correspondiente ICC. Sin embargo, los resultados obtenidos tienen diferente interpretación: con el modelo de efectos aleatorios el ICC estimado será generalizable a la población de evaluadores, mientras que los resultados obtenidos con un modelo de efectos fijos no son generalizables y es de esperar que cambien con otro conjunto de evaluadores (McGraw y Wong, 1996). La totalidad de fórmulas de todos los coeficientes de correlación intraclase, junto con sus errores estándar se pueden consultar en McGraw y Wong (1996) que es un trabajo de referencia en este contexto. Fleiss y Cohen (1973) demostraron matemáticamente que el ICC de acuerdo es análogo al índice kappa con ponderación cuadrática. Coeficiente de correlación intraclase Laboratori d’Estadística Aplicada (www.metodo.uab.cat) Pág. 4 de 8 Última revisión 30.5.2014 Tabla 1. Medición del pico del flujo espiratorio (l/min) con dos aparatos A y B en una muestra de 17 sujetos (Datos modificados de Lancet 1986;1:307−10) Sujeto Aparato A Aparato B Sujeto Aparato A Aparato B 1 2 3 4 5 6 7 8 9 494 395 516 434 476 557 413 442 650 512 430 520 428 500 600 364 380 658 10 11 12 13 14 15 16 17 433 417 656 267 478 178 423 427 445 432 626 260 477 259 350 451 Listado 1. Estudio de la reproducibilidad de las mediciones del pico del flujo espiratorio realizadas con dos aparatos A y B mediante un ANOVA de 1 factor. RELIABILITY VARIABLES= A B /FORMAT=NOLABELS /STATISTICS= DESCRIPTIVE ANOVA /ICC= MODEL(ONEWAY) CIN=95 TESTVAL=0. ← SSSuj ← SSEval ← SSRes ← SSIntra-suj Cálculo de los coeficientes de correlación intraclase con el procedimiento RELIABILITY El procedimiento RELIABILITY de SPSS Statistics calcular los diferentes coeficientes de correlación intraclase, con sus errores estándar, intervalos de confianza y pruebas de significación. El Listado 1 presenta el resultado de analizar con este procedimiento las medidas del pico del flujo espiratorio de dos aparatos A y B en una muestra de 17 sujetos (Tabla 1). La instrucción STATISTICS=ANOVA presenta el análisis de la variancia que descompone la variación total en los tres componentes del Cuadro 2: la variación debida a los sujetos (Inter-personas), la debida a las valoraciones o evaluadores (Inter-elementos) y la Residual. A partir de esta descomposición se pueden calcular todos los coeficientes de correlación intraclase explicados aplicando las fórmulas del Cuadro 3. El resultado de este análisis de la variancia indica ausencia de sesgo porque las dos medias obtenidas con los aparatos no presentan diferencias significativas (F=0.05; p=0.83). Puesto que hay 2 mediciones, esta prueba coincide con la prueba t de comparación de dos medias para medidas repetidas (datos emparejados). Coeficiente de correlación intraclase Laboratori d’Estadística Aplicada (www.metodo.uab.cat) Pág. 5 de 8 Última revisión 30.5.2014 Listado 2. Coeficientes de correlación intraclase de acuerdo entre las mediciones del pico del flujo espiratorio con dos aparatos A y B mediante un ANOVA de 2 factores. RELIABILITY VARIABLES= A B /FORMAT=NOLABELS /STATISTICS= DESCRIPTIVE ANOVA /ICC= MODEL(MIXED) TYPE(ABSOLUTE) CIN=95 TESTVAL=0. ← SSSuj ← SSEval ← SSRes ← SSIntra-su La instrucción ICC= MODEL(ONEWAY) calcula los coeficientes de correlación intraclase que valoran acuerdo con un análisis de la variancia de un factor (modelo de efectos aleatorios). Este modelo supone que el factor Aparato (A ó B) no es relevante porque las mediciones de cada sujetos han sido obtenidas por dos analizadores cualesquiera de los que dispone el laboratorio. El coeficiente obtenido indica que la reproducibilidad (fiabilidad) de las medidas realizadas con uno de estos aparatos es: ICCA = 0.9460 (IC 95%: 0.861 a 0.980) Cálculo: ICCA;1 = MSSuj − MSIntra −suj MSSuj + ( k − 1) MSIntra −suj = 25572.3 − 709.4 = 0.946 25572.3 + ( 2 − 1) × 709.4 Si se utiliza como medida final el promedio de las medidas obtenidas con dos aparatos, su reproducibilidad (fiabilidad) es: ICCA = 0.972 (IC 95%: 0.923 a 0.990) La significación estadística (respecto a cero) de ambos coeficientes es: p < 0.001. El Listado 2 presenta el análisis del mismo estudio obtenido con la instrucción ICC= MODEL(MIXED) TYPE(ABSOLUTE) que calcula los coeficientes de correlación intraclase de acuerdo con un modelo mixto de análisis de la variancia de dos factores. Este modelo supone que los n sujetos son una muestra aleatoria de la población, mientras que el laboratorio sólo tiene k=2 aparatos (que representan la población total). El resultado del análisis de la variancia indica ausencia de sesgo porque las medias de estos dos aparatos no presentan diferencias significativas (F=0.05; p=0.83). El coeficiente obtenido indica que la reproducibilidad de las medidas realizadas con un aparato es: ICCA = 0.9459 (IC 95%: 0.857 a 0.980) ICCC;1 = MSSuj − MSRe s 25572.3 − 751.4 = = 0.946 k 2 MSSuj + ( k − 1) MSRe s + ( MSEval − MSRe s ) 25572.3 + ( 2 − 1) × 751.4 + (38.1 − 751.4) n 17 Coeficiente de correlación intraclase Laboratori d’Estadística Aplicada (www.metodo.uab.cat) Pág. 6 de 8 Última revisión 30.5.2014 Listado 3. Coeficientes de correlación intraclase de consistencia entre las mediciones del pico del flujo espiratorio con dos aparatos A y B mediante un ANOVA de 2 factores. RELIABILITY VARIABLES= A B /FORMAT=NOLABELS /STATISTICS= DESCRIPTIVE ANOVA /ICC= MODEL(MIXED) TYPE(CONSISTENCY) CIN=95 TESTVAL=0. ← SSSuj ← SSEval ← SSRes ← SSIntra-suj Si se utiliza como medida final el promedio de las medidas obtenidas con dos aparatos, su reproducibilidad (fiabilidad) es: ICCA = 0.972 (IC 95%: 0.923 a 0.990) La significación estadística (respecto a cero) de ambos coeficientes es: p < 0.001. El Listado 3 presenta el análisis del mismo estudio obtenido con la instrucción ICC= MODEL(MIXED) TYPE(CONSISTENCY) que calcula los coeficientes de correlación intraclase de consistencia con un modelo mixto de análisis de la variancia de dos factores. Este modelo supone que los n sujetos son una muestra aleatoria de la población, mientras que el laboratorio sólo tiene k=2 aparatos (que representan la población total). El resultado del análisis de la variancia indica ausencia de sesgo porque las medias de estos dos aparatos no presentan diferencias significativas (F=0.05; p=0.83). El coeficiente obtenido indica que la reproducibilidad de las medidas realizadas con un aparato es: ICCC = 0.943 (IC 95%: 0.850 a 0.979) Cálculo: ICCC;1 = MSSuj − MSRe s MSSuj + ( k − 1) MSRe s = 25572.3 − 751.4 = 0.943 25572.3 + ( 2 − 1) × 751.4 Si se utiliza como medida final el promedio de las medidas obtenidas con dos aparatos, su reproducibilidad (fiabilidad) es: ICCC = 0.971 (IC 95%: 0.919 a 0.989) La significación estadística (respecto a cero) de ambos coeficientes es: p < 0.001. Coeficiente de correlación intraclase Laboratori d’Estadística Aplicada (www.metodo.uab.cat) Pág. 7 de 8 Última revisión 30.5.2014 Listado 4. Coeficiente de correlación intraclase de consistencia entre las mediciones del pico del flujo espiratorio con dos aparatos A y B mediante un ANOVA de 2 factores. RELIABILITY VARIABLES= A B /FORMAT=NOLABELS /ICC= MODEL(RANDOM) TYPE(ABSOLUTE) CIN=95 TESTVAL=0. RELIABILITY VARIABLES= A B /FORMAT=NOLABELS /ICC= MODEL(RANDOM) TYPE(CONSISTENCY) CIN=95 TESTVAL=0. Cálculo de los ICC con un modelo de efectos aleatorios El Listado 4 presenta el cálculo de los coeficientes de correlación intraclase de acuerdo y consistencia con modelo de análisis de la variancia de dos factores de efectos aleatorios. Este modelo supone que tanto los n=17 sujetos como los aparatos son muestras aleatorias de sus respectivas poblaciones. Puede comprobar que los resultados obtenidos son idénticos a los obtenidos con el modelo de efectos mixtos (Listado 2 y Listado 3). Interpretación de la magnitud de los coeficientes Los valores obtenidos con el ICC oscilan entre 0 (ausencia de concordancia) y 1 (concordancia absoluta). Al igual que en el caso del índice kappa, la interpretación de estos valores es hasta cierto punto arbitraria, si bien existe un cierto consenso al aceptar las categorías propuestas por Fleiss (1986): Baja si ICC < 0.40; Regular/buena si ICC está entre 0.41 y 0.75; Muy buena si ICC > 0.75. Referencias Bravo G, Potvin L. Estimating the reliability of continuous measures with Cronbach's alpha or the intraclass correlation coefficient: toward the integration of two traditions. J Clin Epidemiol. 1991;44:381-90. Fisher RA. On the “probable error” of a coefficient of correlation deduced from a small sample. Metron. 1921;1:1-32. Fleiss JL. The design and analysis of clinical experiments. New York: John Wiley & Sons; 1986. Fleiss JL, Cohen J. The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educ Psychol Meas. 1973;33:613−9. McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods. 1996; 1:30-46. (Correction, 1996; 1:390). Shrout PE, Fleiss JL. Intraclass correlations: uses in assessing rater reliability. Psychol Bull. 1979;86:420-8. Coeficiente de correlación intraclase Laboratori d’Estadística Aplicada (www.metodo.uab.cat) Pág. 8 de 8 Última revisión 30.5.2014