REYNALDO CARVAJAL ORTIZ CAPITULO 5 METODOS ESTADISTICOS PARA ANALISIS BIVARIADO El análisis bivariado permite examinar si existe relación (asociación) entre dos variables. Las variables pueden ser ambas numéricas, una numérica y la otra categórica o ambas categóricas En el área de la Higiene y Seguridad Industrial el análisis bivariado permite examinar si existe asociación estadística entre exposición y efecto. La estadística proporciona los métodos (Pruebas de significancia) para determinar si la asociación o diferencia observada entre los grupos es o no estadísticamente significante. Estadísticamente significante quiere decir “es poco probable o improbable que la diferencia observada entre los grupos pueda ser explicada por efectos del azar”. Por consiguiente, existe asociación estadística entre exposición y efecto. Si se demuestra que el estudio tiene validez interna (control de sesgos) y precisión, es posible concluir que la asociación observada es real, o que los hallazgos obtenidos con el estudio son verdaderos. La aplicación de pruebas de significancia estadística requiere el conocimiento de los siguientes conceptos: 93 REYNALDO CARVAJAL ORTIZ 5.1. DECISIONES ESTADÍSTICAS Son aquellas que se toman a partir de la información obtenida en el estudio (información muestral). 5.2. HIPÓTESIS ESTADÍSTICAS Son enunciados de relación entre variables (exposición – efecto) que pueden ser verdaderos o falsos. 5.3. HIPÓTESIS NULA Se nota por Ho. y puede ser verdadera o falsa. La Hipótesis nula consiste en una proposición de no diferencia. Se establece con el ánimo de rechazarla con base con los resultados del estudio. Rechazar una Hipótesis nula significa que es muy poco probable que la Hipótesis nula sea cierta y que los resultados obtenidos en el estudio se deban a simple azar. La Ho se rechaza o no se rechaza pero nunca se debe hablar de aceptarla 5.4. HIPÓTESIS ALTERNA Se nota por Ha. y puede ser verdadera o falsa. Cuando se rechaza la Hipótesis nula, el investigador por descarte acepta la hipótesis alterna (Ha.) Aceptar una Hipótesis alterna significa que existe una verdadera asociación entre exposición – efecto o que las diferencias obtenidas en el estudio son reales. 94 REYNALDO CARVAJAL ORTIZ El contraste de la Ho., se basa en distribuciones de probabilidad por lo cual siempre se llega a conclusiones con márgenes pequeños de probabilidad de error. (nivel de significancia ) 5.5. PRUEBAS DE SIGNIFICANCIA ESTADÍSTICA Son procedimientos que facilitan decidir si una Hipótesis nula se rechaza o no se rechaza. La aplicación de estas pruebas parte del supuesto de que se ha utilizado un diseño de muestreo probabilístico (al azar, sistemático, estratificado o conglomerados) para obtener la información muestral que permita tomar decisiones estadísticas. 5.6. Errores en la Prueba de Hipótesis En el contraste de la Ho., se puede cometer dos tipos de error: Error Tipo I (). Consiste en rechazar una Hipótesis nula verdadera. Este error se conoce como nivel de significancia estadística a partir del cual se toma la decisión de rechazar o no rechazar la Hipótesis nula. Generalmente se considera un nivel de significancia igual o menor a 5% (= 0.05, =0.01, etc.). Error Tipo II (). Consiste en no rechazar una Hipótesis nula falsa. El cuadro siguiente resume los dos tipos de error. 95 REYNALDO CARVAJAL ORTIZ Estado Real de la Ho. Verdadera Conclusión con Rechazar Ho. Poder del Error estadística Estudio (1- ) base en la prueba de significancia Falsa No rechazar Decisión Ho. Correcta Error (1-) 5.7. PODER ESTADÍSTICO DE UN ESTUDIO (POTENCIA) Capacidad que tiene el estudio para rechazar una Hipótesis nula falsa. Capacidad que tiene el estudio de detectar diferencias cuando realmente las hay Probabilidad de que los resultados del estudio sean verdaderos Usualmente en el diseño de una muestra, se establecen apriori valores de poder iguales o mayores a 80%. Los errores y son inversamente proporcionales y su punto de equilibrio sucede cuando = 0.05 (confianza del 95%) y = 0.20 (poder del 80%). 96 REYNALDO CARVAJAL ORTIZ 5.8. PASOS PARA APLICAR UNA PRUEBA DE SIGNIFICANCIA ESTADÍSTICA. Primero : Establecer la Hipótesis nula (Ho.) y alterna (Ha.) Segundo: Definir el nivel de significancia (usualmente del 5%). Tercero : Definir y aplicar la estadística de prueba para obtener el valor de probabilidad (valor-p). La correcta aplicación de la estadística de prueba (fórmula estadística) depende de el nivel de medición de las variables (nominal, ordinal, numérico), de los supuestos que se deben cumplir y del tamaño de muestra o cantidad de datos para analizar. Se recomienda asesorarse de un buen estadístico. Cuarto : Comparar el valor-p con el nivel de significancia : Si valor-p menor o igual que entonces rechazar la Ho. Esto significa que “es poco probable o improbable que el azar explique las diferencias observadas. Por consiguiente existe asociación estadística entre las variables que se están comparando Si valor-p mayor que entonces No rechazar la Ho. Esto significa que “es probable o muy probable que el azar explique las diferencias observadas. Por consiguiente no existe asociación estadística entre las variables que se están comparando 97 REYNALDO CARVAJAL ORTIZ 5.9. METODOS ESTADISTICOS PARA EXAMINAR ASOCIACION ENTRE UNA VARIABLE CATEGORICA (INDEPENDIENTE) Y OTRA NUMERICA (DEPENDIENTE) Exposición Efecto Categorías Valores Numéricos Grupos 1. MAS DE DOS GRUPOS 2. Análisis de varianza de una via (One Way): Estadística F 3. Métodos de comparaciones múltiples: Scheffe Tukey Duncan Student- Newman- Keuls 2. SOLAMENTE DOS GRUPOS 1. Análisis de varianza de una vía (One way): Estadística F 2. Prueba t de Student: En este caso t = F 3. Pruebas No Paramétricas cuando los supuestos de normalidad estadística y homogeneidad de varianza no se cumplen: Prueba U de Mann Whitney, Wilcoxon Matched- Pairs Signed – rank test 98 REYNALDO CARVAJAL ORTIZ Ejemplo 1: Se desea estudiar si existe relación entre ingesta de alcohol etílico y tiempo de reacción (seg) a un estímulo auditivo. Tiempo de reacción (seg.) a un estímulo auditivo por grupo de estudio. GRUPO A 1 2 3 4 5 GRUPO B 4 5 6 7 8 GRUPO C 7 8 9 10 11 Los resultados del análisis estadístico univariado se muestran a continuación: Promedio Aritmético Varianza Desviación estándar Total Datos A 3.0 2.5 1.581 5 GRUPO B 6.0 2.5 1.581 5 C 9.0 2.5 1.581 5 Bajo la Hipótesis Nula (Ho) se esperaría de que si no existe asociación entre ingesta de alcohol etílico y tiempo de reacción (seg) a un estímulo auditivo, se esperaría igual promedio de tiempo de reacción en cada uno de los grupos. Ho: A= B = C La hipótesis alterna sería Ha: A B C Ensayo bilateral Ha: A B c Ensayo unilateral 99 REYNALDO CARVAJAL ORTIZ Aplicando los pasos para la prueba de Significancia Estadística se tiene: Primero: Establecer la hipótesis nula (Ho) y alterna (Ha) Ho: No existe asociación entre ingesta de alcohol etílico y tiempo de reacción (seg.) a un estímulo auditivo. Ha: Si existe asociación entre ingesta de alchohol etílico y tiempo de reacción (seg) a un estímulo auditivo. Segundo: Definir el nivel de significancia = 0.05 Tercero: Seleccionar y aplicar la Estadística de Prueba: F Partiendo del supuesto de que las muestras provienen de distribuciones normales y como las varianzas obtenidas son homogéneas se puede utilizar análisis de varianza de una vía ANOVA, (One Way): FUENTE SUMA DE GRADOS DE CUADRADOS DE VARIACION CUADRADOS LIBERTAD MEDIOS Entre grupos 90 2 45 Dentro de grupos 30 12 2.5 120 14 Total ESTADISTICA F VALOR-p 18.0 0.000435 Cuarto: Como el valor–p es menor que = 0.005 se rechaza la Hipótesis Nula y se acepta la hipótesis alterna. Análisis: Los resultados obtenidos muestran que es muy poco probable (valor-p= 0.000435) que las diferencias observadas en los tiempos promedios de reacción (seg) para los grupos A, B, C se puedan explicar por simple azar. Por consiguiente, hay diferencias estadísticamente significantes a nivel = 0.05 Conclusión: Existe asociación entre ingesta de alcohol etílico y tiempo de reacción (seg) a un estímulo auditivo. 100 REYNALDO CARVAJAL ORTIZ Si en lugar de haber comparado tres grupos se hubiesen comparado dos, para contrastar los promedios se puede utilizar la estadística t de student o la estadística F, siempre y cuando se cumplan los supuestos de normalidad estadística y homogeneidad de varianzas. En estos casos siempre t = F El esquema de la página siguiente ilustra diferentes métodos para aplicación de la estadística t. 5.10. METODOS ESTADISTICOS PARA EXAMINAR ASOCIACION ENTRE DOS VARIABLES CATEGORICAS. Ambas Nominales Ambas Ordinales RH SEXO + EXPOSICIÓN - TOTAL GRAVEDAD H Leve M Moderada TOTAL Severa 0 1 2 TOTAL TOTAL Coeficientes de asociación . Coeficientes de correlación no - Contingencia de Cramer paramétricos - Chi-cuadrado . Prueba de la mediana - Probabilidad exacta de Fisher . Prueba U de Mann-Withney - Prueba Q de Cochran . Anova de dos clasificaciones de - Coeficiente PHI Friedman Coeficientes de Concordancia 101 REYNALDO CARVAJAL ORTIZ - Kappa de Cohen - Prueba de McNemar Ejemplo: La tabla siguiente corresponde a los hallazgos en un estudio de Investigación Operativa. Se desea probar si hubo un cambio estadísticamente significante después de aplicada la intervención. CONSULTA DEMORADA (%) EN CONSULTA EXTERNA ANTES Y DESPUES DE LA INTERVENCION SITUACION Antes Después CONSULTA EXTERNA SI NO 63 37 16 84 TOTAL 100 100 % CONSULTA DEMORADA 63.0 16.0 En este ejemplo ambas variables son categóricas nominales. Por haber utilizado muestras diferentes de usuarios antes y después de la intervención se consideran muestras independientes. Además, como el tamaño de las muestras es suficientemente grande (100) cumple los supuestos de normalidad estadística y pueden utilizarse para el análisis pruebas aproximadas como la estadística Z, la estadística chi-cuadrado corriente y chi-cuadrado de Mantel y Haenzel, en lugar de pruebas exactas como la Dos binomial o la Hipergeométrica. Como medida de fuerza de asociación se puede utilizar el riesgo relativo porque la consulta demorada se puede considerar “Incidencia Acumulada” 102 REYNALDO CARVAJAL ORTIZ Aplicando los pasos de una prueba de significancia estadistica tenemos: Primero: Establecer la Hipótesis nula (Ho) y alterna (Ha). Ho: No existen diferencias en los porcentajes de consulta demorada antes y después de aplicada la intervención. Ha: Existen diferencias significantes en los porcentajes de consulta demorada antes y después de aplicada la intervención. Segundo: Definir el nivel de significancia = 0.05 Tercero: Seleccionar y aplicar la estadística de prueba para obtener el valor de probabilidad. (valor-p). - La estadística Z para diferencia de proporciones arroja un valor-p igual a 0.0000 - La estadística chi-cuadrado corriente da un valor–p igual a 0.0000 ¡ Siempre estas dos estadísticas dan resultados iguales en una tabla de cuatro casillas! Cuarto: Comparar el valor-p con el nivel de significancia : Como el valor-p de la prueba de significancia es menor que el nivel de significancia , se rechaza la Hipótesis Nula. Análisis: El porcentaje de consulta demorada después de la intervención cambió dramáticamente de 63% (antes) a 16% (después). Estas diferencias pueden deberse al efecto de la intervención aplicada y no a simple azar. 103 REYNALDO CARVAJAL ORTIZ 5.11. METODOS ESTADISTICOS PARA EXAMINAR ASOCIACION ENTRE DOS VARIABLES NUMERICAS Cuando se tienen dos variables numéricas el mejor análisis estadístico es el de correlación y regresión. En Epidemiología clínica este modelo se utiliza mucho en estudios farmacológicos de dosis 5.11.1. respuesta. Dosis Respuesta Variable numérica Variable numérica Introducción al análisis de regresión Nomenclatura y conceptos básicos 1. Regresión. Este término se debe al biólogo Galton quién, estudiando la estatura de hijos y padres, quería ver en que medida la estatura de los hijos señalaba un regreso, “una regresión” hacia la estatura media de la raza, cuando la de sus padres se separaba de ella. Esta técnica estadística busca analizar la relación existente entre una variable aleatoria dependiente Y y una o más variables aleatorias independientes X1, X2,............Xk. La relación o ecuación de regresión de Y en función de X1, X2,............Xk se denota por Y =f(X1, X2,............Xk); puede ser lineal, curvilínea, diagonal, ortogonal, polinomica, etc. 104 REYNALDO CARVAJAL ORTIZ Con base en un análisis de regresión se puede cuantificar en que medida uno o más variables independientes Xi explican (o predicen) el comportamiento o variabilidad de una variable dependiente Y. 5.11.2. Análisis de regresión lineal simple Definir variables: independiente y dependiente Definir tipo de regresión: Lineal o no Lineal Verificar supuestos estadísticos Si supuestos no se cumplen utilizar métodos No Paramétricos Anexar análisis de varianza y coeficiente de determinación Para análisis utilizar las tablas siguientes: a) Análisis de Correlación Estadístico Valor Coeficiente de Correlación Intervalo de confianza (95%) Coeficiente de determinación Coeficiente de correlación lineal r de Pearson Indica el grado de asociación lineal entre dos variables. Se obtiene sacando la raíz cuadrada al coeficiente de determinación. Coeficiente de determinación : 2 Es una medida de la bondad de ajuste del modelo. Resulta del cociente de dividir la suma de cuadrados debida a la regresión (SCR) entre la suma total de cuadrados (SCT). 105 REYNALDO CARVAJAL ORTIZ El coeficiente de determinación varía entre cero y uno e indica que tanto la variabilidad de la variable dependiente es explicada por la variable independiente. Se puede expresar en porcentaje. Si en una regresión lineal 2 = 0, significa no asociación lineal entre las variables. Pero, puede existir otro tipo de asociación entre ellas. b) Análisis de Varianza para Regresión Se utiliza para probar la bondad del modelo de regresión. Esto es, que tan útil es la variable independiente para explicar el comportamiento de la variable dependiente Y. Fuente de Grados de Suma de Cuadrados Estadística variación libertad cuadrados Medios F Regresión Valor-p 1 Error (Residual) n –2 Total n-1 Expresión fundamental del análisis de varianza para regresión. SCT = SCR + SCE SUMA TOTAL SUMA CUADRADOS SUMA CUADRADOS DEL CUADRADOS DE LA REGRESION ERROR (RESIDUALES) Recordar que 2 = SCR / SCT 106 REYNALDO CARVAJAL ORTIZ La variabilidad observada en la variable dependiente (suma de cuadrados totales = SCT) se subdivide en dos partes; la variabilidad debida al modelo de regresión (SCR) y variabilidad debida al error en la estimación (Residuales = SCE). La suma de los cuadrados debida al modelo de regresión (SCR) tiene p-1 grados de libertad, donde p es el número de parámetros ( i) en el modelo, con i = 1, 2, 3,.......k. Es un modelo de regresión lineal simple la SCR siempre tiene un grado de libertad. La SCE (Residuales) tiene n-p grados de libertad donde n es el total de casos en el estudio. Al dividir cada una de estas sumas de cuadrados por sus correspondientes grados de libertad se obtiene los denominados MEAN SQUARE (Cuadrados medios) que son las varianzas de la regresión y de los residuales. El valor del estadístico F resulta de dividir el cuadrado medio de regresión entre el cuadrado medio residual. El estadístico F se utiliza para probar la hipótesis de que la variable independiente no contribuye con ninguna información para predecir la variable dependiente. Esto equivale a probar estadísticamente que : Ho = 1 = 0 en Regresión Lineal Simple 107 REYNALDO CARVAJAL ORTIZ c) Ecuación de Regresión Ecuación de regresión lineal simple utilizada para estimar el valor medio de Y ó predecir un valor particular de Y con base en un valor específico de X obtenido de la información muestral. y = 0 + 1 X donde: y = E( y /X ) = valor esperado promedio para un valor particular de la variable independiente X. 0 = Intercepto con eje y 1 = Pendiente y = Valor esperado promedio de la variable dependiente x = Valor particular de la variable independiente E(Y / X) = o + 1 + d) Modelo probabilistico de regresión lineal simple. Esta ecuación indica lo siguiente: para cualquier X, los valores de Y varían de manera aleatoria alrededor de su media E(Y / X) en forma de distribución normal de media cero y varianza 2. E ( Y / X1 ) X1 E ( Y / X2 ) X2 108 REYNALDO CARVAJAL ORTIZ La letra indica el error aleatorio (medición) y se supone con distribución normal de media cero y con igual varianza 2 (homocedasticidad). Este modelo supone también, los valores Yi medidas de distribución de la variable independientes y las Y condicionadas a los Xi, situadas en una recta denominada línea de regresión verdadera (linealidad). e) Supuestos para análisis de regresión lineal SUPUESTO 1 Debe existir linealidad entre X, Y. Esta se puede comprobar con el Coeficiente r de Pearson. SUPUESTO 2 En el análisis residual el error debe : Distribuirse Normal Esto se debe comprobar utilizando un test para bondad de ajuste o también mediante el test de Shapiro - Wilk que evalúa la correlación entre los residuales y los valores esperados. Gráficamente se debe obtener lo siguiente: yi – yi X ó Y 109 REYNALDO CARVAJAL ORTIZ Cuando existe heterocedasticidad (no homogeneidad de varianzas) el gráfico dará : yi – yi X ó Y Si el gráfico de residuales muestra una tendencia lineal, se debe añadir otra variable independiente al modelo : yi - yi X ó Y Si se observa una tendencia parabólica, se opta por añadir un termino cuadratico o lineal al modelo : yi - yi X ó Y 110 REYNALDO CARVAJAL ORTIZ Los errores deben ser independientes Esto se puede probar con el test de DURBIN–WATSON. Los errores deben tener varianza costante. 5.12. Ejemplo: Análisis de Regresión entre Dosis (grm) de alcohol etílico ingerida y tiempo de reacción (seg) a un estímulo auditivo. a) Tabla de Datos Dosis (grms) 500 4 5 6 7 8 0 1 2 3 4 5 b) 1000 7 8 9 10 11 Análisis de Correlación Estadístico Coeficiente correlación Intervalo Confianza (95%9 Coeficiente Determinación (%) c) 0.87 0.64 – 0.95 75% Análisis de Varianza Fuente de Variación Regresión Error Total d) Valor Grados de libertad 1 13 14 Suma de cuadrados 90 30 120 Cuadrados Medios 90 2.3077 Estadística F Vapor -p 39.0 0.0000 Ecuación de Regresión Lineal 111 REYNALDO CARVAJAL ORTIZ COEFICIENTES Variable DOSIS Intercepto Promedio 500.0 coeficientes 0.006 (1) 3.000 (o) Limite confianza 95% Error Inferior Estándar 0.0041169 Superior 0.0078831 Estadistica 0.0009608 F 39.0000 Tiempo esperado promedio de reacción = 3.0 + 0.006 x dosis (grm) Análisis: El coeficiente de correlación estimado (0.87) indica que existe una relación lineal fuerte entre dosis de alcohol etílico y tiempo de reacción. Su intervalo de confianza no incluye el cero (no correlación) lo cual está indicado que dicho coeficiente es significativamente diferente de cero. El coeficiente de determinación (75%) muestra que la dosis ingerida explica en un 75% el comportamiento del tiempo promedio de reacción (seg) a un estímulo auditivo. El otro 25% lo explicarán otras variables. Con los supuestos verificados, la prueba de bondad de ajuste del modelo de regresión arrojó un valor–p igual a 0.0000 mucho menor que = 0.05 Conclusión: El análisis de regresión y correlación confirman una fuerte asociación entre dosis respuesta y permite utilizar la recta de regresión para estimar tiempos de reacción (seg.) según diferentes dosis (grm) de alcohol etílico entre 0 grm y 1000 grm 112 REYNALDO CARVAJAL ORTIZ 5.13. TALLER SOBRE REGRESION Y CORRELACION LINEAL SIMPLE La tabla siguiente muestra la cantidad de glucosa inyectada y la cantidad retenida en 18 usuarios hospitalarios. GLUCOSA CASO INYECTADA 1 GLUCOSA RETENIDA CASO INYECTADA RETENIDA 0.073 0.072 10 1.160 1.040 2 0.159 0.154 11 1.193 0.871 3 0.222 0.217 12 1.301 1.065 4 0.390 0.290 13 1.323 1.132 5 0.463 0.458 14 1.460 1.430 6 0.512 0.500 15 1.590 1.440 7 0.753 0.686 16 1.824 1.307 8 0.926 0.832 17 1.960 1.953 9 1.130 0.820 18 2.2.16 1.565 Fuente: Datos de James C. Cain y William P. Belk, “The Asimilation Rate of Intravenously Injected Glucose in Hospital Patients”, American Journak of the Medical Sciences, Vol. 203, No. 3 March 1942, pp.359-363. 5.13.1. Actividades 1. Realice el diagrama de correlación. 2. Determine si el grado de correlación entre las variables es estadísticamente diferente de cero. 3. Interprete el coeficiente de determinación obtenido (r2) 4. Determine si la bondad de ajuste de una línea de Regresión es buena o no. 5. Plantee la ecuación de Regresión para estimaciones. 6. Estime la cantidad media retenida de Glucosa (gm/kgm x hora) en un paciente al que se le aplican 1.5gms. y su error estándar. Que significan estos resultados? 113 REYNALDO CARVAJAL ORTIZ Salidas de computador con SPSS Correlation coefficient r = 0.97 2 r =0.93 95% confidence limits: 0.91 <R<0.99 Source Regression Residuals Total df 1 16 17 Sum of Squares 4.5439 0.3322 4.8760 Means Square 4.5439 0.0208 F-statistic 218.87 Coefficients Variable INYECTADA Y- Intercept 5.14. Mean Coefficient 1.0364 0.8041454 0.0461482 95% confidence Lower Upper 0.697610 0.910681 Std Error 0.054355 Partial F-test 218.8727 BILIOGRAFIA 1. CARVAJAL Reynaldo. Métodos Estadísticos para Análisis Epidemiológico. En proceso de publicación. Santiago de Cali: Univalle, 1998 2. KENNETH J. Rothman. Modern Epidemilogy, Segunda Edición, Boston: Little, Brown and Company, 1986. 3. MEYER L. Paul. Probabilidad y Aplicaciones Estadísticas. México: Fondo Educativo Interamericano A.S. 1973. 4. MENDENHALL William. Estadística para Administración y Economía, México: Grupo Editorial Iberoamericana, 1981. 5. SIDNEY Siegel. Estadística no Paramétrica. Séptima Reimpresión, México: Editorial Trillas, 1982. 6. MENDEMHALL W. Scheaff R. Wackerly D. Estadística Matemática con Aplicaciones. México: Grupo Editorial Iberoamerica, S.A. 1986. 114