Bioingenieria e Informatica M édica/Bioengineering- Medical [Index FAC] [Index CCVC] Informatics Curso: Bioestadística básica para m édicos asistenciales Clase Nº 9: Pruebas Estadísticas Param étricas Primera Parte Raul E. Ortego, Carlos R. Secotaro Index curso - Clase anterior - Clase siguiente Los procedimientos estadísticos paramétricos consisten en la aplicación de ecuaciones matemáticas que tienen como condición necesaria la existencia de una particular y reconocida distribución de la población. La distribución de la población es para el lenguaje que pretendemos comprender, la forma particular que adopta en un gráfico de abscisas y ordenadas, la sucesión de puntos en que coinciden el valor de la variable y su frecuencia de aparición. La distribución de la población es para nosotros la curva de distribución. Las curvas de distribución, manifestaciones gráficas, tienen también su expresión matemática particular, cada curva puede describirse por su propia ecuación o fórmula matemática. Como "idea fuerza": cada curva con su ecuación (fórmula) que la identifica. Repitamos la afirmación de que es condición necesaria para usar apropiadamente un test paramétrico que exista una específica y reconocida distribución de la población. Esto es así, porque las ecuaciones que emplea cada test paramétrico, lo que en definitiva arrojarán como resultado, es la probabilidad de que un valor, una diferencia, una proporción investigada, pertenezca a la curva que expresan las ecuaciones aplicadas. En nuestras humildes e infantiles metáforas, permítasenos decir que el test con sus ecuaciones, es el "mapa" con el que se busca una determinada localización. Imagine el significado de "búsquedas" (y hallazgos) con "mapas" inapropiados. El software no aumenta el coeficiente intelectual Es interesante observar modalidades de uso de programas de estadísticas a los cuales se tiene un fácil acceso. Para el experto, son herramientas poderosas que le permite, sobre todo, un inestimable acortamiento en los tiempos de cálculos. Algunos aficionados dan por sentado que "saben" usar el "software" si pueden llenar ciertos casilleros con los datos de su investigación. Si llenan los casilleros que el programa exige, el resultado final es una "p" y eureka!! ya se sabe si "dió la p" o "no dió la p". Si la "p no dió" el maravilloso programa ofrece otras alternativas de llenado de casilleros, todo parece reducirse a encontrar la opción del software que "dé la p". Subtitulamos este apartado tratando de suavizar la expresión popular sobre que la tecnología no "aviva tontos" o algún equivalente del lunfardo, pocas veces tan aplicable. Nos parece necesario reiterar, enfatizando, que un paso esencial en la utilización de cualquier test paramétrico, es cerciorarse de que la distribución de los datos corresponde a la distribución de la población cuya curva está expresada en las ecuaciones que se emplearán; para la metáfora: ¡que el "mapa" sea de la región! A modo de ejemplo citaremos algunas distribuciones continuas: la distribución "t", la distribución "chi cuadrado", la distribución "F". En otros términos, si bien es verdad que las distribuciones binomiales, que la distribución "normal" (la "campana"), tienen importantísimas aplicaciones, es fuente de groseros errores creer que son las 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology únicas curvas posibles y por ende, las únicas expresiones matemáticas para explorar probabilidades de pertenencia. Sugerimos retener para las conversaciones y la lectura, que un paso previo, esencial, a la aplicación de un test paramétrico, es conocer la curva de distribución del fenómeno que se está investigando. El experto tiene formas de averiguar como se distribuye el fenómeno, o al menos cómo lo hacen los datos obtenidos. Un cálculo de tamaño de muestra puede ocasionalmente ser revisado, a posteriori, al cotejar la distribución de los datos obtenidos con la distribución esperada o conocida de la población de referencia. El cálculo del tama ño de la muestra, que el "software", por supuesto, permite realizar, presume una determinada, específica, distribución de la población. Comentar procedimientos para determinar si una distribución, binomial por ejemplo, se aproxima a la curva normal, escapa a la finalidad de este ensayo, y al conocimiento de sus autores, que sólo pretenden desde sus propias dificultades, mejorar su comprensión de las "evidencias" con las que ¿deben? ¿pueden? ¡tratar pacientes ( personas)! . ¡Es/está lindo (a)! … ¿comparado con quién … y cómo? Un procedimiento esencial de la Estadística Inferencial es comparar datos. Si muestras y población se distribuyen de la misma manera, comparar estadígrafos permitirá inferir la comparación de parámetros. En poblaciones de distribución simétrica y con muestras grandes (>30) la hipótesis nula, es decir que la diferencia es asume casual, se acepta o se rechaza buscando en la distribución "Z" la probabilidad que tienen los estadígrafos hallados de pertenecer a la población de referencia. Si las muestras son pequeñas (<30) el tamaño de la muestra (n) es un factor m ás condicionante de los resultados, y en consecuencia la probabilidad de pertenencia se busca en la curva de la distribución "t" de Student ("Student – t distribution"), preservando el pseudónimo que inmortalizó a W.S. Gosset. La distribución "t" es una distribución tanto más simétrica cuanto mayor n, se aproxima a la normal de Gauss ("campana") en relación directa al tamaño de la muestra. La distribución de Student o "t" no es una única curva, son varias curvas diferenciadas al considerarse en la fórmula (una sola) de las mismas diferentes tamaños de muestras denominados "grados de libertad" y expresados genéricamente como "n - 1" siendo n el tamaño de la muestra. Proponemos retener de estas ideas que en las pruebas o test paramétricos de "Gauss" o de "Student", el experto se cuestiona en primer lugar la distribución de la población. Para distribuciones simétricas busca la probabilidad de pertenencia (la "p") según las tablas construídas con la ecuación de "Z" o, en las tablas construídas con la ecuación modificada, que culmina en "t" cuando el tamaño de las muestras es pequeño. El modo de hacer las comparaciones debe ser definido precisamente. El experto analizará entre otras consideraciones, la distribución de las poblaciones a comparar, la expectativa de la eventual diferencia a reconocer para determinar el tamaño de las muestras, etc. En la lista del etc., una consideración particularmente importante, es determinar la influencia del valor de un dato sobre el valor del dato con el cual se lo comparará; en otras palabras, si los valores comparados son independientes entre sí. En esta l ínea de pensamiento, es común leer trabajos dónde se "aparean" los datos. En la comparación de datos, se pueden elegir para esa finalidad diversos estad ígrafos, asumiendo una vez más, que la muestra de distribuye como lo hace la población. El error de la representación Antes de proseguir, repasaremos algunas ideas expresadas en el capítulo del Error Standard (ES). No nos preocupa reiterarnos, lo hacemos ex profeso. El concepto ES se asocia habitualmente a la inferencia de la media o de proporciones; en realidad, los 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology expertos han propuesto teoremas con ecuaciones que permiten calcular el ES de la inferencia de todos y de cada uno de los parámetros de la población. En efecto, analizando la distribución de las muestras con referencia a la distribución de la población se han desarrollado fórmulas que estiman el IC (Intervalo de Confianza 68 ó 95 ó 99) de parámetros como el Desvío Standard, la mediana, quartilos, Coeficientes de Variación, etc. Los conceptos son los mismos, ya que en muestras grandes, la distribución te órica, se aproxima a la distribución simétrica de Gauss (la campana ). Antes de aplicar fórmulas el experto analizará la distribución real de las muestras donde las empleará. Esta afirmación puede ser generalizada en una expresión matemática para IC95 de cualquier parámetro a partir de conocer su estadígrafo correspondiente: Estadígrafo – 1.96 "ES" < Parámetro < Estad ígrafo + 1.96 "ES" En muestras "grandes" de tamaño n, el ES de la estimación del Desvío Standard de la población ( G), a partir del Desvío Standard de la muestra (DS), es aproximadamente: El IC 95 para G se expresa: Con las mismas ideas existen modificaciones matemáticas que corrigen deformaciones en la distribución cuando las muestras son "pequeñas" (<30). Una vez más, no es de nuestro interés reemplazar al experto, además no sabríamos, sólo pretendemos dialogar con él y poder leer un trabajo científico entendiendo un poco mejor de dónde sale la "evidencia" que modificará nuestras conductas médicas. Por lo tanto, proponemos un "acto de FE", y creer que se puede, matemáticamente, estimar el ES también para inferir proporciones, diferencias poblacionales, o para la inferencia de cualquier otro parámetro. En próximos subtítulos emplearemos diversas "fórmulas" de DS y de ES sin haber siquiera intentado previamente, ilustrar cómo se probaron los teoremas que las respaldan; pero siempre concientes de que el ES de la estimación de los parámetros es un elemento esencial, vaya verdad de Perogrullo, en las pruebas (test) paramétricas. Quien no est é dispuesto a creer o aceptar sin cuestionamientos que con las mismas ideas se elaboran las "fórmulas" que usaremos, no es un destinatario de estas líneas, sino que debe referirse a los textos matemáticos (estadísticos) específicos y apropiados; debe prepararse para ser experto, con nosotros no lo conseguirá. Acorde con el prefacio de este ensayo, para usar el auto es necesario saber que "necesita combustible" aún sin saber que sucede con ese combustible adentro del motor. Señalar lo que hace diferente no es indiferente. Observe los siguientes gráficos, en ordenadas (Eje de la "y") la FR (Frecuencia Relativa ), por lo tanto el máximo es 100%. Las muestras "negra" y " roja " podrán diferir en frecuencia absoluta, graficamos la FR, por lo tanto las alturas son iguales (100% ó 1). Sin aplicar fórmulas, conforme a la sugerencia de pensar gráficamente , concéntrese en la diferencia de los promedios y en la diferencia de los Desvíos Standard. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Pregúntese el lector si las muestras comparadas en el gráfico A, y las comparadas en el gráfico B, respectivamente corresponden a la misma población en cada comparación. En el estudio A, tal vez buscará respuestas con el promedio; en el ensayo B quizás prefiera las diferencias, o el Desvío Standard o su versión cuadrática: la Varianza. La dependencia en las parejas En bioestadística es muy frecuente comparar un conjunto de datos con otro obtenido en circunstancias particulares. En ocasiones, se comparan datos "apareados". Un dato "apareado" es el mismo dato obtenido en dos circunstancias que se están evaluando en cuanto a la posibilidad que tienen de discriminar en dos poblaciones a un conjunto que en principio parece, impresiona, es, una sola población. Los datos son el instrumento con el cual se evalúan las circunstancias. Se aparean los mismos datos de los mismos individuos, obtenidos antes de (sin) y después de (con) un tratamiento específico, por ejemplo: el peso corporal mediando una sustancia para adelgazar, la Presión Arterial sin y con un medicamento hipotensor, etc. De otra manera, se pueden comparar los mismos datos en diferentes individuos, en ese caso dos grupos (muestras) de pacientes en todo semejantes (la misma población), excepto en la circunstancia que se está investigando (la sustancia para adelgazar, el hipotensor, etc.); en este caso se comparan datos NO apareados. El apareamiento implica que el valor del dato final depende no sólo de la circunstancia a investigar, sino también del valor del dato inicial . En el apareamiento los valores son dependientes uno del otro . En las comparaciones de muestras con valores dependientes analizar los promedios finales, aunque participen en la ecuación los desvíos obtenidos, puede arrojar una interpretación diferente que si se analizan las diferencias, constituyéndolas en una muestra, cuya población de referencia para aceptar la Hipótesis Nula, tiene promedio de diferencia cero (µ = 0). Suponga un grupo de personas que cumplen una indicación para adelgazar: En ese caso "Z" , o "t" según el tamaño de la muestra, se calcula con el promedio de las diferencias observadas vs µ = 0 y con el Desvío Standard de esas diferencias. El resultado será la probabilidad de que el promedio obtenido de la diferencia de peso sea casual (la "p") y conforme a ello aceptar o rechazar la Hipótesis Nula. 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Otra posible comparación sería analizar la varianza pre "T" vs la varianza post "T". Diferencias entre promedios Los conceptos que expresaremos a continuación se aplican, especialmente, a diferencias de promedios obtenidos con muestras cuyos valores son independientes. El procesamiento de diferencias consiste, como ya dijimos, en asumir que la diferencia en cuestión es una población de distribución sim étrica, normal (la campana). Si las muestras son grandes, también tienen una distribución casi normal. La población 1 de tamaño n1 y promedio µ1. La población 2 de tamaño n2 y promedio µ2 . La Hipótesis Nula afirma que se trata de una sola población, por lo tanto: µ1 = µ2 . La diferencia: µ1- µ2=0. El Desvío Standard (G) es: Con muestras sólo debe reemplazar a µ por y a G por DS. Diferencias entre proporciones Es un problema muy frecuente en bioestadística, particularmente cuando se trabaja con variables cualitativas. Las proporciones son referidas frecuentemente con otros términos, con alguna sutileza en la relación, por ejemplo: Prevalencia, Riesgo, Odds . Sin repasar todo el capítulo de estadística descriptiva recordemos que prevalencia es la relación entre el número de veces que ocurrió un evento (numerador) y el total de individuos expuestos a que ocurriese (denominador). Por ejemplo en un estudio regional se informa que la prevalencia de infarto de miocardio (IAM) en diabetes tipo II en mayores de 50 años es de 15%. La expresi ón 15% podría escribirse 15/100 con lo cual se informa que de cada 100 pacientes mayores de 50 años con diabetes tipo II, 15 han presentado un IAM. En realidad el estudio relevó a 500 pacientes con diabetes constatando entre ellos 75 pacientes con IAM; 75/500=15/100 = 15%. Al numerador (eventos) lo simbolizaremos con una letra X. Al denominador (muestra o población expuesta o de referencia) lo simbolizaremos con una letra n. La proporción en que ocurre el evento es p, y la de que no ocurre es (1 – p). Estas expresiones aritméticas suelen desconcertar al lego. Veamos: un evento ocurre en p = 37% = 37/100 = 0.37 ; no ocurre (1 – p) = (1 – 0.37) = 0.63 = 63%. ¡No era para tanto! A las poblaciones o muestras a comparar les asignaremos un número correlativo como subíndice de X, de n y de p. El problema "diferencia de proporciones" queda planteado en los siguientes términos: El Desvío Standard, asumido también como el Error Standard de (p 1 – p2) es: 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology Para el cálculo del Error Standard se asume que la proporción (p) en el conjunto de las dos muestras es: De esta manera se llega a estimar Z La hipótesis nula en una diferencia de proporciones (p 1 – p2) es: Se confirma la Hipotesis Nula si se verifica que Z es un valor comprendido entre ± 1.96: -1.96 < Z < +1.96 Se acepta la Hipotésis Aternativa con una p < 0.05 si se verifica alguna de estas opciones del valor de Z: -1.96 > Z ó Z > +1.96 Si p 1–p2 es diferente de 0, por ejemplo p12 0, con las mismas ideas se puede calcular el IC 95 y expresar la diferencia como: p12 (IC 95 p12 ±ES 1.96) A nuestros esforzados lectores les proponemos recordar para la lectura o los diálogos, las siguientes ideas sobre el tratamiento estadístico de la diferencia de dos proporciones (p1 –p 2), obtenidas en muestras "grandes": 1. 2. 3. 4. 5. La hipótesis nula dice que la diferencia p1 –p 2 es casual porque en realidad son proporciones de una sola población cuya proporción verdadera es p, es decir que para la hipótesis nula p 1 = p 2 = p. Se busca el número Z con las mismas ideas que discutimos en "Probabilidad de Pertenecer", allí vimos que el Z menor, el que coincide con la mayor frecuencia de aparición, el vértice de la campana, corresponde a un numerador 0. En este caso sería la población de p 1 = p 2 = p, por lo tanto el 0 = p1 – p 2. El Desvío Standard de la ecuación de Z, en realidad, para las diferencias de proporciones es un Error Standard, que se calcula con una proporción ( p) de ocurrencia y una de no ocurrencia (1 p), como si fuese un solo conjunto; considerando como siempre, el tama ño de las muestras (n 1 y n 2). La diferencia p1 –p 2, si p = Riesgo puede también expresarse agregando el IC95 con lo cual se agregará a la disminución de riesgo "p 12" el rango del intervalo en el cual está con 95 % de probabilidades la verdadera disminución de riesgo. Si el rango del IC 95 en uno de sus límites es 1 y en el otro 1 (Por ejemplo: Riesgo 0.90 IC 95 0.78 – 1.02) implica que el Riesgo en otro estudio con un 95% de probabilidad, podría ser exactamente opuesto (1.02) a la del estudio (0.90) del cual se tomaron los datos. La conclusión 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology también sería ¡¿opuesta?!. Se acepta la Hipótesis Nula y se atribuye a la casualidad la diferencia observada, sea ésta la del estudio realizado 0.90 o la del estudio eventual 1.02. Nos tomamos un descanso hasta la entrega de la segunda parte de test paramétricos. Index curso - Clase anterior - Clase siguiente Publicación: Octubre 2005 Tope Preguntas, aportes y comentarios ser án respondidos por el relator o por expertos en el tema a través de la lista de Bioingenieria e Inform ática Médica Llene los campos del formulario y oprima el botón "Enviar" Preguntas, aportes o comentarios: Nombre y apellido: País: Argentina Dirección de E-Mail: Enviar Borrar Dr. Diego Esandi Co -Presidente Comité Científico Dra. Silvia Nanfara Co -Presidente Comité Científico Prof. Dr. Armando Pacher Presidente Comité Técnico/Organizador Correo electrónico Correo electrónico Correo electrónico ©1994-2005 CETIFAC - Bioingenier ía UNER Webmaster - Actualización: 17-Oct-2005 4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology