Clase Nº 9: Pruebas Estadísticas Paramétricas Curso: Bioestadística

Anuncio
Bioingenieria e Informatica M édica/Bioengineering- Medical
[Index FAC] [Index CCVC]
Informatics
Curso: Bioestadística básica para m édicos asistenciales
Clase Nº 9: Pruebas Estadísticas Param étricas
Primera Parte
Raul E. Ortego, Carlos R. Secotaro
Index curso - Clase anterior - Clase siguiente
Los procedimientos estadísticos paramétricos consisten en la aplicación de ecuaciones matemáticas que
tienen como condición necesaria la existencia de una particular y reconocida distribución de la
población.
La distribución de la población es para el lenguaje que pretendemos comprender, la forma particular
que adopta en un gráfico de abscisas y ordenadas, la sucesión de puntos en que coinciden el valor
de la variable y su frecuencia de aparición.
La distribución de la población es para nosotros la curva de distribución.
Las curvas de distribución, manifestaciones gráficas, tienen también su expresión matemática
particular, cada curva puede describirse por su propia ecuación o fórmula matemática.
Como "idea fuerza": cada curva con su ecuación (fórmula) que la identifica.
Repitamos la afirmación de que es condición necesaria para usar apropiadamente un test paramétrico
que exista una específica y reconocida distribución de la población.
Esto es así, porque las ecuaciones que emplea cada test paramétrico, lo que en definitiva arrojarán
como resultado, es la probabilidad de que un valor, una diferencia, una proporción investigada,
pertenezca a la curva que expresan las ecuaciones aplicadas.
En nuestras humildes e infantiles metáforas, permítasenos decir que el test con sus ecuaciones, es el
"mapa" con el que se busca una determinada localización.
Imagine el significado de "búsquedas" (y hallazgos) con "mapas" inapropiados.
El software no aumenta el coeficiente intelectual
Es interesante observar modalidades de uso de programas de estadísticas a los cuales se tiene un fácil
acceso. Para el experto, son herramientas poderosas que le permite, sobre todo, un inestimable
acortamiento en los tiempos de cálculos. Algunos aficionados dan por sentado que "saben" usar el
"software" si pueden llenar ciertos casilleros con los datos de su investigación. Si llenan los casilleros que
el programa exige, el resultado final es una "p" y eureka!! ya se sabe si "dió la p" o "no dió la p". Si la
"p no dió" el maravilloso programa ofrece otras alternativas de llenado de casilleros, todo parece
reducirse a encontrar la opción del software que "dé la p".
Subtitulamos este apartado tratando de suavizar la expresión popular sobre que la tecnología no "aviva
tontos" o algún equivalente del lunfardo, pocas veces tan aplicable.
Nos parece necesario reiterar, enfatizando, que un paso esencial en la utilización de cualquier test
paramétrico, es cerciorarse de que la distribución de los datos corresponde a la distribución de la
población cuya curva está expresada en las ecuaciones que se emplearán; para la metáfora: ¡que el
"mapa" sea de la región!
A modo de ejemplo citaremos algunas distribuciones continuas: la distribución "t", la distribución "chi
cuadrado", la distribución "F".
En otros términos, si bien es verdad que las distribuciones binomiales, que la distribución "normal" (la
"campana"), tienen importantísimas aplicaciones, es fuente de groseros errores creer que son las
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
únicas curvas posibles y por ende, las únicas expresiones matemáticas para explorar probabilidades
de pertenencia.
Sugerimos retener para las conversaciones y la lectura, que un paso previo, esencial, a la aplicación de
un test paramétrico, es conocer la curva de distribución del fenómeno que se está investigando.
El experto tiene formas de averiguar como se distribuye el fenómeno, o al menos cómo lo hacen los datos
obtenidos. Un cálculo de tamaño de muestra puede ocasionalmente ser revisado, a posteriori, al cotejar la
distribución de los datos obtenidos con la distribución esperada o conocida de la población de referencia. El
cálculo del tama ño de la muestra, que el "software", por supuesto, permite realizar, presume una
determinada, específica, distribución de la población.
Comentar procedimientos para determinar si una distribución, binomial por ejemplo, se aproxima a la
curva normal, escapa a la finalidad de este ensayo, y al conocimiento de sus autores, que sólo pretenden
desde sus propias dificultades, mejorar su comprensión de las "evidencias" con las que ¿deben?
¿pueden? ¡tratar pacientes ( personas)! .
¡Es/está lindo (a)! … ¿comparado con quién … y cómo?
Un procedimiento esencial de la Estadística Inferencial es comparar datos.
Si muestras y población se distribuyen de la misma manera, comparar estadígrafos permitirá inferir la
comparación de parámetros.
En poblaciones de distribución simétrica y con muestras grandes (>30) la hipótesis nula, es decir que
la diferencia es asume casual, se acepta o se rechaza buscando en la distribución "Z" la probabilidad
que tienen los estadígrafos hallados de pertenecer a la población de referencia.
Si las muestras son pequeñas (<30) el tamaño de la muestra (n) es un factor m ás condicionante de los
resultados, y en consecuencia la probabilidad de pertenencia se busca en la curva de la distribución "t" de
Student ("Student – t distribution"), preservando el pseudónimo que inmortalizó a W.S. Gosset.
La distribución "t" es una distribución tanto más simétrica cuanto mayor n, se aproxima a la normal
de Gauss ("campana") en relación directa al tamaño de la muestra.
La distribución de Student o "t" no es una única curva, son varias curvas diferenciadas al considerarse en
la fórmula (una sola) de las mismas diferentes tamaños de muestras denominados "grados de
libertad" y expresados genéricamente como "n - 1" siendo n el tamaño de la muestra.
Proponemos retener de estas ideas que en las pruebas o test paramétricos de "Gauss" o de "Student", el
experto se cuestiona en primer lugar la distribución de la población. Para distribuciones simétricas
busca la probabilidad de pertenencia (la "p") según las tablas construídas con la ecuación de "Z" o, en
las tablas construídas con la ecuación modificada, que culmina en "t" cuando el tamaño de las muestras
es pequeño.
El modo de hacer las comparaciones debe ser definido precisamente.
El experto analizará entre otras consideraciones, la distribución de las poblaciones a comparar, la
expectativa de la eventual diferencia a reconocer para determinar el tamaño de las muestras, etc. En la
lista del etc., una consideración particularmente importante, es determinar la influencia del valor de un
dato sobre el valor del dato con el cual se lo comparará; en otras palabras, si los valores comparados
son independientes entre sí. En esta l ínea de pensamiento, es común leer trabajos dónde se
"aparean" los datos.
En la comparación de datos, se pueden elegir para esa finalidad diversos estad ígrafos, asumiendo una vez
más, que la muestra de distribuye como lo hace la población.
El error de la representación
Antes de proseguir, repasaremos algunas ideas expresadas en el capítulo del Error Standard (ES). No
nos preocupa reiterarnos, lo hacemos ex profeso.
El concepto ES se asocia habitualmente a la inferencia de la media o de proporciones; en realidad, los
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
expertos han propuesto teoremas con ecuaciones que permiten calcular el ES de la inferencia de todos y
de cada uno de los parámetros de la población.
En efecto, analizando la distribución de las muestras con referencia a la distribución de la población se han
desarrollado fórmulas que estiman el IC (Intervalo de Confianza 68 ó 95 ó 99) de parámetros como el
Desvío Standard, la mediana, quartilos, Coeficientes de Variación, etc.
Los conceptos son los mismos, ya que en muestras grandes, la distribución te órica, se aproxima a la
distribución simétrica de Gauss (la campana ). Antes de aplicar fórmulas el experto analizará la
distribución real de las muestras donde las empleará.
Esta afirmación puede ser generalizada en una expresión matemática para IC95 de cualquier
parámetro a partir de conocer su estadígrafo correspondiente:
Estadígrafo – 1.96 "ES" < Parámetro < Estad ígrafo + 1.96 "ES"
En muestras "grandes" de tamaño n, el ES de la estimación del Desvío Standard de la población ( G), a
partir del Desvío Standard de la muestra (DS), es aproximadamente:
El IC 95 para G se expresa:
Con las mismas ideas existen modificaciones matemáticas que corrigen deformaciones en la distribución
cuando las muestras son "pequeñas" (<30).
Una vez más, no es de nuestro interés reemplazar al experto, además no sabríamos, sólo pretendemos
dialogar con él y poder leer un trabajo científico entendiendo un poco mejor de dónde sale la "evidencia"
que modificará nuestras conductas médicas.
Por lo tanto, proponemos un "acto de FE", y creer que se puede, matemáticamente, estimar el ES también
para inferir proporciones, diferencias poblacionales, o para la inferencia de cualquier otro
parámetro.
En próximos subtítulos emplearemos diversas "fórmulas" de DS y de ES sin haber siquiera intentado
previamente, ilustrar cómo se probaron los teoremas que las respaldan; pero siempre concientes de que
el ES de la estimación de los parámetros es un elemento esencial, vaya verdad de Perogrullo, en las
pruebas (test) paramétricas.
Quien no est é dispuesto a creer o aceptar sin cuestionamientos que con las mismas ideas se elaboran las
"fórmulas" que usaremos, no es un destinatario de estas líneas, sino que debe referirse a los textos
matemáticos (estadísticos) específicos y apropiados; debe prepararse para ser experto, con nosotros no lo
conseguirá.
Acorde con el prefacio de este ensayo, para usar el auto es necesario saber que "necesita combustible"
aún sin saber que sucede con ese combustible adentro del motor.
Señalar lo que hace diferente no es indiferente.
Observe los siguientes gráficos, en ordenadas (Eje de la "y") la FR (Frecuencia Relativa ), por lo tanto
el máximo es 100%. Las muestras "negra" y " roja " podrán diferir en frecuencia absoluta, graficamos la
FR, por lo tanto las alturas son iguales (100% ó 1).
Sin aplicar fórmulas, conforme a la sugerencia de pensar gráficamente , concéntrese en la diferencia de
los promedios y en la diferencia de los Desvíos Standard.
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Pregúntese el lector si las muestras comparadas en el gráfico A, y las comparadas en el gráfico B,
respectivamente corresponden a la misma población en cada comparación.
En el estudio A, tal vez buscará respuestas con el promedio; en el ensayo B quizás prefiera las
diferencias, o el Desvío Standard o su versión cuadrática: la Varianza.
La dependencia en las parejas
En bioestadística es muy frecuente comparar un conjunto de datos con otro obtenido en circunstancias
particulares. En ocasiones, se comparan datos "apareados".
Un dato "apareado" es el mismo dato obtenido en dos circunstancias que se están evaluando en cuanto a
la posibilidad que tienen de discriminar en dos poblaciones a un conjunto que en principio parece,
impresiona, es, una sola población.
Los datos son el instrumento con el cual se evalúan las circunstancias.
Se aparean los mismos datos de los mismos individuos, obtenidos antes de (sin) y después de (con)
un tratamiento específico, por ejemplo: el peso corporal mediando una sustancia para adelgazar, la
Presión Arterial sin y con un medicamento hipotensor, etc.
De otra manera, se pueden comparar los mismos datos en diferentes individuos, en ese caso dos
grupos (muestras) de pacientes en todo semejantes (la misma población), excepto en la circunstancia que
se está investigando (la sustancia para adelgazar, el hipotensor, etc.); en este caso se comparan datos
NO apareados.
El apareamiento implica que el valor del dato final depende no sólo de la circunstancia a investigar, sino
también del valor del dato inicial .
En el apareamiento los valores son dependientes uno del otro .
En las comparaciones de muestras con valores dependientes analizar los promedios finales, aunque
participen en la ecuación los desvíos obtenidos, puede arrojar una interpretación diferente que si se
analizan las diferencias, constituyéndolas en una muestra, cuya población de referencia para aceptar
la Hipótesis Nula, tiene promedio de diferencia cero (µ = 0).
Suponga un grupo de personas que cumplen una indicación para adelgazar:
En ese caso "Z" , o "t" según el tamaño de la muestra, se calcula con el promedio de las diferencias
observadas vs µ = 0 y con el Desvío Standard de esas diferencias.
El resultado será la probabilidad de que el promedio obtenido de la diferencia de peso sea casual (la
"p") y conforme a ello aceptar o rechazar la Hipótesis Nula.
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Otra posible comparación sería analizar la varianza pre "T" vs la varianza post "T".
Diferencias entre promedios
Los conceptos que expresaremos a continuación se aplican, especialmente, a diferencias de promedios
obtenidos con muestras cuyos valores son independientes.
El procesamiento de diferencias consiste, como ya dijimos, en asumir que la diferencia en cuestión es
una población de distribución sim étrica, normal (la campana).
Si las muestras son grandes, también tienen una distribución casi normal.
La población 1 de tamaño n1 y promedio µ1. La población 2 de tamaño n2 y promedio µ2 .
La Hipótesis Nula afirma que se trata de una sola población, por lo tanto: µ1 = µ2 .
La diferencia: µ1- µ2=0.
El Desvío Standard (G) es:
Con muestras sólo debe reemplazar a µ por
y a G por DS.
Diferencias entre proporciones
Es un problema muy frecuente en bioestadística, particularmente cuando se trabaja con variables
cualitativas. Las proporciones son referidas frecuentemente con otros términos, con alguna sutileza en la
relación, por ejemplo: Prevalencia, Riesgo, Odds .
Sin repasar todo el capítulo de estadística descriptiva recordemos que prevalencia es la relación entre el
número de veces que ocurrió un evento (numerador) y el total de individuos expuestos a que
ocurriese (denominador). Por ejemplo en un estudio regional se informa que la prevalencia de infarto
de miocardio (IAM) en diabetes tipo II en mayores de 50 años es de 15%. La expresi ón 15% podría
escribirse 15/100 con lo cual se informa que de cada 100 pacientes mayores de 50 años con diabetes tipo
II, 15 han presentado un IAM. En realidad el estudio relevó a 500 pacientes con diabetes constatando
entre ellos 75 pacientes con IAM; 75/500=15/100 = 15%.
Al numerador (eventos) lo simbolizaremos con una letra X.
Al denominador (muestra o población expuesta o de referencia) lo simbolizaremos con una letra n.
La proporción en que ocurre el evento es p, y la de que no ocurre es (1 – p).
Estas expresiones aritméticas suelen desconcertar al lego. Veamos: un evento ocurre en p = 37% =
37/100 = 0.37 ; no ocurre (1 – p) = (1 – 0.37) = 0.63 = 63%. ¡No era para tanto!
A las poblaciones o muestras a comparar les asignaremos un número correlativo como subíndice de X, de
n y de p. El problema "diferencia de proporciones" queda planteado en los siguientes términos:
El Desvío Standard, asumido también como el Error Standard de (p 1 – p2) es:
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Para el cálculo del Error Standard se asume que la proporción (p) en el conjunto de las dos muestras
es:
De esta manera se llega a estimar Z
La hipótesis nula en una diferencia de proporciones (p 1 – p2) es:
Se confirma la Hipotesis Nula si se verifica que Z es un valor comprendido entre ± 1.96:
-1.96 < Z < +1.96
Se acepta la Hipotésis Aternativa con una p < 0.05 si se verifica alguna de estas opciones del valor de
Z:
-1.96 > Z ó Z > +1.96
Si p 1–p2 es diferente de 0, por ejemplo p12 0, con las mismas ideas se puede calcular el IC 95 y
expresar la diferencia como: p12 (IC 95 p12 ±ES 1.96)
A nuestros esforzados lectores les proponemos recordar para la lectura o los diálogos, las siguientes ideas
sobre el tratamiento estadístico de la diferencia de dos proporciones (p1 –p 2), obtenidas en muestras
"grandes":
1.
2.
3.
4.
5.
La hipótesis nula dice que la diferencia p1 –p 2 es casual porque en realidad son proporciones de una
sola población cuya proporción verdadera es p, es decir que para la hipótesis nula p 1 = p 2 = p.
Se busca el número Z con las mismas ideas que discutimos en "Probabilidad de Pertenecer", allí
vimos que el Z menor, el que coincide con la mayor frecuencia de aparición, el vértice de la
campana, corresponde a un numerador 0. En este caso sería la población de p 1 = p 2 = p, por lo
tanto el 0 = p1 – p 2.
El Desvío Standard de la ecuación de Z, en realidad, para las diferencias de proporciones es un
Error Standard, que se calcula con una proporción ( p) de ocurrencia y una de no ocurrencia (1 p), como si fuese un solo conjunto; considerando como siempre, el tama ño de las muestras (n 1 y
n 2).
La diferencia p1 –p 2, si p = Riesgo puede también expresarse agregando el IC95 con lo cual se
agregará a la disminución de riesgo "p 12" el rango del intervalo en el cual está con 95 % de
probabilidades la verdadera disminución de riesgo.
Si el rango del IC 95 en uno de sus límites es 1 y en el otro 1 (Por ejemplo: Riesgo 0.90 IC
95 0.78 – 1.02) implica que el Riesgo en otro estudio con un 95% de probabilidad, podría ser
exactamente opuesto (1.02) a la del estudio (0.90) del cual se tomaron los datos. La conclusión
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
también sería ¡¿opuesta?!.
Se acepta la Hipótesis Nula y se atribuye a la casualidad la diferencia observada, sea ésta la del
estudio realizado 0.90 o la del estudio eventual 1.02.
Nos tomamos un descanso hasta la entrega de la segunda parte de test paramétricos.
Index curso - Clase anterior - Clase siguiente
Publicación: Octubre 2005
Tope
Preguntas, aportes y comentarios ser án respondidos por el relator
o por expertos en el tema a través de la lista de Bioingenieria e Inform ática Médica
Llene los campos del formulario y oprima el botón "Enviar"
Preguntas, aportes o
comentarios:
Nombre y apellido:
País: Argentina
Dirección de E-Mail:
Enviar
Borrar
Dr. Diego Esandi
Co -Presidente
Comité Científico
Dra. Silvia Nanfara
Co -Presidente
Comité Científico
Prof. Dr. Armando Pacher
Presidente
Comité Técnico/Organizador
Correo electrónico
Correo electrónico
Correo electrónico
©1994-2005
CETIFAC - Bioingenier ía UNER
Webmaster - Actualización: 17-Oct-2005
4to. Congreso Virtual de Cardiología - 4th. Virtual Congress of Cardiology
Descargar