Rincón iconoclasta Cómo se puede estimar el

Anuncio
Dermatología Rev Mex 2010;54(6):375-379
Rincón iconoclasta
Cómo se puede estimar el tamaño de la muestra de un estudio
Juan Carlos López Alvarenga,* Arturo Reding Bernal,* Monserrat Pérez Navarro,** Sergio Sobrino Cossio***
E
n la actualidad se hace hincapié en el cálculo del
tamaño de la muestra para un estudio, especialmente con alumnos de maestría y doctorado.
Es común que los estudiantes tengan dolor de
cabeza al calcular el tamaño de la muestra con parámetros
que no tienen coherencia con la hipótesis. Por ejemplo,
la hipótesis puede plantear una diferencia de promedios
y se emplea un cálculo de tamaño de la muestra con base
en proporciones de la enfermedad… No tiene sentido…
pero es un hecho que se observa frecuentemente en los
seminarios de maestrías. En los artículos previos hemos
descrito cómo escribir una hipótesis y cómo identificar las
variables independientes (que explican) y las dependientes
(explicadas) detalladas en la misma hipótesis.1
También hemos descrito que para la misma hipótesis
pueden usarse diferentes diseños y para cada diseño se hace
un abordaje estadístico apropiado.2 La siguiente pregunta
que salta a la vista es: ¿cuántos pacientes debo incluir en
el estudio? Para realizar un cálculo adecuado del tamaño
de la muestra, el investigador debe conocer ampliamente
las variables que analizará. Cada variable vive en su propio
espacio probabilístico, por lo que tiene su propia distribución. Algunas variables tienen formas muy particulares.
Por ejemplo, las concentraciones en suero de triglicéridos
y leptina son asimétricas con colas hacia la derecha, en
*
Coordinación de Recursos de Estadística del Hospital General
de México.
** Doctorado en Ciencias Biomédicas, Universidad Veracruzana.
*** Instituto Nacional de Cancerología, México, D.F.
Correspondencia: Dr. Juan Carlos López Alvarenga. Coodinador
de Bioestadística del Hospital General de México. Dr. Balmis 148,
colonia Doctores, CP 06726, México, DF.
Correo electrónico: jalvaren@sfbrgenetics.org, jclalvar@yahoo.com
Este artículo debe citarse como: López-Alvarenga JC, RedingBernal A, Pérez-Navarro M, Sobrino-Cossio S. Cómo se puede
estimar el tamaño de la muestra de un estudio. Dermatol Rev Mex
2010;54(6):375-379.
www.nietoeditores.com.mx
estas variables es común que la desviación estándar tenga
un valor parecido al promedio respectivo, por lo que la
transformación logarítmica es muy utilizada para analizar
este tipo de variables. Transformar con logaritmos estas
variables hace que la distribución sea simétrica y puedan
aplicarse algunos de los supuestos de la estadística clásica.
Además, el investigador debe considerar que las muestras deben tener un tamaño suficiente para poder dar una
apreciación probabilística de la veracidad de la hipótesis
principal, y que el estudio tenga el suficiente poder estadístico para no cometer errores tipo II; hay que recordar que
los estudios deben ser muy potentes para que sean útiles.
Para calcular el tamaño de la muestra hay que tomar
en cuenta los siguientes factores (que ampliaremos más
adelante):
1. La estructura de la hipótesis misma. Hay que determinar si la hipótesis es una comparación de promedios,
cálculo de un estadístico con base en proporciones (razones
de momios o riegos relativos), comparación de proporciones o se trata de una técnica multivariada. En la misma
hipótesis se debe definir cuáles son las variables explicadas
(de interés o dependientes), explicativas (independientes)
y que a su vez pueden ser confusoras (generalmente se
ajusta por sexo y edad, ya que casi siempre tienen efectos
en la variable dependiente); cuáles representan estratos
(por ejemplo, la supervivencia puede estar afectada por
los estratos de extensión tumoral), o variables que se consideran bloques (por ejemplo, cuando se tiene una camada
de ratas de madre sometida a desnutrición para considerar
aspectos epigenéticos que puedan afectar el metabolismo
de la camada, las crías provenientes de la misma madre se
consideran que pertenecen al mismo bloque).
2. Definir el error tipo I (error alfa). Este error es lo que
conocemos como el valor de p. Se ha dicho tradicionalmente que debe ser menor de 0.05; sin embargo, no todas
las escuelas estadísticas comparten este paradigma, incluso
grandes matemáticos –entre ellos Fisher– no consideran
correcto este abordaje de prueba de hipótesis, o en el mejor
Dermatología Rev Mex Volumen 54, Núm. 6, noviembre-diciembre, 2010
375
López Alvarenga JC y col.
de los casos se considera una herramienta limitada. Fisher
apoyaba que el investigador expresara el valor del error
tipo I y, de acuerdo con el conocimiento del área, definiera
la importancia de la significancia. El complemento del
error alfa es la confianza: entre más pequeño sea el error
alfa, mayor es la confianza. Así con una p de 0.05 (5%)
se tiene una confianza de 0.95 (95%).
3. Definir el error tipo II (error beta). El error beta
corresponde a asegurar que una comparación no muestra
diferencias estadísticas cuando en realidad sí las hay. Esto
puede deberse a que el tamaño de la muestra es pequeño y
no alcanza a observarse la diferencia. El complemento del
error beta es el poder: a menor error beta, hay más poder
en la muestra. En una muestra con error beta de 0.2 (20%)
se tiene un poder de 0.8 (80%).
4. Pérdidas en el seguimiento del estudio. Una regla
común es considerar que se debe agregar 20% de pacientes
para compensar las pérdidas en un estudio; sin embargo,
esto dependerá de cada área de investigación.
5. Diferencia clínicamente significativa. Las diferencias
entre tratamientos pueden ser clínicamente irrelevantes
aunque tengan significancia estadística. Por ejemplo, si se
observa una diferencia de 2 mmHg entre dos antihipertensivos, esta diferencia puede ser clínicamente irrelevante,
pero si en el estudio se incluyó una cantidad suficiente de
pacientes, puede obtenerse significancia estadística. La
forma de interpretar esta significancia es que tenemos mucha confianza que la diferencia entre ambos tratamientos
es de sólo 2 mmHg, por tanto no tiene relevancia clínica.
6. Tipo de diseño de la investigación. De acuerdo con
el diseño será necesario hacer un abordaje estadístico
específico, y esto conlleva diferentes tamaños de muestra.
Hay que considerar que en el caso de los estudios
clínicos para determinar la eficacia y seguridad de algún
medicamento, en los que se comparan tratamientos estándares o contra placebo, no se busca tener inferencias
sobre la población, en realidad, se busca contrastar una
hipótesis respecto a un tratamiento (o maniobra) que le
interesa al investigador. El tipo de muestra se le llama a
conveniencia, por que no es probabilístico.
ELEMENTOS PARA CALCULAR EL TAMAÑO DE
LA MUESTRA
Los factores de orden estadístico que determinan el tamaño
de la muestra son los siguientes:3
376
Hipótesis
Dependiendo del tipo de estudio de investigación, será
necesaria la formulación de la hipótesis. En la formulación
de una hipótesis, generalmente el investigador plantea a
priori el posible resultado, mientras con que los estudios
descriptivos pueden plantearse propuestas de hipótesis a
posteriori. En ambos casos, las hipótesis se deben contrastar y determinar si se aceptan o se rechazan. Para realizar
este contraste, las hipótesis toman el nombre de nula (H0)
o alternativa (H1). La hipótesis nula es una sola, y responde
a que no hay diferencias al realizar un contraste. Aunque al
investigador le interesa probar la hipótesis alternativa (el investigador espera que se rechace la hipótesis nula), no puede
demostrarse con este método la veracidad de la hipótesis
alternativa. Las hipótesis alternativas pueden tomar infinito
número de valores, mientras que la región de la hipótesis
nula es la única que podemos probar o rechazar (Cuadro 1).
En el Cuadro 1 se observa que (1 - α) corresponde a la
confianza y (1 - β) corresponde a la potencia. El contraste
bilateral de hipótesis es una estimación más conservadora
del error tipo I, ya que al dividir 0.05 a dos colas, para
alcanzar significancia se debe llegar a 0.025. Alcanzar
una significancia de 0.025 es más difícil que una de 0.05.
Cuadro 1. Posibles errores en el contraste de hipótesis
Realidad
Decisión
Se acepta H0
Se acepta H1
H0 es cierta
H1 es cierta
1- α
α (error tipo I)
β (error tipo II)
1-β
Al valor α (error tipo I) se le conoce como la probabilidad de que
se rechace H0 (se acepte H1) cuando H0 es cierta. Al valor β se le
conoce como la probabilidad de que se acepte H0 cuando es falsa
(H1 es cierta).
Error tipo I o error α
Al valor α (error tipo I) se le conoce como la probabilidad
de que se rechace H0 (se acepte H1) cuando H0 es cierta. Es
decir, p (aceptar H1 | H0 es cierta) = α. Al valor (1 - α) *
100 se le conoce como el nivel de confianza y el valor de
α es el clásico valor de significancia de la prueba; sí, ese
que decimos que es significativo si la p es menor de 0.05.
Fijar el nivel de significado equivale a decidir de antemano
la probabilidad máxima que se está dispuesto a asumir al
rechazar la hipótesis nula cuando es cierta y éste lo elige
el experimentador. El costo que implica al investigador
Dermatología Rev Mex Volumen 54, Núm. 6, noviembre-diciembre, 2010
Cómo se puede estimar el tamaño de la muestra de un estudio
0.4
f. densidad de D
reducir el error tipo I, y por ende tener un mayor nivel
de confianza en los resultados, implica un mayor tamaño
de la muestra. Entonces, el valor de α varía dependiendo
del nivel de confianza que se quiera de la prueba, como
ya apuntamos, el criterio más usado en la bibliografía
biomédica es aceptar un riesgo de α < 0.05.
0.3
0.2
0.1
Error tipo II o error β
A la probabilidad de que se acepte H0 cuando ésta es falsa
(H1 es cierta) se le conoce como error tipo II o error β, es
decir: p (aceptar H0 | H1 es cierta) = β. Al igual que con el
error tipo I, en este caso, entre menor sea la probabilidad de
cometer el error tipo II, mayor será el tamaño de la muestra
requerido. El valor de β tolerable de mayor aceptación en
la comunidad científica varía entre 0.1 y 0.2, incluso se
ha insistido en que el error β debe ser igual que el error α.
Debe tenerse en cuenta que generalmente se puede
cometer uno de los dos tipos de error y, en la mayor parte
de las situaciones, el que más se desea controlar es la
probabilidad de cometer un error de tipo I.
La selección de un nivel de significado conduce a dividir en dos regiones el conjunto de posibles valores del
estadístico de contraste (Figura 1).
En la Figura 1B se observa la distribución de una diferencia de promedios centrada en la hipótesis nula (D/
H0), y al lado una distribución de diferencia de promedios
desplazada (D/H1), que corresponde a una distribución de
la hipótesis alternativa (que no está centrada en cero). Las
hipótesis alternativas pueden encontrarse en cualquier punto hasta el infinito del lado derecho (o izquierdo) del valor
centrado en cero. El cero corresponde a que los promedios
son iguales: µ1 - n2 = 0, ergo n1 = n2.
En la Figura 1A se observa una distribución centrada en
cero y se marcan las áreas de dos colas que corresponden
a 0.025 cada una. Si la hipótesis alternativa no sobrepasa
esos puntos se dice que la diferencia no es significativa y
por tanto, ésta no se rechaza.
Si, por el contrario, el estadístico se ubica en la región
de rechazo, entonces se asume que los datos no son compatibles con la hipótesis nula y se rechaza a un nivel de
significado. En este supuesto se dice que el contraste es
estadísticamente significativo.
Matemáticamente se define como 1 - β. Es decir, el poder
estadístico = p (aceptar H1 | H1 es cierta) = 1 - β. Como ya se
ha mencionado, este concepto está íntimamente ligado con el
error tipo II, y su valor depende del error tipo II que se acepte.
De esta manera, si β = 0.2, se tendrá una potencia de 1 - β =
0.8, o en términos porcentuales se dice que la prueba tiene
una potencia de 80%. Ahora, si se quisiera un poder estadístico mayor a 0.8, esto repercutiría en un mayor tamaño de la
muestra. En general, el poder estadístico mínimo aceptado
en la bibliografía biomédica es de 80%. Cuando el poder
es menor a esta cifra, algunos autores, como Henneckens,4
sugieren que estos trabajos no se tomen como concluyentes
cuando no se hubiera podido rechazar la hipótesis nula, es
decir, que se haya aceptado la hipótesis alternativa.
Poder estadístico
En el contraste de hipótesis, el poder o potencia estadística
equivale a la probabilidad de aceptar H1 cuando ésta es cierta.
Variabilidad
El término de variabilidad se refiere a la dispersión de los
datos que esperamos encontrar. La variabilidad puede eva-
0
-4
-2
R. Aceptación
0
2
1.65
4
6
R. Rechazo
Figura 1. A. Distribución de la hipótesis nula (D/H0) y la de la alternativa (D/H1). Obsérvese que el promedio de la alternativa está
a la derecha del valor de 1.65 (valor de z de una cola), por lo que
entra en la zona de rechazo. B. Distribución de la H0, y en las colas
se ha dibujado la región crítica para dos colas de una distribución
de t con 11 grados de libertad.
Dermatología Rev Mex Volumen 54, Núm. 6, noviembre-diciembre, 2010
377
López Alvarenga JC y col.
luarse dependiendo de la variable de interés. Si las variables
de interés son continuas (por ejemplo, cifras de glucosa
en ayuno), el tamaño de la muestra estará determinado de
acuerdo con la variable con el mayor coeficiente de variación:
[CV = 100 * (Sy/Y)]
donde Sy es la desviación estándar y Y es la media, se
multiplica por 100. Entre mayor sea el coeficiente de
variación, el tamaño de la muestra será mayor.
Cuando las variables de interés son categóricas (presencia o ausencia de cierta característica, por ejemplo,
diagnóstico de diabetes mellitus) debe utilizarse la estimación de la proporción que más se acerque a 0.5. En dado
caso de que existan hipótesis con ambos tipos de variables,
el tamaño de la muestra debe calcularse de acuerdo con la
variable categórica o con la que requiera la mayor cantidad
de sujetos de estudio, ya que esto garantizará un mayor
número de elementos o individuos y por ende resultados
más robustos.4 Generalmente, cuando no se conoce la
variabilidad se puede obtener de estudios previos reportados o mediante estudios piloto. Estadísticamente, se ha
demostrado que cuando más agrupados estén los valores
alrededor de un eje central en un gráfico de dispersión,
la variabilidad será menor y por tanto, el tamaño de la
muestra también será menor.2
Pérdidas en el seguimiento del estudio
Durante la realización del estudio, puede haber pérdidas
de los sujetos bajo análisis por diversas razones, como el
que se retiren del estudio o los drop-out. Por lo anterior,
es necesario hacer una predicción acerca de la cantidad
esperada de pérdidas durante el estudio y contemplar
aumentar el tamaño de la muestra en esta proporción, ya
que el tamaño mínimo de muestra necesario para obtener
resultados estadísticamente significativos está pensado
en el número de sujetos al final del estudio y no en los
incluidos inicialmente.4
Diferencia clínicamente significativa
La magnitud de la diferencia del efecto a detectar
entre los grupos evaluados será el condicionante más
importante para el cálculo del tamaño de la muestra.
Muchas veces obtener una diferencia estadísticamente
significativa no resulta “clínicamente” significativo. Por
ejemplo, puede resultar que exista diferencia estadísticamente significativa en la comparación del efecto de
dos medicamentos. El investigador clínico o epidemió-
378
logo debe determinar si la magnitud de esa diferencia
es clínicamente relevante, independientemente de que
sea estadísticamente significativa. Este criterio es meramente clínico. Entre mayor sea la diferencia de esta
magnitud, menor será el tamaño de la muestra requerido;
mientras que si se desea detectar diferencias pequeñas,
el tamaño de la muestra será mayor. No obstante, cualquier diferencia de relevancia clínica también debe ser
estadísticamente significativa.
Cálculo para el tamaño de la muestra de la diferencia de dos medias independientes
El cálculo de muestra de la diferencia de dos medias es
el siguiente:
nc = ne = 2* S2 / D2 * (Zα/2 * Zβ)2
donde nc es el tamaño de la muestra para el grupo de referencia y ne es el tamaño de la muestra para el grupo con
una intervención alternativa, D = (Mc - Me), Mc es la media
del primer grupo y Me es la media del segundo, S2 es la
variancia de ambas distribuciones, las cuales se asumen
iguales; Zβ es el valor del eje de las abscisas de la función
normal estándar en donde se acumula la probabilidad de
(1 - β). Este cálculo para estimar nc = ne se usa cuando
se trata de un contraste de hipótesis bilateral, cuando se
trate de un contraste unilateral, se sustituye Zα/2 = 1.96
por Zα = 1.65.
Cálculo para el tamaño de la muestra de la comparación de dos medias apareadas (medidas repetidas) en un solo grupo. Esto es cuando interesa
comparar el cambio en una media basal inicial y
otra posterior (segunda medición)
Se ha dicho que el paciente es su propio control. Existen
muchos problemas metodológicos con este tipo de abordaje, pero no lo vamos a profundizar en este artículo. La
fórmula del tamaño de la muestra para cada una de los
grupos a comparar es la siguiente:
nc = ne = (Zα/2 + Zβ)2 * S2 / d2
donde d es el promedio de las diferencias individuales
entre los valores basales y posteriores, S2 es la variancia
de ambas distribuciones, las cuales se asumen iguales.
Zα/2 es el valor del eje de las abscisas de la función normal
estándar, en donde se acumula la probabilidad de (1 - α)
para un contraste de hipótesis bilateral; y Zβ es el valor
del eje de las abscisas de la función normal estándar en
donde se acumula la probabilidad de (1 - β).4
Dermatología Rev Mex Volumen 54, Núm. 6, noviembre-diciembre, 2010
Cómo se puede estimar el tamaño de la muestra de un estudio
Cálculo para estimar el tamaño de la muestra de
la diferencia de dos proporciones
El cálculo para estimar el tamaño de la muestra para la
diferencia de dos proporciones es el siguiente:
nc = ne = p1 (1 - p1) + p2 (1 - p2) / (p1 - p2)2 * (Zα/2 + Zβ)2
donde p1 es la proporción del primer grupo y p2 es la
proporción del segundo grupo a comparar y (p1 - p2) es la
diferencia de las proporciones entre los grupos en estudio.
Zα/2 es el valor del eje de las abscisas de la función normal
estándar, en donde se acumula la probabilidad de (1 - α)
para un contraste de hipótesis bilateral y Zβ es el valor del
eje de las abscisas de la función normal estándar, en donde
se acumula la probabilidad de (1 - β).
Cálculo para el tamaño de la muestra de la comparación de dos proporciones independientes
Cuando se tiene una tabla de contingencia de dos por dos
y las condiciones se cumplen para aplicar una prueba χ2,
puede utilizarse esta aproximación para el cálculo del
tamaño de la muestra de la comparación de proporciones
independientes. Al seguir este planteamiento, la fórmula
que Marrugat y col. proponen para la diferencia de proporciones independientes es la siguiente:
nc = ne = [Zα * √ 2 * P * Q + Zβ * √ Pc * Qc + Pe * Qe]2 /
(Pe - Pc)2
donde P es la proporción media de la proporción de
eventos de interés del grupo control (c) y en grupo en
tratamiento (e), Q = 1 - P; Pc es la proporción de eventos
de interés en el grupo control, Qc = 1 - Pc; Pe es la pro-
porción de eventos de interés en el grupo expuesto o en
tratamiento, Qe = 1 - Pe, y (Pe - Pc) es la diferencia de las
proporciones entre el grupo control y la proporción del
grupo de expuestos.3
En la actualidad, con el uso de internet se facilita obtener el tamaño de la muestra con programas en línea o
descargables en la computadora. La diversidad es tal que
pueden obtenerse el tamaño específico de una muestra para
el diseño del experimento y de los factores determinantes
para el tamaño de la muestra. Entre los programas más
usuales en la epidemiología están EPIDAT, GPOWER y
EPIINFO, que pueden conseguirse sin costo.
Agradecimientos
Al equipo de la Lic. Diana L Velásquez del Departamento
de Calidad, Subdirección de Enfermería del Hospital General de México, por las discusiones y sugerencias para
enriquecer este capítulo.
REFERENCIAS
1. López-Alvarenga JC, Pérez-Navarro LM, Sobrino-Cossío S. La
raíz del protocolo de investigación. Parte I de III: de la cacería
de las hipótesis. Dermatología Rev Mex 2009;53:201-205.
2. Pérez-Navarro LM, López-Alvarenga JC, Sobrino-Cossío.
Parte II de III. La hipótesis como parte estructural del diseño
del estudio. Dermatología Rev Mex 2010;54:98-103.
3. Marrugat J, Vila J, Pavesi M, Sanz F. Estimación del tamaño
de la muestra en la investigación clínica y epidemiológica.
Med Clin (Barc) 1998;111:267-276.
4. Henneckens CH, Mayrent SL. Epidemiology in medicine.
Boston: Little Brown and Company, 1987.
Dermatología Rev Mex Volumen 54, Núm. 6, noviembre-diciembre, 2010
379
Descargar