Selección de Muestras para el Estudio de

Anuncio
Selección de Muestras para el Estudio de
Poblaciones Animales en Acuicultura
Carmelo Ortega e Ignacio de Blas
Red Epidemiológica RATIO
Unidad de Patología Infecciosa y Epidemiología.
Facultad de Veterinaria (Univ. de Zaragoza)
c/ Miguel Servet 177. 50013 Zaragoza (España)
Las fórmulas explicadas en este artículo están implementadas en el programa Win Episcope que se
puede obtener gratuitamente en el servidor de la red RATIO.
En la mayoría de las ocasiones en las que se desarrolla una investigación en una población acuícola, es el caso en que
interesa conocer el estado de salud o enfermedad de la población o los rendimientos obtenidos en su producción intensiva, es
necesario recoger información en el conjunto de esa población de peces que queremos estudiar, algo que en la mayoría de las
ocasiones resulta complejo sino imposible por motivos económicos, de organización o simplemente por la dificultad que
conlleva el posterior análisis de una gran cantidad de información obtenida de la totalidad de la población, razón por la que se
suele recurrir a estudiar solo una parte de la misma, parte que se denomina "muestra".
Sin embargo, para que el resultado sea extrapolable a esa población no sirve cualquier muestra, ya que ese carácter
extrapolable del resultado dependerá del tamaño que presente la muestra y del modo en que se selecciona cada unidad, lo que
a su vez dependerá, en gran medida, del objetivo que se persiga en la investigación, de la información de que se dispone en el
momento de realizar la selección de la muestra y de la población a muestrear, si bien de esta última depende en menor medida
tal y como se verá posteriormente.
Estas situaciones hacen necesario que el especialista en acuicultura disponga de la información adecuada para poder realizar
la selección de una muestra en una población de forma adecuada, lo que se reduce a que esa muestra sea representativa de la
población de la que se extrajo.
Hacer representativa una muestra tomada en una población supone, por un lado, que posea un tamaño adecuado y por otro
que el método de selección sea el correcto, de manera que todas las subpoblaciones posibles estén representadas de forma
adecuada. Para realizar esto es imprescindible conocer previamente los conceptos que están implicados en la selección de una
muestra.
Otro elemento a considerar en la realización de muestreos es que en función del tipo de investigación que se vaya a aplicar
serán necesarias una o más de una muestra, así:
Una única muestra:
En encuestas epidemiológicas en las que interesa realizar mediciones de parámetros (medias), proporciones
(prevalencia de enfermedad) o simplemente determinan la presencia o ausencia de un factor o efecto (enfermedad).
Dos muestras
En encuestas epidemiológicas en que interesa comparar la medición de un parámetro (medias) o de proporciones
(prevalencias de enfermedad) en dos grupos diferentes.
En estudios observacionales en los que se valora la influencia de un factor en un efecto final (factores de riesgo en
la presentación de enfermedad o en la rentabilidad de un sistema de producción).
Más de dos muestras
En estudios experimentales en que interesa valorar rendimientos de productos aplicados en diversos grupos
sometidos a condiciones diferentes.
1.- Conceptos a considerar en la selección de una muestra
Población diana: Aquella población de la que se desea obtener una información. En ocasiones parte de la misma es
desconocida por lo que en ese caso no puede ser utilizada para seleccionar de ella la muestra.
Población a estudiar: La población de la que realmente se obtendrá la información por que de esta es de la que se
extrae la muestra. Corresponde a la parte de la población diana que es conocida.
Unidad de muestreo: Elemento básico sobre el que desarrollaremos la investigación. Esta puede ser, dependiendo del
objetivo del estudio, el animal, el lote de animales o la propia explotación.
Muestra: Grupo de unidades de muestreo, seleccionadas de la población a estudiar, sobre las que se realizará toda la
investigación propuesta.
Fracción de muestreo: Cociente entre el tamaño de la muestra y el tamaño de la población a estudiar.
2.- Métodos de selección de una muestra en una investigación epidemiológica
Existen dos métodos diferentes de muestreo de las poblaciones animales atendiendo a la intervención o no del azar en la
selección de las unidades de muestreo :
Probabilístico: Todos los animales de la población a estudiar tienen la misma probabilidad de formar parte de la
muestra, siendo el azar el que determina que individuos forman parte de la muestra y cuales no.
En este caso se utilizan sistemas de "lotería" o de "números aleatorios", tablas de números distribuidos en filas y
columnas distribuidos al azar, para seleccionar cada unidad de muestreo.
Atendiendo a las características de la población investigada y de los objetivos de la investigación existen diversos
tipos de métodos probabilísticos:
Simple: Es necesario tener identificados todos los animales. Consiste en seleccionar uno a uno, mediante
lotería o tablas de números aleatorios, los animales que entran a formar parte de la muestra. Es el método más
sencillo y se utiliza cuando no existen factores que puedan hacer que la población se distribuya en subgrupos
diferentes atendiendo a dicho factor.
Sistemático: Se utiliza cuando no se conoce la identidad de los animales. En ese caso se establece entre los
mismos un orden (por ejemplo, orden de paso de los animales por una cinta de clasificación). Se seleccionan,
mediante loterías o números aleatorios, un primer número, que corresponde a aquel del orden establecido que
constituirá la primera muestra. Posteriormente se selecciona (con el mismo sistema) un segundo número que
corresponderá al intervalo de muestreo. Para evitar errores debidos al azar, como número que representa el
intervalo de muestreo puede utilizarse el valor obtenido de dividir el tamaño de la población por el tamaño de
la muestra.
Estratificado: En ocasiones, interesa analizar la población en función de la existencia de diferencias en un
determinado carácter, por ejemplo el sexo. En ese caso, se divide la población total en subgrupos en función
de ese carácter tomando de cada subgrupo una muestra por métodos simples o sistemáticos. El número de
animales a muestrear en cada grupo será proporcional al tamaño de ese grupo respecto al total de la población
(si un sexo supone en la población el 75% de los animales, en la muestra ese sexo debe estar representado en
un 75%).
Conglomerados o cluster: En ocasiones encontramos la población dividida en grupos de los que conocemos el
número que hay dentro de la población pero no se conoce el número de unidades de cada uno de esos grupos.
En ese caso, se realiza un muestreo, simple o sistemático de los grupos, incluyendo en la muestra la totalidad
de las unidades de cada grupo seleccionado.
Multiestadio: Consiste en un sistema mixto de los métodos cluster y estratificado. Se trata de realizar el
muestreo a dos niveles: un primer nivel entre grupos y un segundo nivel entre unidades dentro de los grupos
seleccionados.
No probabilístico: En este método no todos los individuos de la población tienen la misma probabilidad de formar
parte de la muestra, siendo el investigador o el propio piscicultor el que decide cuales forman parte de la muestra y
cuales no. En estos casos, se corre el riesgo de que la muestra no sea representativa de la población.
En función de quien es el que decide los animales que integran la muestra, los métodos no probabilísticos se
denominan:
Con voluntarios: El piscicultor decide voluntariamente los animales o lotes de los mismos forman parte de la
muestra y cuales no según a él le interese.
De conveniencia: El investigador decide qué animales forman parte de la muestra, en función de que posean o
no algún carácter que desea analizar.
3.- Tamaño de la muestra
Utilizar un método adecuado para la selección de una muestra no es suficiente para hacer esta representativa de la población
de la que se extrae, ya que también será necesario que el tamaño sea el adecuado para el tipo de investigación que se desea
realizar.
El tamaño de la muestra dependerá en gran medida de los objetivos de la investigación, ya que no será necesario el mismo
número de animales para detectar la presencia de una variable (factor o enfermedad) en una población, para determinar la
proporción de la misma (prevalencia o media) o para evaluar el impacto de un determinante en la presentación de un efecto
(enfermedad).
La estimación del tamaño de la muestra a seleccionar en una población se basa en cálculos de probabilidad, lo que lleva
consigo la necesidad de trabajar con conceptos estadísticos a los que estamos poco acostumbrados. La introducción de
cálculos de probabilidad supone que será necesario partir siempre de un valor que se espera obtener con cierta probabilidad,
es decir, para estimar el tamaño de la muestra de una población debe definirse siempre una proporción esperada de la variable
a medir (prevalencia de enfermedad esperada, media del parámetro que se estudia o proporción de exposición a un factor) , o
bien de su desviación estándar.
A partir de estos datos y aplicando una serie de fórmulas matemáticas específicas para cada caso, se puede determinar cual
será el tamaño más adecuado de la muestra para que esta sea representativa de la población de la que se obtuvo.
Tamaño de la muestra para estimar proporciones (prevalencia de enfermedad o
proporción de un factor) en una población:
Cuando interesa determinar la proporción de una variable (cantidad de enfermedad, cantidad de exposición a un
factor) presente en una población, el tamaño de la muestra depende del error aceptado (L), del nivel de confianza
deseado (NC) o probabilidad de obtener una respuesta correcta, y de la proporción esperada (P) (prevalencia de
enfermedad o cantidad de exposición al factor) o su desviación estándar.
La fórmula de la desviación estándar (SD) es la siguiente:
El error aceptado y el Nivel de Confianza son establecidos por el investigador. La literatura sobre el tema y otras
fuentes pueden dar una idea acerca de la Proporción esperada (aquella que probablemente se obtendrá), o en el peor
de los casos se puede escoger la situación que nos obligue a seleccionar un tamaño mayor de muestra (P=50%)
En este caso se utiliza la fórmula:
donde:
n = tamaño de la muestra.
ta = valor de la distribución normal (t de Student) para un nivel de confianza deseado. Generalmente se
utiliza un nivel de confianza del 95%, en ese caso el valor de ta es 1.96.
L = error aceptado o precisión, generalmente se utiliza el 5% (Puede utilizarse como valor absoluto o como
valor relativo, es decir, el 5% total si es valor absoluto o el 5% de la proporción esperada si es el valor
relativo).
SD = desviación estándar correspondiente a la "Proporción esperada (P)".
Así, trabajar con una proporción esperada del 30%, un error aceptado del 5% y un nivel de confianza del 95%,
indica que esperamos que, de cada 100 mediciones que se realicen, en 95 la proporción de la variable estudiada
presente un valor de 30% ± 5% (25% - 35%).
El tamaño de la muestra obtenido mediante esta fórmula es válido cuando esa muestra representa menos del 10% del
tamaño total de la población, lo que ocurre con poblaciones mayores de 1000 unidades de muestreo. Cuando el
tamaño de la muestra a tomar es mayor del 10% del total de la población a estudiar, poblaciónes de menos de 1000
unidades, es necesario realizar una corrección de la desviación estándar, lo que determinará el tamaño real de la
muestra que se debe tomar, de forma que el tamaño final de la muestra (n' o muestra ajustada), será el tamaño de la
muestra obtenido por la fórmula anterior (n), dividido por (1 + (n/N)); donde N es el tamaño total de la población:
Una situación que con frecuencia se presenta, es que en el estudio existe una limitación a un cierto número de
muestras que podrán tomarse, por ejemplo porque la capacidad del laboratorio es limitada. En estos casos, lo que de
partida se conoce es el tamaño de la muestra (n) por lo que interesa calcular es el error aceptado (L). Si L es
demasiado grande no se debe continuar con el control, ya que los resultados no serán fiables.
En este caso las fórmulas son:
Tamaño de la muestra para estimar la media de una variable (valores cuantitativos
continuos) en una población:
Cuando interesa estimar la media de los valores obtenidos para una variable (media de las ganancias en peso de los
peces de un lote) en una población a partir de una muestra, el tamaño de la muestra depende, como en el caso anterior
del error aceptado (L), del nivel de confianza deseado (NC) o probabilidad de obtener un valor correcto, y de la
media esperada (m) o su desviación estándar (SD).
La desviación estándar SD es equivalente a la raíz cuadrada de la varianza:
El error aceptado y el Nivel de Confianza son establecidos por el investigador. La literatura sobre el tema y otras
fuentes pueden dar una idea acerca de la media esperada (aquella que probablemente se obtendrá).
En este caso se utiliza la fórmula:
donde:
n = tamaño de la muestra.
ta = valor de la distribución normal (t de Student) para un nivel de confianza deseado. Generalmente se
utiliza un nivel de confianza del 95%, en ese caso el valor de ta es 1.96.
L = error aceptado o precisión.
SD = desviación estándar correspondiente a la "media esperada (M)".
Así, trabajar con una media de ganancia en peso esperada de 100 gr, un error aceptado de 20 gr y un nivel de
confianza del 95%, indica que esperamos que, de cada 100 mediciones que se realicen, en 95 la proporción de la
variable estudiada presente un valor medio de ganancia entre 100 +/- 20 gr.
Al igual que ocurría en el caso anterior, el tamaño de la muestra obtenido mediante esta fórmula es válido cuando
esa muestra representa menos del 10% del tamaño total de la población. Si el tamaño de la muestra obtenido en esta
fórmula es mayor del 10% del total de la población a estudiar, es necesario aplicar la correción:
donde "n'" corresponde al tamaño final de la población, "n" al tamaño obtenido en la fórmula anterior y "N" al
tamaño total de la población.
Tamaño de la muestra para estimar la diferencia entre proporciones (prevalencias de
enfermedad o proporciones de exposición a un factor) en dos grupos de una población:
En el caso de determinar la diferencia entre dos proporciones es necesario conocer, junto con el nivel de confianza
ya definido en el apartado anterior, el poder o potencia de la prueba (concepto estadístico definido por el error tipo b).
Estos determinarán los valores ta y tb (para un nivel de confianza del 95% y un poder del 80%, que son los más
frecuentemente utilizados, equivalen a ta=1.64 y tb=0.84).
Junto a aquellos dos parámetros, es necesario conocer la proporción esperada de la variable a medir en cada grupo
(obtenida del mismo modo que en el apartado anterior) y la diferencia entre ambas, de forma que el tamaño final de la
muestra de cada grupo depende de:
1.- valor p1 que equivale a la proporción del parámetro de interés en el grupo 1.
2.- valor p2 que equivale a la proporción del parámetro de interés en el grupo 2.
3.- valor del error de tipo I (define el nivel de confianza): probabilidad de afirmar que la diferencia d (d=p1p2) es significativa cuando realmente no existe esa diferencia en la población.
4.- valor del error de tipo II (define la potencia o poder): probabilidad de afirmar que la diferencia d no es
estadísticamente significativa, cuando realmente existe esa diferencia en la población.
donde:
ta y tb = valores de la distribución normal para un nivel de confianza y un poder o potencia definidos (95%
y 80% respectivamente)
p1 y p2 = proporciones esperadas de cada grupo.
q1 y q2 = corresponden a los valores (1 - p1) y (1 - p2).
Los tamaños de las muestras se pueden calcular para tests de una vía o de dos vías:
-Los tests de Una Vía (one-tail) se utilizan cuando interesa saber si la proporción del grupo 2 es bien superior
o bien inferior (diferencia esperada en un único sentido) a la del grupo 1.
-Los tests de Dos Vías (two-tail) se usan cuando interesa saber si hay o no diferencia entre ambas
proporciones (se espera que la diferencia pueda producirse en los dos sentidos).
Tamaño de la muestra para estimar la diferencia entre medias en dos grupos de una
población:
Si la variable que interesa comparar es de tipo continuo (ej: peso de los animales), la comparación entre los grupos
se basará en la medición de las diferencias entre las medias de la variable en los 2 grupos. El tamaño de la muestra de
cada grupo se determina por la misma fórmula del caso anterior, si bien cambia la configuración de algunos
parámetros, ya que pasamos de trabajar con variables discretas a variables continuas.
En este caso, el cálculo del tamaño de la muestra depende de:
1.- valor m1 que equivale a la media esperada del parámetro de interés en el grupo 1.
2.- valor m2 que equivale a la media esperada del parámetro de interés en el grupo 2.
3.- un valor esperado para la desviación estándar del parámetro
4.- valor del error de tipo I (nivel de confianza): probabilidad de afirmar que la diferencia d (d=m1-m2) es
significativa cuando realmente no existe esa diferencia en la población.
5.- valor del error de tipo II (potencia o poder): probabilidad de afirmar que la diferencia d no es
estadísticamente significativa, cuando realmente existe esa diferencia en la población.
La fórmula para calcular el tamaño de muestra necesario en cada grupo es:
donde:
Z(a) = valor de la t de Student para el nivel de confianza especificado
Z(b) = valor de la t de Student para el poder o potencia especificada
SD = desviación estándar esperada
m1 = media esperada de la población 1
m2 = media esperada de la población 2
m1-m2 = diferencia entre las dos medias esperadas
La fórmula que acabamos de presentar proporciona un valor aproximado del tamaño de la muestra requerida, el
tamaño exacto se obtiene al sumar tres unidades más al tamaño calculado por la fórmula.
Al igual que ocurría en la comparación de proporciones, los tamaños de las muestras se pueden calcular para
estudios de una vía o de dos vías.
Tamaño de la muestra para detectar la presencia de una variable (enfermedad o factor)
en una población:
En ocasiones interesa conocer simplemente si una variable está o no presente en una población. De forma general se
considera que esa variable esta presente cuando al menos d animales la poseen (sistemáticamente suele ser suficiente
con detectar la variable en un animal para considerar que está presente en la población). En estos casos, el valor d
deberá ser determinado por el investigador como el número de animales que espera que posean dicho factor. Cuando
interesa obtener una máxima seguridad en el resultado, d se lleva al mínimo valor posible, es decir, se establece en 1.
El tamaño de muestra depende en este caso del nivel de confianza deseado, generalmente el 95%, del tamaño de
la población (N) y del número de animales que esperamos que posean el factor (d) en la población. El cálculo se
realiza mediante la siguiente fórmula:
donde:
n = tamaño de la muestra requerido
N = tamaño de la población
d = número de animales que esperamos que posean el factor.
NC = Nivel de confianza en tanto por uno (0.95)
Utilizando esta misma fórmula y conocido un tamaño de muestra determinado con el que se trabajará (ej:
limitaciones de tipo económico hacen que exista un número fijo de muestras con las que se pueda trabajar), es posible
estimar el máximo número de animales con el factor (D) que pueden quedar en la población cuando TODAS las n
muestras han resultado negativas a la presencia del factor:
donde:
D = máximo número de animales que pueden quedar con el factor en la población
Para finalizar, debemos indicar que las situaciones presentadas en este trabajo y en las que se plantean las fórmulas para
estimar el tamaño de las muestras a tomar, representan los casos a los que con mayor frecuencia se va a enfrentar el
especialista en acuicultura. Junto con los tamaños de muestra expuestos en el trabajo, existen otras situaciones diferentes que
implican la selección de una muestra y en las que las fórmulas aquí expuestas no tienen aplicación directa (ensayos clínicos,
estudios observacionales, meta-análisis...). Las fórmulas matemáticas que determinan el tamaño de las muestras a tomar en
estos casos se basan en cálculos matemáticos mucho más complejos y que consideramos no se pueden presentar aquí ya que
requeririán amplias explicaciones estadísticas. Los interesados en obtener estas fórmulas pueden consultar los manuales
recomendados en la bibliografía y que hacen especial hincapié en los muestreos.
BIBLIOGRAFIA
Bailey, N.T.J. (1981). Statistical Methods in Biology. Ed: Edward Arnold. London
Cannon, R.M. and Roe, R.T. (1982). Livestock Disease Surveys: a field manual for veterinarians. Ed: Australian
Government Publishing Service. Canberra
Kleinabum, D.G; Kupper, L.L; Morgernstern, H. (1982). Epidemiological research: principles and quantitative
methods. Ed: Van Nostrand Reinhold. New York
Levy, P.S; Lemeshow, S. (1991). Sampling of populations: methods and applications. Ed: J. Wiley and sons. New
York
Martin, S.W; Meek, A.H; Willeberg, P. (1987). Veterinary Epidemiology: principles and methods. Ed: Iowa State
University Press/Ames. Iowa
Ortega, C. and Graat, L. (1994). Principles and methods of sampling in animal disease surveys. In: Proc. Models
and Quantitative Methods in Veterinary Epidemiology. C.I.H.E.A.M.-I.A.M.Z. Zaragoza
Rothman, K.J. (1987). Epidemiología Moderna. Ed: Diaz de Santos, S.A.. Madrid
Stuart, A. (1984). The Ideas of Sampling. Ed: Charles Griffin & Company Limited. Abingdon-Oxon
Thrusfield, M. (1990). Epidemiología Veterinaria. Ed: Acribia S.A.. Zaragoza
Thrusfield, M. (1995). Veterinary Epidemiology. Ed: Blackwell Science. Cambridge
Artículo publicado en la Revista AquaTIC nº 3, mayo 1998
Descargar