5. Intervalos de confianza

Anuncio
Diplomado en Salud Pública
2. Metodología en Salud Pública
INFERENCIA ESTADÍSTICA: ESTIMACIÓN
DE PARÁMETROS. INTERVALOS DE
CONFIANZA
Autor: Clara Laguna
5.1 INTRODUCCIÓN
La estadística inferencial aporta las técnicas necesarias para extraer conclusiones
sobre el valor poblacional de un determinado parámetro a partir de la evaluación de
una muestra.
Las conclusiones derivadas de este proceso inferencial siempre estarán sujetas a error
como consecuencia de la variabilidad aleatoria unida al propio procedimiento de
selección muestral.
Por ello, resulta necesario disponer no sólo de una estimación puntual, sino también
de un intervalo de confianza, que facilite un rango de valores verosímiles para el
parámetro poblacional, así como de una prueba de significación estadística, que
permita determinar el grado de compatibilidad de los datos muestrales con una
hipótesis predeterminada.
Como vimos en el tema 1, el error que se comete al utilizar una muestra que se extrae
a partir de una población se llama error de muestreo y es un error aleatorio, siempre
que la muestra se haya extraído al azar. El error aleatorio es impredecible y no puede
ser eliminado, pero sí reducido mediante diseños más eficientes (que proporcionen
mayor información sin necesitar observar a más sujetos) o aumentando el tamaño de
la muestra estudiada.
En estadística se estima y se tiene en cuenta el error aleatorio al calcular intervalos
de confianza y al aplicar pruebas de contrastes de hipótesis.
En los temas 5 y 6 vamos a revisar los fundamentos y la interpretación de las técnicas
estadísticas de inferencia: la estimación puntual, el intervalo de confianza y el
contraste de hipótesis.
5.2 CONCEPTOS GENERALES SOBRE ESTIMACIÓN DE PARAMÉTROS
Una estimación consiste en apostar por un valor para un parámetro poblacional,
habitualmente calculando también un rango de valores entre los que puede situarse
dicho parámetro poblacional. Por tanto, un intervalo de confianza es simplemente un
rango de valores en el que confiamos que se contenga el parámetro poblacional
(Altman, 1991).
Simplificando, puede decirse que el análisis estadístico inferencial conduce a dos
clases de resultados: valores “p” e intervalos de confianza.
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
1 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
Todo el proceso de estimación parte de los correspondientes estimadores muestrales.
Un estimador es una función de los valores de una muestra que se elabora para
indagar el valor de un parámetro de la población de la que procede la muestra. El valor
de esta característica en la población es lo que denominamos parámetro.
Las estimaciones pueden ser de dos tipos:

Estimación puntual: obtendremos un punto, un valor, como estimación del
parámetro desconocido, quedando sin especificar cómo de buena es la
aproximación.
Si a partir de una muestra se afirma que el 20% de una población es fumadora
se está haciendo una estimación puntual de la proporción de fumadores.

Estimación por intervalo: proporciona un rango de posibles valores, dentro
del cual estimamos (bajo cierta probabilidad) que estará el parámetro
desconocido.
Si a partir de una muestra se afirma que el porcentaje de la población que es
fumadora se sitúa entre un 18 y 22% se está haciendo una estimación por
intervalo de la proporción poblacional de fumadores.
5.3 ESTIMACIÓN PUNTUAL
Un estimador puntual es simplemente un estadístico muestral (media aritmética,
varianza, etc.) que se emplea para estimar parámetros (media poblacional, varianza
poblacional, etc.).
Una forma natural de estimar muchos parámetros poblacionales consiste en utilizar el
estadístico muestral correspondiente. Así, la media muestral es un estimador puntual
de la media poblacional y la proporción de casos de una enfermedad en la muestra es
un estimador puntual de la probabilidad de tener la enfermedad en la población.
No obstante, para un determinado parámetro poblacional, pueden contemplarse
distintos estimadores alternativos. Algunos estimadores de la media poblacional
distintos de la media muestral podrían ser, por ejemplo, la mediana, la media del 50%
central de la muestra o la media de los valores máximo y mínimo.
Los méritos de un estimador no se juzgan por la estimación resultante en una muestra
concreta, sino por la distribución de todos los posibles valores o estimaciones a que
pueda dar lugar; esto es, por las propiedades de su distribución muestral.
En general, se puede afirmar que un estimador puede ser:

Insesgado: cuando el estimador muestral coincide con el poblacional, sin
ninguna desviación sistemática. Es decir, un estimador es insesgado si su valor
medio sobre todas las posibles muestras de tamaño n coincide con el
parámetro poblacional.
La media y la proporción muestral son estimadores insesgados de la media y la
proporción poblacional:
E ( x ) = µ y E (p) = π
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
2 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública

Sesgado: cuando el estimador muestral no se corresponde con el poblacional,
debido a un error sistemático.

Eficiente: aquel estimador muestral de igual valor a otros, pero que presenta la
mínima varianza. Interesa que las distintas estimaciones difieran lo menos
posible del parámetro poblacional; es decir, que la varianza muestral del
estimador sea mínima. De esta forma, se tendrá una mayor confianza en que la
estimación resultante de la muestra finalmente seleccionada esté próxima al
parámetro poblacional.

Suficiente: aquel estimador que utiliza toda la información contenida en la
muestra.
Un buen estimador es aquel que es insesgado, eficiente y suficiente
(Rothman y Greenland, 1998)
5.4 ESTIMACIÓN POR INTERVALO
Como hemos comentado anteriormente, las estimaciones puntuales obtenidas a partir
de una muestra diferirán del parámetro poblacional y, en consecuencia, quedará un
margen de incertidumbre que se expresa en términos del error estándar (EE) del
estimador. Así, resulta natural querer disponer de una medida del parámetro
poblacional que incorpore tanto la estimación puntual como su error estándar. Esta
medida es el intervalo de confianza (I.C.), que facilita un rango de valores dentro del
cual se encontrará el verdadero valor del parámetro poblacional con un cierto grado de
confianza.
El error estándar es un concepto central en los intervalos de confianza, no tiene
aplicación para expresar la variabilidad de los individuos de una población, es sólo un
indicador de la variabilidad de las medias calculadas en muchas posibles muestras
que se tomen de una población, todas ellas de tamaño n.
El error estándar es a la muestra, lo que la desviación estándar es al individuo. Por
tanto, el error estándar de la media mide nuestro grado de incertidumbre respecto a la
capacidad de la media muestral para estimar la media poblacional.
Por ejemplo, si la desviación estándar de la edad de una muestra de 100 pacientes es
20 años, el EE de la media valdría 20 100  2 , y esperaríamos que las medias de
muestras repetidas de tamaño 100 tuviesen una distribución normal cuya desviación
estándar fuese 2.
Siguiendo con el ejemplo anterior, si lo único que sabemos es que la media muestral
es x = 39 años, nuestra única posibilidad es confiar es que esta media muestral esté
entre ese 95% de medias muestrales situadas en el entorno de +2 errores estándar de
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
3 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
la verdadera media poblacional. Es decir, sumándole y restándole 2 errores estándar,
tendremos un rango de valores en el que confiamos (con un 95% de confianza)
que se encuentra la verdadera media poblacional. Si repetimos todo el proceso 100
veces, el 95% de intervalos así calculados contendrán a la verdadera media
poblacional.
Este mismo razonamiento se aplica a otros estimadores muestrales distintos de la
media: proporciones, varianza, diferencias de medias, diferencias de proporciones...
La expresión más general para hacer estimaciones calculando intervalos de confianza
es sumar y restar al estimador muestral z veces el EE del estimador:
Parámetro  (estimador + z x EE del estimador)
donde z es el valor correspondiente de la distribución normal.
A veces, en vez de z, se usa la distribución t de Student, debido a que no disponemos
de s (la desviación estándar poblacional) sino sólo de  (la desviación estándar
muestral).
Si el I.C. es al nivel de confianza del 95% (en general, 1- ), implica que hay un 5%
de error (en general,) repartido en dos colas, una a cada lado. Cada cola valdría el
2.5% ( / 2 = 0.025); en este caso, z valdría1 1.96.
Figura 5.1.
El intervalo de confianza calculado dependerá de:
1

Lo estimado en la muestra (porcentaje, media,..) El I.C. está formado por
valores ligeramente menores y mayores que la aproximación ofrecida por la
muestra.

El tamaño muestral. Cuantos más datos hayan participado en el cálculo, más
pequeño esperamos que sea la diferencia entre el valor estimado y el valor real
desconocido.
Recordad lo estudiado en el tema 3 sobre la distribución Normal.
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
4 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública

La probabilidad, nivel de confianza (1-), con la que el método dará una
respuesta correcta. Niveles de confianza habituales para los I.C. son el 95% y
el 99%.
El llamado valor crítico, es aquel punto z2 tal que P (Z z) = ,
dónde Z es una variable N (0, 1).
Gráficamente:
Figura 5.2.
Para los niveles de confianza habituales, los valores críticos correspondientes son los
siguientes:
5.4.1 Intervalo de confianza para una proporción
Cuando tenemos una variable dicotómica (o de Bernoulli) a menudo interesa saber en
qué proporción de casos, p ocurre el éxito en la realización de un experimento.
También nos puede interesar comparar la diferencia existente entre las proporciones
en distintas poblaciones.
Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en
definir la suma de estas, lo que nos proporciona que la distribución del número de
éxitos es una distribución Binomial.
Recordad que la distribución Binomial podía ser aproximada a la Normal cuando el
tamaño de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno2:
2
Recordad que q = (1-p)
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
5 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
Tomamos como estimación de p la proporción de éxitos obtenidos en las n pruebas p̂ .
El error estándar para de la proporción (EEP) es:
EEP 
p(1  p)

n
pq
n
Para encontrar el intervalo de confianza a nivel de confianza (1-α) para p se
considera el intervalo que hace que la distribución de Z~N(0, 1) deje la probabilidad α
fuera del mismo. Como ya hemos visto, se considera el intervalo cuyos extremos son
los cuantiles α/2 y 1 − α/2. Así se puede afirmar con una confianza de 1 −α que:
p  pˆ  z1 2
pˆ qˆ
n
Con el siguiente ejemplo, entenderéis mejor la construcción del intervalo de confianza.
Ejemplo 5.1
En una muestra de 40 sujetos extraída al azar de una determinada población hay 24
fumadores. Estimar la proporción de fumadores de la población con una confianza del
95%.
Solución: Estimación puntual: pˆ 
24
 0.6 (60%)
40
1-α = 0.95 entonces α = 0.05, α/2 = 0.025, zα/2 = 1.96
Error estándar:
I.C. 95% de p:
I.C. al 95%:
pˆ (1  pˆ )
0.6  0.4

 0.0775
n
40
pˆ  z / 2
pˆ (1  pˆ )
 0.60  1.96  0.0775  0.60  0.152
n
(0.448, 0.752)
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
6 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
Interpretación: Con una confianza del 95% la proporción de fumadores en la población
se sitúa entre 0.448 y 0.752.
La confianza del 95% consiste en poder afirmar que si repitiésemos la estimación 100
veces, el intervalo que hemos obtenido sería uno de los 95 que de hecho contendrían
la proporción de individuos que fuman en la población. Confiamos en qué esté sea uno
de los 95 intervalos de cada 100 que incluyen a la proporción poblacional y no sea uno
de los 5 intervalos de cada 100 que no la incluyen.
Elección del tamaño muestral para una proporción:
Muchas veces, una vez fijado el nivel de confianza, nos marcaremos como objetivo dar
el valor del parámetro p con una cierta precisión. La única forma de obtener la
precisión deseada será modificando de forma adecuada el tamaño de la muestra.
Por ejemplo con una muestra de 100 individuos se realizó una estimación confidencial,
con un 95% de confianza, del porcentaje de votantes a una cuestión en un
referéndum, obteniéndose un margen de error de 9,3 puntos.
Si pretendemos reducir el error al 1% y queremos aumentar el nivel de confianza
hasta el 97% (α = 0,03) hemos de tomar una muestra de mayor tamaño, N.
Un valor de N que satisface nuestros requerimientos con respecto al error es:
N  pˆ qˆ.
z 12 2
error 2
Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos
considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral
cuando p = q = 1/2.
Ejemplo 5.2
Se quiere estimar el resultado de un referéndum mediante un sondeo, y sin tener una
idea sobre el posible resultado del mismo, se desea conocer el tamaño de muestra
que se ha de tomar para obtener un intervalo al 97% de confianza, con un error del
1%.
Como no se tiene una idea previa del posible resultado del referéndum, hay que tomar
un tamaño de muestra, N, que se calcula mediante:
2
1 z 0 , 985 0,25  2,17 2
N .

 11.773
4 0,012
0,012
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
7 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
Así para tener un resultado tan fiable, el número de personas a entrevistar deber ser
muy elevado, lo que puede volver excesivamente costoso el sondeo.
5.4.2 Intervalo de confianza para la media cuando la población es normal
y conocemos la desviación típica
Supongamos que la variable que queremos estudiar sigue una ley normal de media µ
(desconocida) y desviación típica σ conocida y que disponemos de una muestra
aleatoria simple de tamaño n y del valor de la media de la muestra x .
Para estimar μ, el estadístico que mejor nos va a ayudar es x , del que conocemos su
ley de distribución:
Esa ley de distribución depende de μ (desconocida). Lo más conveniente es hacer que
la ley de distribución no dependa de ningún parámetro desconocido, para ello
tipificamos:
Este es el modo en que haremos siempre la estimación puntual: buscaremos una
relación en la que intervengan el parámetro desconocido junto con su estimador y de
modo que estos se distribuyan según una ley de probabilidad que es bien conocida y a
ser posible tabulada.
Vamos a desarrollar cómo calcular el intervalo de confianza:
1.
Fijamos el nivel de confianza (en forma de porcentaje), que habitualmente
escribiremos como (1 ).
2. Calculamos el error estándar de la media: EEM  
n
3. Calculamos valor crítico, z2.
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
8 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
4. Calculamos el llamado margen de error3 (también llamado precisión de la
estimación): z 
2
n
El intervalo de confianza para la media al nivel 1-α obtenido con la muestra de
partida es el siguiente:
Figura 5.3.
La figura 5.3 nos muestra la distribución N(0,1) y el intervalo más pequeño posible
cuya probabilidad es 1 Por simetría, los cuartiles z2 y z1-2 sólo difieren en el
signo
Ejemplo 5.3
Suponemos que la distribución de las tallas al nacer de los niños de una determinada
población sigue una ley Normal de media 50 cm. y desviación estándar 1.5 cm. ¿Cuál
es el intervalo con probabilidad 0.95 de contener la media de las tallas de 100 niños
extraídos al azar de dicha población?
Solución: 1-α = 0.95 entonces α = 0.05, α/2 = 0.025, zα/2 = 1.96
Error estándar: 
I.C. 95% de x :
3
x  z / 2  
n
 1.5 100  0.15
n
 50  1.96  0.15  50  0.294
Por tanto, el margen de error es la mitad de la longitud del intervalo de confianza.
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
9 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
I.C. al 95%:
(49.71, 50.29) cm.
Interpretación: Podemos afirmar con una confianza del 95% que la media de las tallas
de 100 niños extraídos al azar se encuentra dentro del intervalo comprendido entre
49.71 y 50.29 cm. Confiamos en qué esté sea uno de los 95 intervalos de cada 100 que
incluyen a la media poblacional y no sea uno de los 5 intervalos de cada 100 que no la
incluyen.
5.4.3 Intervalo de confianza para la media cuando la población es normal
y desconocemos la desviación típica (caso general)
En este caso estimaremos la desviación típica utilizando los valores muestrales y
trabajaremos con la distribución de la media muestral x , ya que, por un procedimiento
parecido a la estandarización, podemos relacionarla con otra variable que sigue una
distribución t de Student.
La distribución t de Student es una aproximación que tiene en cuenta el tamaño de la
muestra. Cuando el tamaño de la muestra es muy grande t≈z.
Si la muestra es pequeña y sólo se dispone del valor de la desviación estándar
muestral, como sucede en este caso, es imprescindible sustituir el valor de z por otro
mayor que sigue la distribución t de Student.
El intervalo de confianza al nivel 1−α para la media de una distribución Normal
cuando sus parámetros son desconocidos es:
  X  tn1,1 2 
Sˆ
n
Ejemplo 5.4
Sabemos que el peso de los recién nacidos sigue una distribución Normal. Si en una
muestra aleatoria simple de 100 de ellos se obtiene una media muestral de 3 kg, y una
desviación típica de 0,5 kg., vamos a calcular un I.C. para la media poblacional que
presente una confianza del 95%.
Para calcular μ usamos el estadístico:
T 
X 
 t n 1
Sˆ
n
que a diferencia del ejemplo 5.3, no depende de  (desconocido) sino de su
estimación puntual insesgada:
100
Sˆ  n (n  1) S 
0.5  0.503
99
Un I.C. al 95% se calcula teniendo en cuenta que T sigue una distribución tn-1.
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
10 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
Dicha distribución presenta un 95 % de probabilidad de ocurrir entre sus cuantiles4
Tn-1; 0.025= -1.98 y Tn-1; 0.975= 1.98 (son de signo opuesto por simetría de la distribución t
de Student).
Luego con una confianza del 95% tenemos que:
x    1.98
Sˆ
   3  0.1
n
Es decir, con una confianza del 95% tenemos que μ = 3 + 0.1 kg.
Interpretación: Podemos afirmar con una confianza del 95% que la media del peso de
100 recién nacidos extraídos al azar se encuentra dentro del intervalo comprendido
entre 2,9 y 3,1 Kg. Confiamos en qué esté sea uno de los 95 intervalos de cada 100
que incluyen a la media poblacional y no sea uno de los 5 intervalos de cada 100 que
no la incluyen.
Figura 5.4 Intervalos de confianza para los parámetros de una población normal,
a partir de una muestra aleatoria simple de la misma
Estimación del tamaño muestral:
Antes de realizar un estudio de inferencia estadística sobre una variable, lo primero es
decidir el número de elementos, n, a elegir en la muestra aleatoria. Para ello
consideremos que el estudio se basa en una variable de distribución normal, y nos
interesa obtener para un nivel de significación α dado, una precisión (error) d.
4
Al igual que en la distribución Normal existen valores tabulados para la distribución t de Student
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
11 - 12
Diplomado en Salud Pública
2. Metodología en Salud Pública
Si n es suficientemente grande, la distribución t de Student se aproxima a la
distribución normal. Luego una manera de obtener la precisión buscada consiste en
elegir n con el siguiente criterio5:
2
2
1 / 2
2
n
z
d
Ŝ
Donde Ŝ 2 es una estimación puntual a priori de la varianza de la muestra. Para
obtenerla nos podemos basar en una cota superior conocida por nuestra experiencia
previa, o simplemente, tomando una muestra piloto que sirve para dar una idea previa
de los parámetros que describen una población.
5
Encontraréis un ejemplo en la presentación disponible en material de apoyo
05. Inferencia estadística: Estimación de parámetros. Intervalos de confianza
12 - 12
Descargar