Contrastes hipótesis

Anuncio
Diplomado en Salud Pública
2. Metodología en Salud Pública
INFERENCIA ESTADÍSTICA: CONTRASTES
DE HIPÓTESIS
Autor: Clara Laguna
6.1 INTRODUCCIÓN
En el tema anterior estudiamos cómo a partir de una muestra podemos obtener una
estimación puntual o bien establecer un intervalo más o menos aproximado para
encontrar los parámetros que rigen la ley de probabilidad de una variable aleatoria
definida sobre la población.
En la práctica nos encontramos con situaciones en las que existe una idea
preconcebida sobre una característica de la población que estamos estudiando. Por
ejemplo, cuando nos planteamos si los niños de las distintas comunidades españolas
tienen la misma altura. Este tipo de circunstancias son las que nos llevan al estudio de
la parcela de la Estadística Inferencial conocida como Contraste de Hipótesis
(también denominado Test de Hipótesis o Contraste de significación).
Si lo pensáis, una hipótesis no es más que una creencia sobre la población,
principalmente sobre alguno de sus parámetros (media, proporción…). Si queremos
contrastarla, se debe establecer antes del análisis.
El test será la herramienta que nos permitirá extraer conclusiones a partir de la
diferencia entre las observaciones y los resultados que se deberían obtener si la
hipótesis de partida fuese cierta.
El contraste de hipótesis Implica, en cualquier investigación, la existencia de dos
teorías o hipótesis implícitas, que denominaremos hipótesis nula e hipótesis
alternativa, que de alguna manera reflejarán esa idea a priori que tenemos y que
pretendemos contrastar con la “realidad”.
De la misma manera aparecen, diferentes tipos de errores que podemos cometer
durante el procedimiento. No olvidemos que las conclusiones que obtengamos para
una población cualquiera, se habrán apoyado en el análisis de sólo una parte de ésta.
De la probabilidad con la que estemos dispuestos a asumir estos errores, dependerá,
por ejemplo, el tamaño de la muestra requerida.
Los contrastes de hipótesis se realizan:

Suponiendo a priori que la ley de distribución de la población es conocida.

Extrayendo una muestra aleatoria de dicha población.

Si la distribución de la muestra es “diferente” de la distribución de probabilidad
que hemos asignado a priori a la población, concluimos que probablemente
sea errónea la suposición inicial.
06. Inferencia estadística: Contrastes de hipótesis
1 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
Ejemplo 6.1:
Una situación en la que podríamos utilizar un contraste de hipótesis sería:
Un estudio afirma que la media de las alturas de los chicos aragoneses de 17 años es
de 178 cm. Visitamos un instituto y escogemos a diez chicos al azar; su altura media
es de 171 cm. ¿Podemos pensar que los muchachos de este instituto tienen una altura
diferente de la del conjunto de chicos de Aragón?
En la situación anterior suponemos cierta hipótesis y debemos decidir, a partir de
nuestras observaciones, si tenemos suficientes evidencias para poder rechazarla.
¿Cómo lo haremos? Utilizaremos probabilidades.
6.2 HIPÓTESIS NULA Y ALTERNATIVA
En un contraste de hipótesis se decide si cierta hipótesis H0 que denominamos
hipótesis nula puede ser rechazada o no a la vista de los datos suministrados por una
muestra de la población. Para realizar el contraste es necesario establecer
previamente una hipótesis alternativa H1 que será admitida cuando H0 sea
rechazada.
Normalmente H1 es la negación de H0, aunque esto no es necesariamente así.
La hipótesis nula H0, es la hipótesis de partida (la que contrastamos). Debe recoger
el hecho que queramos someter a prueba.
La hipótesis alternativa H1 es la que, como su nombre indica, ofrecemos como
alternativa a la nula. Esta hipótesis, representa que se ha producido un cambio con
respecto a la situación descrita por la hipótesis nula.
Para poder plantear correctamente las hipótesis, debemos entender bien la
estructura estadística que se encuentra tras los datos y, por tanto, deberemos conocer
qué distribución siguen. Las hipótesis se expresarán normalmente en términos de
algún parámetro de la distribución de los datos que estudiamos.
Volviendo al ejemplo 6.1:
Sabemos, por ejemplo, que la variable “altura” sigue una distribución normal. Por
tanto, una altura es una observación de una variable N(µ,σ2).
Supondremos también que σ es conocida y es igual a 3. Entonces, cuando decimos
que los chicos de 17 años tienen una altura media de 178 cm, en realidad proponemos
que la hipótesis nula expresada en términos del parámetro µ es ésta:
H0: µ = 178
- Para detectar si las alturas no siguen esta media, debemos coger como hipótesis
alternativa:
H1: µ ≠ 178 (hipótesis bilateral)
06. Inferencia estadística: Contrastes de hipótesis
2 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 6.1
- Pero si quisiéramos detectar si los chicos son más altos de 178 cm, la hipótesis
alternativa debería ser:
H1: µ > 178 (hipótesis unilateral)
Figura 6.2
- Mientras que si quisiéramos detectar si son más bajos de 178 cm, debería ser:
H1: µ < 178 (hipótesis unilateral)
Figura 6.3
Por tanto, como acabamos de ver en el ejemplo, la hipótesis alternativa puede ser
bilateral (figura 6.1), si el parámetro es diferente del valor correspondiente a la
hipótesis nula, o unilateral (figura 6.2 y 6.3), si sólo lo compara en una dirección.
Una vez planteadas las hipótesis nula y alternativa, debemos tomar una decisión a
partir de las observaciones. Existen dos decisiones posibles:
1) Aceptar la hipótesis nula
2) Rechazar la hipótesis nula
06. Inferencia estadística: Contrastes de hipótesis
3 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
Por otro lado, hay dos situaciones posibles:
a) La hipótesis nula es cierta
b) La hipótesis nula es falsa
Esto hace que podamos cometer dos clases de errores diferentes: podemos aceptar
la hipótesis nula cuando ésta es falsa o podemos rechazar la hipótesis nula cuando es
cierta, tal como se ve en la tabla siguiente:
Podemos medir estos errores con la probabilidad de que se den las situaciones
respectivas.
Así, podemos considerar los errores siguientes:


El error de tipo I es la probabilidad de que rechacemos la hipótesis nula
cuando ésta es cierta.
El error de tipo II es la probabilidad de que aceptemos la hipótesis nula
cuando ésta es falsa.
Ahora necesitamos una regla de decisión que nos permita determinar si debemos
aceptar o rechazar la hipótesis nula a partir de las observaciones. Puesto que
podemos cometer dos tipos de errores diferentes, nos interesaría tomar la decisión
que minimizara los dos. La solución de este problema no es fácil. Normalmente, la
experiencia nos enseña que cuando establecemos una regla de decisión que reduce
mucho uno de los errores, el otro aumenta.
Dado que no podemos hacer pequeños los dos errores al mismo tiempo, utilizaremos
la siguiente estrategia: buscaremos reglas de decisión que nos permitan tener limitado
el error de primer tipo, considerado más grave. Es decir, el error que cometemos
cuando decidimos rechazar la hipótesis nula y ésta es cierta. Esta estrategia1 es
conservadora, tendemos a no rechazar la hipótesis nula excepto si los resultados son
muy poco probables con ésta.
Una buena forma de hacer pequeños los dos errores y, por tanto, de mejorar nuestros
resultados, es aumentar el tamaño de las muestras que utilizamos.
6.3 EL NIVEL DE SIGNIFICACIÓN
El intervalo de aceptación o más precisamente, de no rechazo de la hipótesis nula, se
establece fijando una cantidad α suficientemente pequeña denominada nivel de
1
La estrategia de decisión que utilizamos aquí se basa en los resultados de Neyman y Pearson, dos
importantes matemáticos del siglo XX.
06. Inferencia estadística: Contrastes de hipótesis
4 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
significación, de modo que la probabilidad de que el estadístico que estamos
estudiando tome un valor fuera del mismo (región crítica) cuando la hipótesis nula es
cierta, sea inferior o al 100·α%.
De manera que, si H0 es correcta el criterio de rechazo sólo se equivoca con
probabilidad α, que es la probabilidad de que una muestra ofrezca un valor del
estadístico estudiado extraño fuera del intervalo de aceptación (en la región crítica,
figura 6.4).
El nivel de significación α de un contraste es el error máximo de tipo I (rechazar H0
cuando es cierta) que estamos dispuestos a asumir.
La probabilidad de cometer el error de tipo I es el nivel de significación α, mientras que
la probabilidad de cometer el error de tipo II la denotamos por la letra β.
α = P [rechazar H0 | H0 es cierta]
β = P [no rechazar H0 | H0 es falsa]
El nivel de significación hay que fijarlo cuando se comienza el estudio. Se suele
utilizar el valor estándar de α=0,05. Otros niveles utilizados son del orden de 0,1, de
0,01 o incluso de 0,001 (si queremos aumentar la precisión).
Un nivel α = 0,05 significa que, aunque la hipótesis nula sea cierta, los datos de cinco
de cada cien muestras nos harán rechazarla. Es decir, aceptamos que podemos
rechazar la hipótesis nula de forma equivocada cinco de cada cien veces.
Figura 6.4
06. Inferencia estadística: Contrastes de hipótesis
5 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
Observaciones:
Cuanto menor sea el valor de α que fijemos, más tendencia tendremos a aceptar la
hipótesis nula. El caso extremo sería fijar un nivel de significación 0, de manera que
aceptaríamos siempre la hipótesis nula y nunca se daría el error de tipo I, pero está
claro que si tenemos que aceptar siempre, el estudio que hemos llevado a cabo no
nos aporta nada nuevo.
Al tomar un α muy pequeño tendremos que β se puede aproximar a uno. Lo ideal a la
hora de definir un test es encontrar un compromiso satisfactorio entre α y β (aunque
siempre a favor de H0). La potencia de un contraste (1-β) es la capacidad de una
prueba para detectar una diferencia cuando ésta realmente existe, es decir:
Potencia del contraste = 1-β = P [rechazar H0 | H0 es falsa]
Los errores de tipo I y II están relacionados de manera que cuando α decrece β crece.
Por tanto no es posible encontrar tests que hagan tan pequeños como queramos
ambos errores simultáneamente. De este modo es siempre necesario privilegiar a una
de las hipótesis, de manera que no será rechazada a menos que su falsedad se haga
muy evidente. El hecho de tener acotado el error de tipo I hace que nuestros
contrastes sean conservadores y tiendan a aceptar la hipótesis nula, a menos que
haya evidencias muy claras de que tenemos que rechazarla.

Cuando aceptamos la hipótesis nula, no estamos seguros de que sea
realmente cierta, ya que no controlamos el error de tipo II (el error que
cometemos cuando aceptamos la hipótesis nula y ésta es falsa).

Cuando rechazamos la hipótesis nula, estamos seguros de que tenemos que
rechazarla porque tenemos acotado el error de tipo I (el error que cometemos
cuando rechazamos la hipótesis nula y ésta es cierta).
¿“Aceptamos” o “no rechazamos”?
Puesto que cuando aceptamos la hipótesis nula no estamos demasiado seguros,
normalmente, en lugar de decir “Aceptamos la hipótesis nula”, decimos “No
rechazamos la hipótesis nula”.
6.4 EL CONCEPTO DE ESTADÍSTICO DE CONTRASTE
Una vez fijadas las hipótesis, así como el error de tipo I que estamos dispuestos a
asumir, para decidir si rechazamos la hipótesis nula o no, utilizaremos el llamado
estadístico de contraste. Consiste en definir un estadístico T relacionado con la
hipótesis que deseamos contrastar.
A continuación, suponiendo que H0 es verdadera se calcula un intervalo, denominado
intervalo de aceptación de la hipótesis nula (Ti, Ts), de manera que al calcular sobre la
muestra T = Tc el criterio a seguir sea:
06. Inferencia estadística: Contrastes de hipótesis
6 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública


Si Tc


Si Tc
 (Ti, Ts) 
(Ti, Ts)
no rechazamos H0
rechazamos H0 y aceptamos H1
Ejemplo 6.2:
Recordad que si tenemos una muestra de tamaño n de una distribución N(µ,σ2)
_
x 
entonces la variable
sigue una distribución normal estándar.

n
En el caso de las alturas de los chicos, sabemos que si tenemos una muestra de
alturas de n chicos escogidos al azar, bajo la hipótesis nula (µ=178) podemos definir la
variable:
Este valor es una observación de una ley N(0,1).
Si la hipótesis nula es cierta, el valor observado z debería estar en la zona en la que la
distribución normal estándar concentra una mayor probabilidad, es decir, alrededor del
cero.
Si nos sale un valor muy alejado del cero, este valor será poco probable bajo la
hipótesis nula, y nos llevará a decidir rechazarla, ya que pensaremos que su aparición
no puede ser debida al azar, sino al hecho de que la hipótesis nula debe de ser falsa.
Ahora bien, ¿hasta qué punto debe ser poco probable para decidir rechazarla? Esto
vendrá dado por el nivel de significación fijado.
Si hacemos el contraste H0: µ = 178 contra H1: µ ≠ 178. Un valor del estadístico de
contraste cercano a 0 es más probable bajo H0 que bajo H1.
De este modo, utilizaremos la regla de decisión siguiente:


Aceptaremos H0 si z  z
2
Rechazaremos H0 si z > z
donde z
2
es el llamado valor crítico.
2
06. Inferencia estadística: Contrastes de hipótesis
7 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
Figura 6.5. Zona de aceptación de H0
En la figura 6.5 vemos que la parte del gráfico con una línea más gruesa corresponde
a la zona en la que queremos aceptar la hipótesis nula. La hipótesis alternativa influye
a la hora de decidir.
En los contrastes bilaterales, se dice que la probabilidad de las dos colas (la parte
que corresponde a la zona donde tenemos que rechazar la hipótesis nula) debe ser α.
Para determinar el valor crítico zα/2, sólo hay que imponer que el error de tipo I
(probabilidad de rechazar H0 cuando es cierta) sea menor o igual que el nivel de
significación α, es decir:
Donde Z es la distribución del estadístico de contraste. En este caso, bajo la hipótesis
nula, sigue una distribución normal estándar. Por ejemplo, para α=0,05 encontramos
(recordad las tablas de la normal) que zα/2=1,96.
6.5 LA SIGNIFICACIÓN (p-valor)
En muchos casos, para resolver un contraste de hipótesis no calcularemos el valor
crítico, sino que utilizaremos el llamado p-valor.
La significación o p-valor es la probabilidad del resultado del estadístico de contraste
observado o de uno más alejado cuando la hipótesis nula es cierta.
Es la probabilidad que tendría una región crítica que comenzase exactamente en
el valor de estadístico obtenido en la muestra.
El p-valor asociado a una observación del estadístico de contraste es el menor nivel de
significación que nos permite rechazar la hipótesis nula.
Cuando el p-valor sea pequeño, indicará que el valor del estadístico de contraste que
hemos observado tenía una probabilidad pequeña de salir bajo la hipótesis nula y, por
tanto, deberemos rechazar la hipótesis nula. En cambio, cuando sea grande, indicará
06. Inferencia estadística: Contrastes de hipótesis
8 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
que era un valor bastante probable bajo la hipótesis nula y, por tanto, es lógico que
aceptemos H0.

Si el p-valor es inferior al nivel de significación α, rechazaremos la
hipótesis nula.

Si el p-valor es superior o igual al nivel de significación α, aceptaremos la
hipótesis nula.
El p-valor siempre es conocido después de realizar el contraste de hipótesis. Se dice
que el contraste es estadísticamente significativo si p-valor < α. En caso contrario,
si p-valor > α el contraste no es significativo.2
Siguiendo con el ejemplo de las alturas, podemos ver (figura 6.5) que si el valor
obtenido para la altura media extraída de una muestra es de 175 cm, no
rechazaríamos nuestra hipótesis nula de partida, ya que la probabilidad de la región
crítica que comienza exactamente en ese valor (en color verde) es mayor que la
probabilidad α.
En este caso el contraste no es significativo (p>α).
Figura 6.5.
Ejemplo de aplicación del p-valor
En el ejemplo de las alturas, imaginad que nuestro estadístico de contraste
observado es 1,61 y denotamos por Z una variable aleatoria que tiene una distribución
normal estándar, que es la ley del estadístico de contraste bajo la hipótesis nula.
Supongamos, además, que hemos fijado un nivel de significación α=0,1. Así:
Si hacemos el contraste H0: µ = 178 contra H1: µ ≠ 178, entonces el p-valor es
(probabilidad de las dos colas)3:
2
3
Para entenderlo mejor os recomiendo que veáis la presentación sobre contrastes de hipótesis.
El valor P (Z<1,61) para α=0,1 se obtiene de las tablas de la distribución normal.
06. Inferencia estadística: Contrastes de hipótesis
9 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
Luego no rechazamos H0.
Fijaos en que para calcular el p-valor, calculamos la probabilidad de que la variable Z
tome un valor más alejado que el valor 1,61 observado.
Estas probabilidades en muchas ocasiones no se pueden calcular con tablas
estadísticas, por lo que hay que utilizar un software estadístico.
Podemos describir el procedimiento para plantear y resolver un contraste de
hipótesis en cinco etapas:
1) Fijar las hipótesis nula y alternativa.
2) Fijar un nivel de significación.
3) Determinar el estadístico de contraste y su ley.
4) Calcular el p-valor asociado a nuestro estadístico de contraste calculado.
5) Comparar el p-valor con el nivel de significación y tomar una decisión.
6.6 CONTRASTES DE HIPÓTESIS FRENTE A INTERVALOS DE
CONFIANZA
Se recomienda que nunca se presenten en las publicaciones sólo valores p como
resumen de la información estadística de una investigación, sino que se acompañen
siempre de Intervalos de Confianza.
La ventaja del I.C. sobre la significación estadística es que pasamos de expresar el
resultado en una escala dicotómica a expresarlo en una escala continua, que aporta
mucha más información.
El valor p será significativo, sólo cuando el I.C. no incluya el 0 (no incluya la H0).
Si el intervalo de confianza que hemos calculado no contiene al valor correspondiente
a la Hipótesis nula, se puede afirmar que el contraste es significativo.
Ejemplo 6.3:
El peso en gramos de las manzanas de una explotación agraria sigue una distribución
normal de desviación típica 3,5. Un estudio nos dice que el peso medio es de 155gr y
queremos comprobar si eso es cierto.
Queremos contrastar H0: µ = 155 contra H1: µ ≠ 155
Para hacerlo, hemos cogido una muestra aleatoria de 42 manzanas y hemos obtenido
una media de 163,8.
Primero debemos encontrar un intervalo de confianza del 95% para la media de la
distribución. Recordad que se puede obtener a partir de la fórmula siguiente:
06. Inferencia estadística: Contrastes de hipótesis
10 - 11
Diplomado en Salud Pública
2. Metodología en Salud Pública
que en nuestro caso nos da el intervalo (162,74, 164,85). Sabemos que de cada cien
muestras que consideremos, el valor auténtico de la µ estará, como mínimo, en
noventa y cinco de los intervalos correspondientes. Por eso, si el valor que queremos
contrastar a la hipótesis nula cae dentro del intervalo, aceptaremos la hipótesis nula.
En este caso, puesto que 155  (162,74, 164,85), debemos rechazar la hipótesis
nula.
06. Inferencia estadística: Contrastes de hipótesis
11 - 11
Descargar