84 Estadı́stica Tema 9: Contraste de hipótesis. 9.1 Introducción. El objetivo de este tema es proporcionar métodos que permiten decidir si una hipótesis estadı́stica debe o no ser rechazada, en base a los resultados muestrales obtenidos. Para precisar los conceptos de este tema, vamos a comenzar por definir hipótesis estadı́stica: Definición 1 Una hipótesis estadı́stica es una afirmación relativa a la distribución de probabilidades de una o varias variables aleatorias. En general las hipótesis se refieren a: • El valor de un (o varios) parámetro de la distribución. (Métodos de contraste paramétrico). • La igualdad entre las distribuciones de dos o más variables (Métodos de diseño). • La forma de la distribución (normal, exponencial, etc). (Métodos no paramétricos). Definición 2 Un procedimiento de contraste es un método para decidir probabilı́sticamente sobre la validez o no de la hipótesis, frente a una hipótesis alternativa, a partir de los valores observados en una muestra. Vamos a dar ahora un ejemplo no matemático, para introducir fácilmente los principales elementos del contraste de hipótesis. Ejemplo: Supongamos un juicio en el que se trata de decidir la culpabilidad o inocencia de un acusado. La hipótesis inicial (ası́ lo marca la Constitución) es que el acusado es inocente (estadı́sticamente, a esta hipótesis se la denomina hipótesis nula y se representa por H0 .) Existe una hipótesis alternativa, que es la culpabilidad del acusado (llamada estadı́sticamente hipótesis alternativa y denotada por H1 .) El juicio es el procedimiento en el cuál se trata de probar la culpabilidad del acusado y la evidencia debe ser muy fuerte para que se rechace la inocencia (H0 ) en favor de la culpabilidad (H1 ) (no es suficiente con pruebas circunstanciales). Una vez que se toma una decisión (veredicto), pueden estarse cometiendo dos tipos de errores distintos: • Condenar a un inocente (error de tipo I). 85 Estadı́stica • Absolver a un culpable (error de tipo II). (naturalmente, también puede no estarse cometiendo ningún error). De los dos errores se considera más grave el primero y por esa razón, la evidencia para condenar debe ser muy fuerte. En este sentido, la hipótesis de inocencia es una hipóteis primada, es decir, ambas hipótesis no están en igualdad de condiciones. Estos mismo elementos se encuentran en un contraste estadı́stico e igualmente, aceptar H0 sólo supone que no se ha encontrado suficiente evidencia en contra. Por esa razón, se dice que la aceptación de la hipótesis alternativa es una decisión fuerte (pues supone una gran evidencia en su favor). 9.2 Tipos de errores. H0 Aceptar H0 Rechazar H0 No error Error cierta tipo I H0 Error falsa tipo II No error Definición 3 • Se denomina nivel de significación del contraste, y se denota por α, a la probabilidad de cometer un error de tipo I: α = p(Rechazar H0 /H0 cierta) • Se denomina β a la probabilidad de cometer un error de tipo II (y no siempre está definida, ya que depende del verdadero valor de la hipótesis alternativa): β = p(Aceptar H0 /H0 falsa) • Se denomina potencia del contraste a: Π = p(Rechazar H0 /H0 falsa) 9.3 Contrastes paramétricos. Nos vamos a centrar ahora en los contrastes paramétricos, es decir, aquellos en los que las hipótesis nula y alternativa se refieren al valor de un parámetro (o parámetros) de la distribución (de tipo conocido, por ejemplo normal, exponencial, etc) de una v.a. 86 Estadı́stica Definición 4 Sea X una v.a. de distribución conocida que depende del valor de un parámetro θ desconocido, y sea Θ el espacio de posibles valores del parámetro, particionado en dos subconjuntos Θ0 y Θ1 . Consideremos las hipótesis: H0 : θ ∈ Θ0 H1 : θ ∈ Θ1 Un test para contrastar la hipótesis H0 frente a H1 consiste en dividir el espacio de muestras aleatorias de tamaño n en dos subconjuntos disjuntos, llamados región crı́tica o de rechazo y región de aceptación, de forma que si la muestra de tamaño n extraı́da está en la región crı́tica se rechaza H0 , en favor de H1 , y si está en la región de aceptación, se acepta H0 . Observación 1 Aceptar H0 significa sólo que no se ha obtenido, probabilı́sticamente, suficiente evidencia en contra. Tipos de hipótesis en un contraste paramétrico. Se llaman hipótesis simples a las hipóteis en las que se fija un sólo valor para el parámetro; por ejemplo, H0 : θ = θ0 ó H1 : θ = θ1 . Se llaman hipótesis compuestas a las hipótesis en las que se fija un conjunto de valores para el parámetro; por ejemplo, H0 : θ ≤ θ0 ó H1 : θ ≤ θ1 , etc. Pueden darse todo tipo de combinaciones: H0 simple frente a H1 simple, H0 simple frente a H1 compuesta, H0 compuesta frente a H1 simple, o H0 compuesta frente a H1 compuesta. Las contrastes de la forma H0 : θ ≤ θ0 frente a H1 : θ > θ0 o bien H0 : θ ≥ θ0 frente a H1 : θ < θ0 se denominan contrastes de hipótesis unilaterales. Las contrastes de la forma H0 : θ = θ0 frente a H1 : θ 6= θ0 o bien H0 : θ ∈ [θ1 , θ2 ] frente a H1 : θ ∈ / [θ1 , θ2 ] 87 Estadı́stica se denominan contrastes de hipótesis bilaterales. Antes de entrar con más detalle en el método para realizar contrastes paramétricos, vamos a desarrollar un ejemplo, en el que se pueden observar los principales elementos de un contraste, las relaciones entre ellos, y algunas propiedades de carácter general de los contrastes de hipótesis. Ejemplo: Supongamos que hemos recibido dos lotes de productos en los que la proporción de defectuosos es 1 2 y 41 , pero no sabemos cuál corresponde a cada uno. Queremos resolver el contraste: H0 : p = 1 4 H1 : p = 1 2 Para decidir vamos a extraer una muestra aleatoria del lote (1) con 10 elementos. La variable X= número de defectuosos entre los 10, suponiendo H0 cierta, tiene distribución B(10, 14 ). Por el contrario, si fuese falsa H0 , X ∼ B(10, 12 ). Las gráficas de estas distribuciones son: Luego observamos que en el caso p = 1/4, es muy probable que X sea menor o igual que 3, mientras que si p = 1/2, es más probable que sea mayor o igual que 4. En efecto: p= 1 4 p= 1 2 xi p(X ≤ xi ) p(X > xi ) 2 0.525593 0.945312 3 0.775875 0.828125 4 0.921873 0.623047 5 0.980273 0.376953 Podrı́amos tomar como criterio decisorio que si X ≤ 3 se acepta H0 y en caso contrario se rechaza. Es decir, hemos dividido todas las muestras aleatorias de tamaño 10 extraı́das del lote 1 en dos 88 Estadı́stica grupos, aquellas para las que el número de defectuosos es menor o igual que 3 (región de aceptación) y aquellas para las que el número de elementos defectuosos es estrictamente mayor que 3 (región crı́tica o de rechazo). ¿Cuáles son las probabilidades de error de tipo I (α) y de tipo II (β)? α = p(rechazar H0 /H0 cierta) = p(X > 3/X ∼ B(10, 1/4)) = 1 − 0.775875 = 0.224125 β = p(aceptar H0 /H0 falsa) = p(X ≤ 3/X ∼ B(10, 1/2)) = 0.171875 La potencia del contraste es: Π = p(rechazar H0 /H0 falsa) = p(X > 3/X ∼ B(10, 1/2)) = 1 − β = 0.828125 ¿Qué ocurre si modificamos el criterio decisorio (es decir, si variamos las regiones de aceptación y de rechazo)? Por ejemplo, vamos a aceptar si X ≤ 4 y a rechazar en otro caso. Entonces: α = p(rechazar H0 /H0 cierta) = p(X > 4/X ∼ B(10, 1/4)) = 1 − 0.921873 = 0.078127 β = p(aceptar H0 /H0 falsa) = p(X ≤ 4/X ∼ B(10, 1/2)) = 0.376953 Π = p(rechazar H0 /H0 falsa) = p(X > 4/X ∼ B(10, 1/2)) = 1 − β = 0.623047 Por tanto, se observan los siguientes hechos, que ocurren en general en todo contraste: (a) Disminuir α supone aumentar β y recı́procamente. (b) Si α disminuye, lo hace la potencia. Veamos ahora el efecto de aumentar el tamaño de la muestra: vamos a tomar 20 elementos en la muestra y a considerar Y= número de defectuosos entre los 20, que bajo la hipótesis nula tendrá una distribución B(20, 1/4) y bajo la alternativa será B(20, 1/2). Las regiones de aceptación y rechazo se fijan de forma que los valores de α resultantes sean aproximadamente los obtenidos en el caso n = 10. 89 Estadı́stica p= 1 4 p= 1 2 xi p(X ≤ xi ) p(X > xi ) 6 0.785782 0.942341 7 0.898188 0.868412 8 0.959075 0.748278 Si aceptamos cuando Y ≤ 6, entonces α = 0.214218 (similar al primer caso para n = 10) y β = 0.057659, mucho menor, y si disminuimos α tomando como criterio para aceptar que Y ≤ 8, α = 0.040925 y β = 0.251722, que también es menor que en el segundo caso para n = 10. Luego se observa que para valores de α similares, aumentar n disminuye β, lo cuál también es general para los contrastes que vamos a considerar. Nosotros nos vamos a centrar en contrastes (aunque haremos algunos otros casos, similares al ejemplo anterior): • H0 : θ = θ0 H1 : θ 6= θ0 • H0 : θ ≥ θ0 H1 : θ < θ 0 • H0 : θ ≤ θ0 H1 : θ > θ 0 Para este tipo de contrastes se pueden observar en general, los aspectos señalados en el ejemplo, y además: - los contrastes H0 : θ ≥ θ0 ó H0 : θ ≤ θ0 , puede tratarse como equivalente a un contaste con H0 : θ = θ0 , pues es el caso en el que el error de tipo I es (generalmente) mayor. - en estos contrastes, hay un valor de β para cada parámetro especificado en la alternativa y es único sólo cuando la hipótesis alternativa es simple. Procedimiento para seleccionar la región de aceptación y de rechazo en un contraste paramétrico. El procedimiento consiste en considerar un estadı́stico T (X1 , X2 , . . . , Xn , θ) (es decir, que sea función de la muestra y del parámetro que se quiere contrastar), cuya distribución bajo la hipótesis nula sea conocida, y fijado un nivel de significación α, elegir la región crı́tica C de manera que p(T ∈ C/H0 cierta) = α y el valor de β sea pequeño. 90 Estadı́stica Muchas veces es posible elegir distintas regiones (o incluso distintos estadı́sticos) para realizar el contraste; si se fija un valor de α determinado, el mejor contraste será aquel en el cual β es mı́nimo, para todos los posibles valores de θ en la hipótesis alternativa. Hay ocasiones en las que es posible construir el mejor contraste posible para todos los valores de α. En estas ocasiones el estadı́stico utilizado está relacionado con el estimador máximo verosı́mil del parámetro. Los estadı́sticos que vamos a utilizar para contrastar los parámetros de distribuciones normales, binomiales, de Poisson y asintóticos (a partir del teorema central del lı́mite), van a ser de este tipo y coinciden con los utilizados en la construcción de intervalos de confianza para dichos parámetros. (Tabla de intervalos). Para estos contrastes, la región crı́tica tiene la forma siguiente: • Contraste H0 : θ ≥ θ0 H1 : θ < θ 0 H0 : θ ≤ θ0 • Contraste H1 : θ > θ 0 • Contraste H0 : θ = θ0 H1 : θ 6= θ0 Región crı́tica C = {T (X1 , . . . , Xn , θ) < τα } Región crı́tica C = {T (X1 , . . . , Xn , θ) > τ1−α } Región crı́tica C = {τα/2 ≥ T (X1 , . . . , Xn , θ), ó T (X1 , . . . , Xn , θ) ≥ τ1−α/2 } Para otros parámetros distintos de los que aparecen en la tabla de intervalos, la región crı́tica se selecciona de forma que para α fijo, β sea mı́nimo. En el caso de un contraste bilateral, en concreto, se va a tener la siguiente equivalencia: El resultado del contraste H0 : θ = θ0 frente a H1 : θ 6= θ0 con nivel de significación α es aceptar H0 si y solamente si θ0 pertenece al intervalo de confianza para θ de nivel (1 − α) · 100% Observación 2 Algunas consideraciones a la hora de realizar un contraste: (a) Cómo elegir la hipótesis nula y la hipótesis alternativa. Aunque esta es una cuestión algo subjetiva (depende del fin último del estudio), rige el criterio de simplicidad: nunca se abandona una hipótesis simple en favor de otra más complicada, salvo que haya suficiente evidencia en contra (por ejemplo, que un proceso de fabricación es bueno, frente a que otro posible alternativo sea mejor). Como norma, observar que siempre la igualdad corresponde a la hipótesis nula. 91 Estadı́stica (b) La selección de un nivel de significación es subjetiva, es decir, depende de lo convencidos que estemos de la verdad de H0 . En general no se trabaja con niveles de significación superiores a 0.1 y se consideran usuales 0.05 y 0.01. Un problema que se puede presentar (en el ejemplo desarrollado antes ocurre) es que sea imposible fijar una región crı́tica para un α determinado (esto ocurre generalmente para variables discretas). Por estas razones, en lugar de fijar un nivel α a priori, la decisión se toma en función del p-valor, que se define como: Definición 5 Se llama p-valor de un contraste al valor más pequeño del nivel de significación con el que rechazarı́amos H0 . Esto se puede expresar también como la probabilidad, bajo la hipótesis nula, de obtener valores del estadı́stico más extremos que el observado (es decir, valores hacia la región de rechazo). El p-valor indica el grado de evidencia sobre H0 frente a H1 conseguido con la muestra. (c) Por último, un contraste se llama estadı́sticamente significativo cuando lleva al rechazo de la hipótesis nula. Pero que un contraste sea estadı́sticamente significativo, no significa que vaya a existir una gran diferencia entre la hipótesis nula y el verdadero valor del parámetro. Por ejemplo, podrı́a darse el caso de que H0 : θ = 0.01, el contraste fuese significativo (es decir, rechazásemos H0 a nivel 0.05), y el verdadero valor del parámetro fuese θ = 0.011.