Document

Anuncio
CONTRASTE DE HIPÓTESIS
Antonio Morillas
A. Morillas: Contraste de hipótesis
1
CONTRASTE DE HIPÓTESIS
1. Introducción
2. Conceptos básicos
3. Región crítica óptima
i. Teorema de Neyman-Pearson
ii. Región uniformemente más potente
iii. Test de la razón de verosimilitudes
A. Morillas: Contraste de hipótesis
2
¿De dónde venimos? ¿A dónde vamos?
Est. Aplicada: DATOS (generalmente, muestra)
DESCRIPCIÓN (Estadística Descriptiva)
PROPONER MODELO DE PROBABILIDAD
ESTIMACIÓN DE SUS PARÁMETROS
(Por puntos o por intervalos + contraste de hipótesis)
CHEQUEO DEL MODELO Y DE LAS HIPÓTESIS
(Contrastes no paramétricos)
A. Morillas: Contraste de hipótesis
3
INTRODUCCIÓN
- Primer gran bloque de la inferencia clásica:
- TEORÍA DE LA ESTIMACIÓN
- Segundo gran bloque:
- CONTRASTE DE HIPÓTESIS
- Hipótesis:
En el mundo real Æ juicio u opinión sobre
alguna cosa o acontecimiento. En Estadística, lo
mismo, pero sobre alguna característica de una v. a.
(algún parámetro - paramétrica - o sobre la propia
forma de su distribución - no paramétrica)
A. Morillas: Contraste de hipótesis
4
DIFERENCIAS ENTRE ESTIMACIÓN Y
CONTRASTE DE HIPÓTEIS
• Estimación Æ valor numérico (punto o intervalo)
• Contraste de hipótesis Æ elección entre dos teorías
(hipótesis) en conflicto Æ DECISIÓN
• La verificación o contraste de hipótesis usa la teoría
de la probabilidad (riesgo) en este proceso de
decisión, ligado a experimentos con resultados
dicotómicos.
A. Morillas: Contraste de hipótesis
5
LAS DOS HIPÓTESIS
•
Cada una de las dos posibles alternativas del
experimento se llama HIPÓTESIS:
¾ La que se considera correcta, hasta que no se
demuestre lo contrario, se llama HIPÓTESIS
NULA (H0).
¾ La que está en competencia con ella se llama
HIPÓTESIS ALTERNATIVA (H1).
A. Morillas: Contraste de hipótesis
6
EJEMPLO-1
• PROBLEMA:
– Decisión acerca de ampliar una centralita de teléfonos en
una empresa - ¿está bien dimensionada o no?
• ENTORNO DE LA DECISIÓN:
– Capacidad actual de recepción: 3 llamadas por minuto
– Confrontación de hipótesis:
• H0: Recibe media de 3 llamadas por minuto (µ=3) Æ
HIPÓTESIS NULA
• H1: Media de más de 3 llamadas por minuto (µ>3) Æ
HIPÓTESIS ALTERNATIVA
A. Morillas: Contraste de hipótesis
7
EJEMPLO-1
– Información para la toma de la decisión: muestra
representativa (n)
– Aplicar algún criterio de decisión, en función de la
discrepancia entre lo observado y lo propuesto
como hipótesis nula (p. ej. x > 4,5 Æ Rechazar H0)
• SOLUCIÓN: Elegir entre H0 y H1, en un ambiente de
incertidumbre:
» Probabilidad Æ Riesgo Æ Coste
A. Morillas: Contraste de hipótesis
8
RESUMEN
En un contraste de hipótesis hay 4 cuestiones importantes:
– Dos, de procedimiento (se dan por asumidas):
• Formulación correcta de las hipótesis
• Muestra representativa y de tamaño adecuado
– Otras dos, cruciales, que hay que desarrollar
teóricamente:
• Definir la regla o criterio de decisión
• Estudiar cuando un test es mejor que otro (test
óptimo) y encontrar el procedimiento para llevarlo a
cabo.
A. Morillas: Contraste de hipótesis
9
CONCEPTOS BÁSICOS-1
‰ Hipótesis estadística: enunciado sobre alguna característica de
una variable aleatoria ( X ):
ƒ Paramétrica: sobre algún parámetro de X. Se conoce la
forma de f(x)
Ejemplo: la media de una distribución exponencial es 3
ƒ No paramétrica: sobre supuestos teóricos o sobre el
modelo de f(x)
Ejemplo: la muestra obtenida es aleatoria y/o procede de
una normal
A. Morillas: Contraste de hipótesis
10
CONCEPTOS BÁSICOS-2
‰ Tipos de hipótesis:
ƒ Simple: H0: θ = θ0 (valor singular) Æ f(x;θ) queda
especificada.
ƒ Compuesta:
¾ H0: θ > θ0 (unilateral derecha) Æ f(x) no
especificada
¾ H0: θ < θ0 (unilateral izquierda) Æ f(x) no
especificada
¾ H0: θ ≠ θ0 (bilateral) Æ f(x) no especificada
A. Morillas: Contraste de hipótesis
11
ILUSTRACIÓN CONTRASTE DE HIPÓTESIS
f (x)
H0: µ=3
H0: µ>3
H0: µ<3
µ<3
3
µ>3
x ∼N(µ,
En general:
H0: θ ∈ ω0
ω0 ∪ ω1 = ω Æ espacio paramétrico
H1: θ ∈ ω1
ω0 ∩ ω1 = ∅ Æ una de las dos es cierta
A. Morillas: Contraste de hipótesis
12
σ
n
)
CONCEPTOS BÁSICOS-4
‰ Test, contraste o verificación:
ƒ Es la regla o criterio de decisión:
• Nos permite decir cuál de las dos hipótesis es más
acertada.
• Se basa en dos cuestiones:
9 El valor que toma un estadístico muestral ( x para
estimar µ, por ejemplo)
9 La definición de una región crítica ( x > k, p. e.)
A. Morillas: Contraste de hipótesis
13
CONCEPTOS BÁSICOS-5
‰Región crítica:
Subconjunto ( C ) de valores muestrales posibles
del estadístico utilizado, tal que si el observado
en la muestra pertenece a C, entonces H0 es
falsa:
(x1 , x2 ,..., xn ) ∈ C Æ H0 falsa
‰ Región de aceptación: la complementaria de C
A. Morillas: Contraste de hipótesis
14
CONCEPTOS BÁSICOS-6
Ejemplo centralita:
Distribución teórica de valores muestrales, x , y región crítica
Discrepancia razonable
H0 es falsa
xobs
(SIGNIFICATIVA)
-----------|-------------------------------------|----------------- x
Reg. AceptaciónÅ |ÆRegión crítica (C)
H0: µ=3
x > 4, 5
A. Morillas: Contraste de hipótesis
15
CONCEPTOS BÁSICOS-7
• Tipos de error: decisión cierta o errónea
Tabla de decisión
H0 CIERTA
H0 FALSA
RECHAZAR H0
ACEPTAR H0
Error Tipo I
Decisión
correcta
Decisión correcta
Error Tipo II
A. Morillas: Contraste de hipótesis
16
CONCEPTOS BÁSICOS-8
• Tamaño del error: riesgo asumido,
valorado en términos de probabilidad
Probabilidades asociadas a Tipos de error
H0 CIERTA
H0 FALSA
RECHAZAR H0
ACEPTAR H0
α
1-α
1-β
β
A. Morillas: Contraste de hipótesis
17
CONCEPTOS BÁSICOS-9
• Probabilidad del error de Tipo I y de Tipo II:
a) H0: θ = θ0
H1: θ = θ1
Contraste de hipótesis simples
9 α = P(rechazar H0/H0) Æ nivel significación (tamaño Tip. I)
9 β = P(aceptar H0/H1) Æ tamaño error Tipo II
• Probabilidades complementarias:
9 1-α = P(aceptar H0/H0) Æ nivel de confianza
9 1-β = P(rechazar H0/H1) Æ potencia del contraste
A. Morillas: Contraste de hipótesis
18
αyβ
f (x)
H0 : µ = 3
H1 : µ = 5
α = P(Rechazar H0 / H0 )
β = P(Aceptar H0 / H1 )
H0
H1
β
3
f (x)
α
dc=1,5 4,5
x
5
H0
H1
α
β
3
Tamaños
región crítica
3,5
A. Morillas: Contraste de hipótesis
5
x
19
α, β y n
f (x)
α = P(Rechazar H0 / H0 )
H0 : µ = 3
H1 : µ = 5
β = P(Aceptar H0 / H1 )
H0
H1
n1
β
σ x = σ / n1
2
2
α
3
f (x)
H0 : µ = 3
H1 : µ = 5
xc
H1
H0
n 2 > n1
σ x = σ / n´2
2
2
x
5
β’
3
α’
xc
A. Morillas: Contraste de hipótesis
5
α’ < α
β’ < β
x
20
CONCEPTOS BÁSICOS-10
• Función de potencia y función característica:
b) H0: θ ∈ ω0
Contraste hipótesis compuestas
H1: θ ∈ ω1
9 α =max P(rechazar H0/H0) = max α(θ) Ætamaño error Tipo I
θ ∈ ω0
θ ∈ ω0
9 β =max P(aceptar H0/H1)=max β (θ) Æ tamaño error Tipo II
θ ∈ ω1
θ ∈ ω1
9 π(θ)=1-β(θ)= P(rechazar H0/ H1) Æ función de potencia:
• Si θ ∈ ω0 Æ π(θ) = α(θ)
• Si θ ∈ ω1 Æ π(θ) = 1-β(θ)
9 β(θ)= P(aceptar H0 / H1 ) Æ función característica
A. Morillas: Contraste de hipótesis
21
CÓMO CONTRASTAR UNA HIPÓTESIS
f(d)
1. Se fija α Æ α0
Distribución de d
cuando H0 es cierta
2. Se obtiene dc según α0
Rechazo (d > dc) Æ R.C.
Aceptación
(d ≤ dc)
H0
α = α0 = P(d > dc / H0)
d̂3
dc d̂
1
Evidencia
muestras
d̂ 2
d
Medida de
discrepancia
(estadístico)
Discrepancia grande Æ Probabilidad pequeña de salir (α =0,05 ; α =0,01)
A. Morillas: Contraste de hipótesis
22
CRÍTICAS A LA FIJACIÓN DEL NIVEL DE
SIGNIFICACIÓN (α)
• El resultado del test depende de α (arbitrario)
• Rechazar, sin más, no permite diferenciar distintos
grados de evidencia con que se rechaza una hipótesis
(muestras 1 y 2 en figura anterior)
• Cuando se rechaza el valor de un parámetro, hay que
distinguir entre significación estadística y práctica Æ
con n grande se puede rechazar una hipótesis con una
discrepancia muy pequeña Æ dar intervalo estimación
(función de n).
A. Morillas: Contraste de hipótesis
24
f (x)
SIGNIFICACIÓN ESTADÍSTICA Y
SIGNIFICACIÓN PRÁCTICA
n = 75
n = 25
α
µ0
Diferencia
práctica o real
(nivel α)
A. Morillas: Contraste de hipótesis
α
x ∼N(µ0,σ / n)
Diferencia
estadísticamente
significativa (nivel α)
25
SOLUCIÓN A ESTAS CRÍTICAS
(DOS PRIMERAS)
Dar el nivel crítico del test (p-level o p-value):
p = P ( d > dˆ / H 0 c ie r ta )
A menor p, menor credibilidad de H0 Æ Rechazarla
p=0,35
p=0,10
p=0,001
α=0,25
d̂
d̂
Aceptar
Ejercicio
µ=3
x0 =4
s=2
n=10
Rechazar
α= 0,01
?
d̂
α= 0,01
α= 0,25
. Opinión
. Consecuencias
. Evidencia
A. Morillas: Contraste de hipótesis
26
REGIÓN CRÍTICA ÓPTIMA
• Vamos a ver:
• Su definición: lema de Neyman-Pearson
• Procedimientos para obtenerla:
• H0 y H1 simples Æ Neyman-Pearson
• H0 simple y H1 unilateral Æ Tests uniformemente
más potentes (Neyman-Pearson)
• Caso general Æ Test de la razón de verosimilitudes
A. Morillas: Contraste de hipótesis
27
LEMA DE NEYMAN-PEARSON
‰ H0 y H1 simples:
H0: θ = θ0
H1: θ = θ1
Diremos que C es una REGIÓN CRÍTICA ÓPTIMA de
tamaño α, si para cualquier otro subconjunto A del espacio
muestral de igual tamaño, P[(X1, X2, ...,Xn) ∈ A /H0] = α ,
1.
P[(X1, X2, ...,Xn) ∈ C /H0] = α
2.
P[(X1, X2, ...,Xn) ∈ C /H1] ≥ P[(X1, X2, ...,Xn) ∈ A /H1]
Es decir, para dos RC con igual α, será óptima la que
haga que el test tenga mayor potencia (menor β):
πC ≥ πA Æ βC ≤ βA
A. Morillas: Contraste de hipótesis
28
f (x)
NEYMAN-PEARSON (H0 < H1)
α = P(Rechazar H0 / H0 )
H0 : µ = 3
H1 : µ = 5
β = P(Aceptar H0 / H1 )
H0
H1
β(C)
β(A)
α(A)
1,5
3
α(C)
4,5 5
x
βA ≥ βC (πC ≥ πA) Æ Se prefiere C a A
A. Morillas: Contraste de hipótesis
29
f (x)
NEYMAN-PEARSON (H0 > H1)
H0 : µ = 5
α = P(Rechazar H0 / H0 )
H1 : µ = 3
β = P(Aceptar H0 / H1 )
H1
H0
β(A)
β(C)
α(C)
α(A)
3
5
βA ≥ βC (πC ≥ πA) Æ Se prefiere C a A
A. Morillas: Contraste de hipótesis
x
30
PROCEDIMIENTO DE NEYMAN-PEARSON
‰ H0 y H1, simples.
Sean:
1.
C un subconjunto del espacio muestral
2.
k una constante positiva
3.
L0 y L1 las funciones de verosimilitud de una muestra de
tamaño n, bajo la hipótesis nula y alternativa
respectivamente.
C será la mejor región crítica de tamaño α, si se cumple que:
1. L0/L1 ≤ k , para valores muestrales pertenecientes a C
2. L0/L1 ≥ k , para valores muestrales NO pertenecientes a C
3. P[(X1, X2, ...,Xn) ∈ C /H0] = α
A. Morillas: Contraste de hipótesis
31
CÁLCULOS EN NEYMAN-PEARSON
1. Se obtiene el cociente de verosimilitudes bajo H0 y H1:
(L0/L1) = [L(X1, X2, ...,Xn; θ0) / L(X1, X2, ...,Xn; θ1)
2. Al cociente obtenido se le impone la primera condición y
se busca el estadístico muestral resultante y su
distribución, pasando todas las constantes a la derecha de
la desigualdad:
(L0/L1) = ϕ1(X1, X2, ...,Xn; θ0, θ1) ≤ k1
3. La función ϕ1 es el estadístico de prueba. El punto crítico
del test (k1), lo da el tamaño de la región crítica (α):
P[ϕ1(X1, X2, ...,Xn; θ0, θ1) ≤ k1/H0] = α, RC a izquierda
P[ϕ1(X1, X2, ...,Xn; θ0, θ1) ≥ k1/H0] = α, RC a derecha
A. Morillas: Contraste de hipótesis
32
REGIÓN UNIFORMEMENTE MÁS POTENTE-2
‰ H0 simple, H1 compuesta unilateral:
Hemos visto en el ejemplo anterior como se podía
generalizar la solución para cualquier valor singular en H1 y
como existía una RCO para los casos en que el contraste se
conciba con las hipótesis unilaterales H1: θ > θ0 (θ = θ1, θ1 > θ0) o
H1: θ < θ0 (θ = θ1, θ1 < θ0) , pero que no estaba definida para
contrastes bilaterales del tipo H0: θ ≠ θ0.
El procedimiento de Neyman-Pearson está concebido para
hipótesis simples. Pero, para hipótesis compuestas unilaterales,
podemos considerar que contrastamos H0 contra todas y cada
una de las hipótesis simples contenidas en H1.
A. Morillas: Contraste de hipótesis
36
REGIÓN UNIFORMEMENTE MÁS POTENTE-3
Como se ha visto en el ejemplo, para θ > θ0 la RCO
estaría formada por la cola derecha y si θ < θ0, por la de la
izquierda. Esta región se llama REGIÓN CRÍTICA
UNIFORMEMENTE MÁS POTENTE, porque es la región
crítica óptima para contrastar H0 frente a todas y cada una
de las hipótesis simples contenidas en H1. Al contraste
asociado se le llama TEST UNIFORMEMENTE MÁS
POTENTE.
A. Morillas: Contraste de hipótesis
37
TEST DE LA RAZÓN DE VEROSIMILITUDES
‰ H0 y H1 compuestas (generalmente, H0 simple y H1 bilateral)
1.
Es un procedimiento general
2. Coincide con Neyman-Pearson en el caso de hipótesis
simples
3. No garantiza la obtención de tests óptimos
4. Tiene buenas propiedades en muestras grandes
5. Se basa en el cociente entre dos razones de verosimilitud:
1. L(ω0) , correspondiente a la hipótesis nula
2. L (ω), correspondiente a todo el espacio paramétrico
A. Morillas: Contraste de hipótesis
39
LA LÓGICA DEL TEST DE LA R.V.
f (x)
H0: µ≤3
H1: µ>3
n=5
ω0
3
ω1
x
• L(ω0)/L (ω) Æ 1, cuanto más creíble sea H0
• L(ω0)/L (ω) Æ 0, cuanto menos creíble sea H0
• Pero los parámetros no están especificados ni en H0 ni en H1,
como en N-P, por lo que no es posible obtener un estadístico a
partir de este cociente, ni calcular probabilidades.
A. Morillas: Contraste de hipótesis
40
EL ESTADÍSTICO DEL TEST DE LA R.V.
Para construir un estadístico sustituiremos los parámetros
desconocidos por sus estimadores máximo verosímiles:
max
L(ω )
L(ωˆ0 )
θ ∈ω0 0
λ(x1,x2,...,x n ) = λ =
=
ˆ
L(ω )
L(ω ) max
θ ∈ω
La probabilidad del numerador siempre será menor o igual
que la del denominador, por lo que:
0≤λ≤1
La distribución de λ puede utilizarse para contrastar la
hipótesis, aunque no sea simple.
A. Morillas: Contraste de hipótesis
41
REGIÓN CRÍTICA DEL TEST DE LA R.V.
‰ Región crítica del test de la razón de verosimilitudes:
-
λ próxima a uno Æ H0 es muy verosímil.
-
λ próxima a cero Æ H0 es poco verosímil
-
Por tanto, la RC de tamaño α, estará en la cola izquierda
de la distribución de λ:
λ ≤ λ0 Æ P(λ ≤ λ0 /H0) = α
?
λ observado
A. Morillas: Contraste de hipótesis
λ0
λ
Rechazar H0
42
DISTRIBUCIÓN DEL ESTADÍSTICO
Fijado α, es preciso conocer la distribución del estadístico λ,
cosa que no es siempre fácil. Bajo ciertas condiciones, en el
límite, se tiene que:
-2 ln λ ∼ χ
2
r
siendo r el número de parámetros considerados en H0. En
este caso, la RC estará en la cola de la derecha de la Jicuadrado, pues:
λ Æ 0 : -2 ln λ Æ ∞
y
λ Æ 1 : -2 ln λ Æ 0
A. Morillas: Contraste de hipótesis
43
¿QUÉ HEMOS APRENDIDO EN LA LECCIÓN 1ª?
Contraste de hipótesis
Decisión entre dos propuestas alternativas (H0 y H1)
basada en una regla de decisión o test y en la
información suministrada por una muestra
A. Morillas: Contraste de hipótesis
45
¿CÓMO HEMOS DE PROCEDER, EN RESUMEN?
1.
Establecer H0 y H1
2.
Construir la regla de decisión:
•
Obtener la medida de discrepancia (ESTADÍSTICO DE PRUEBA)
y su distribución de probabilidad
•
Localizar la REGIÓN CRÍTICA ÓPTIMA:
• H0 simple
•
•
3.
H1> H0 Æ cola de la derecha
H1< H0 Æ cola de la izquierda
Neyman-Pearson
Caso general: H1≠ H0 Æ dos colas (Test de la RV)
Fijar el NIVEL DE SIGNIFICACIÓN (α) y obtener la
discrepancia máxima permitida (significativa) entre H0 y el valor
observado en la muestra (PUNTO CRÍTICO DEL TEST)
Decidir basándonos en la MUESTRA (valor observado del estadístico)
A. Morillas: Contraste de hipótesis
46
Descargar