TEMA 4: CONTRASTES DE HIPÓTESIS. CONCEPTOS BÁSICOS

Anuncio
ASIGNATURA: ESTADÍSTICA II (Grado ADE,MIM,FBS)
TEMA 4:
CONTRASTES DE HIPÓTESIS. CONCEPTOS BÁSICOS
4.1. Hipótesis estadística. Tipos de hipótesis
4.2. Región crítica y región de aceptación
4.3. Errores tipo I y tipo II. Función de potencia
4.4. Concepto de p-valor: cálculo e interpretación
4.5. Etapas en la realización de un contraste
1
OBJETIVOS:
Al finalizar este tema, el alumno será capaz de:
formular la hipótesis nula y la hipótesis alternativa
identificar hipótesis simples e hipótesis compuestas
obtener el valor crítico de un contraste para un nivel de significación dado
calcular e interpretar el p-valor
2
4.1. HIPÓTESIS ESTADÍSTICA. TIPOS DE HIPÓTESIS
Hipótesis estadística: afirmación sobre la distribución que genera los
datos o sobre alguna característica concreta de dicha distribución.
En inferencia paramétrica: Modelo paramétrico: X→ F(x;θ) ⇒ las hipótesis
son afirmaciones sobre un(os) parámetro(s) desconocido(s), θ, del modelo
Ejemplo 1: el partido A no obtendrá mayoría absoluta en las elecciones del 20N
1
X= 
0
si gana A
p
→ b(p) ⇒ hipótesis: p≤0.5
si no gana A 1 − p
Ejemplo 2: una moneda es perfecta
1
X= 
0
si sale cara
p
→ b(p) ⇒ hipótesis: p=0.5
si sale cruz 1 − p
Ejemplo 3: hay discriminación salarial entre hombres y mujeres
X1=log(salario hombres) → N(µ1,σ1)
X2=log(salario mujeres) → N(µ2,σ2)
hipótesis: µ1 ≠µ2
3
En inferencia no paramétrica (Tema 6): no se supone a priori un
modelo paramétrico, sino que se contrastan hipótesis más generales.
Ejemplo 3: hay discriminación salarial entre hombres y mujeres
X1=salario hombres → F1(x)
X2=salario mujeres → F2(x)
Hipótesis: F1≠F2
Hipótesis simple: asigna valores puntuales concretos a todos los
parámetros del modelo ⇒ la distribución queda totalmente especificada
Ejemplo 2:
X→b(p) ⇒ hipótesis: p=0.5
Hipótesis compuesta: asigna un rango de valores a los parámetros
Ejemplo 1:
X→b(p) ⇒ hipótesis: p≤0.5
Ejemplo 3:
X1=log(salario hombres) → N(µ1,σ1)
X2=log(salario mujeres) → N(µ2,σ2)
Ejemplo 4:
hipótesis: µ1 ≠µ2
X→N(µ,σ) ⇒ hipótesis: µ=2 (realmente es: µ=2, σ>0 ¡compuesta!)
4
Hipótesis nula H0: hipótesis que se somete a prueba y se matendrá como
cierta a menos que los datos muestren suficiente evidencia en su contra.
(En general, H0 corresponde al modelo más sencillo: incluye el =)
Hipótesis alternativa H1: posibles alternativas a la hipótesis nula
Ejemplo 2:
H0: p=0.5
H1: p>0.5
H0: p=0.5
H1: p<0.5
H0: p=0.5
H1: p≠0.5
Unilateral derecha
Unilateral izqa.
Bilateral
Contrastes de una cola
Contraste de dos colas
5
4.2. REGIÓN CRÍTICA Y REGIÓN DE ACEPTACIÓN
Una vez definidas las hipótesis, realizar el contraste consiste en :
Decidir si la hipótesis nula está sustentada por la evidencia empírica
que proporcionan los datos de una muestra aleatoria (X1,...,Xn).
Analizar el grado de discrepancia entre los datos
(observados) y la hipótesis nula (postulada)
La decisión se basa en un estadístico de contraste =T(X1,...,Xn).
Ejemplo 5: dos monedas, una perfecta (p=0.5) y otra con p=p(cara)>0.5
H0: p=0.5
H1: p>0.5
Estadístico de contraste: p̂ = X
0.75
Rechazo si X ≥0.75
6
Región crítica=C={valores muestrales que conllevan rechazar H0}
⇒ Valor crítico= valor a partir del cual se rechaza H0
Ejemplo 4: (continuación) Rechazo H0 si la proporción de caras en la muestra es
mayor que 0.75, ¿por qué? Porque observar una proporción de caras superior al
75% sería harto improbable si H0 fuera cierta (moneda perfecta) ⇒ los datos no
sustentan H0, por eso rechazo H0
Región aceptación=A=̅ ={valores muestrales que conllevan no rechazar H0}
Ejemplo 4: (continuación) Muestra concreta: n=30, x =0.3 < 0.75 ⇒ No rechazo H0
OBSERVACIÓN:
No rechazar H0 no implica que H0 sea cierta, sino que no hay evidencia
suficiente en los datos muestrales para rechazarla.
Rechazar H0 no significa que H0 sea falsa, sino que resulta muy difícil
creer que se haya podido observar algo tan improbable bajo H0.
7
4.3. ERRORES TIPO I Y TIPO II. FUNCIÓN DE POTENCIA
¿Qué consecuencias puede conllevar la regla de decisión establecida?
¿Cuál es el “coste” de equivocarse tomando una decisión errónea?
Estado de la naturaleza
Decisión
H0 es cierta
H0 es falsa
“Aceptar” H0
Rechazar H0
correcto
Error tipo II
correcto
Error tipo I
α(θ) = p(Error tipo I) = p(rechazar H0/H0 cierta) = ()
β(θ) = p(Error tipo II) = p(“Aceptar” H0/H0 falsa) = (̅ )
(ERRORI)
Función de potencia=p(Rechazar H0)=pθ(C)= 1 − (ERRORII) ∈ ∈ 8
Objetivo
minimizar p(Error tipo I)
minimizar p(Error tipo II)
Para una muestra de tamaño n dada, ¡ IMPOSIBLE !
Metodología “clásica” de Neyman-Pearson:
Fijar el tamaño máximo tolerable de la p(Error tipo I), que llamaremos
nivel de significación α.
Valores habituales: α={0.01, 0.05, 0.1}
Elegir, entre todos las regiones críticas de nivel α, la que minimice la
p(Error tipo II): Test uniformemente más potente
9
Ejemplo 6: (X1,...,X16) m.a.s. de una distribución N(µ,5)
H0 : µ=10
H1 : µ=15
Estadístico de contraste µ̂ = X
Región crítica en la dirección de la alternativa ⇒ C={X ≥ λα }
Valor crítico: ¿Determinar λα para un nivel de significación dado? Tomemos α=0.1
0.1 = pH (C) = pµ=10(X ≥ λα )=
0
=
 X − 10 λ α − 10
≥
p µ = 1 0 
5/
16
5/ 16

 X − 10


 = pµ =10 
≥
z
α


 1.25


Bajo H0 :µ=10 ⇒ X → N(10, 5/ 16 ) ⇒
0.1
⇒ Tablas: zα=1.28
X −10 H0
→
 N(0,1)
1.25
X − 10
Rechazar H0 cuando: 1.25 ≥1.28 ⇔ X ≥ 11.6
0.90
zα
Región crítica
10
β=p(Error tipo II)
H0
 X − 15 11,6 − 15 
p
= pH1 (C) = pµ =15 ( X ≤ 11,6) = µ =15  1.25 ≤ 1.25  =Φ(-2.72)=0.0033


H1
β=0.0033
α=0.1
µ=10
µ=15
λα=11,6
R. Aceptación
Región crítica
Si α=p(Error tipo I) disminuye ⇒ aumenta β=p(Error tipo II)
H0
H1
β=0.0465
α=0.01
µ=10
λα=12,9
R. Aceptación
µ=15
Región crítica
11
La única forma de reducir ambos errores simultáneamente es aumentar n
Si n=100 ⇒Bajo H0: X → N(10,5/ 100 ); Bajo H1: X → N(15,5/ 100 ) ⇒ ↓α ↓β
H0
H1
β
α
11.6
R. Aceptación
Región crítica
Alejar H1 de H0 ⇒ β↓ ⇒ aumenta la potencia: es más fácil discernir entre dos
hipótesis “alejadas” que entre dos hipótesis “cercanas”
H0
H1
β=0
α=0.1
µ=10
λα=11,6
µ=20
12
4.4. CONCEPTO DE P-VALOR: CÁLCULO E INTERPRETACIÓN
Limitaciones de la selección del nivel de significación:
Ejemplo 6: (continuación)
H0 : µ=10
H1 : µ=15
Estadístico:
0
→

N(0,1)
Z*= X − 10 H
1 . 25
⇒ Si α=0.10 ⇒ Rechazo H0 si
X − 10
Z*= 1.25
≥1.28
10=4 ≥ 1.28
a) Si x obs=15 ⇒ zobs= 15−
1.25
⇒ Rechazo H0 al 10% (zobs “significativo” al 10%)
12.5 −10
b) Si x obs=12.5 ⇒ zobs= 1.25 =2≥1.28
⇒ Rechazo H0 al 10% (zobs “significativo” al 10%)
Misma decisión, pero…¿poseen las dos muestras la misma evidencia contra H0?
13
El p-valor se define, para una muestra concreta, como la probabilidad de
observar, bajo H0, un valor del estadístico de contraste igual o más extremo
(en la dirección de la alternativa) que el observado en la muestra ⇔
probabilidad de obtener más discrepancia con H0 que la obtenida con la muestra
Cuanto menor el p-valor ⇒ más extremo el resultado muestral ⇒ más evidencia contra H0
Ejemplo 6: (continuación)
a) x obs=15 ⇒ zobs=4 ⇒ p-valor = p(Z* ≥ zobs) = p(N(0,1) ≥ 4) = 0.00003
Obtener el valor observado, zobs, o alguno mayor es casi imposible bajo la
hipótesis nula ⇒ rechazo H0 (no creo que H0 haya generado mis datos).
b) x obs=12.5 ⇒ zobs=2 ⇒ p-valor = p(Z* ≥ zobs) = p(N(0,1) ≥ 2) = 0,0228
El valor observado tiene una probabilidad de aparecer muy pequeña si H0 es cierta,
pero no es tan improbable como antes ⇒ rechazo H0 pero con “menos garantías”.
14
p-valor muy pequeño ⇒ sería muy improbable observar lo
observado si H0 hubiera generado mis datos ⇒ los datos
proporcionan evidencia suficiente en contra de H0 ⇒ rechazo H0
p-valor grande ⇒ nuestros datos no proporcionan evidencia
suficiente en contra de H0 (es probable que H0 haya generado
mis datos) y no rechazo.
15
RELACIÓN ENTRE “nivel de significación” y “p-valor”
¿Qué ocurriría en el ejemplo anterior si el nivel de significación fuera α=0.01?
X − 10
⇒ El valor crítico sería zα=2.33 ⇒ rechazaríamos H0 si Z*= 1.25 ≥ 2.33
⇒ Si x obs=12.5 ⇒ zobs=2 < 2.33 ⇒ No rechazo al 1% (Si rechazaba al 10%)
α=0.10
p-valor=0.0218
α=0.01
1-α
1.28 2
2.33
Rechazo H0 al 1%
Rechazo H0 al 10%
Rechazamos H0 para niveles α ≥ p-valor
No rechazamos H0 para niveles α< p-valor
p-valor = menor nivel
de significación al
que se rechaza H0
16
4.5. ETAPAS EN LA REALIZACIÓN DE UN CONTRASTE
1. Describir el modelo y formular la hipótesis nula y la alternativa
2. Definir un estadístico de contraste que cuantifique la discrepancia entre
los datos y la hipótesis nula, y cuya distribución sea conocida bajo H0
3. Definir la región crítica: ¿Qué valores del estadístico de contraste
rechazan H0?
4. Determinar el valor crítico para un nivel de significación α dado
5. Tomar los datos y calcular el valor del estadístico de contraste
4.' Tomar los datos y calcular el valor del estadístico de contraste
5.' Calcular el p-valor
6. Tomar la decisión de rechazar o no H0
17
BIBLIOGRAFÍA BÁSICA
Canavos, G.C. (2001), Probabilidad y estadística: aplicaciones y
métodos, Madrid: McGraw-Hill.
Secciones 9.1-9.3, 9.5
Casas, J.M. (1997), Inferencia estadística (incluye ejercicios
resueltos). 2ª ed. Madrid: Centro de Estudios Ramón Areces.
Capítulo 5
BIBLIOGRAFÍA COMPLEMENTARIA:
Peña, D. (2008), Fundamentos de estadística, Madrid : Alianza
Secciones 10.1 – 10.3
18
Descargar