Contraste de Hipótesis

Anuncio
Contraste de Hipótesis
2. CONTRASTE DE HIPÓTESIS
2.1.
Introducción
2.2.
Contraste de una hipótesis estadística
2.3.
Test unilateral y bilateral
2.4.
Test relacionados con una sola media (varianza conocida)
2.5.
Relación con la estimación del intervalo de confianza
2.6.
Test sobre una sola media (varianza desconocida)
2.7.
Test sobre dos medias
2.7.1. Varianzas conocidas
2.7.2. Varianzas desconocidas
2.8.
Pruebas relacionadas con varianzas
2.9.
Test de Bondad de ajuste.
2.9.1 Aplicaciones
Prueba de Homogeneidad
Test de independencia
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
1
Contraste de Hipótesis
2. CONTRASTE DE HIPOTESIS
2.1.
INTRODUCCIÓN
No siempre los problemas a los que se enfrenta el científico o el ingeniero, se refieren
sólo a la estimación de un parámetro de la población, sino por el contrario, la formulación de
un procedimiento de decisión basado en datos, que puede producir una conclusión acerca de
algún sistema científico. Se postula o conjetura algo acerca de un sistema. La conjetura se
puede exponer como una hipótesis estadística. Los procedimientos que conducen a la
aceptación o rechazo de hipótesis estadísticas, comprenden un área muy importante de la
inferencia estadística.
Una hipótesis estadística es una afirmación o conjetura acerca de una o más
poblaciones. Es importante remarcar que las hipótesis son proposiciones sobre la población en
estudio, nunca sobre la muestra.
Contrastar una hipótesis estadísticamente es tomar una decisión sobre si cierta
propiedad de una población es compatible con lo observado en una muestra de dicha
población.
La técnica del contraste de hipótesis constituye una parte de la Inferencia Estadística
que consiste en utilizar la información muestral para examinar la validez de afirmaciones
realizadas sobre una característica poblacional.
Nunca se sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a
no ser que se examine la población entera. Como esto no es práctico, se elige una muestra
aleatoria de la población que se estudia, y se utilizan los datos que contiene dicha muestra
para proporcionar evidencias que confirmen o no la hipótesis.
La evidencia de la muestra que es inconsistente con la hipótesis planteada, lleva al
rechazo de la misma; mientras que la evidencia que apoya a la hipótesis, conduce a su
aceptación.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
2
Contraste de Hipótesis
Desde luego el diseño de un procedimiento de decisión, debe llevarse a cabo con la
idea de probabilidad de una conclusión equivocada. Es decir, la aceptación de una
hipótesis implica tan sólo que los datos de la muestra no proporcionan evidencia suficiente
para rechazarla. El rechazo de la hipótesis implica que la evidencia de la muestra la refuta.
Existen dos tipos de contrastes:
•
Contrastes paramétricos si la hipótesis concierne a parámetros poblacionales tales
como la media o la varianza.
•
Contrastes no paramétricos son los que afectan a cualidades de la distribución, tales
como la bondad del ajuste, homogeneidad de poblaciones, independencia.
2.2.
CONTRASTE DE UNA HIPÓTESIS ESTADÍSTICA
La estructura de la prueba de hipótesis (test de hipótesis) se formulará utilizando el
término hipótesis nula.
Llamamos hipótesis nula, H0 , a la hipótesis que vamos a contrastar, H0 representa la
hipótesis que mantendremos mientras los datos no nos indiquen su falsedad.
El rechazo de Ho da como resultado la aceptación de una hipótesis alternativa, que se
representa por H1.
Llamamos hipótesis alternativa, H1 , a la hipótesis que se aceptará si H0 se rechaza.
Una hipótesis nula referente a un parámetro de la población, siempre será establecida
en forma tal que especifique un valor exacto del parámetro; la hipótesis alternativa admite la
posibilidad de varios valores.
Las fases en un contraste de hipótesis son:
1) Definir la hipótesis a contrastar que llamaremos H0 en consecuencia H1.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
3
Contraste de Hipótesis
2) Definir una medida de discrepancia D que mida la diferencia entre los valores observados y
los esperados (de acuerdo con H0 ) estableciendo su distribución.
3) Tomar una muestra y calcular D.
4) Concluir con una decisión: si la discrepancia D es muy grande, rechazaremos H0 ; en caso
contrario, aceptamos H0 .
Por tanto para realizar un contraste necesitamos una medida de discrepancia, y una ley
para juzgar cuando las discrepancias son demasiado grandes.
Al probar cualquier hipótesis estadística, se presentan cuatro posibles situaciones que
determinan si la decisión es correcta o equivocada:
La hipótesis nula, es verdadera o falsa y se acepta o se rechaza. No se comete error
alguno si es verdadera y se acepta, o si es falsa y se rechaza. Sin embargo, se cometerá error si
es verdadera y se rechaza o si es falsa y se acepta.
DECISIÓN
Se Acepta
H 0 Es Verdadera Decisión correcta
REALIDAD
H 0 Es Falsa Error de tipo II
Se Rechaza
Error de tipo I
Decisión correcta
Decimos que se comete un error de tipo I cuando H0 es verdadera pero se rechaza, se
comete un error de tipo II cuando H0 es falsa pero se acepta.
Para definir qué valores de las discrepancias son grandes fijamos un valor α que
denominaremos nivel de significación. El valor α es la probabilidad de cometer un error de
tipo I, y determina un valor dc de forma que: P(D > dc ) = α
α =P(error tipo I)=P(rechazar H 0 / H 0 es cierta)
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
4
Contraste de Hipótesis
La probabilidad de cometer error tipo II, representado por β , es imposible calcularla a
no ser que tenga una hipótesis alternativa específica:
β =P(error tipo II)=P(aceptar H 0 / H 0 es falsa)
Al conjunto de reglas que lleva a aceptar o no una cierta hipótesis, es lo que se llama
"un test o contraste de hipótesis".
La potencia del contraste es la probabilidad de rechazar H0 , dada una alternativa
específica verdadera:
1 − β = Potencia=P(rechazar H 0 / H 0 es falsa)
Un test muy potente es altamente capaz de detectar la falsedad de los datos.
Uno poco potente no detecta la falsedad de los datos.
En general, a todo número que, obtenido a partir de las observaciones de una muestra,
sirve para decidirse por H0 o H1 , se llama estadístico de contraste.
Pero para realizar un test de hipótesis, el investigador no sólo debe fijar H0 y H1 , y el
estadístico de contraste, sino que también habrá de decidir de antemano el valor del error α
que está dispuesto a aceptar.
La figura siguiente muestra gráficamente este método. Si la discrepancia observada D
cae dentro de la región de rechazo (probabilidad de rechazar y ser verdadera), rechazamos la
hipótesis H0, en caso contrario la aceptaremos.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
5
Contraste de Hipótesis
Definimos la región de rechazo o región crítica por D > dc es el conjunto de valores
del estadístico de contraste que
lleva a la decisión de rechazar la
hipótesis nula H0 y la región de
aceptación de H0 será D ≤ dc
Consideraciones acerca de
α
α.
1) Aceptar o rechazar la hipótesis
H0 puede depender del valor α,
Aceptación
<
dc
>
Rechazo
siendo posible rechazar H0 con α
= 0.05 y aceptar H0 con α = 0.04
2) Dar sólo el resultado del test no indica el grado de discrepancia. Se acostumbra a utilizar
niveles de significación del 0.05 ó 0.01.
Si, por ejemplo se elige un nivel de significación del 0.05 entonces hay
aproximadamente 5 ocasiones de cada 100 en que se rechazaría la hipótesis cuando debe ser
aceptada.
El nivel de significación (α) se fija a priori independientemente del estadístico.
Un procedimiento para resolver estas consideraciones es utilizar el nivel crítico p de
un test, en vez del nivel de significación (α).
Se define el nivel crítico o p valor como el mínimo nivel de significación para el que,
con los datos de una muestra concreta, se tendría que rechazar H0 .
=
p P(D ≥ D n ) .
Es decir, la probabilidad de obtener una discrepancia mayor o igual que la observada
en la muestra. De esta forma, el valor de p no se fija a priori, sino que se determina en función
de la muestra.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
6
Contraste de Hipótesis
Como se evidencia en la figura siguiente, cuanto menor sea el valor crítico, menor es
la probabilidad de existir discrepancia como la observada, y menor es la certidumbre de H0.
Esto es; cuanto más cercano a cero sea su valor con mayor confianza se rechazará H0. Puesto
p P(D ≥ D n ) y Dn un valor fijo, si p es grande ⇒ Dn es un valor pequeño, por tanto,
que,=
para un valor fijo de α < p será Dn < dc y aceptamos la hipótesis H0,
En general, cuanto más próximo a 1 sea p con mayor evidencia se habrá de aceptar
H0 .
A título orientativo,
Si p>0.05 no existe suficiente evidencia para rechazar H0.
Si 0.01<p<0.05 existe incertidumbre entre rechazar o no rechazar H0.
Si p<0.01 en general deberá ser rechazada la hipótesis H0,
Si se ha fijado de antemano un nivel de significación α, se acepta H0, si p>α, y se
rechaza H0 si p< α
El conjunto de valores posibles del estadístico de contraste, se divide en dos partes.
Una de ella conduce a concluir H0, y se llama región de aceptación; y la otra, lleva a
concluir H1, y se llama región de rechazo o región crítica (RC).
Al error de la primera RC que rechaza H0, se le llama nivel crítico ó nivel mínimo de
significación.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
7
Contraste de Hipótesis
Los valores fuera de la región de rechazo son los valores de la región de aceptación
R(H0). Estas regiones de aceptación coinciden con los intervalos de confianza para los
parámetros sobre los que se plantea el contraste con los niveles de confianza de 1-�
complemento de los de significación α.
2.3.
TEST UNILATERAL Y BILATERAL
Un test de cualquier hipótesis estadística, donde la alternativa es unilateral, tal como:
Ho :θ = θo
H 0 : θ = θ0
ó bien
recibe el nombre de test de una cola, ya que la región crítica
H1: θ > θ o
H1 : θ < θ0
cae en la cola derecha de la distribución del estadístico de prueba, o en la cola izquierda,
respectivamente.
Un test de cualquier hipótesis estadística donde la alternativa es bilateral, tal como:
Ho :θ = θo
recibe el nombre de test de dos colas, ya que la región crítica se divide en dos
H1: θ ≠ θ o
partes, generalmente con iguales probabilidades en cada cola de la distribución del estadístico
de prueba.
Para probar hipótesis en las cuales el estadístico de prueba es discreto, puede
escogerse la región crítica arbitrariamente y luego determinar su tamaño. Si α es demasiado
grande, puede reducirse haciendo un ajuste en el valor crítico.
Un valor p es el nivel más bajo (de significación) en el cuál el valor observado del
estadístico de prueba es significativo.
Los procedimientos para el test de hipótesis, pueden resumirse, supuesto que la
hipótesis es Ho :θ = θo :
1.
Establecer la hipótesis nula Ho de que θ = θ o .
2.
Seleccionar una hipótesis alternativa apropiada H1 de una de las alternativas θ < θ o ,
θ > θo ó θ ≠ θo .
3.
Elegir un nivel de significación α y el tamaño de la muestra n.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
8
Contraste de Hipótesis
4.
Seleccionar el estadístico de prueba apropiado, y establecer la región crítica (si la
decisión se va a basar en un valor p, no es necesario establecer la región crítica).
5.
Calcular el valor del estadístico de prueba con los datos muestrales.
6.
Decidir: rechazar Ho si el estadístico de prueba tiene un valor en la región crítica (o
si el valor calculado de p es menor o igual que el nivel de significación deseado α );
de otra forma, no rechazar Ho .
2.4.
TEST
RELACIONADOS
CON
UNA
SÓLA
MEDIA
(VARIANZA
CONOCIDA):
Presentamos los test de hipótesis acerca de una sola media de población. Se deben, en
primer lugar, describir las suposiciones sobre las cuales se basa el experimento. El modelo
para la situación fundamental se centra alrededor de un experimento X1, X 2 ,..., Xn que
representa una muestra aleatoria de una distribución con media µ y varianza σ 2 .
Caso bilateral
Considérese primero la hipótesis:
Ho : µ = µo
H1: µ ≠ µ o
El estadístico de prueba apropiado deberá basarse en la variable aleatoria X . Ya
sabemos, según el Teorema Central del Límite, que, al margen de la distribución de X, la
variable aleatoria X tiene una distribución aproximadamente Normal con media µ y
σ
desviación típica
n
.
Conviene normalizar la v.a. =
X: Z
X −µ
≡ N (0,1) .
σ/ n
Puede, entonces, determinarse una región crítica con base en el promedio muestral
calculado, X .
(
P − zα < Z < zα
2
2
) =P  − z
α
<
2

X −µ
< zα  =−
1 α puede utilizarse para escribir una región
2 
σ/ n
crítica apropiada.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
9
Contraste de Hipótesis
Formalmente, la región crítica se crea a partir de α , la probabilidad de error tipo I.
Contraste bilateral (2 colas)
H 0 : µ = µ0
H1 : µ ≠ µ 0
Hasta este momento, habrá una región crítica de dos colas para la prueba.
Se necesita una señal de evidencia de dos colas para respaldar H1 . Así, dado un valor
calculado X , la prueba formal implica rechazar H0 si el estadístico de prueba calculado:
z=
X − µ0
cae dentro de la región crítica z < −zα ó zα < z .
2
2
σ/ n
Si − zα < z < zα no se rechaza Ho .
2
2
El rechazo de Ho implica la aceptación de la hipótesis alternativa µ ≠ µ o .
Con esta definición de la región crítica, existirá la probabilidad α de rechazar Ho (al
caer en la región crítica) cuando, en realidad µ = µ o .
O bien, calculando el p-valor=2P(Z>|z|) y comparándolo con α:
p>α se acepta la hipótesis nula, y por lo tanto µ = µ o
p<α se rechaza la hipótesis nula, y por lo tanto µ ≠ µ o
Caso unilateral
Las pruebas de hipótesis unilaterales acerca de la media, comprenden el mismo estadístico
que el descrito para el caso bilateral. Aquí la región crítica es de una sola cola de la
distribución normal.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
10
Contraste de Hipótesis
Contraste unilateral (cola de la izquierda)
H 0 : µ ≥ µ0
H1 : µ < µ 0
Para H1: µ < µ o , la región crítica está dada por z < − z α , o bien, p-valor= P(Z < z) .
Contraste unilateral (cola de la derecha)
H 0 : µ < µ0
H1 : µ ≥ µ 0
Para H1: µ > µ o , el rechazo (región crítica) resulta cuando z α < z , o bien, p-valor=
P(z < Z) .
2.1 Ejemplo:
Se supone que un topógrafo realiza como mínimo 42 mediciones diarias. Ante la duda
se hace una comprobación observando las mediciones durante 10 días seleccionados al azar,
observándose una media de 40. Suponiendo normalidad con varianza 16 en la distribución de
las mediciones diarias con un nivel de significación de 0,05 la suposición inicial. Realizar el
contraste para la media.
Solución:
Estamos ante un caso de contraste unilateral para la media de una población normal con
varianza conocida.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
11
Contraste de Hipótesis
H 0 : µ=
42 ≤ µ
0
H1 : µ=
42 > µ
0
Sabemos que:
=
Z
X −µ
≡ N (0,1)
σ/ n
El valor del estadístico z bajo la hipótesis nula es:
=
z
X − µ0 40 − 42
=
= -1.581138830
σ / n 4 / 10
Para �=0,05 en la N(0,1) tenemos que:
P ( Z < − zα ) = α ⇔ P ( Z < − z0,05 ) = 0, 05 ⇒ − z0,05 = −1, 64
Como el valor de nuestro estadístico Z bajo la hipótesis nula cae dentro de la región de
aceptación (-1,64<-1,58), se ACEPTA que el topógrafo realiza como mínimo 42 mediciones
diarias.
WOLFRAMALPHA: z-test for population mean
O bien, calculamos el p-valor=P(Z<z)=P(Z<-1,581)=0,05693902 > α
2.5.
RELACIÓN CON LA ESTIMACIÓN DEL INTERVALO DE CONFIANZA:
El procedimiento de test de hipótesis a la inferencia estadística, está muy relacionado
con la estimación del intervalo de confianza. Para el caso de una sola media poblacional µ ,
conociendo σ 2 , la estructura de ambas pruebas de hipótesis y la estimación del intervalo de
confianza, se basan en la variable aleatoria:
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
12
Contraste de Hipótesis
Z=
X −µ
σ n
Resulta, entonces, que la prueba de Ho : µ = µ o en contraposición con H1: µ ≠ µ o , en
un nivel de significación α , es equivalente a calcular un intervalo de confianza del (1 − α )%
de µ y rechazar H0 si µ o no está dentro del intervalo de confianza. Si µ o está dentro del
intervalo, no se rechaza la hipótesis.
La equivalencia es muy intuitiva: recordar que con un valor observado X , aceptar H0
con un nivel de significación α , implica que:
− zα /2 <
X − µ0
σ/ n
< zα /2 ⇔ X − zα /2
σ
n
< µ0 < X + zα /2
σ
n
Los intervalos de confianza tienen la ventaja frente a los contrastes de hipótesis de que
siempre nos dan una idea de la zona en la que se va a encontrar el verdadero valor del
parámetro poblacional, mientras que en el caso de los test, cuando se rechaza una hipótesis
nula, no se conoce el valor del parámetro en cuestión. Todo lo que se sabe es que es más
verosímil que el valor del parámetro sea mayor o menor que un valor concreto.
2.6.
TEST SOBRE UNA SÓLA MEDIA (VARIANZA DESCONOCIDA):
La aplicación de la t de Student tanto en intervalos de confianza como en test de
hipótesis, se desarrolla bajo las siguientes suposiciones: las v.a. X1,..., X n representan una
muestra aleatoria de una distribución con µ y σ
aleatoria
2
desconocidos. Entonces la variable
X −µ
tiene una distribución t de Student con n-1 grados de libertad.
S/ n
La estructura de la prueba es idéntica que para el caso de σ conocida, con la salvedad
de que el valor de σ en el estadístico de prueba se reemplaza por la estimación calculada S, y
la distribución normal se reemplaza por una distribución t.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
13
Contraste de Hipótesis
Caso bilateral
Es decir, para la hipótesis bilateral:
Ho : µ = µo
el rechazo de Ho , con un nivel de
H1: µ ≠ µ o
significación α , resulta cuando una estadística t calculada: t =
menor que − t α
2
X − µ0
excede a t α ,n −1 o es
2
S/ n
,n −1 .
Contraste bilateral (2 colas)
H 0 : µ = µ0
H1 : µ ≠ µ 0
O bien, calculando el p-valor=2P(tn-1>|t|) y comparándolo con α:
p>α se acepta la hipótesis nula, y por lo tanto µ = µ o
p<α se rechaza la hipótesis nula, y por lo tanto µ ≠ µ o
Caso unilateral
Contraste unilateral (cola de la izquierda)
H 0 : µ ≥ µ0
H1 : µ < µ 0
Para H1: µ < µ o , la región crítica está dada por t < − t α ,n −1 o bien, p-valor=P(tn-1<t)
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
14
Contraste de Hipótesis
Contraste unilateral (cola de la derecha)
H 0 : µ < µ0
H1 : µ ≥ µ 0
Para H1: µ > µ o , el rechazo resulta cuando t > t α ,n −1 o bien, p-valor=P(tn-1>t)
Se conserva la equivalencia de la prueba t de Student de bilateral para una sola media,
y el cálculo de un intervalo de confianza para µ , reemplazando σ por S.
Para muestras pequeñas (n<30), con regularidad, es difícil detectar las desviaciones de
una distribución normal.
2.2 Ejemplo:
Se hace un envío de latas de conserva, de las que se afirma que el peso medio es de 1000 g.
Examinada una muestra de 5 latas, se han obtenido los siguientes datos: media 998 g y
varianza muestral 19,6. ¿Puede mantenerse la hipótesis de que µ=1000, con un nivel de
significación α=0,05? Obtener un intervalo de confianza al 95% para la media.
Solución:
Contrastamos la hipótesis
H 0 : µ =1000
H1 : µ ≠ 1000
Datos:=
n 5;=
X 998 ; =
S2 19, 6; 1 −=
α 0.95
t=
X − µ0
998 − 1000
=
=1,009511502
S/ n
4, 43 / 5
Buscaremos un valor t α /2 tal que P ( − t α /2 < t n −1 < t α /2 ) = 1 − α , siendo n-1 los grados
de confianza.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
15
Contraste de Hipótesis
DERIVE:
#1: NSOLVE(STUDENT(t, 4) = 0.975, t)
#2:
t = 2.776445150
EXCEL: =INV.T(0,975;4) 2,77645086, o bien, =INV.T.2C(0,05;4)
SPSS: IDF. T(0.975,4)
2,77644511
Puesto que t = 1,0095<2,7764, podemos ACEPTAR que la media es 1000 g.
WOLFRAMALPHA:
t-interval xbar=998, s=4.43, n=5
Tenemos una muestra pequeña (n=5) de varianza desconocida:
S
S 

Iα =
, X + t α / 2,n −1
 X − t α / 2,n −1

n
n

Datos:=
n 5;=
X 998 ; =
S2 19, 6; 1 −=
α 0.95; t 0,025;4
= 2, 776
4.43
4.43 

⇒ Iα=0.25 = 998 − 2.776
,998 + 2.776
 =( 992.48,1003.51)
5
5 

Obviamente se cumple que la media=
µ 1000 ∈ ( 992.48,1003.51)
2.7.
TEST SOBRE DOS MEDIAS
2.7.1.
Varianzas conocidas
Los test referidos a dos medias representan un conjunto de herramientas analíticas
muy importantes para científicos e ingenieros.
Dos muestras aleatorias independientes de tamaños n1 y n2, respectivamente, se
obtienen de dos poblaciones con medias y varianzas respectivas µ1,µ 2 y σ21 , σ22 . Se sabe que
la v.a. Z =
X1 − X 2 − ( µ1 − µ 2 )
σ12 σ22
+
n1 n 2
tiene una distribución N(0,1).
Si σ1 = σ 2 = σ , el estadístico anterior se reduce a: Z =
X1 − X 2 − ( µ1 − µ 2 )
1 1
σ
+
n1 n 2
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
.
16
Contraste de Hipótesis
Estos dos estadísticos sirven como base para el desarrollo de los procedimientos de
prueba sobre dos medias.
La hipótesis nula sobre dos medias puede escribirse:
H 0 : µ1 − µ 2 = d 0
La alternativa puede ser unilateral o bilateral. De nuevo, la distribución utilizada es la
distribución del estadístico de prueba H0. Se calculan los valores X1 y X 2 , para σ1 y σ2 , el
estadístico de prueba es:
z=
X1 − X 2 − d 0
σ12 σ22
+
n1 n 2
con una región crítica de dos colas en el caso de una alternativa de dos lados. Es decir, el
rechazo de H0 en favor de H1 : µ1 − µ 2 ≠ d 0 si z > zα 2 ó z < −zα 2 . Las regiones críticas de
una cola se utilizan en el caso de las alternativas unilaterales.
2.3 Ejemplo
90 teodolitos son llevados a reparar a dos talleres distintos. 50 de ellos al taller A
donde los repararon en un tiempo medio de 150 días con una desviación típica de 30 días. Los
40 restantes al taller B, siendo reparados en un tiempo medio de 160 días con una desviación
típica de 25 días. Suponiendo que las varianzas son conocidas, ¿se puede considerar que el
taller A es más adecuado que el B para conseguir una reparación más rápida?
Solución:
Queremos comparar las medias de dos poblaciones normales de varianzas conocidas.
H0 : µA ≤ µB
H1 : µ A > µ B
El estadístico de prueba es:
XA − XB
σ
σ
+
nA nB
2
A
2
B
, luego
H0 : µA − µB ≤ 0
H1 : µ A − µ B > 0
= z sustituyendo los valores
150 − 160
302 252
+
50 40
= −1.72 .
Estableciendo la hipótesis de la distribución normal.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
17
Contraste de Hipótesis
Calculamos el p-valor = P(Z > -1,72)
DERIVE:
#1: 1-NORMAL(-1.72)
#2:
0.9572837792
EXCEL
=1-DISTR.NORM.ESTAND(-1,72)
0,95728378
WOLFRAMALPHA:
Probability -1.72<x normal distribution, mean=0, sd=1
0,957284
Se ACEPTA la hipótesis nula para cualquier valor de α <0,95728378
2.7.2. Varianzas desconocidas
Lo más frecuente es que se desconozcan las varianzas.
Si el científico está dispuesto a asumir que ambas distribuciones son normales, y que
σ1 = σ 2 = σ , puede utilizarse la prueba t combinada (prueba t de dos muestras). El estadístico
de prueba es:
t=
X1 − X 2 − d 0
Sp
S12 (n1 − 1) + S22 (n 2 − 1)
, siendo S =
n1 − 1 + n 2 − 1
2
p
1 1
+
n1 n 2
Se utiliza la distribución t - Student con n1+n2-2 grados de libertad y la hipótesis
bilateral no se rechaza cuando:
−t α
2
,n1 + n 2 − 2
< t < tα
2
,n1 + n 2 − 2
Las alternativas unilaterales sugieren regiones críticas unilaterales.
2.4 Ejemplo:
Se utilizan dos teodolitos para hacer ciertas determinaciones, pretendiendo averiguar si
la media de los errores cometidos con uno y otro es idéntica para un nivel de significación del
5%. Se hacen 20 determinaciones con el teodolito A y se obtiene una media de 0,4 errores y
una desviación típica de 0,2 y otras 20 determinaciones con el B obteniendo una media de 0,5
y una desviación de 0,3. Suponemos que las variables error son normales y con la misma
varianza. Comparar los dos teodolitos.
Solución:
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
18
Contraste de Hipótesis
Queremos comparar las medias de dos poblaciones normales de varianzas desconocidas pero
iguales y muestras pequeñas.
H 0 : µ A =µ B
H1 : µ A ≠ µ B
, luego
El estadístico de prueba es:
=
S2
t
=
H0 : µA − µB = 0
H1 : µ A − µ B ≠ 0
xA − xB
1
1
S
+
nA nB
= t siendo
(n A − 1)S2A + (n B − 1)S2B 19 ⋅ 0.22 + 19 ⋅ 0.32
= = 0.065 con lo cual
(n A − 1) + (n B − 1)
19 + 19
xA − xB
=
1
1
S
+
nA nB
0.4 − 0.5
= 1.24 y para α=0.05, t α
= t 0.025,38 =2
,n + n − 2
2 1 2
1 1
0.065
+
20 20
DERIVE:
#1: NSOLVE(STUDENT(x, 38) = 0.975, x, Real)
#2:
x = 2.024394161
EXCEL: =INV.T.2C(0,05;38)
2,02439415
Como 1.24 < 2 admitimos la hipótesis de igualdad de medias.
O bien, calculando el p-valor=2P(tn-1>|1.24|)=0.2226 > α:
WOLFRAMALPHA: 2Probability X>1.24, tudentTdistribution degrees of freedom 38
2.8.
PRUEBAS RELACIONADAS CON VARIANZAS
PUEBA PARA UNA MUESTRA
Sea X1, X2,…,Xn una muestra aleatoria de una distribución Normal con media µ desconocida
y varianza σ2 desconocida.
Contemplamos primero el problema de probar la hipótesis nula Ho de que la varianza
poblacional σ 2 es igual a un valor especificado σ o2 .
H 0 : σ 2 = σ 02
Ahora, se nos plantean tres posibles hipótesis alternativas:
H 1 : σ 2 < σ 02 ;
H 1 : σ 2 ≠ σ 02 ;
H 1 : σ 2 > σ 02
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
19
Contraste de Hipótesis
El estadístico apropiado sobre el que se basa la decisión es el estadístico chi-cuadrado
utilizado para determinar un intervalo de confianza para σ 2 . Por tanto, si suponemos que la
distribución de la población que está siendo muestreada es normal, el valor chi-cuadrado para
probar σ 2 = σ o2 está dado por:
(n − 1)S2
(n − 1)S2
2
≡ χ n −1 ⇒
≡χ
σ2
σ02
donde n es el tamaño de la muestra, S2 es la varianza muestral y σ o2 es el valor de σ 2 dado
por la hipótesis nula. Si Ho es verdadera, χ es un valor de la distribución chi-cuadrado con n
-1 grados de libertad.
Caso bilateral
De aquí que, para una prueba de dos colas con un nivel de significación α , la región crítica es
χ < χ12−α / 2 y χ > χα2 / 2 .
Contraste bilateral (2 colas)
( (
) (
H0 :σ = σ 0
H1 : σ ≠ σ 0
O bien, calculando el p-valor = 2 mín P χ n −1 < χ ,P χ n −1 > χ
2
2
) ) y comparándolo con α:
p > α se acepta la hipótesis nula, y por lo tanto σ 2 = σ o2 .
p < α se rechaza la hipótesis nula, y por lo tanto σ 2 ≠ σ o2 .
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
20
Contraste de Hipótesis
Caso unilateral
Contraste unilateral (cola de la izquierda)
H0 :σ ≥ σ 0
H1 : σ < σ 0
Para la alternativa unilateral σ 2 < σ o2 , la región crítica es χ < χ1−α .
(
)
O bien, calculando el p-valor = P χ n −1 < χ y comparándolo con α:
2
p > α se acepta la hipótesis nula, y por lo tanto σ ≥ σ 0 .
p < α se rechaza la hipótesis nula, y por lo tanto σ < σ 0 .
Contraste unilateral (cola de la derecha)
H0 :σ < σ 0
H1 : σ ≥ σ 0
Para la alternativa unilateral σ 2 > σ 02 , la región crítica es χ > χα .
(
)
O bien, calculando el p-valor = P χ n −1 > χ y comparándolo con α:
2
p > α se acepta la hipótesis nula, y por lo tanto σ ≤ σ 0 .
p < α se rechaza la hipótesis nula, y por lo tanto σ > σ 0 .
Para probar una hipótesis acerca de una varianza poblacional, se procede siguiendo
los mismos 6 pasos básicos indicados antes.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
21
Contraste de Hipótesis
2.5 Ejemplo:
Se desea contrastar si puede suponerse razonablemente que en un nuevo proceso de
fabricación de filamentos la varianza del grosor es de 4 milímetros. Para ello se toma una
muestra de 28 filamentos que arroja una varianza muestral de 2 milímetro. Suponiendo la
variable normal, contrastar la hipótesis en los grosores de los filamentos a un nivel de
significación de 0,05.
Solución:
Se trata de realizar un contraste bilateral para la varianza poblacional con media desconocida
suponiendo normalidad.
H 0 : σ2 =σ02 =4
H1 : σ2 ≠ σ02 =4
(n − 1)S2
≡ χ 2n −1
Sabemos que:
2
σ
En nuestro caso
=
χ
(n − 1)S2 27 ⋅ 2
= = 13,5
σ02
4
Por otro lado, los valores críticos para α=0,05 y n=28
χα
2
,n −1
=
χ0.025,27
χ
α
1− ,n −1
2
χ
χ0.975 =
14,57
=
χ0.975,27
2
27
χ0.025 =
43,19
Para α = 0,05 ⇒ P(χ 227 ≤ χ0.975,27
=
) 0.025 ⇒ χ 0.975,27
= 14,57
Para α = 0,05 ⇒ P(χ 227 ≤ χ0.025,27
=
) 0.975 ⇒ χ0.025,27
= 43,19
siendo 13,5 menor que 14,57 RECHAZAMOS la hipótesis nula de que la varianza del grosor
de los filamentos es 4 milímetros.
EXCEL: = INV.CHICUAD(0,025;27)
14,75; INV.CHICUAD (0,975;27) 43,19
SPSS: IDF.CHISQ(0.025,27)
14,75; IDF.CHISQ(0.975,27)
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
43,19
22
Contraste de Hipótesis
( (
) (
))
13.5
0.02865 < α
O bien, calculando el p-valor = 2 mín P χ n −1 < 13.5 ,P χ n −1 >=
2
2
WOLFRAMALPHA: 2Probability X<13.5, Chi Square Distribution degrees of freedom 27
Al rechazar la hipótesis nula, aceptamos la hipótesis alternativa de que la varianza no es
4; pero podemos plantearnos si es menor que 4 o mayor que 4.
Solución:
Ahora se trata de realizar un contraste unilateral para la varianza poblacional con media
desconocida suponiendo normalidad.
H 0 : σ2 < σ02 =4
H1 : σ2 ≥ σ02 =4
Sabemos que:
(n − 1)S2 27 ⋅ 2
(n − 1)S2
2
= = 13,5
≡
χ
⇒
n −1
4
σ02
σ2
El valor crítico para α = 0,05 y n=28
χα ,n −1 =
χ0.05,27
Para α = 0,05 ⇒ P(χ 227 ≤ χ 0.05
=
) 0.95 ⇒ χ =
40.11
0.05
EXCEL: = INV.CHICUAD(0,95;27)
40,11
SPSS: IDF.CHISQ(0.95,27)
40.11
WOLFRAMALPHA: Chi Square Distribution degrees of freedom 27
PERCENTIL 0.95
40.1133
siendo 13,5 menor que 40,11 ACEPTAMOS la hipótesis nula de que la varianza del grosor
de los filamentos es menor de 4 milímetros.
(
)
=
13.5 0.98567 > α
O bien, calculando el p-valor = P χ n −1 >
2
WOLFRAMALPHA: 2Probability X<13.5, Chi Square Distribution degrees of freedom 27
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
23
Contraste de Hipótesis
HOMOCEDASTICIDAD
PUEBA PARA DOS MUESTRAS
Considérese ahora el problema de probar la igualdad de varianzas σ1 y σ 2 , de dos
2
2
poblaciones. Esto es, debe probarse la hipótesis nula Ho de que σ1 = σ 2 en contraposición
2
2
a una de las alternativas usuales σ1 < σ 2 , σ1 > σ 2 ó σ1 ≠ σ 2 .
2
2
2
2
2
2
Para muestras aleatorias independientes de tamaños respectivos n1 y n2 , de las dos
poblaciones, el valor f para probar
σ12
= σ 22
s12
2
2
es la razón f = 2 donde s1 y s2 son las
s2
varianzas calculadas a partir de las dos muestras. Si las dos poblaciones tienen distribuciones
aproximadamente normales, y la hipótesis nula es verdadera, de acuerdo en resultados
obtenidos, la relación f es un valor de la distribución F de Snedecor con n1-1 y n2-1 grados de
libertad. Por tanto, las regiones críticas, con nivel de significación α correspondientes a las
alternativas unilaterales σ1 < σ 2 y σ1 > σ 2 son respectivamente, f < F1−α ,n −1,n
2
2
2
2
1
2 −1
y
f > Fα ,n1 −1,n 2 −1 .
2
2
Para la alternativa bilateral σ1 ≠ σ 2 , la región crítica es f < F
α
1− ,n1 −1,n 2 −1
2
f > Fα
2
,n1 −1,n 2 −1
y
.
2.6 Ejemplo:
Se pretende comparar dos métodos de eliminación de observaciones. Se seleccionan
una muestra de 50 series con observaciones aberrantes y a 25 de ellas se le aplica el método A
y a las otras 25 el B. Los resultados obtenidos son los siguientes:
Método A
: x A 4,3;
=
=
SA 1, 4
Método B
: x B 3,=
=
6; SB 1,1
Suponiendo la variable normal, contrastar la hipótesis de igualdad de medias a un nivel de
significación α = 0,05.
Solución:
Debemos en primer lugar contrastar la hipótesis de igualdad de varianzas
H 0 : σA2 =σ2B
H1 : σ2A ≠ σ 2B
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
24
Contraste de Hipótesis

S2A 
∈ F α
, Fα

2
SB  1− 2 ,n A −1,n B −1 2 ,n A −1,n B −1 
S2A 1.42
=
=
1.62 ∈ ( F0.975,24,24 , F0.025,24,24 ) =
( 0.44, 2.27 )
S2B 1.12
DERIVE:
#1: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.975, x, 0, 1)
#2:
x = 0.4405911279
#3: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.025, x, 0, 5)
#4:
x = 2.269129557
EXCEL:
=INV.F(0,975;24;24)
0,44066972;=INV.F(0,025;24;24)
2,26927455
SPSS:
IDF.F(0.975,24,24)
.44;IDF.F(0.025,24,24)
2.27
0,44 < 1,62 < 2,27 y por tanto aceptamos la hipótesis de varianzas iguales.
Contrastamos ahora la igualdad de medias de dos poblaciones normales de varianzas
desconocidas pero iguales y muestras pequeñas.
H 0 : µ A =µ B
H1 : µ A ≠ µ B
X A − XB
El estadístico de prueba es:
=
S2
1
1
S
+
nA nB
= tα
2
,n A + n B − 2
siendo
(n A − 1)S2A + (n B − 1)S2B 24 ⋅1.42 + 24 ⋅1.12
= = 1.585 con lo cual
(n A − 1) + (n B − 1)
24 + 24
X A − XB
=
1
1
S
+
nA nB
4.3 − 3.6
= 1.966 y para α = 0,05, t0.025,48=2
1 1
1.585
+
25 25
DERIVE:
#1: NSOLVE(STUDENT(x, 48) = 0.975, x, Real)
#2:
x = 2.010634765
SPSS: IDF.T(0.975,48)
2.01
EXCEL: =INV.T.2C(0,05;48)
2,01063472
Como 1.93 < 2 admitimos la hipótesis de igualdad de medias.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
25
Contraste de Hipótesis
2.9.
TEST DE BONDAD DE AJUSTE.
Hasta ahora, hemos estudiado aspectos o planteamientos, de un problema que, de
forma general, trata de tomar decisiones sobre alguna característica de la población, a partir
del estudio de una muestra de dicha población.
El problema que vamos a tratar es el de la conformidad de una distribución
experimental y una distribución teórica; esto es, sustituir la distribución experimental
(distribución de la muestra de la población), el histograma, o la distribución de frecuencias,
por una distribución teórica conocida.
Se trata ahora de ajustar una distribución experimental a una distribución teórica; es
decir, ver si de los resultados obtenidos en una muestra de una población, podemos suponer
que la población sigue una determinada distribución.
Según sea el histograma o la tabla de frecuencias de la muestra, hacemos una
hipótesis sobre la distribución de la población, que estudiaremos en un test de ajuste que
mide la bondad de ajuste.
Sea n el tamaño de la muestra y agrupamos en k clases, y sea ni la frecuencia absoluta
observada de la clase i. A partir de la muestra estimamos los parámetros de la población
teórica, y una vez obtenidos éstos, calculamos la probabilidad pi que le corresponde a cada
intervalo i. Las correspondientes frecuencias absolutas teóricas (esperadas) serán npi.
Sean:
n = tamaño de la muestra
k = número de clases
ni = frecuencia absoluta de la clase i
pi = probabilidad de cada clase según la distribución teórica
npi = frecuencia absoluta de cada clase según la distribución teórica
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
26
Contraste de Hipótesis
h = número de parámetros estimados a partir de la muestra
λ = número de grados de libertad
Las frecuencias observadas en la distribución de una muestra, se emplean para poner a
prueba, la hipótesis de que la población de la cual se ha obtenido la muestra, no difiere en
distribución, de la de alguna distribución conocida.
Si la hipótesis fuese cierta, las discrepancias entre las frecuencias absolutas
observadas ni y las frecuencias absolutas esperadas npi, no deben ser grandes.
Supuesta conocida la distribución de Y. La hipótesis H0 tiene la forma: la población X
de la cual se obtuvo la muestra tiene la misma distribución que la población Y, formulamos la
hipótesis alternativa H1 las poblaciones X e Y no tienen la misma distribución.
Una medida de las discrepancias en este sentido, fue estudiada por Pearson
k
construyendo el siguiente estadístico:
D=∑
i =1
( n i − np i ) 2
, y demostró que, para
np i
n ≥ 30 y np i ≥ 5 ⇒ D ≈ χ 2k − h −1 , esto es, la variable D sigue una distribución ji-cuadrado con
λ = k - h - 1 grados de libertad.
Para aplicar correctamente el test, las frecuencias teóricas de las diferentes clases
deben ser mayor o igual que cinco, por lo que en caso de que no lleguen, se agrupan
previamente.
La prueba de bondad (o chi-cuadrado) es una herramienta muy importante, debido
sobre todo a que muchos procedimientos estadísticos en la práctica dependen, en un sentido
teórico, de la suposición de que los datos recogidos surgen de un tipo de distribución
específica. La suposición de normalidad se hace con bastante frecuencia.
(
)
Fijado un nivel de significación α, buscamos un valor χ α tal que P χ 2λ ≥ χ α = α
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
27
Contraste de Hipótesis
χα ≤ D
D < χα
χα
Si D < χα aceptamos la hipótesis H0 de conformidad con el ajuste, siendo las
diferencias n i − np i debidas al azar.
Si D ≥ χα rechazamos la hipótesis H0 , las diferencias n i − np i son significativas y
por tanto, las distribuciones son distintas.
En el caso de no fijar un valor concreto del valor de α, buscaremos el p-valor
p = P(χλ2 ≥ D)
Se define como el mínimo nivel de significación para el que, con los datos de una muestra
concreta, se tendría que rechazar H0
D⇒p>α
En general, cuanto más próximo a 1 sea p con mayor evidencia se habrá de aceptar H0 .
A título orientativo,
Si p>0.05 no existe suficiente evidencia para rechazar H0.
Si 0.01<p<0.05 existe incertidumbre entre rechazar o no rechazar H0.
Si p<0.01 en general deberá ser rechazada la hipótesis H0,
Si se ha fijado de antemano un nivel de significación α, se acepta H0, si p>α, y se
rechaza H0 si p< α
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
28
Contraste de Hipótesis
Observaciones acerca de D.
1º El valor D es más grande a medida que la distribución experimental se separa más de la
teórica.
2º El número de intervalos se pueden fijar libremente siempre y cuando se verifique np i ≥ 5 .
3º En general, D crece si crece el nº de intervalos, aunque la distribución teórica se ajuste
bien. Puede darse el caso de rechazar H0 para un nº de intervalos k, y aceptar para un nº
menor de k intervalos.
2.7 Ejemplo:
De un experimento se ha obtenido la siguiente distribución de frecuencias:
x
<1
1a2
2a3
3a4
4a5
5a6 6a7
7a8
8a9
>9
ni
0
5
19
91
202
217
16
5
0
95
Ajustar a una distribución normal con un nivel de significación del 0.05.
Solución:
ei −1 − ei
xi
<1
ni
ni xi
ni xi2
240
Histograma de frecuencias
0
200
1-2
1.5
5
7.5
11.25
2-3
2.5
19
47.5
118.75
3-4
3.5
91
318.5
1114.75
4-5
4.5
202
909.0
4090.50
5-6
5.5
217
1193.5
6564.25
6-7
6.5
95
617.5
4013.75
7-8
7.5
16
120.0
900.00
8-9
8.5
5
42.5
361.25
160
n
120
80
40
0
>9
∑
0
650
0
3256.0
2
4
6
8
17174.5
Utilizando las fórmulas, ya conocidas:
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
29
10
Contraste de Hipótesis
2
17174.5  3256 
−
σ =
.
 = 133
 650 
650
3256
X=
≅5
650
S=
σ = 1153
.
2
650
σ = 1154
.
; resulta una distribución estimada:
649
N( 5 , 1.154 )
( n i − npi )
e i−1 − e i
pi = F(ei ) − F(ei −1) )
ni
npi
2
npi
<3
24
0.0415386
27.00
0.333333
3-4
91
0.193093-0.0415386=0.1515544
98.51
0.572531
4-5
202
0.5-0.1515544=0.306907
199.49
0.031581
5-6
217
0.806907-0.5=0.306907
199.50
1.535087
6-7
95
0.958461-0.806907=0.151554
98.50
0.124365
>7
21
1-0.958461=0.041539
27.00
1.333333
sumatorio
650
1
650.00
D=3.930230
Quedan 6 intervalos y hemos calculado 2 parámetros (media y varianza) luego
λ = k - h - 1 = 6 – 2 – 1= 3 grados de libertad.
Para α = 0,05
⇒ P(χ32 ≥ χ0.05
=
) 0.05 ⇒ χ=
7.8147 siendo D = 3.9 menor que
0.05
χ 0.05 aceptamos la hipótesis de ser el ajuste bueno.
EXCEL: = INV.CHICUAD.CD(0,05;3)
7,8147
O bien, utilizando el p-valor:
0.2691 > 0,05 = α
EXCEL: = DISTR.CHI(3.9,3)
WOLFRAMALPHA: Probability 3.9<X, Chi Square Distribution degrees of freedom 3
0.26912275
2.8 Ejemplo:
Se puede admitir la distribución uniforme de valores angulares en una triangulación de primer
orden de un país en la que se ha tomado una muestra de tamaño 100 y se han obtenido los
siguientes resultados:
x
< 40
40-50
50-60
60-70
>70
ni
16
22
20
19
23
Solución:
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
30
Contraste de Hipótesis
Según la ley de la distribución uniforme, la probabilidad teórica de cada clase es igual a la
unidad dividida por el número de clase: 1/5=0,2
x
< 40
40-50
50-60
60-70
>70
ni
16
22
20
19
23
pi
0,2
0,2
0,2
0,2
0,2
npi
20
20
20
20
20
( n i − npi )
2
(16 − 20 )
npi
2
( 22 − 20 ) ( 20 − 20 )
2
20
20
2
(19 − 20 ) ( 23 − 20 )
20
2
20
2
20
(n i − npi ) 2
D ∑
=
= 1,5
npi
i =1
k
Utilizando el p-valor:
DERIVE: 1 - CHI_SQUARE(1.5,4)=
EXCEL: = DISTR.CHI(1,5;4)
0.8266414672> 0,05 = α
0,826641> 0,05 = α
SPSS: 1 - CDF.CHISQ(1.5,4)
.83> 0,05= α
WOLFRAMALPHA: Probability 1.5<X, Chi Square Distribution degrees of freedom 4
0.826641
Aceptamos la hipótesis de ser el ajuste bueno. La diferencia entre la distribución empírica y
la ley de la distribución uniforme no es significativa.
Directamente con SPSS creamos la variable v1 y en datos>>ponderar casos
Reconoce la columna de frecuencias absolutas.
Escogemos analizar>>pruebas no paramétricas>>chi cuadrado
35,0
45,0
55,0
65,0
75,0
Total
Observed
N
16
22
20
19
23
100
Expected
N
Residual
20,0
-4,0
20,0
2,0
20,0
,0
20,0
-1,0
20,0
3,0
Test Statistics
V1
Chi-Square(a) 1,500
df
4
Asymp. Sig.
,827
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
31
Contraste de Hipótesis
Aplicaciones de la Prueba chi-cuadrado:
Test de independencia
Se trata de contrastar si dos variables CUALITATIVAS son independientes (es decir, si
existe relación entre ellas), o no.
H0: X e Y son independientes
H1: X e Y no son independientes
Supongamos que de una población se han observado dos características X e Y,
obteniéndose una muestra bidimensional (x ,y ), (x ,y ),…, (x ,y ). Se desea contrastar si X e
1 1
2 2
n n
Y son independientes o no.
Para ello, se divide el conjunto de los posibles valores de X en r clases disjuntas, A1, A2,…, Ar
y los de Y en k clases disjuntas, B1, B2 ,…, Bk, obteniendo k r clases con frecuencia nij, dando
lugar a una tabla de doble entrada (tabla de contingencia):
Muestra
A1
A2
…….
Ar
Total
B1
n11
n12
…
n1r
n1.
B2
n21
n22
…
n2r
n2.
…
…
…
…
…
…
Bk
nk1
nk2
…
nkr
nk.
Total
n.1
n.2
….
n.r
n
Buscamos las frecuencias esperadas de cada casilla (eij):
pij =P ( A j ∩ Bi ) =P ( A j ) ⋅ P ( Bi ) =
Sobre una muestra de tamaño n, será: eij = npij = n
n . j n i.
⋅
n n
n . j n i. n i. ⋅ n . j
⋅ =
n n
n
Al Igual que para el test de Bondad el estadístico de contraste
r
k
D = ∑∑
=j 1 =i 1
(O
ij
− eij )
2
eij
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
32
Contraste de Hipótesis
2
nn 

n − i. . j 
r
k  ij
n 
En nuestro caso: D = ∑∑ 
con (k-1)(r-1) grados de libertad
n i.n . j
=j 1 =i 1
n
2.9 Ejemplo:
Hemos preguntado a un grupo de 100 hombres y 100 mujeres si fumaban o no. ¿Existen
diferencias significativas entre ambos sexos?
Hombres
Mujeres
TOTAL:
Fuma
25
35
60
No fuma
75
65
140
TOTAL:
100
100
200
Solución:
¿Qué debería salir, si fueran independientes?
Hombres
Fuma
No fuma
TOTAL:
Mujeres
TOTAL:
25 (30)
35(30)
60
75(70)
65(70)
140
100
200
100
H : X e Y son independientes
o
H : X e Y no son independientes
1
Comparamos frecuencias observadas (O ) y esperadas (e )
i
r
k
D = ∑∑
=j 1 =i 1
(O
i
ij
− eij )
2
eij
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
33
Contraste de Hipótesis
( 25 − 30 )
D=
30
2
( 35 − 30 )
+
30
2
( 75 − 70 )
+
2
70
( 65 − 70 )
+
70
2
= 2,38
La idea es RECHAZAR la hipótesis, si los valores observados difieren demasiado de los
esperados.
Para ello, utilizamos la prueba de la chi-cuadrado con n=1 grado de libertad.
El número de grados de libertad es igual al número de frecuencias de casillas que se pueden
rellenar libremente conocidos los totales.
En general, será el número de columnas menos 1 por el número de filas menos 1: (c-1)(f-1).
p − valor = P(χ 2n =1 ≥ 2.38) = 0,12289758
Utilizando el p-valor:
EXCEL: = DISTR.CHI(2,38;1)
0,1228975
SPSS: 1 - CDF.CHISQ(2,38,1)
.12
WOLFRAMALPHA: Probability 2.38<X , Chi Square Distribution degrees of freedom 1
0.1228975482
Aceptamos la hipótesis de independencia para cualquier valor de α inferior al p-valor.
Aplicaciones de la Prueba Chi-cuadrado:
Prueba de Homogeneidad
Consiste en comprobar si varias muestras de un carácter cualitativo proceden de la misma
población o que las distribuciones de la variable observada es la misma en todas las
poblaciones
H0: m poblaciones homogéneas
H1: al menos una población es heterogénea
Supongamos que se dispone de m muestras aleatorias simples de otras tantas poblaciones
cuyos tamaños son, respectivamente, n1, n2,…, nm. Se desea contrastar si los datos (todos
juntos) provienen de la misma población o, por el contrario, se trata de poblaciones
heterogéneas con diferentes distribuciones.
Para ello, se divide el conjunto de los posibles valores de A en r clases disjuntas y nij,
representa el número de observaciones de la muestra i que pertenece a la clase Aj según
vemos en una tabla de doble entrada (tabla de contingencia):
Muestra
A1
A2
…….
Ar
Total
1
n11
n12
…
n1r
n1
2
n21
n22
…
n2r
n2
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
34
Contraste de Hipótesis
…
…
…
…
…
…
m
nm1
nm2
…
nmr
nm
Total
n.1
n.2
….
n.r
n
La hipótesis de que las m poblaciones son homogéneas, se traduce en que cada conjunto Aj
debe tener una probabilidad teórica pj, desconocida, pero que no varía de la población i a la
población i’
e=
n i p=j n i ⋅
ij
n. j
n
Al Igual que para el test de Bondad el estadístico de contraste
r
m
D = ∑∑
=j 1 =i 1
(O
ij
− eij )
2
eij
2
n i n. j 

n
−
ij
r m 
n 
En nuestro caso: D = ∑∑ 
con (m-1)(r-1) grados de libertad
n
n
i .j
=j 1 =i 1
n
2.10 Ejemplo:
Queremos saber si las cuatro muestras obtenidas proceden de la misma población con
probabilidad del 95%. Es decir, si la proporción de aprobados y suspensos es homogénea.
A
B
C
D
Aprobados
56
60
62
59
No aprobados
44
40
38
41
Solución:
H : p = p11 = p12 = p13 = p14
o
H : pij distinto de p para algún grupo
1
Se calculan las frecuencias esperadas
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
35
Contraste de Hipótesis
ei1 =n i p1 =n i ⋅
n .1
237
=100 ⋅
=59,25 ≥ 5
n
400
Que coinciden para los cuatro grupos por ser el mismo tamaño muestral ni = 100
ei2 =n i p 2 =n i ⋅
n .2
163
=100 ⋅
=40,75 ≥ 5
n
400
Calculamos el valor del estadístico
2
n i n. j 

n
−
2
2
2
ij

r m
56 − 59,25 ) ( 60 − 59,25 ) ( 62 − 59,25 )
n 
(

D = ∑∑
=
+
+
+
n i n. j
59,25
59,25
59,25
=j 1 =i 1
n
( 59 − 59,25)
+
59,25
= 0,7765784
2
( 44 − 40,75)
+
2
40,75
( 40 − 40,75)
+
40,75
2
( 38 − 40,75)
+
40,75
2
( 41 − 40,75)
+
2
40,75
=
Ajustamos a una distribución de Pearson con 3 grados de libertad
En general, será el número de columnas menos 1 por el número de filas menos 1: (c-1)(f-1).
p − valor = P ( χ 2n =3 ≥ 0,7765784 ) = 0,85506
Utilizando el p-valor:
DERIVE: 1 - CHI_SQUARE(0.7765784,3)=
0.8550605738
EXCEL: = DISTR.CHI(0.7765784;3) 0,8555061
SPSS: 1 - CDF.CHISQ(0.7765784,3)
.86
WOLFRAMALPHA:
Probability 0.7765784<X, Chi Square Distribution degrees of freedom 3
0.8550605738
Por ser próximo a 1 ACEPTAMOS la hipótesis y las muestras proceden de la misma
población.
Unidad Docente de Matemáticas de la E.T.S.I.T.G.C. de la U.P.M.
36
Descargar