Subido por Farim Argaez

Metodologia para solución de prueba de hipótesis (1)

Anuncio
Metodología para la solución de problemas sobre pruebas de hipótesis
Básicamente existen dos grupos para la prueba de hipótesis: para muestras grandes y muestras pequeñas y a la
vez cada tipo de muestra puede tener 3 tipos de prueba de significancia (cola superior, inferior y de 2 colas).
Prueba de cola
superior
>
Muestras grandes
n es mayor de 30
Prueba de cola
inferior
<
Prueba de dos colas
≠
Prueba de hipótesis
Prueba de cola
superior
>
Muestras pequeñas
n es menor de 30
Prueba de cola
inferior
<
Prueba de dos colas
≠
En todos los casos se utilizará la distribución normal (tabla z) solamente se utilizará la distribución t (tabla t)
cuando la muestra sea pequeña y se desconozca la desviación estándar poblacional.
Las distribuciones que se analizarán son: Distribución muestral para las medias y distribución muestral para la
proporción. En sí, lo que cambiará de una a otra es en cálculo del error estándar.
Los pasos para la solución suelen variar con cada autor, los siguientes son los que se tomarán para la solución
de las actividades a realizar referentes al tema.
Primer método de solución (utilizando escala estandarizada)
1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del enunciado y
verificar si la desviación estándar poblacional se conoce.
Puede ser una distribución muestral para la medias o una distribución muestral para la proporción, La
importancia es que esto nos define que fórmula escoger para el cálculo del error estándar que se utiliza en el
paso 5:
M. en I. Agustín Efraín Rodríguez Notario
1
2. Interpretar correctamente los datos del enunciado diferenciando los parámetros (provienen de la
población) de los estadísticos (provienen de la muestra). Así mismo se debe determinar en este punto
información implícita como el tipo de muestreo y si la población es finita o infinita.
Las fómulas 6-1 y 7-4 son para poblaciones infinitas pero si la población es de tipo finita entonces hay que
multiplcarlas por lo siguiente:
En este paso ya podemos definir qué tipo de tabla usar, recuerde que si no se conoce la desviación estándar
poblacional y el tamaño de muestra es menor que 30 se emplea la tabla t. Al no conocer la desviación estándar
poblacional esta se puede estimar con la desviación estándar muestral o calcularla con los datos en el problema
con la fórmula:
3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del problema. El
ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el universo de donde
proviene la muestra. En este punto se determina el tipo de ensayo (unilateral o bilateral).
El escoger la prueba adecuada depende mucho de lo que nos piden en el problema y es lo que se pretende
evaluar acerca del parámetro, en pocas palabras es lo que se esta preguntando el investigador, si el parámetro
M. en I. Agustín Efraín Rodríguez Notario
2
va en aumento o es mayor (cola superior), si el parámetro diminuye o es menor (cola inferior) o si solo cambio
con respecto al valor original (dos colas).
Recuerde dibujar simpre en este paso y colocar todos los datos disponibles, dividir la región de rechazo de la
región de aceptación, esto depende del valor crítico que nos da de las tablas según el nivel de significancia del
problema (alfa). Cuado se trata de una prueba de dos colas este valor de alfa hay que dividirlo entre dos.
α = nivel de significancia
Región de aceptación
Región de rechazo
Valor crítico (de la tabla de z o la tabla t)
4. Establecer la regla de decisión. Esta se puede establecer en función del valor crítico, el cual se obtiene
dependiendo del valor de ∝ (Error tipo I o nivel de significancia) o en función del estadístico límite
(valor en unidades reales, segundo método) de la distribución muestral. Cada una de las hipótesis
deberá ser argumentada correctamente para tomar la decisión, la cual estará en función de la
hipótesis nula o Ho
Esta puede estar expresada según se utilice la región de aceptación o a la región de rechazo, ejemplo:
α = 0.05
Región de aceptación
Región de rechazo
Zα = 1.645
M. en I. Agustín Efraín Rodríguez Notario
3
Regla de decisión en función de la región de aceptación:
Si Zc < 1.645 no se rechaza H0
Regla de decisión en función de la región de rechazo:
Si Zc > 1.645 se rechaza H0
Zc = es la que se obtiene en el paso 5
5. Cálculo. Empleando los datos del problema se obtiene Zc o tc dependiendo que tabla se use:
La fórmula a usar dependiendo la tabla elegida es:
𝑧𝑐 =
𝑥̅ − 𝜇
𝜎
√𝑛
𝑡𝑐 =
𝑥̅ − 𝜇
𝑠
√𝑛
Si no les dan la desviación estándar poblacional entonces se puede estimar con la desviación estándar muestral.
Es importante recordar que la parte de debajo de estas fórmulas representa el error estándar y dependiendo si
es población finita o infinita, se ve afectado o no, por el multiplicador (ver paso 2)
En el caso de las proporciones la formula sería:
𝑧𝑐 =
𝑝̅ − 𝑃
𝑝𝑞
𝑛
√
6. Justificación y conclusión.
El valor obtenido en el paso 5 se coloca en la gráfica del paso 3 y se observa en que región quedo. Ejemplo:
suponga que se calculó Zc y nos dio 2.02 (ejemplo 1 de los problemas que copiaron en su libreta)
𝑧𝑐 =
𝑥̅ − 𝜇
71.8 − 70
= 2.02
𝜎 =
8.9
√𝑛
√100
α = 0.05
Región de rechazo
Región de aceptación
Zα = 1.645
Zc= 2.02
Como 2.02 >1.645 se rechaza H0 se confirma la regla de decisión del paso 4.
M. en I. Agustín Efraín Rodríguez Notario
4
La conclusión se da en base a las unidades que se estén manejando y a lo que se esté analizando en el problema,
se debe mencionar el nivel de significancia utilizado. En general la redacción de la conclusión es la siguiente:
“Se concluye con un nivel de significancia de _______, (hipótesis aceptada)”
Ejemplos:
“Se concluye con un nivel de significancia del 0.05, la vida media hoy en día es mayor que 70 años”
“Se concluye con un nivel de significancia del 0.04, la duración media de los focos no ha cambiado”
“Se concluye con un nivel de significancia del 0.05, el peso promedio de las bolsas de palomitas es de 5.5 onzas”
Segundo método de solución (en la escala de la variable original)
Los pasos que cambian son:
4. Establecer la regla de decisión. En función del estadístico límite (valor en unidades reales) de la
distribución muestral. Cada una de las hipótesis deberá ser argumentada correctamente para tomar la
decisión, la cual estará en función de la hipótesis nula o Ho
En vez de colocar el valor obtenido de la tabla (Zα) o tabla t (tα ) se calcula su valor real equivalente utilizando la
fórmula:
Puede ser (𝑧𝛼 ) ó (𝑡𝛼 )
a) Para media:
𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝜇 +
(𝑧𝛼 )(𝜎)
√𝑛
+ para cola superior
- para cola inferior
± para dos colas
Solamente (𝑧𝛼 )
a) Para proporción:
𝑝𝑞
)
𝑛
𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝑝 + (𝑧𝛼 ) (√
+ para cola superior
- para cola inferior
± para dos colas
M. en I. Agustín Efraín Rodríguez Notario
5
Ejemplo: (tomado del ejemplo 1, el cual copiaron en su libreta)
Datos:
𝜇 = 70 𝑎ñ𝑜𝑠
𝜎 = 8.9 𝑎ñ𝑜𝑠
𝑥̅ = 71.8 𝑎ñ𝑜𝑠
𝑛 = 100 𝑚𝑢𝑒𝑟𝑡𝑒𝑠
𝛼 = 0.05
𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝜇 +
(𝑧𝛼 )(𝜎)
𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 70 +
√𝑛
(1.645)(8.9)
√100
= 71.46 𝑎ñ𝑜𝑠
α = 0.05
Región de aceptación
Región de rechazo
Zα = 1.645 equivale a escala real a 71.46 años
Regla de decisión en función de la región de aceptación:
̅ < 71.46 años no se rechaza H0
Si 𝒙
Regla de decisión en función de la región de rechazo:
̅ > 71.46 años se rechaza H0
Si 𝒙
̅ = es el estadístico muestral, dato del problema
𝒙
5. Cálculo. Comparación del valor crítico con el estadístico real
Aquí ya no hay que calcular nada simplemente colocar en nuestra gráfica el dato del estadístico muestral que
nos dieron como dato y se observa en que región quedo.
α = 0.05
Región de aceptación
M. en I. Agustín Efraín Rodríguez Notario
Región de rechazo
71.46 años
71.8 años
6
6. Justificación y conclusión.
Como la media de la muestral es de 71.8 años y es mayor al valor de la media muestral límite de 71.46 años por
lo tanto se rechaza H0 y se llega a la misma conclusión.
Tercer método de solución (Utilizando el valor p)
1. Interpretar correctamente hacia que distribución muestral se ajustan los datos del enunciado y
verificar si la desviación estándar poblacional se conoce.
2. Interpretar correctamente los datos del enunciado diferenciando los parámetros (provienen de la
población) de los estadísticos (provienen de la muestra). Así mismo se debe determinar en este punto
información implícita como el tipo de muestreo y si la población es finita o infinita
3. Establecer simultáneamente el ensayo de hipótesis y el planteamiento gráfico del problema. El
ensayo de hipótesis está en función de parámetros ya que se quiere evaluar el universo de donde
proviene la muestra. En este punto se determina el tipo de ensayo (unilateral o bilateral).
4.
La regla de decisión en este método es la siguiente y es igual para todos los problemas cuando se usa
este método:
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 < 𝛼,
𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 ≥ 𝛼,
𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
5. Cálculo. Empleando los datos del problema se obtiene Zc o tc dependiendo que tabla se use
La fórmula a usar dependiendo la tabla elegida es:
𝑧𝑐 =
𝑥̅ − 𝜇
𝜎
√𝑛
𝑡𝑐 =
𝑥̅ − 𝜇
𝑠
√𝑛
Si no les dan la desviación estándar poblacional entonces se puede estimar con la desviación estándar muestral.
Es importante recordar que la parte de debajo de estas fórmulas representa el error estándar y dependiendo si
es población finita o infinita, se ve afectado o no, por el multiplicador (ver paso 2)
M. en I. Agustín Efraín Rodríguez Notario
7
En el caso de las proporciones la formula sería:
𝑧𝑐 =
𝑝̅ − 𝑃
𝑝𝑞
𝑛
√
El valor obtenido se coloca en la gráfica del paso 3. Y se calcula el valor P de acuerdo a lo siguiente:
Si la prueba es de cola superior entonces se busca el valor a la derecha de Zc o tc en la tabla de z o de t
Valor P se obtiene de
la tabla de z o t
𝑧𝑐 𝑜 𝑡𝑐
Si la prueba es de cola inferior entonces se busca el valor a la izquierda Zc o tc en la tabla de z o de t
Valor P se obtiene de
la tabla de z o t
𝑧𝑐 𝑜 𝑡𝑐
Si la prueba es de dos colas entonces se busca el valor ya sea a la derecha o izquierda de Zc o tc en la
tabla de z o de t y se multiplica por 2
Valor P se obtiene de
la tabla de z o t
Valor P se obtiene de
la tabla de z o t
𝑧𝑐 𝑜 𝑡𝑐
M. en I. Agustín Efraín Rodríguez Notario
8
En el caso de los ejemplos que copiaron en su libreta como primera actividad, los valores P son los siguientes:
Ejemplo 1.
𝑥̅ − 𝜇
71.8 − 70
=
= 2.02
𝜎
8.9
√𝑛
√100
Valor P = 0.0217
0.4785
𝑧𝑐 =
𝑧𝑐 = 2.02
𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.50 − 0.4785 = 0.0217(𝑎𝑟𝑒𝑎 𝑎 𝑙𝑎 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 2.02)
Ejemplo 2.
1
Valor P = 0.0505
1
2
Valor P = 0.0505
0.4495
𝑥̅ − 𝜇
788 − 800
𝑧𝑐 = 𝜎 =
= −1.643
40
√𝑛
√30
2
𝑧𝑐 = +1.643
𝑧𝑐 = −1.643
𝑣𝑎𝑙𝑜𝑟 𝑝 = 2(0.50 − 0.4495) = 0.1010 (𝑎𝑟𝑒𝑎 𝑎 𝑙𝑎 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 𝑑𝑒 + 1.64 𝑦 𝑎 𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 − 1.64)
ó 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.0505 + 0505 = 0.1010
6. Justificación y conclusión.
La regla de decisión en este método es la siguiente y es igual para todos los problemas:
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 < 𝛼,
𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 ≥ 𝛼,
𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
Para el ejemplo 1 Para el
𝐸𝑙ejemplo
𝑣𝑎𝑙𝑜𝑟 𝑝1 = 0.0217 𝑦 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 𝛼 = 0.05,
Para el ejemplo 2 Para
ejemplo
1 0.1010 𝑦 𝑒𝑠 𝑚𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 𝛼 = 0.04,
𝐸𝑙el𝑣𝑎𝑙𝑜𝑟
𝑝=
𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
La conclusión es la misma en los ejemplos que copiaron en su libreta.
NOTA:
Para este último método solo consideraremos los problemas que utilicen la tabla z, esto porque con la tabla t
no se pueden tener valores P exactos debido a que dicha tabla solo da unas cuantas probabilidades.
Este método es el que utilizan la mayoría de los paquetes estadísticos de computadora.
M. en I. Agustín Efraín Rodríguez Notario
9
Primer método de solución (utilizando escala estandarizada)
Ejemplo 1.
Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra
una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años,
¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de
significancia de 0.05.
Solución
Paso 1 Se trata de una distribución muestral de medias con desviación estándar poblacional
conocida.
Paso 2. Datos:
𝜇 = 70 𝑎ñ𝑜𝑠
𝜎 = 8.9 𝑎ñ𝑜𝑠
𝑥̅ = 71.8 𝑎ñ𝑜𝑠
𝑛 = 100 𝑚𝑢𝑒𝑟𝑡𝑒𝑠
𝛼 = 0.05
Paso 3. Ensayo de hipótesis
α = 0.05
𝐻0 : 𝜇 = 70 𝑎ñ𝑜𝑠
𝐻0 : 𝜇 > 70 𝑎ñ𝑜𝑠
Región de
rechazo
Región de aceptación
𝜇 = 70
Paso 4. Regla de decisión:
𝑧=0
Si Zc < 1.645 no se rechaza H0
Si Zc > 1.645 se rechaza H0
Zα = 1.645 Zc= 2.02
𝐶𝑜𝑛 𝛼 = 0.05 → 𝑧𝛼 = 1.645
Paso 5. Cálculos:
𝑧𝑐 =
𝑥̅ − 𝜇
71.8 − 70
= 2.02
𝜎 =
8.9
√𝑛
√100
Paso 6. Justificación y conclusión
Como 2.02 >1.645 se rechaza H0
“Se concluye con un nivel de significancia del 0.05, la vida media hoy en día es mayor que 70 años”
M. en I. Agustín Efraín Rodríguez Notario
10
Segundo método de solución (en la escala de la variable original)
Ejemplo 1.
Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra
una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años,
¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de
significancia de 0.05.
Solución
Paso 1 Se trata de una distribución muestral de medias con desviación estándar poblacional
conocida.
Paso 2. Datos:
𝜇 = 70 𝑎ñ𝑜𝑠
𝜎 = 8.9 𝑎ñ𝑜𝑠
𝑥̅ = 71.8 𝑎ñ𝑜𝑠
𝑛 = 100 𝑚𝑢𝑒𝑟𝑡𝑒𝑠
𝛼 = 0.05
Paso 3. Ensayo de hipótesis
α = 0.05
𝐻0 : 𝜇 = 70 𝑎ñ𝑜𝑠
Región de
rechazo
Región de aceptación
𝐻0 : 𝜇 > 70 𝑎ñ𝑜𝑠
𝜇 = 70 𝑎ñ𝑜𝑠
Paso 4. Regla de decisión:
71.46 años
71.8 años
̅ < 71.46 años no se rechaza H0
Si 𝒙
̅ > 71.46 años se rechaza H0
Si 𝒙
Paso 5. Cálculos:
𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 𝜇 +
𝐶𝑜𝑛 𝛼 = 0.05 → 𝑧𝛼 = 1.645
(𝑧𝛼 )(𝜎)
√𝑛
𝑣𝑎𝑙𝑜𝑟 𝑐𝑟í𝑡𝑖𝑐𝑜 = 70 +
(1.645)(8.9)
√100
= 71.46 𝑎ñ𝑜𝑠
Paso 6. Justificación y conclusión
Como la media de la muestral es de 71.8 años y es mayor al valor de la media muestral límite de 71.46
años por lo tanto se rechaza H0
“Se concluye con un nivel de significancia del 0.05, la vida media hoy en día es mayor que 70 años”
M. en I. Agustín Efraín Rodríguez Notario
11
Tercer método de solución (Utilizando el valor p)
Ejemplo 1.
Una muestra aleatoria de 100 muertes registradas en Estados Unidos el año pasado muestra
una vida promedio de 71.8 años. Suponga una desviación estándar poblacional de 8.9 años,
¿esto parece indicar que la vida media hoy en día es mayor que 70 años? Utilice un nivel de
significancia de 0.05.
Solución
Paso 1 Se trata de una distribución muestral de medias con desviación estándar poblacional
conocida.
Paso 2. Datos:
𝜇 = 70 𝑎ñ𝑜𝑠
𝜎 = 8.9 𝑎ñ𝑜𝑠
𝑥̅ = 71.8 𝑎ñ𝑜𝑠
𝑛 = 100 𝑚𝑢𝑒𝑟𝑡𝑒𝑠
𝛼 = 0.05
Paso 3. Ensayo de hipótesis
0.4785
Valor P = 0.0217
𝐻0 : 𝜇 = 70 𝑎ñ𝑜𝑠
𝐻0 : 𝜇 > 70 𝑎ñ𝑜𝑠
𝜇 = 70
𝑧𝑐 = 2.02
Paso 4. Regla de decisión:
Paso 5. Cálculos:
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 < 𝛼,
𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
𝑆𝑖 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 ≥ 𝛼,
𝑛𝑜 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
𝑧𝑐 =
𝑥̅ − 𝜇
71.8 − 70
= 2.02
𝜎 =
8.9
√𝑛
√100
𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.50 − 0.4785 = 0.0217(𝑎𝑟𝑒𝑎 𝑎 𝑙𝑎 𝑑𝑒𝑟𝑒𝑐ℎ𝑎 𝑑𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 2.02)
Paso 6. Justificación y conclusión
𝐸𝑙 𝑣𝑎𝑙𝑜𝑟 𝑝 = 0.0217 𝑦 𝑒𝑠 𝑚𝑒𝑛𝑜𝑟 𝑞𝑢𝑒 𝛼 = 0.05,
𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
“Se concluye con un nivel de significancia del 0.05, la vida media hoy en día es mayor que 70 años”
M. en I. Agustín Efraín Rodríguez Notario
12
Descargar