Práctica 6: Inferencia Estadística

Anuncio
Práctica 6: Inferencia Estadística
Práctica 6: Inferencia Estadística
Objetivos específicos
Al finalizar esta práctica deberás ser capaz de:
•
Contrastar la independencia de dos variables.
•
Comprender el significado del intervalo de confianza y del nivel de confianza
del intervalo.
•
Relacionar la amplitud del intervalo con el nivel de confianza y el tamaño de la
muestra.
•
Estimar de forma puntual y por intervalo de confianza la media y la varianza de
una población normal.
•
Comparar la media de una población normal con varianza conocida con un valor
de referencia.
•
Interpretar correctamente los resultados proporcionados por la función
PRUEBA.Z para el cálculo del p-valor del contraste de comparación de medias.
•
Comparar las varianzas de dos poblaciones normales independientes.
•
Comparar la diferencia de medias de dos poblaciones normales independientes,
con varianzas conocidas o no, con un valor de referencia.
•
Comparar la diferencia de medias de dos poblaciones relacionadas con un valor
de referencia.
•
Interpretar correctamente los resultados proporcionados por las funciones
PRUEBA.T y PRUEBA.F para el cálculo de los p-valores de los contrastes de
comparación de medias y varianzas, respectivamente.
1. Independencia de dos variables
En ocasiones puede resultar necesario determinar si existe alguna relación entre dos
variables observadas sobre una población. Una primera aproximación al estudio de la
independencia de estas dos variables sería mediante el análisis de la tabla dinámica
bidimensional y del diagrama de barras conjunto, como ya se hizo en la Práctica 1.
Ejemplo.- Imagina que podemos fabricar un determinado artículo en tres líneas de
producción distintas (que llamaremos línea 1, línea 2 y línea 3). El ingeniero de calidad
Isolina Alberto Moralejo
83
Práctica 6: Inferencia Estadística
está interesado en saber si alguna de las líneas produce más artículos defectuosos que
las otras, o si, por el contrario, la proporción de artículos defectuosos es la misma para
todas las líneas. Es decir, está interesado en saber si la proporción de artículos
defectuosos es independiente de la línea de producción. Para llevar a cabo el estudio, el
ingeniero de calidad recoge datos y genera el fichero Excel Líneas de producción.xls.
En este fichero, la variable Artículo indica si el artículo es correcto o defectuoso; y la
variable Línea, la línea de producción en la que se ha fabricado (ver Figura 1).
Figura 1: Vista del fichero Líneas de producción.xls
Con los datos del fichero construimos la tabla dinámica con las frecuencias relativas
condicionadas, poniendo la variable Artículo en el campo columna; y la variable Línea,
en el campo fila, obteniendo el resultado de la Figura 2 y el gráfico de la Figura 3.
Figura 2: Tabla dinámica de los datos del fichero Líneas de producción.xls
Figura 3: Gráfico de barras agrupadas de los datos del fichero Líneas de producción.xls
Isolina Alberto Moralejo
84
Práctica 6: Inferencia Estadística
Como puede observarse en el gráfico de barras agrupadas de la Figura 3, la distribución
de los artículos correctos y defectuosos es prácticamente la misma para las líneas 1 y 3,
y difiere notablemente para la línea 2, con lo que concluiríamos que la proporción de
elementos defectuosos depende de la línea de producción.
Si, como en el ejemplo, las variables tienen pocas categorías, realizar este análisis
gráfico para determinar la dependencia o independencia de las variables puede resultar
relativamente sencillo; sin embargo, cuando el número de categorías de las variables es
grande, se complica. En estos casos, se recomienda llevar a cabo un contraste chicuadrado de independencia. Esta prueba contrasta la hipótesis nula H0: Las variables X
e Y son independientes frente a la hipótesis alternativa H1: Las variables X e Y son
dependientes. El p-valor del contraste (también llamado significación) nos indicará
cómo de creíble resulta la hipótesis nula de independencia planteada a la luz de la
información proporcionada por la muestra recogida.
En el cálculo del p-valor intervienen las frecuencias conjuntas observadas, nij, (i=1,...,k;
j=1,...,h) y las frecuencias conjuntas esperadas, eij, calculadas mediante la expresión:
eij =
n i• × n • j
N
; i=1,...,k; j=1,...,h
donde ni• y n•j son las frecuencias marginales de las variables X e Y respectivamente, y
N es el tamaño de la muestra.
Nota: Las frecuencias eij se llaman frecuencias esperadas porque es el número de
observaciones que esperaríamos obtener en cada casilla de la tabla de doble entrada en
caso de que las variables X e Y fueran independientes.
Con estas frecuencias se calcula el valor del estadístico del contraste en la muestra,
denotado con X 02 :
X 02
k h
(n ij − e ij ) 2
i =1 j=1
e ij
= ∑∑
El p-valor del contraste es la probabilidad siguiente:
(
2
2
p − valor = P χ (k
−1)(h −1) ≥ X 0
Isolina Alberto Moralejo
)
85
Práctica 6: Inferencia Estadística
La regla de aceptación y rechazo de la hipótesis nula es la siguiente: si el p-valor≥α
aceptaremos H0 (concluyendo entonces que las variables son independientes); y si el pvalor<α, rechazaremos H0 (concluyendo, por tanto, que las variables son dependientes).
Nota: Para realizar la prueba de independencia, las variables continuas deberán estar
agrupadas en clases. Además, si al calcular las frecuencias esperadas eij, alguna sale
menor que 5, la deberemos agrupar con las categorías contiguas hasta obtener una tabla
en la que todas las frecuencias esperadas sean mayores o iguales que 5.
Nota: La función PRUEBA.CHI, que veremos en el siguiente apartado, calcula el pvalor del contraste de independencia. Sin embargo, esta función no calcula las
frecuencias esperadas eij, sino que son uno de los argumentos que necesita. Es por esto
por lo que deberemos calcularlas nosotros con ayuda de las funciones matemáticas
habituales de Excel una vez construida la tabla dinámica de doble entrada.
Continuando con el ejemplo anterior y como ya se ha comentado, la tabla de las
frecuencias esperadas la tenemos que construir nosotros utilizando su definición y las
funciones de Excel, obteniendo la tabla de la Figura 4.
Figura 4: Tabla de frecuencias esperadas
En este momento, estamos en disposición de utilizar la función PRUEBA.CHI, que nos
proporcionará el p-valor del contraste de independencia.
2. Función PRUEBA.CHI
Esta función devuelve el p-valor del contraste chi-cuadrado de independencia. Se
accede a ella a través de la opción INSERTAR>FUNCIÓN>ESTADÍSTICAS>
PRUEBA.CHI. La ventana de diálogo correspondiente a esta función se muestra en la
Figura 5.
Isolina Alberto Moralejo
86
Práctica 6: Inferencia Estadística
Figura 5: Ventana de diálogo de la función estadística PRUEBA.CHI
En la casilla RANGO ACTUAL deberemos introducir las frecuencias conjuntas
observadas que proporciona la tabla dinámica; y en la casilla RANGO ESPERADO,
las frecuencias esperadas obtenidas como se ha comentado en el punto anterior.
Ejemplo.- Continuando con el ejemplo anterior, contrastamos la independencia de las
variables Artículo y Línea. Para ello, introducimos los valores de las frecuencias
observadas y esperadas en las casillas RANGO ACTUAL y RANGO ESPERADO,
tal y como se muestra en la Figura 6.
Figura 6: Función PRUEBA.CHI con los datos del fichero Líneas de producción.xls
Tal y como se observa en esta misma Figura 6, el resultado de la fórmula, es decir, el pvalor del contraste de independencia, vale 5.17197×10-6, con lo que la hipótesis de
independencia se rechazará. Es decir, la proporción de artículos defectuosos producidos
sí depende de la línea de producción.
Ejercicio.- Haz el Ejercicio 1 del final de la práctica.
Isolina Alberto Moralejo
87
Práctica 6: Inferencia Estadística
3. ¿Qué representa el nivel de confianza de un intervalo?
Vamos a conectarnos a la siguiente dirección electrónica:
http://www.ruf.rice.edu/~lane/stat_sim/conf_interval/index.html
Esta dirección contiene un programa interactivo programado en lenguaje Java que nos
va a permitir comprender mejor los conceptos de intervalo de confianza y nivel de
confianza del intervalo; y a relacionar la amplitud del intervalo con el tamaño de la
muestra y el nivel de confianza. El programa genera aleatoriamente 100 muestras de
tamaño 10, 15 ó 20, de una población de media µ = 50 y desviación típica σ = 10. Con
cada una de las muestras generadas calcula dos intervalos de confianza para la media,
con niveles de confianza del 95 y 99%, mediante la expresión ya conocida
ŝ
ŝ
⎡
⎤
t n −1;1−α/2 ⎥ .
t n −1;1−α/2 , x +
⎢x −
n
n
⎣
⎦
Los
intervalos
calculados
los
representa
gráficamente mediante líneas horizontales. El intervalo al 95% lo representa con una
línea horizontal de color amarillo; y el intervalo al 99%, con una línea de color azul.
Aquellos intervalos que no contienen al verdadero valor de la media poblacional, µ =
50, los representa en rojo.
La página principal de este applet de Java aparece en la Figura 7 y funciona de la
siguiente manera. Al pinchar en el botón BEGIN, aparece una ventana como la que se
muestra en la Figura 8, donde deberemos seleccionar el tamaño de la muestra entre los
valores 10, 15 y 20. Al pinchar en el botón SAMPLE, se generarán aleatoriamente las
100 muestras del tamaño especificado.
Figura 7: Página principal del applet “Confidence Intervals”
Isolina Alberto Moralejo
88
Práctica 6: Inferencia Estadística
Con las muestras generadas se calculan los intervalos para la media de la población.
Figura 8: Ventana de diálogo del applet “Confidence Intervals”
La línea vertical que aparece en el cuadro gris de la Figura 8 es la media de la población
(µ = 50) y los intervalos obtenidos con las 100 muestras se representan gráficamente por
en ese mismo cuadro (los intervalos al 95% en amarillo y los intervalos al 99% en azul).
En la parte inferior derecha de la Figura 8 van a aparecer el número de intervalos que
contienen al valor µ = 50, el número de intervalos que no contienen al valor µ = 50 y la
proporción de intervalos que contienen al valor µ = 50. Se podrá observar que la
proporción de intervalos que contienen al valor µ = 50 está muy próxima al nivel de
confianza del intervalo.
Por ejemplo, si ejecutamos el applet con tamaño muestral igual a 10 (es decir, cada
muestra consta de 10 observaciones de una población de media 50 y desviación típica
10), la proporción de intervalos al 95% que contienen al valor µ = 50 es igual a 0.960; y
la proporción de intervalos al 99%, a 0.980 (ver Figura 9).
Figura 9: Intervalos de confianza obtenidos con tamaño muestral igual a 10
Como puede observarse en la Figura 9, al aumentar el nivel de confianza, el intervalo se
hace más grande, pero los intervalos están centrados en el mismo valor, que es
Isolina Alberto Moralejo
89
Práctica 6: Inferencia Estadística
precisamente la media de la muestra, x . Por otro lado, también podremos observar que
al aumentar el tamaño muestral, el intervalo de confianza se hace más pequeño
(comparar, por ejemplo, los resultados que se muestran en la Figura 9 y la Figura 10).
Figura 10: Intervalos de confianza obtenidos con tamaño muestral igual a 20
Así, intuitivamente, si calculamos 100 intervalos de confianza para un parámetro (con
100 muestras distintas obtenidas de la misma población), con un nivel de confianza del
95%, aproximadamente 95 de esos intervalos contendrán al verdadero valor del
parámetro y 5 de ellos no. Cuando con una única muestra de tamaño n calculamos un
intervalo, “confiaremos” en nuestra buena suerte y pensaremos que el intervalo obtenido
es uno de los 95 que sí contienen al verdadero valor del parámetro.
Ejercicio.- Haz el Ejercicio 2 del final de la práctica.
4. Función INTERVALO.CONFIANZA
Esta función estadística devuelve la semiamplitud del intervalo de confianza para la
media de una población normal de varianza conocida, es decir, el valor
σ
z1−α/2 . Para
n
obtener el intervalo de confianza para µ no tenemos más que restar y sumar esta
cantidad a la media de la muestra, x .
Para
acceder
a
esta
función,
hay
que
seleccionar
la
opción
del
menú
INSERTAR>FUNCIÓN>ESTADÍSTICAS como se muestra en la Figura 11, o bien a
través de la barra de herramientas pinchando en el botón INSERTAR FUNCIÓN,
.
Isolina Alberto Moralejo
90
Práctica 6: Inferencia Estadística
Figura 11: Menú INSERTAR>FUNCIÓN
Una vez allí seleccionamos la función INTERVALO.CONFIANZA, como se muestra
en la Figura 12.
Figura 12: Función INTERVALO.CONFIANZA
Al hacerlo, entramos en la ventana de diálogo que se muestra en la Figura 13, en la que
debemos indicar en la casilla ALFA el valor del nivel de significación, α, del intervalo;
en la casilla DESV_ESTÁNDAR el valor de la desviación típica de la población, σ; y
el tamaño de la muestra, n, en la casilla TAMAÑO.
Figura 13: Ventana de diálogo de la función INTERVALO.CONFIANZA
Isolina Alberto Moralejo
91
Práctica 6: Inferencia Estadística
Al pinchar el botón de ACEPTAR, la función nos devuelve, como ya hemos dicho, el
valor de la semiamplitud del intervalo de confianza. Para construir el intervalo de
confianza, necesitamos la media de la muestra, x , que aprendimos a calcularla en la
Práctica 1.
5. Menú ESTADÍSTICA DESCRIPTIVA
A través de la función INTERVALO.CONFIANZA que acabamos de ver, podemos
calcular el intervalo de confianza para la media de una población normal de varianza
conocida. Pero, ¿qué ocurre si desconocemos la varianza poblacional, σ2? En este caso,
Excel nos permite calcular la semiamplitud del intervalo de confianza a través de la
opción estadística avanzada ESTADÍSTICA DESCRIPTIVA que ya conocemos de
prácticas anteriores. Para acceder a ella, pinchamos en HERRAMIENTAS>
ANÁLISIS DE DATOS>ESTADÍSTICA DESCRIPTIVA, entrando en la ventana de
diálogo que se muestra en la Figura 14, en la que deberemos introducir los datos en la
casilla RANGO DE ENTRADA, y deberemos seleccionar la opción NIVEL DE
CONFIANZA PARA LA MEDIA, indicando el nivel de confianza (que por defecto es
el 95%).
Figura 14: Ventana de diálogo de la opción del menú ESTADÍSTICA DESCRIPTIVA
Isolina Alberto Moralejo
92
Práctica 6: Inferencia Estadística
Al pinchar en el botón ACEPTAR, la función devuelve la semiamplitud del intervalo
de confianza calculada con la expresión
ŝ
n
t n −1;1−α/2 . Para calcular el intervalo de
confianza no tenemos más que restar y sumar esta cantidad a la media muestral.
Ejercicio.- Haz el Ejercicio 3 del final de la práctica.
6. Función PRUEBA.Z
Con la función PRUEBA.Z podemos calcular los p-valores de los contrastes de
comparación de la media de una distribución normal con varianza conocida o
desconocida con un valor de referencia, es decir, los p-valores de los contrastes:
Bilateral
H0: µ = µ0
H1: µ ≠ µ0
Unilaterales
H0: µ ≤ µ0
H1: µ > µ0
H0: µ ≥ µ0
H1: µ < µ0
Para acceder a la función, seleccionamos la opción del menú principal
INSERTAR>FUNCIÓN>ESTADÍSTICAS, o a través del botón PEGAR FUNCIÓN
de la barra de herramientas. La ventana de diálogo de esta función aparece en la Figura
15, en la que deberemos introducir los datos de la muestra en la casilla MATRIZ; el
valor de referencia, µ0, en la casilla X; y el valor de la desviación típica poblacional,σ,
en la casilla SIGMA. Si omitimos el valor de la desviación típica de la población, Excel
utilizará para el cálculo de la función el valor de la desviación típica de la muestra.
Figura 15: Ventana de diálogo de la función PRUEBA.Z
La función PRUEBA.Z devuelve el valor 1-P(Z≤z), siendo z el valor del estadístico en
la muestra, que se calcula mediante la expresión z =
Isolina Alberto Moralejo
x − µ0
σ/ n
, si la varianza es conocida;
93
Práctica 6: Inferencia Estadística
o mediante
x − µ0
ŝ/ n
, si la varianza es desconocida. Para calcular el p-valor de un
contraste unilateral, utilizaremos la tabla siguiente:
H0: µ ≤ µ0
H1: µ > µ0
p-valor = PRUEBA.Z
H0: µ ≥ µ0
H1: µ < µ0
p-valor = 1 - PRUEBA.Z
En el caso de contrastes bilaterales, para calcular el p-valor tenemos que obtener el
signo del estadístico del contraste en la muestra, z, (signo de z = signo de x - µ 0 ).
Dependiendo de su signo, el p-valor del contraste bilateral se calcula con ayuda de la
tabla siguiente:
z >0
z <0
H0: µ = µ0
H1: µ ≠ µ0
p-valor = 2 × PRUEBA.Z
p-valor = 2 × (1 - PRUEBA.Z)
Nota: Al igual que con la función PRUEBA.T que veremos más adelante, pondremos
especial cuidado en el uso de esta función y en la interpretación de los resultados
proporcionados.
Ejercicio.- Haz el Ejercicio 4 del final de la práctica.
7. Función PRUEBA.F
Esta función devuelve el p-valor (significación) del contraste de comparación de
varianzas de dos poblaciones normales independientes X e Y, con hipótesis nula H0:
σ 2X = σ 2Y ; e hipótesis alternativa H1: σ 2X ≠ σ 2Y .
El procedimiento para insertar esta función es el mismo que para la anterior. Al
seleccionarla de entre las funciones estadísticas, accedemos a la ventana de diálogo que
se muestra en la Figura 16. En la casilla MATRIZ1 debemos poner los datos de la
muestra de la población X; y en la casilla MATRIZ2, los de la muestra de la población
Y. El orden en que introduzcamos las poblaciones es indiferente.
Isolina Alberto Moralejo
94
Práctica 6: Inferencia Estadística
Figura 16: Ventana de diálogo de la función PRUEBA.F
8. Función PRUEBA.T
Con esta función se pueden calcular los p-valores (significación) de los contrastes de
comparación de medias de dos poblaciones con varianzas desconocidas (iguales o
distintas) en muestras independientes o apareadas (ver la Nota más adelante):
Bilateral
H0: µX = µY
H1: µX ≠ µY
Unilaterales
H0: µX ≤ µY
H1: µX > µY
H0: µX ≥ µY
H1: µX < µY
Se accede a ella a través de la opción del menú INSERTAR>FUNCIÓN>
ESTADÍSTICAS>PRUEBA.T, entrando entonces a la ventana de diálogo que se
muestra en la Figura 17. En la casilla MATRIZ1 introduciremos el rango de datos
(muestra) de la población de X; en la casilla MATRIZ2, el rango de datos (muestra) de
la población Y; en la casilla COLAS especificaremos si el contraste es unilateral
(COLAS=1) o bilateral (COLAS=2); y, finalmente, en la casilla TIPO indicaremos si
el contraste es para datos emparejados (TIPO=1), variables independientes con igual
varianza (TIPO=2), o variables independientes con distinta varianza (TIPO=3).
Figura 17: Ventana de diálogo de la función PRUEBA.T
Isolina Alberto Moralejo
95
Práctica 6: Inferencia Estadística
Nota importante: Hay que ser muy cuidadosos en el uso de esta función ya que,
aunque para contrastes bilaterales sí que devuelve exactamente el p-valor, en el caso de
contrastes unilaterales no es así. Para contrastes unilaterales, la función devuelve el
mínimo entre P(T≤t) y P(T≥t), siendo T el estadístico (variable aleatoria) usado en el
contraste y t el valor que el estadístico del contraste ha tomado en las muestras de que
disponemos. Para saber si el valor que devuelve la función PRUEBA.T es el p-valor de
un contraste unilateral, tendremos que calcular también el signo de t (signo de t = signo
de x - y ). Si t es negativo, la función PRUEBA.T devuelve P(T≤t); y si es positivo,
P(T≥t). Las combinaciones posibles y el cálculo del p-valor del contraste unilateral se
muestran en la tabla siguiente:
t >0
t <0
H0: µX ≤ µY
H1: µX > µY
p-valor = PRUEBA.T
p-valor = 1 - PRUEBA.T
H0: µX ≥ µY
H1: µX < µY
p-valor = 1 - PRUEBA.T
p-valor = PRUEBA.T
9. Menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS
Entre las opciones estadísticas avanzadas se encuentra la función PRUEBA Z PARA
MEDIAS DE DOS MUESTRAS, que nos permite comparar la diferencia de medias de
dos poblaciones normales independientes de varianzas conocidas con un valor de
referencia, es decir, nos permite realizar los siguientes contrastes:
Bilateral
H0: µX - µY = µ0
H1: µX - µY ≠ µ0
Unilaterales
H0: µX - µY ≤ µ0
H0: µX - µY ≥ µ0
H1: µX - µY > µ0
H1: µX - µY < µ0
Para acceder a esta función, no tenemos más que seleccionar las opciones estadísticas
avanzadas mediante HERRAMIENTAS>ANÁLISIS DE DATOS, y una vez allí,
seleccionar la opción PRUEBA Z PARA MEDIAS DE DOS MUESTRAS (ver
Figura 18).
Figura 18: Funciones estadísticas avanzadas
Isolina Alberto Moralejo
96
Práctica 6: Inferencia Estadística
Entramos entonces en la ventana de diálogo de la Figura 19, en la que deberemos
introducir los datos de la muestra de X en la casilla RANGO PARA LA VARIABLE
1; los datos de la Y, en la casilla RANGO PARA LA VARIABLE 2; el valor de µ0, en
DIFERENCIA HIPOTÉTICA ENTRE LAS MEDIAS; las varianzas de las dos
poblaciones, en las casillas VARIANZA PARA LA VARIABLE 1 y 2; y el valor del
nivel de significación, en la casilla ALFA. Podemos, además, indicarle el rango de
salida de los resultados.
Figura 19: Ventana de diálogo del menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS
Nota: Como siempre, se recomienda pedir que los resultados los muestre en una hoja
nueva.
Al pinchar en el botón ACEPTAR se obtienen los resultados que se muestran en la
Figura 20, y que pasamos a comentar.
Figura 20: Resultados obtenidos con el menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS
ƒ
MEDIA: proporciona la media muestral de cada una de las muestras.
ƒ
VARIANZA (CONOCIDA): devuelve la varianza poblacional que habíamos
introducido en la ventana de diálogo.
ƒ
OBSERVACIONES: es el tamaño de cada una de las muestras.
Isolina Alberto Moralejo
97
Práctica 6: Inferencia Estadística
ƒ
DIFERENCIA HIPOTÉTICA DE MEDIAS: es el valor µ0 que habíamos
introducido en la ventana de diálogo.
ƒ
z: proporciona el valor que toma el estadístico del contraste en las muestras de
que disponemos. Para este contraste se calcula mediante la expresión:
z=
ƒ
(x − y) − µ 0
σ 2X σ 2Y
+
nX nY
P(Z≤z) UNA COLA: proporciona el mínimo entre P(Z≤z) y P(Z≥z) y nos
permitirá calcular los p-valores de los contrastes unilaterales.
ƒ
VALOR CRÍTICO DE Z (UNA COLA): proporciona el percentil z1-α para el
α introducido en la ventana de diálogo.
ƒ
VALOR CRÍTICO DE Z (DOS COLAS): debería poner P(Z≤z) DOS
COLAS (es un error de Excel) y proporciona 2×mín{P(Z≤z), P(Z≥z)}, es
decir, el p-valor del contraste bilateral.
ƒ
VALOR CRÍTICO DE Z (DOS COLAS): proporciona el percentil z1-α/2 para
el α introducido en la ventana de diálogo.
Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en
cuenta el signo del valor del estadístico en la muestra, z, y la siguiente tabla:
z>0
z<0
H0: µX - µY ≤ µ0
H1: µX - µY > µ0
p-valor = P(Z≤z) UNA COLA
p-valor = 1 - P(Z≤z) UNA COLA
H0: µX - µY ≥ µ0
H1: µX - µY < µ0
p-valor = 1 - P(Z≤z) UNA COLA
p-valor = P(Z≤z) UNA COLA
10. Menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO
VARIANZAS IGUALES
Igual que la anterior, ésta es una opción estadística avanzada, a la que se accede a través
de HERRAMIENTAS>ANÁLISIS DE DATOS, seleccionando después la opción
PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES.
Esta opción nos va a permitir realizar los contrastes de comparación de medias, en
poblaciones normales independientes con la misma varianza (desconocida) siguientes:
Isolina Alberto Moralejo
98
Práctica 6: Inferencia Estadística
Bilateral
H0: µX - µY = µ0
H1: µX - µY ≠ µ0
Unilaterales
H0: µX - µY ≤ µ0
H0: µX - µY ≥ µ0
H1: µX - µY > µ0
H1: µX - µY < µ0
Al seleccionar la opción, entramos en la ventana de diálogo que se muestra en la Figura
21, donde introduciremos la muestra de las dos poblaciones en las casillas RANGO
PARA LA VARIABLE 1 y 2 y el valor de µ0 en la casilla DIFERENCIA
HIPOTÉTICA ENTRE LAS MEDIAS.
Figura 21: Ventana de diálogo del menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO
VARIANZAS IGUALES
Los resultados obtenidos se muestran en la Figura 22 y a continuación los pasamos a
comentar.
Figura 22: Resultados obtenidos con el menú PRUEBA T PARA DOS MUESTAS SUPONIENDO
VARIANZAS IGUALES
ƒ
MEDIA: proporciona la media muestral de cada muestra.
ƒ
VARIANZA: proporciona la cuasivarianza muestral de cada muestra.
ƒ
OBSERVACIONES: es el tamaño de cada muestra.
Isolina Alberto Moralejo
99
Práctica 6: Inferencia Estadística
ƒ
VARIANZA AGRUPADA: devuelve la estimación de la varianza común,
obtenida combinando las cuasivarianzas muestrales. Se calcula mediante la
expresión:
ŝ 2p =
ƒ
(n X − 1)ŝ 2X + (n Y − 1)ŝ 2Y
nX + nY − 2
DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido
en la ventana de diálogo.
ƒ
GRADOS DE LIBERTAD: son los grados de libertad del estadístico del
contraste y se calculan mediante nX + nY – 2.
ƒ
ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha
tomado en las muestras de que disponemos. Se calcula con la expresión:
t=
(x − y) − µ 0
ŝ p
ƒ
1
1
+
nX nY
P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá
calcular los p-valores de los contrastes unilaterales.
ƒ
VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana
de diálogo.
ƒ
P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del
contraste bilateral.
ƒ
VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la
ventana de diálogo.
Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en
cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla:
t>0
t<0
H0: µX - µY ≤ µ0
H1: µX - µY > µ0
p-valor = P(T≤t) UNA COLA
p-valor = 1 - P(T≤t) UNA COLA
H0: µX - µY ≥ µ0
H1: µX - µY < µ0
p-valor = 1 - P(T≤t) UNA COLA
p-valor = P(T≤t) UNA COLA
Ejercicio.- Haz el Ejercicio 5 del final de la práctica.
Isolina Alberto Moralejo
100
Práctica 6: Inferencia Estadística
11. Menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO
VARIANZAS DESIGUALES
El funcionamiento de esta opción del menú de funciones estadísticas avanzadas es
análogo al de las funciones anteriores y proporciona los resultados de los contrastes de
comparación de medias de dos poblaciones normales independientes con varianzas
desconocidas y distintas de la tabla siguiente:
Bilateral
H0: µX - µY = µ0
H1: µX - µY ≠ µ0
H0: µX - µY ≤ µ0
H1: µX - µY > µ0
Unilaterales
H0: µX - µY ≥ µ0
H1: µX - µY < µ0
La ventana de diálogo a la que se accede al seleccionarla aparece en la Figura 23, en la
que la forma de introducción de datos es la habitual.
Figura 23: Ventana de diálogo del menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO
VARIANZAS DESIGUALES
Los resultados proporcionados son los que se muestran en la Figura 24.
Figura 24: Resultados obtenidos con el menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO
VARIANZAS DESIGUALES
ƒ
MEDIA: proporciona la media muestral de cada muestra.
ƒ
VARIANZA: proporciona la cuasivarianza muestral de cada muestra.
Isolina Alberto Moralejo
101
Práctica 6: Inferencia Estadística
ƒ
OBSERVACIONES: es el tamaño de cada muestra.
ƒ
DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido
en la ventana de diálogo.
ƒ
GRADOS DE LIBERTAD: son los grados de libertad del estadístico del
contraste calculados mediante la expresión:
2
⎛ ŝ 2X ŝ 2Y ⎞
⎜
⎟
⎜n + n ⎟
X
Y ⎠
grados de libertad = 2 ⎝ 2
(ŝ X /n X )
(ŝ 2 /n ) 2
+ Y Y
nX −1
nY −1
ƒ
ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha
tomado en las muestras de que disponemos. Se calcula con la expresión:
t=
ƒ
(x − y) − µ 0
ŝ 2X ŝ 2Y
+
nX nY
P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá
calcular los p-valores de los contrastes unilaterales.
ƒ
VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana
de diálogo.
ƒ
P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del
contraste bilateral.
ƒ
VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la
ventana de diálogo.
Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en
cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla:
t>0
t<0
H0: µX - µY ≤ µ0
H1: µX - µY > µ0
p-valor = P(T≤t) UNA COLA
p-valor = 1 - P(T≤t) UNA COLA
Isolina Alberto Moralejo
H0: µX - µY ≥ µ0
H1: µX - µY < µ0
p-valor = 1 - P(T≤t) UNA COLA
p-valor = P(T≤t) UNA COLA
102
Práctica 6: Inferencia Estadística
12. Menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS
EMPAREJADAS
Esta opción permite realizar los contrastes de comparación de medias de dos
poblaciones relacionadas siguientes:
Bilateral
H0: µX - µY = µ0
H1: µX - µY ≠ µ0
H0: µX - µY ≤ µ0
H1: µX - µY > µ0
Unilaterales
H0: µX - µY ≥ µ0
H1: µX - µY < µ0
La principal diferencia de esta opción con las anteriores es que en este caso, el número
de observaciones de las dos muestras ha de coincidir, y cada observación de X tiene que
estar en la misma fila que la observación que le corresponde de la variable Y. La
ventana de diálogo correspondiente a este menú aparece en la Figura 25. Las casillas se
rellenan de la forma habitual.
Figura 25: Ventana de diálogo del menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS
EMPAREJADAS
Los resultados proporcionados aparecen en la Figura 26.
Figura 26: Resultados obtenidos con el menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS
EMPAREJADAS
Isolina Alberto Moralejo
103
Práctica 6: Inferencia Estadística
ƒ
MEDIA: proporciona la media muestral de cada muestra.
ƒ
VARIANZA: proporciona la cuasivarianza muestral de cada muestra.
ƒ
OBSERVACIONES: es el tamaño de cada muestra, n (recuerda que en este
caso coinciden).
ƒ
COEFICIENTE DE CORRELACIÓN DE PEARSON: muestra el valor de
este coeficiente, que, como ya sabemos, mide el grado de asociación lineal entre
X e Y.
ƒ
DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido
en la ventana de diálogo.
ƒ
GRADOS DE LIBERTAD: del estadístico del contraste son n-1.
ƒ
ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha
tomado en las muestras de que disponemos. Se calcula con la expresión:
t=
d − µ0
ŝ d / n
donde d y ŝ d son la media y cuasidesviación típicas muestrales de las n
diferencias observadas xi-yi.
ƒ
P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá
calcular los p-valores de los contrastes unilaterales
ƒ
VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana
de diálogo.
ƒ
P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del
contraste bilateral.
ƒ
VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la
ventana de diálogo.
Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en
cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla:
t>0
t<0
H0: µX - µY ≤ µ0
H1: µX - µY > µ0
p-valor = P(T≤t) UNA COLA
p-valor = 1 - P(T≤t) UNA COLA
Isolina Alberto Moralejo
H0: µX - µY ≥ µ0
H1: µX - µY < µ0
p-valor = 1 - P(T≤t) UNA COLA
p-valor = P(T≤t) UNA COLA
104
Práctica 6: Inferencia Estadística
Ejercicio.- Haz el Ejercicio 6 del final de la práctica.
13. Apéndice
Tablas resumen de los menús y funciones de comparación de medias y varianzas de dos
poblaciones:
Comparación de medias de dos poblaciones X e Y
Poblaciones X e Y independientes
Poblaciones X e
Varianzas
Varianzas
Varianzas
Y relacionadas
desconocidas y
desconocidas
conocidas
distintas
pero iguales
PRUEBA
T
T
PRUEBA T PARA PRUEBA
PRUEBA Z
PARA
DOS
DOS MUESTRAS PARA MEDIAS
PARA
Menú
MUESTRAS
DE
DOS
SUPONIENDO
estadístico MEDIAS DE
SUPONIENDO
MUESTAS
VARIANZAS
avanzado DOS
VARIANZAS
EMPAREJADAS
DESIGUALES
MUESTRAS
IGUALES
PRUEBA.T
PRUEBA.T
con PRUEBA.T con
Función
con TIPO=2
TIPO=3
TIPO=1
Función
Comparación de varianzas de dos poblaciones X e Y independientes
PRUEBA.F
Tabla resumen para el cálculo de los p-valores de los contrastes de comparación de
medias:
Cálculos realizados con el menú de herramientas estadísticas avanzadas
Signo del estadístico del
p-valor
H0
contraste, r, en la muestra
Positivo o negativo
P(R≤r) dos colas
µX - µY = µ0
Positivo
P(R≤r) una cola
µX - µY ≤ µ0
Negativo
1-P(R≤r) una cola
Positivo
1-P(R≤r) una cola
µX - µY ≥ µ0
Negativo
P(R≤r) una cola
donde R es el estadístico (variable aleatoria) del contraste y r es el valor que toma el
estadístico del contraste en la muestra aleatoria simple recogida y P(R≤r) dos colas y
P(R≤r) una cola son los valores que devuelve el menú que hemos utilizado para
realizar el contraste.
Isolina Alberto Moralejo
105
Práctica 6: Inferencia Estadística
Isolina Alberto Moralejo
106
Práctica 6: Inferencia Estadística
Apellidos y nombre:
Profesor:
Grupo:
Ejercicio 1.- La empresa de aerogeneradores CIERZO S.A. está haciendo un estudio
sobre los cuatro tipos de aerogenerador que fabrica y las tres averías más frecuentes.
Los cuatro tipos de aerogenerador son: asíncrono de rotor en cortocircuito, asíncrono de
rotor bobinado, síncrono de imanes permanentes y síncrono convencional. Los tres tipos
de averías más frecuentes son: que falle una fase del interruptor de conexión, que el
multiplicador se sobresaliente y que se produzca un fallo en los condensadores de
potencia reactiva. El técnico de calidad de CIERZO S.A. ha recogido los datos del
fichero Eólica.xls.
Obtén la tabla de doble entrada con las frecuencias absolutas conjuntas, nij,
correspondiente a las variables observadas y completa la tabla siguiente.
Tipo de máquina
Tipo de avería
Fase del interruptor de Condensadores
Sobretemperatura
conexión
potencia reactiva del multiplicador
Asíncrono de rotor
bobinado
Asíncrono de rotor
en cortocircuito
Síncrono
convencional
Síncrono imanes
permanentes
Representa conjuntamente las dos variables mediante un diagrama de barras agrupado.
A la vista del gráfico, ¿es el tipo de avería independiente del tipo de máquina?
............................... Justifica tu respuesta............................................................................
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
Isolina Alberto Moralejo
107
Práctica 6: Inferencia Estadística
Obtén la tabla de doble entrada con las frecuencias absolutas esperadas conjuntas, eij,
(suponiendo la independencia de las dos variables) y completa la tabla siguiente.
Tipo de máquina
Tipo de avería
Fase del interruptor de Condensadores
Sobretemperatura
conexión
potencia reactiva del multiplicador
Asíncrono de rotor
bobinado
Asíncrono de rotor
en cortocircuito
Síncrono
convencional
Síncrono imanes
permanentes
Calcula el p-valor del contraste chi-cuadrado de independencia.
p.valor =
Si α = 0.05, ¿a qué conclusión se llega?..............................................................................
.............................................................................................................................................
.............................................................................................................................................
¿Confirma esto tu apreciación observando el gráfico?..............................................
Justifica tu respuesta............................................................................................................
.............................................................................................................................................
.............................................................................................................................................
Ejercicio 2.- Ejecuta tres veces el applet “Confidence Intervals” con tamaños
muestrales igual a 10, 15 y 20 observaciones. Anota la proporción de intervalos que
contienen al valor µ = 50.
IC al 99%
IC al 95%
n = 10
n = 15
n = 20
Isolina Alberto Moralejo
108
Práctica 6: Inferencia Estadística
Ejercicio 3.- La tensión de ruptura de un líquido aislante indica su capacidad
dieléctrica. Los datos de la variable Voltaje del fichero Voltaje.xls recogen esta tensión
de ruptura, en kilovoltios, para 48 muestras de este líquido.
Calcula una estimación puntual de la media y la varianza poblacionales:
µ̂ =
σ̂ 2 =
Obtén un intervalo de confianza al 90%, otro al 95% y otro al 99% para el voltaje
medio. Observa que, conforme aumenta el nivel de confianza, se pierde precisión en el
intervalo, es decir, al aumentar el nivel de confianza, los intervalos se hacen más
amplios.
IC al 90%
IC al 95%
IC al 99%
¿Puede ser 52 kV la media de la variable Voltaje? Justifica tu respuesta con la
información proporcionada con el intervalo de confianza al 99%......................................
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
Isolina Alberto Moralejo
109
Práctica 6: Inferencia Estadística
Ejercicio 4.- La empresa AIKON S.L. fabrica el cable necesario para los circuitos de
las conexiones de los chips de una conocida marca de teléfonos móviles. Las
especificaciones de calidad señalan que el grosor del cable producido debe ser de 8
micras. La variable Grosor del fichero Aikon.xls recoge los valores del grosor de una
muestra de 50 cables recogida a lo largo del día. Por estudios anteriores, se sabe que la
desviación típica de la variable Grosor es 0.2 micras.
Calcula una estimación puntual del grosor medio del cable producido:
µ̂ =
Calcula un intervalo de confianza al 95% para el grosor medio:
IC al 95%
Calcula el p-valor del contraste bilateral con hipótesis nula H0: µ = 8 e hipótesis
alternativa H1: µ ≠ 8.
p-valor =
Tomando α = 0.05, ¿qué conclusión obtienes acerca de las especificaciones de calidad?
Justifica tu respuesta utilizando el valor del p-valor y el de α............................................
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
Isolina Alberto Moralejo
110
Práctica 6: Inferencia Estadística
Ejercicio 5.- Se desea comparar la cantidad de líquido introducida por dos máquinas de
llenado de botellas de agua mineral de 1/3 de litro. Los datos se encuentran en el fichero
Mineral.xls. La variable Cantidad recoge los centímetros cúbicos introducidos en las
botellas de 1/3; y la variable Maquinas recoge la máquina (1 ó 2) que lleva a cabo el
relleno de las botellas. Se supone que las máquinas trabajan independientemente la una
de la otra
A la vista de la forma en la que se han recogido los datos, ¿dirías que se trata de datos
apareados o por el contrario piensas que son independientes?............................................
Justifica tu respuesta. ..........................................................................................................
.............................................................................................................................................
Calcula una estimación puntual de las medias y las varianzas poblacionales:
µ̂ X =
σ̂ 2x =
µ̂ Y =
σ̂ 2Y =
Plantea los contrastes de hipótesis de comparación de medias y varianzas que consideres
oportunos, indicando las hipótesis nulas y alternativas.
Para las varianzas
H0:
H1:
Para las medias
H0:
H1:
Una vez realizados los contrastes con Excel y tomando α = 0.05, ¿a qué conclusiones
llegas? Proporciona los p-valores de ambos contrastes:
Para las varianzas
p-valor =
Para las medias
p-valor =
Conclusión del contraste:....................... Conclusión del contraste:.......................
................................................................ ................................................................
................................................................ ................................................................
Isolina Alberto Moralejo
111
Práctica 6: Inferencia Estadística
Ejercicio 6.- Se está investigando sobre un nuevo método experimental para la
determinación de los octanos de la gasolina. Se quiere comparar este nuevo método con
el habitual para tratar de saber si alguno de los dos indica un valor más alto que el otro.
Para llevar a cabo la comparación, se han tomado muestras de las 32 mezclas de
gasolina, midiendo los octanos con ambos métodos (primero con uno y luego con otro).
Los datos se encuentran en las columnas Nuevo y Habitual del fichero Gasolina.xls.
A la vista de la forma en la que se han recogido los datos, ¿dirías que se trata de datos
apareados o por el contrario piensas que son independientes?............................................
Justifica tu respuesta............................................................................................................
.............................................................................................................................................
.............................................................................................................................................
Plantea el contraste de hipótesis de comparación de medias que consideres oportuno,
indicando la hipótesis nula y la alternativa.
H0:
H1:
Una vez realizado el contraste con Excel, ¿cuánto vale el p-valor?
p-valor =
Tomando α = 0.05, ¿se puede considerar que ambos métodos miden lo mismo?..............
Justifica tu respuesta............................................................................................................
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
Isolina Alberto Moralejo
112
Descargar