AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA 1. Objetivos: a) Calcular los parámetros de la distribución de medias o proporciones muestrales de tamaño n, extraídas de una población de media y varianza conocidas. b) Calcular el intervalo de confianza para la media con varianza conocida y desconocida. c) Hallar el intervalo de confianza para la varianza con media desconocida. d) Calcular el intervalo de confianza para la diferencia de medias con varianzas conocidas y desconocidas pero iguales. e) Utilizar distintos tamaños muestrales para controlar el nivel de confianza y el error máximo admitido. 2. Introducción a la inferencia estadística: Podemos definir “Inferencia estadística” como el conjunto de técnicas estadísticas que nos permiten extraer conclusiones de una población a partir de una muestra representativa de la misma. El muestreo es necesario ya que por motivos de tiempo, dinero o naturaleza del experimento (prueba de una vacuna, resistencia de materiales, etc.) no podemos hacer el estudio de la población completa. Nos hacemos las siguientes preguntas: a) ¿Qué error se comete al trabajar con una muestra de la población? b) ¿Cómo controlamos ese error? c) ¿Cómo extrapolamos los resultados muestrales a los poblacionales? Esquemáticamente: INFERENCIA ESTADÍSTICA PARAMÉTRICA ESTIMACIÓN NO PARAMÉTRICA CONTRASTE HIPÓTESIS ESTIMACIÓN INTERVALOS DE CONFIANZA 1 AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA 3. Muestreo El estudio de determinadas características de una población se efectúa a través de diversas muestras que pueden extraerse de ella. 3.1. Tipos de muestreo a) Probabilístico: garantiza que cada individuo de la población tanga la misma probabilidad de ser incluido en la muestra y, en consecuencia, que la muestra sea representativa. b) No probabilístico: no garantiza tal representatividad 3.2. Tipos de muestreo probabilístico a) MUESTREO ALEATORIO SIMPLE: es el muestreo prototipo fundamental usado por casi toda la ciencia. Es el proceso de seleccionar observaciones a partir de una población, de modo que toda observación de la población tenga la misma probabilidad de ser incluida en la muestra que cualquier otra y además toda observación es independiente de cualquier otra. b) MUESTREO ALEATORIO ESTRATIFICADO: se utiliza principalmente con el objeto de prevenir SESGOS en la muestra cuando trabajamos con poblaciones muy heterogéneas. Se divide la población en ESTRATOS, por ejemplo, N1 , N2 , N3 , cumpliendo que sean “mutuamente excluyentes” (N1 , N2 , N3 ttienen intersección vacía) y “exhaustivos” (N1 +N2 + N3 = toda la población). La muestra debe ser proporcional a cada estrato. c) MUESTREO POR CONGLOMERADOS: se utiliza para reducir costes.Los conglomerados serán unidades naturales de agrupación (bloques de viviendas, familias, colegios, urnas electorales, etc.). Este muestreo consiste en aplicar un muestreo aleatorio simple a los conglomerados.Se puede hacer en una etapa ( en los conglomerados que pasan a formar parte de la muestra se toman todos los elementos) o en varias ( bietápico,...), se toman aleatoriamente los conglomerados dentro del total y a éstos se les aplica un muestreo aleatorio estratificado proporcional. 3.3. Muestra aleatoria simple Sea X una la variable aleatoria con función de distribución F(x). Sean X1, X2 , ...., Xn variables aleatorias independientes e idénticamente distribuidas (v.a.i.i.d.) con función de distribución común F(x). El conjunto ( X1 , X2 , ...., Xn) recibe el nombre de muestra aleatoria simple de tamaño n de la variable aleatoria X . 4. Estadísticos Dada una m.a.s. ( X1 , X2 , ...., Xn) un “estadístico”, T , es cualquier función observable de la muestra, que no dependa de parámetros desconocidos. Al ser una transformación de una v.a. n-dimensional, será también una variable aleatoria. No deben confundirse los estadísticos muestrales con las características poblacionales de la v.a. X.Nótese que las características poblacionales son números (por ejemplo la MEDIA POBLACIONAL µ de una N (µ, σ ) ) mientras que los estadísticos son variables aleatorias que no toman un valor hasta que no se disponga de una realización muestral. 2 AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA 4.1. Algunos estadísticos importantes : Dada una m.a.s. ( X1 , X2 , ...., Xn) a) Media muestral : X = ∑X i n b) Varianza muestral : s 2 = ( 1 ∑ XI −X n c) Cuasivarianza muestral : S c2 = ) 2 ( 1 ∑ XI −X n −1 ) 2 d) Otro estadístico de interés es la PROPORCIÓN MUESTRAL , que se obtiene cuando la m..a.s. procede de una Bernoulli de parámetro p = b(p), y se define : n X P= , siendo X = ∑ X i , una B(n ; p) n i =1 5. Muestreo en poblaciones normales 5.1. Distribución de la media muestral Sea ( X1 , X2 , ...., Xn) una m.a.s. de una población N ( µ, σ ), entonces la distribución del estadístico media muestral es : 1) Cuando conocemos la varianza poblacional : X−µ σ → N (0 ;1) n 2)Cuando no conocemos la varianza poblacional : 5.2. X−µ → t n −1 ≡ n≥30 N (0;1) Sc n Distribución de la varianza muestral Sea ( X1 , X2 , ...., Xn) una m.a.s. de una población N ( µ, σ ), entonces la distribución del estadístico varianza muestral es : El estadístico nS 2 σ 2 ≡ χ 2 n −1 (chi − cuadrado con n - 1 grados de libertad) 3 AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA 5.3. Distribución de la diferencia de medias muestrales Suponemos dos poblaciones normales N ( µ1 , σ1 ) y N ( µ2 , σ2 ), de las cuales se extraen dos m.a.s. ( X1, X2 , ...., Xn) e ( Y1, Y2 , ...., Ym), la distribución de la diferencia de medias 1) Cuando conocemos la varianza poblacional es: (X − Y )− (µ σ 2 −µ 2) 1 σ 1 2 → N (0 ;1) 2 + n m 2) Varianzas poblacionales desconocidas pero iguales σ 1 = σ 2 = σ : (X − Y )− (µ n1 S 2 1 + mS n +m-2 5.4. 1 2 − µ2 ) n+m n.m 2 → t n + m-2 Distribución del cociente de varianzas muestrales Suponemos dos poblaciones normales N ( µ1 , σ1 ) y N ( µ2 , σ2 ), de las cuales se extraen dos m.a.s. ( X1, X2 , ...., Xn) e ( Y1, Y2 , ...., Ym), la distribución de la diferencia de medias es: Los estadísticos : nS1 σ1 2 ≡ χ 2 n −1 y 2 mS2 σ2 2 2 ≡ χ 2 m −1 Si recordamos que la F de SNEDECORD se define como cociente de CHI - CUADRADO por s n us grados de libertad, tendremos : nS1 2 : (n − 1) σ 12 mS2 5.5. σ 22 2 : (m − 1) 2 Sc σ 2 = 1 2 22 ≡ F n -1,m -1 Sc 2 σ 1 Distribución de la proporción muestral Supongamos una m.a.s. obtenida de una Bernoulli de parámetro p = b(p). Si n es grande, la distribución de la proporción muestral P= X n n siendo X = ∑ X i , una B(n ; p) sigue: i =1 X p.q ; E ( P) = p; Var ( P) = n n P-p → N(0;1) p.q n P= 4 AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA 5.6. Distribución de la diferencia de proporciones muestrales Cuando tengamos dos poblaciones Bernoulli b(p1) y b(p2), de las cuales se seleccionan dos muestras de tamaños m y n respectivamente, la distribución de la diferencia de proporciones está dada por: (P1 - P2 ) - (p1 − p 2 ) → N(0;1) p1.q1 p 2 .q 2 + n m 6. Intervalos de confianza en poblaciones normales N(µ , σ) Para una muestra de tamaño n y un nivel de confianza 1- α 6.1. Intervalo de confianza para µ conocida σ µ ∈ X − Z α ⋅ σ n 2 , X + Zα ⋅ 2 σ n con un nivel de confianza 1- α 6.2. Intervalo de confianza para µ desconocida σ µ ∈ X − t α ⋅ 2 s n −1 , X + tα ⋅ 2 con un nivel de confianza 1- α n − 1 s 6.3. Intervalo de confianza para σ2 conocida µ ∑ ( X I − µ )2 ∑ ( X I − µ )2 2 σ ∈ , ℵ2 α ℵ2 α n; n ;1− ; 2 2 con un nivel de confianza 1- α 6.4. Intervalo de confianza para σ2 desconocida µ ns 2 ns 2 σ 2 ∈ 2 , 2 ℵ n −1;α ℵ n −1;1− α ; 2 2 con un nivel de confianza 1- α 6.5. Intervalo de confianza para µ1−µ2 conocidas σ1, σ2 σ 12 σ 22 σ 12 σ 22 + + , X1 − X 2 + Zα ⋅ µ1 − µ 2 ∈ X 1 − X 2 − Z α ⋅ n m n m 2 2 ( ) ( ) con un nivel de confianza 1- α 5 AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA 6.6. Intervalo de confianza para µ1−µ2 desconocidas pero iguales ( σ1, =σ2 ) n + m ns12 + ms 22 n + m ns12 + ms 22 µ1 − µ 2 ∈ X 1 − X 2 − t α ⋅ , X1 − X 2 + tα ⋅ nm n+m−2 nm n+m−2 2 2 ( ) ( ) con un nivel de confianza 1- α 7. Algunas propiedades de los intervalos de confianza: 7.1. Para un nivel de significación α FIJO : Si aumentamos el tamaño muestral n disminuye la amplitud. EJEMPLO: IC para µ con σ2 conocida. Si α =0.05 y σ =3, entonces tendremos: valor de n : 10 20 30 σ amplitud = 2.Z α amplitud: 3.7188 2.6296 2.1470 n 2 7.2. Para un tamaño muestral n FIJO : Si aumentamos el NIVEL DE CONFIANZA 1-α aumenta la amplitud EJEMPLO: IC para µ con σ2 conocida.Si n=25 y σ=3, entonces tendremos: Nivel confianza : 0.9 0.95 0.975 0.99 amplitud: 1.9738 2.3519 2.6896 3.091 7.3. Determinación del tamaño muestral en función del error: En un IC para µ con σ2 conocida: ERROR = ε = X − µ = Z α 2 σ n ⇒ n = Zα 2 2 σ2 ε2 8. Intervalos de confianza usando EXCEL: 8.1.Intervalo para la media conocida la desviación = INTERVALO.CONFIANZA(alfa;desv_estándar;tamaño) Devuelve el intervalo de confianza para la media de una población. ¾ Sintaxis =INTERVALO.CONFIANZA(alfa;desv_estándar;tamaño) Alfa es el nivel de significación . El nivel de confianza es igual a 100 (1 - alfa)%, es decir, un alfa de 0,05 indica un nivel de confianza de 95%. Desv_estándar es la desviación típica de la población para el rango de datos y se presupone que es conocida. Tamaño es el tamaño de la muestra. 6 AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA ¾ Ejemplo Supongamos que observa una muestra de 50 personas que realizan diariamente un trayecto, y que la duración media de dicho trayecto es de 30 minutos, con una desviación típica de la población de 2,5. Hallar el intervalo de confianza al 95 por ciento para la media de la población. Datos Descripción A1 = 0,05 Nivel de significación A2 = 2,5 Desviación típica de la población A3 = 50 Tamaño de la muestra Fórmula Descripción (Resultado) =INTERVALO.CONFIANZA(A2;A3;A4) Se obtiene el valor = 0,692951 = semiamplitud del intervalo de confianza para la media de una población. En otras palabras, la longitud media de desplazamiento es 30 ± 0,692951 minutos, o ¾ Observación Esta fórmula también se puede aplicar en el caso de diferencia de medias con varianzas conocidas. Debemos introducir en la fórmula la media y la desviación típica de la variable diferencia. Análogo para los contrastes de proporciones y diferencia de proporciones. 8.2. Inversa de la función de distribución de una Chi-cuadrado = PRUEBA.CHI.INV(probabilidad;grados_de_libertad) Devuelve, para una probabilidad dada, el valor de la variable aleatoria siguiendo una distribución chi cuadrado. Si el argumento probabilidad = DISTR.CHI(x;...), entonces PRUEBA.CHI.INV(probabilidad,...) = x. ¾ Sintaxis PRUEBA.CHI.INV(probabilidad;grados_de_libertad) Probabilidad es una probabilidad asociada a la distribución chi cuadrado. Grados_de_libertad es el número de grados de libertad. ¾ Ejemplo: en la práctica2. 7 AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA 8.3. Inversa de la función de distribución de una t de Student Devuelve el valor t de la distribución t de Student como función de la probabilidad y los grados de libertad. ¾ Sintaxis =DISTR.T.INV(probabilidad;grados_de_libertad) Probabilidad es el nivel de significación α (dos colas) y 2*α ( 1 cola) Grados_de_libertad es el número de grados de libertad de la distribución. ¾ Observaciones Puede calcularse un valor t de una cola reemplazando probabilidad por 2*probabilidad. Para una nivel de significación de 0,05 y grados de libertad de 10, el valor de dos colas se calcula con DISTR.T.INV(0,05;10), que devuelve 2,28139. El valor de una cola para la misma probabilidad y los mismos grados de libertad puede calcularse con DISTR.T.INV(2*0,05;10), que devuelve 1,812462. ¾ Ejemplo Datos Descripción A2= 0,054645 = α Nivel de significación para t de Student de dos colas. A3 = 60 Grados de libertad Fórmula Descripción (Resultado) =DISTR.T.INV(A2;A3) Valor t α =1,959997462 2 9. Caso práctico 9.1. Intervalos de confianza en una población Normal : 8 AMPLIACIÓN DE ESTADÍSTICA Departamento de Métodos Cuantitativos e Informáticos Práctica 3 MUESTREO E INTERVALOS DE CONFIANZA 9.1.1. Crea una hoja de cálculo (HOJA1) mediante la cual se pueda calcular el intervalo de confianza para la media con varianza conocida. Utilizando la HOJA1 resuelve el siguiente problema: Un individuo decide buscar trabajo en el sector servicios y le ofrecen un empleo con un sueldo mensual de 12 u.m. Antes de aceptarlo, desea conocer el rango de valores para el salario esperado en esa categoría del sector. Para ello recoge una muestra de salarios que aparece en la HOJA1. Sabiendo además que el salario mensual sigue una distribución Normal con desviación típica igual a 2 u.m., se pide: i. Estimar los intervalos de confianza para el salario esperado con un nivel de confianza del 99%, 98%,…, 90%. ii. Realiza un gráfico que relacione la semiamplitud y el nivel de confianza.¿Qué le ocurre a la amplitud de los intervalos a medida que disminuye el nivel de confianza? 9.1.2. Crea una hoja de cálculo (HOJA2) mediante la cual se pueda calcular el intervalo de confianza para la media con varianza desconocida. Utilizando la HOJA 2 resuelve el siguiente problema: Una empresa desea ofrecer una información resumida a sus accionistas sobre el salario de su personal de fábrica. Para ello selecciona la m.a.s. recogida en la HOJA 2. Calcular: i. Intervalos de confianza para el salario esperado con un nivel de confianza del 99%, 98%,…, 90%, sabiendo que la distribución del salario sigue una Normal. ii. Con los valores muestrales obtenidos en el apartado anterior, calcula los intervalos de confianza para el salario esperado para muestras de tamaño 10, 20, 30,...,100 y un nivel de confianza del 99%. ¿Cómo afecta a la amplitud del intervalo el incremento del tamaño de la muestra? iii. Representa gráficamente la semiamplitud de los intervalos y el tamaño muestral. 9.1.3. Crea una hoja de cálculo (HOJA3) mediante la cual se pueda calcular el intervalo de confianza para la varianza con media desconocida. Utilizando la HOJA 3 resuelve el siguiente problema: Se desea invertir una gran cantidad de dinero en una empresa del IBEX-35. Para tomar una decisión un analista nos proporciona un rango de valores del riesgo sobre el beneficio mensual de la empresa, medido a través de su desviación típica. Con los datos sobre el beneficio mensual recogidos en la HOJA3 y sabiendo que éste sigue una distribución Normal, se pide: i. Una estimación del beneficio medio mensual. ii. Los intervalos de confianza para el riesgo (varianza) con un nivel de confianza del 99%, 98%,…, 90%. 9