Estadística I Guión de la Práctica 2 Probabilidad y modelos probabilísticos; Introducción a la inferencia estadística 1. Simulación de las variables aleatorias En Excel podemos simular valores de variables aleatorias, sean discretas o continuas. La herramienta para simulación aparece en el complemento de análisis de datos que instalamos en el primer laboratorio. Los pasos para simular valores de variables aleatorias son iguales para todo tipos de variables. Primero, abrimos el Excel y arriba seleccionamos menú Datos, donde buscamos el complemento ya instalado Análisis de Datos: Allí buscamos a una función que se llama Generación de números aleatorios. Al seleccionar esta función aparece la siguiente ventana: Número de variables: nos pide el número de variables que queremos simular. Normalmente será 1. Cantidad de números aleatorios: aquí pregunta por el tamaño de la muestra. Distribución: tenemos que seleccionar una de las distribuciones para nuestra variable aleatoria: o bien discreta (Bernoulli, Binomial), o bien continua (Uniforme, Normal). Parámetros: introducir los parámetros de la distribución. Iniciar con: dejamos en blanco. Opciones de salida: podemos seleccionar el rango de salida en la hoja actual o en una hoja nueva y le damos algún nombre, según la distribución que seleccionamos. 1 1.1. Variables aleatorias discretas: Bernoulli y Binomial 1.1.1. En primer lugar, simulamos una muestra de n = 50 observaciones de una distribución Bernoulli: . Abrimos la ventana de simulación de una variable aleatoria, como hemos visto antes, rellenamos los siguientes campos y pulsamos Aceptar: En la columna A tenemos una muestra aleatoria simple de una distribución Bernoulli con parámetro p = 0.4. Sabemos, que y , entonces y . Calculamos la media y varianza muestrales usando las funciones de Excel PROMEDIO y VAR, comparamos con los valores verdaderos: Importante: cada alumno tendrá resultados diferentes porque los valores simulados son aleatorios. 1.1.2. Siguiendo los mismos pasos simulamos una muestra de n = 100 de una distribución Binomial: . Calculamos la media y varianza verdaderos y comparamos con la media y varianza muestrales: 2 1.2. Variables aleatorias continuas: Normal Queremos generar una muestra de n = 20 de una Normal: , donde los mismos pasos que antes, calculamos la media y desviación típica muestrales: y . Seguimos ¿Están los valores estimados cerca de los valores verdaderos? ¿Qué pasaría si en vez de n = 20, tuviéramos n = 1000? 2. Gráfica Cuantil – Cuantil (QQ - plot) 2.1. QQ – plot para una distribución Normal Usamos los mismos datos que hemos generado antes de una Normal . Primero, insertamos una fila arriba del todo para los nombres de las columnas. Después, seleccionamos todos los datos y ordenamos de menor a mayor a través del menú Datos y obtenemos la siguiente vista: El siguiente paso sería calcular los cuantiles muestrales con las observaciones, pero antes tenemos que asignar el rango a cada observación. Nos posicionamos en la celda B2 y escribimos 1, eso significa que el número en A2 es la primera observación. En B3 introducimos la formula =B2+1 y copiamos la formula hasta el final. Finalmente, podemos calcular los cuantiles muestrales en la tercera columna. Nos posicionamos en la celda C2 e introducimos la formula =(B2-0.5)/20 (recordad que 20 es el tamaño muestral). Copiamos esta fórmula hasta el final. Para comprobar si los cuantiles están bien, podemos 3 calcular que la mediana debería ocupar la posición (20+1)/2=10.5, entre 10 y 11. Como podemos ver, el Q50% aparece justo entre las posiciones 10 y 11. Finalmente, tenemos que calcular los valores de nuestra distribución Normal estimada, asociados con cada cuantil: , donde y se corresponden a la media y desviación típica muestrales. Antes de hacerlo, calculamos los z-scores, que son los valores de una distribución Normal estándar, asociados con cada cuantil. Nos posicionamos en la celda D2, introducimos la siguiente función de Excel =DISTR.NORM.ESTAND.INV(C2), y copiamos la formula hasta el final. Para convertir estos z-scores a los valores asociados con la muestra original, hay que hacer la operación inversa, es decir la estandarización inversa: multiplicar cada z-score por la desviación típica muestral y sumar la media estimada de X (lo vamos a llamar x-scores): Tenemos toda la información necesaria para dibujar un QQ – plot. Antes de hacerlo, hay que copiar la columna A de datos originales a la derecha de la columna E de x-scores, porque así Excel reconoce mejor qué datos son del eje x, y cuáles son del eje y. Seleccionamos las dos columnas y vamos al menú Insertar, Dispersión, donde seleccionamos el tipo de gráfico que queremos (sólo puntos): 4 N(2,3) 10 8 6 4 2 0 -5 -2 0 5 10 -4 -6 Para cambiar el tamaño o estilo de los puntos, hay que posicionarse encima de los puntos, botón derecho, Dar formato a serie de datos…, Opciones de marcador. Si los datos han sido realmente generados por la distribución considerada, entonces los puntos del gráfico deben disponerse a lo largo de una línea recta. Para introducir esta línea, copiamos en la columna G los X-scores, seleccionamos las tres columnas y hacemos otra vez: Insertar, Dispersión… Así Excel dibuja no solo los puntos de nuestra distribución generada, sino, también los puntos que corresponden a la línea recta (ojo: al copiar y pegar la columna X-scores, se copian las formulas, así que en el Pegado Especial…, que aparece pulsando botón derecho del ratón, tenemos que elegir Sólo Valores). Cuando aparece el siguiente gráfico, cambiamos el estilo de los puntos de X-score para que aparezca una línea recta: nos posicionamos encima de los puntos, botón derecho, Dar formato a series de datos…, Opciones de marcador: ninguno, Color de línea: Línea Sólida. 5 Finalmente obtenemos el siguiente gráfico: 10 8 6 4 2 0 -5 -2 0 5 10 -4 -6 Como podemos ver, los puntos del gráfico se disponen a lo largo de la línea recta. Eso significa que la distribución se ajusta muy bien. 2.2. QQ – plot para data Binomial Hemos visto como una variable aleatoria de distribución Binomial una Normal se puede aproximar con dado que n es suficientemente grande. 2.2.1. Vamos a ver qué pasa cuando una variable aleatoria Binomial NO debería ser aproximada por una distribución Normal. En una nueva hoja, generamos una muestra de tamaño 500 de una Binomial . La media y desviación típica muestrales y verdaderas son las siguientes: 6 Después, seguimos los pasos para dibujar el QQ – plot: Columna A: Ordenar los datos (de menor a mayor). Columna B: Introducir el rango (de 1 a 500). Columna C: Calcular los cuantiles (=(B2-0.5)/500). Columna D: Calcular los z-scores (=DISTR.NORM.ESTAND.INV(C2)). Columna E: Convertir los z-scores a x-scores usando la media y desviación típica de la muestra Binomial para aproximar una Normal introduciendo la formula en la celda E2: =D2*DESVEST(A$2:A$501)+PROMEDIO(A$2:A$501) Columna F: Copiar columna A. Columna G: Copiar columna E (¡sólo valores!). Seleccionar columnas E, F y G, menú Insertar, Dispersión. Hacemos cambios para los marcadores de la segunda serie, para que sea una línea. 4 3 2 1 0 -2 -1 0 1 2 3 -1 -2 4 3 2 1 0 -2 -1 0 1 2 3 -1 -2 Podemos ver que muchos puntos están bastante lejos de la línea y el ajuste es malo, por tanto, la Binomial NO se puede aproximar con una Normal. 7 3. Ejercicio para entregar al final de clase. 3.1. Simula una variable aleatoria de tamaño n = 150 de la distribución Uniforme , calcula la media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en la Tabla 1. 3.2. Simula una variable aleatoria de tamaño n = 50 de la distribución Binomial . a. Calcula la media, varianza y desviación típica muestrales y verdaderas y escribe los resultados en la Tabla 2. b. Aproxima esta Binomial con una Normal y escribe la media y desviación típica de esta Normal. Dibuja el QQ – plot (sólo en Excel) de esta aproximación y comenta los resultados. 8 Respuestas del apartado 3. Nombre y Apellidos:____________________________________________________________ NIU:_____________________Grado:___________________________________Grupo______ Tabla 1. Resultados de n = 150, X Estimada Verdadera Estimada Verdadera Media Varianza Desviación típica Tabla 2. Resultados de n = 50, X Media Varianza Desviación típica ¿Cuáles son los parámetros de la Normal, con cual aproximamos la Binomial anterior? Comenta los resultados del QQ – plot: _______________________________________________________________________________________________ ______________________________________________________________________________________________ _______________________________________________________________________________________________ _______________________________________________________________________________________________ 9