Práctica 2 vgaribay PRÁCTICA 2. DISTRIBUCIONES DE PROBABILIDAD OBJETIVOS: Cálculo de probabilidades y percentiles con diferentes modelos. Comprobación de aproximaciones estudiadas entre distribuciones. Simulación de datos de diferentes modelos probabilísticos. Ajuste gráfico de modelos a una muestra. Manipulación de datos por filas. Ilustración de la L.G.N y del T.C.L. Recordatorio de las herramientas del análisis descriptivo univariante. Datos a utilizar, en los ficheros: Cardata.sgd, Municipios.sgd y robles.sgd. 1.- CÁLCULO DE PROBABILIDADES Calcular probabilidades y percentiles, y realizar la gráfica de la función de densidad o de la función de probabilidad con las distribuciones estudiadas. Camino1: Plot / Probability Distributions o Camino2: Describe /Distribution Fitting / Probability Distributions eligiendo inicialmente la distribución normal estándar: Normal (0,1) Abrir todos los análisis numéricos y los dos primeros análisis gráficos 1.1 Calcular P(N(0,1)<z), z=-3, -2, -1, 0, 1, 2, 3 Ventana Cumulative Distribution / Botón secundario / Pane Options y 1 Práctica 2 vgaribay 1.2 Calcular los percentiles 0,5; 2,5; 5; 10; 90; 95; 97,5; 99,5 Ventana Inverse CDF / Botón secundario / Pane Options y 1.3 Comparar cinco v.a. N(,0.5) y otras cinco N(20,), variando y . Ventana Probaility Distributions / Botón secundario / Analysis Options 1.4 Calcular probabilidades y percentiles con la distribución binomial b(20,0.4). Barra de Herramientas / Botón Analisis, marco la distribución Binomial Ventana Probaility Distributions / Botón secundario / Analysis Options p=0.4 n=20 2 Práctica 2 vgaribay Pane Options en Ventana Cumulative Distribution (probs. acumuladas) e Inverse CDF (percentiles) 1.5 Calcular probabilidades y percentiles con la dist. exponencial con media 2. Barra de Herramientas / Botón Analisis, marco la distribución Exponencial Ventana Probaility Distributions / Botón secundario / Analysis Options media=2 Pane Options en Ventana Cumulative Distribution (probs. acumuladas) e Inverse CDF (percentiles) 3 Práctica 2 vgaribay 2.- COMPROBACIÓN DE APROXIMACIONES Mediante este ejercicio se pretende verificar con algunos ejemplos las aproximaciones entre distribuciones que hemos estudiado en clase: Binomial-Normal, Binomial-Poisson y Poisson-Normal. Para ello dibujamos las probabilidades o densidades de algunas de estas distribuciones mediante el menú: Describe / Distribution Fitting / Probability Distributions... Llevamos los gráficos a StatGallery para comprobar la bondad de las aproximaciones. Copy pane to Statgallery. Al pegar el segundo o tercer gráfico elegimos “Overlay”. Conviene hacer una selección adecuada del intervalo de valores en el eje X en los gráficos (Graphic options) para ver las cosas mejor. También calcularemos las probabilidades de algunos sucesos y valoraremos la bondad de la aproximación así como el interés de la corrección por continuidad. 2.1- Aproximación binomial-normal válida: b(n,p) ~ N(np,(npq)1/2), npq>5. 2.1.1 Dibujar b(100;0,5) y N(50;5) superpuestas. Plot / Probability Distributions + Binomial p=0.5 n=100 Ventana Densidad- Mass Function > Botón secundario > Copy Pane to StatGallery Ventana StatGallery > Botón Secundario > Paste Barra de Herramientas / Botón Analisis, marco la distribución Normal o bien, nuevo Plot / Probability Distributions Normal Parámetros Mean=50 Std.Dev=5 4 Práctica 2 vgaribay Ventana Densidad- Mass Function > Botón secundario > Copy Pane to StatGallery Ventana StatGallery > Botón Secundario > Paste + Replace 2.1.2 Calcular P(X<60) con la binomial 100 0,5 … Ventana Cumulative Distribution > Botón Secundario > Pane Options + 60 p(X<60)= 0,971556 … y p(X<60) y P(X<59,5) con la normal. Análisis: Descripción de la N(0,1) / Ventana Cumulative Distribution > Botón Secundario > Pane Options (solución exacta) + 60 p(X<60)= 0,97725 (aprox. N sin corrección) Ventana Cumulative Distribution > Botón Secundario > Pane Options + 59.5 p(X<60)= 0,971284 (aprox. N con corrección) 5 Práctica 2 vgaribay 2.2- Aproximación binomial-normal no válida: npq<5. 2.2.1 Dibujar b(300;0,01) y N(3;1,7234) superpuestas. Cambiar los parámetros de la Binomial y la Normal, repitiendo los pasos del apartado anterior Ventana Prob. Distributions > Botón Secundario > Analysis Options nuevos parámetros En las descripciones Binomial y Normal 2.2.2 Calcular P(X<4) con la binomial y P(X<4) y P(X<3,5) con la normal. Ventana Cumulative Distribution > Botón Secundario > Pane Options + 4 p(X<4)= 0,647234 … y ahora p(X<4) y P(X<3,5) con la normal. Análisis: Descripción de la N(0,1) / Ventana Cumulative Distribution > Botón Secundario > Pane Options (solución exacta) + 4 p(X<4)= 0,719128 (aprox. N sin corrección) Ventana Cumulative Distribution > Botón Secundario > Pane Options + 3.5 p(X<4)= 0,614141 (aprox. N con corrección) 6 Práctica 2 vgaribay 2.3- Aproximación binomial-Poisson válida b(n,p) ~ P(np), p<0,1 y 1<np<10. 2.3.1 Dibujar superpuestas b(300;0,01), N(3;1,7234) y P (3). Plot / Probability Distributions Normal 3 1,7234 gráfico densidad a StatGallery Plot / Probability Distributions Binomial 0,01 300 gráfico probs. a StatGallery Overlay Plot / Probability Distributions Poisson 3 gráfico probs. a StatGallery Overlay 2.3.2 Calcular P(X<4) con la binomial y con la Poisson. En el Análisis Plot Poisson Ventana Cumulative Distribution > Botón Secundario > Pane Options + 4 p(X<4)= 0,647232 (aprox. Poisson) (Casi perfecta) 7 Práctica 2 vgaribay 2.4- Aproximación Poisson-normal válida: P () ~ N(, 2.4.1 ), >5. Dibujar P (9) y N(9;3) superpuestas. Plot / Probability Distributions Normal Plot / Probability Distributions Poisson 2.4.2 1/2 9 3 3 gráfico densidad a StatGallery gráfico probs. a StatGallery Overlay Calcular P(X<10) con la Poisson y P(X<10) y P(X<9,5) con la normal. Poisson / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 10 p(X<10)= 0,587408 (valor exacto) Normal / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 10 p(X<10)= 0,630561 (aprox. Noram sin corrección) Normal / Ventana Cumulative Distribution > Botón Secundario > Pane Options + 9,5 p(X<9,5)= 0,566186 (aprox. Noram sin corrección) 8 Práctica 2 vgaribay 3.- SIMULACIÓN DE DATOS ASOCIADOS A DISTRIBUCIONES Generar o simular una muestra aleatoria de un modelo. 3.1 Genera tres muestras de tamaño 500 de la distribución N(3; 1). Dos alternativas: forma 1- Generate Data con operadores (en tabla de datos)… (sólo algunas distribuciones) REXPONENTIAL(n,mean) RLOGNORMAL(n,mu,sigma) RWEIBULL(n,shape,scale) RGAMMA(n,shape,scale) RNORMAL(n,mu,sigma) RINTEGER(n,min,max) RUNIFORM(n,min,max) Datos / selecciono columna / Botón secundario en cabecera / Generate Data RNORMAL(500;3;1) Repito en Columnas 2 y 3 forma 2- Describe / Distribution Fitting / Probability Distributions ( o Plot / Probability Distributions) Normal (3,1) Marcar opción Random Numbers Ventana Random Numbres / Botón Secundario / Pane Options poner n=500 (100 por defercto) Barra Herramientas / Botón Disquete seleccionar destino en la hoja y nombre de la nueva variable Repetir dos veces Save (botón Disquete) hasta crerar 3 columnas (con 500 observaciones cada una) 9 Práctica 2 vgaribay 3.2 Generar dos muestras de tamaño 500 de la distribución U(0; 1). forma 1- Repetir el proceso de 3.1 pero cambiando RNORMAL(500;3;1) por RUNIFORM(500;0;1) forma 2- Repetir el proceso de 3.1 pero seleccionando Uniform (01) en lugar de Normal (3,1) ( o Herramientas / Botón Analisis Uniform), 3.3 Generar 200 números aleatorios de la distribución de Poisson (2). forma 2- Repetir el proceso de 3.1 pero seleccionando Poisson (2) en lugar de Normal (3,1) Herramientas / Botón Analisis Poisson, + Botón Parametros 2 Ventana Random Numbers / Botón secundario / Size= 200 + Botón Save 3 veces 10 Práctica 2 vgaribay 3.4 Realizar un análisis estadístico descriptivo de las muestras anteriores comprobando visualmente el parecido del histograma con el modelo. Describe / Numeric data / One Variable Analysis normal1 Plot / Probability Distributions Normal (3,1) Superpuestos los listogramas acumulados: Teórico y Muestral 11 Práctica 2 vgaribay 4.- AJUSTE GRÁFICO Describe / Distribution Fitting / Fitting Uncensored Data 4.1 Ajustar las variables anteriores por modelos correctos e incorrectos. Muestra1 Normal (3,1) 12 Práctica 2 vgaribay Muestra1 Unifrome (0,1) Muestra1 Poisson (2) 13 Práctica 2 vgaribay 4.2 Hacer la transformación 2X+3 a la muestra de la N(3; 1) y comprobar la normalidad. Datos / Nueva Columna / Doble Click en cabecera / Formula Define 2*normal1+3 4.3 Hacer la transformación X2 a la muestra de la N(3;1) y comprobar que no se ajusta a la normal. Datos / Nueva Columna / Doble Click en cabecera / Formula Define normal1^2 P-Value=0,0136716 4.4 Combinar linealmente las tres variables normales y comprobar el ajuste a la normalidad. Datos / Nueva Columna / Doble Click en cabecera / Formula Define 3* normal1-2,5*normal2+1,5*normal3 P-Value=0,307374 14 Práctica 2 vgaribay 4.5 Sumar las dos variables uniformes y ver que no se ajustan a un modelo uniforme. Datos / Nueva Columna / Doble Click en cabecera / Formula Define uni1+uni2 P-Value= 4.6 Comprobar qué distribución ajusta gráficamente mejor las variables mpg y accel del fichero Cardata.sgd. Doble click sobre él para abrit con Statgraphics Describe / Distribution Fitting / Fitting Uncensored Data mpg Selecciono ajustes a varias distribuciones: Normal, Uniforme, Exponencial, Log-Normal … con Quantile Plot en el menú de Gráficos 15 Práctica 2 vgaribay Describe / Distribution Fitting / Fitting Uncensored Data accel 5.- CONVERGENCIA DE LA MEDIA MUESTRAL Comprobar el cumplimiento de la Ley Fuerte de los Grandes Números: la media muestral converge a la media poblacional. 5.1 Generar 500 datos de una exponencial de media 2 Seleccionar la columna / Generate Data / rexponential(?;?) o Plot / Prob. Distributions exponential(2) Ventana Random Numbers / Botón Secundario / Pane Options Size=500 Botón Diskete guardo las 500 observaciones independientes de la exponencial(2) 16 Práctica 2 vgaribay 5.2 En la siguiente columna generar una variable contador Seleccionar la columna / Generate Data / count(?;?;?) o bien Data Book / Seleccionar Col_2 / Doble Click en cabecera / Formula / Define / COUNT(1;500;1) 5.3 Crear una columna donde cada celda i guarde el valor resultado de sumar las celdas 1 hasta i de la variable exponencial creada Data Book / Seleccionar la columna3 / Botón secundario/Generate Data / runtot(?) 5.4 Dividir la última columna por la columna contador. Data Book /Seleccionar Col_4 /Doble Click en cabecera /Formula/Define/ exp2_acumulada/Contador 17 Práctica 2 vgaribay 5.5 Plot de la última columna y ver la convergencia a la media muestral a la teórica (2): Plot /Scatterplots / X-Y Plot, x=Contador Y= Media_Muestral_i o bien Plot /Time Sequencie Plots /X Plot media_muestral_i 18 Práctica 2 vgaribay 6.- CONVERGENCIA A LA DISTRIBUCIÓN NORMAL Comprobar el cumplimiento del Teorema Central del Límite: la distribución de la suma y de la media muestral convergen a la distribución normal. 6.1 Generar una a una 10 columnas con 500 datos de una distribución de U(0,1) Seleccionar la columna / Generate Data / runiform(?;?) o Seleccionar la columna / Generate Data / runiform (?;?) o Plot / Prob. Distributions Uniform(0,1) Ventana Random Numbers / Botón Secundario / Pane Options Size=500 Botón Diskete guardo las 500 observaciones independientes de la Uniform(0,1) Repetir hasta 10 veces poniendo nombre a cada columna: uniform1, uniform2 … hasta uniform10 6.2 Describir una de las columnas y ajustarla al modelo uniforme. Describe / Distribution Fitting / Fitting Uncensored Data uniform1 ajuste Uniforme 19 Práctica 2 vgaribay 6.3 Generar columnas con las sumas de las 2, 5, 10 primeras columnas. Describe / Numeric Data / Rowwise Statistics (disquetesuma)). Columnas 1 y 2 Repetir para suma de las columnas 1 a 5 y finalmente, calculo y guardo las 500 medias de las columnas 1 a 10 20 Práctica 2 vgaribay 6.4 Hacer un ajuste a un modelo normal de la primera columna y de las sumas creadas. Describe / Distribution Fitting / Fitting Uncensored Data uniform1 ajuste Normal Analisis Uniform1 Ventana Histograma / Copy to StataGallery / Paste Ajuste de la variable Media2 a la Normal Botón Analisis / variable Media2 Ajuste de la variable Media5 a la Normal Botón Analisis / variable Media5 21 Práctica 2 vgaribay Ajuste de la variable Media10 a la Normal Botón Analisis / variable Media10 6.5 Pegar los cuatro histogramas ajustados en los paneles de StatGallery. Hemos reunido los histogramas de cada análisis en StatGallery mediante Analisis Uniform1 Ventana Histograma / Copy to StataGallery / Paste Analisis Media2 Ventana Histograma / Copy to StataGallery / Paste Analisis Media5 Ventana Histograma / Copy to StataGallery / Paste Analisis Media10 Ventana Histograma / Copy to StataGallery / Paste 22 Práctica 2 vgaribay 6.6 Comprobar que la media y la varianza muestrales de las sumas se parecen a los valores poblacionales conocidos n y n1/2 siendo Calculamos las sumas -por ejemplo- a partir de las medias, multiplicando en cada caso por el número de observaciones promediadas (2, 5 o 10). Aparecen así 3 nuevas columnas: suma2, suma5 y suma10 Data Book / Col_4 doble click / Formula / Define 2* media2 ; 5*media5 ; 10*media10 suma2 suma5 suma10 Describe / Numeric Data / One-Variable Analiysis suma2 1/2 n=2 n = 2*0,5=2 y n =(1/raíz(12)) raíz(2)= 0,408 Describe / Numeric Data / One-Variable Analiysis o Botón Analisis suma5 suma5 23 Práctica 2 vgaribay n=5 n = 2*0,5=2,5 y n1/2 =(1/raíz(12)) raíz(5)= 0,645 Describe / Numeric Data / One-Variable Analiysis o Botón Analisis n=10 n = 10*0,5=5 6.7 suma10 suma10 y n1/2 =(1/raíz(12)) raíz(10)= 0,913 Repetir el ejercicio con promedios en lugar de sumas. Notar que ahora se tiene Describe / Numeric Data / One-Variable Analiysis o Botón Analisis n=2 = 0,5 y n1/2 =(1/raíz(12))/ raíz(2)= 0,204 Describe / Numeric Data / One-Variable Analiysis o Botón Analisis n=5 = 0,5 media5 media5 y n1/2 =(1/raíz(12))/ raíz(5)= 0,129 Describe / Numeric Data / One-Variable Analiysis o Botón Analisis n=10 = 0,5 media2 media2 media10 media10 y n1/2 =(1/raíz(12))/ raíz(10)= 0,091 24 Práctica 2 vgaribay EJERCICIOS Ejercicio 2.1: Sea X es una variable aleatoria N(10,3). a) Halla la gráfica de su función de densidad. b) Calcula la probabilidad P(X<9.5). c) Halla el percentil 97.5%. Ejercicio 2.2: Sea X una variable aleatoria que sigue una distribución exponencial de media 17. a) Calcular la probabilidad P(X>25). b) Hallar x tal que P(X<x) = 0.3 Ejercicio 2.3: Se sabe que la densidad X de ciertos ladrillos cuando se hornean a 125ºC es una variable aleatoria normal con media 3.85 gr/cm3 y desviación típica 0.05 gr/cm3. Si los límites de tolerancia son (3.75 gr/cm3, 4.00 gr/cm3), hallar el porcentaje de ladrillos que se salen de dicho intervalo. Ejercicio 2.4: La tasa de artículos defectuosos producidos por una cadena de producción es del 2%. Hallar la probabilidad de que en una muestra de 500 artículos extraídos al azar e independientemente haya más de 20 defectuosos. Ejercicio 2.5: En cierta factoría de montaje en serie se estima que el 30% de los días de trabajo se produce algún paro parcial por averías menores y se supone que hay independencia entre lo que ocurre en días distintos. Cada vez que se acumulan tres días con paros parciales, la empresa decide hacer un paro total para poner a punto el sistema. Obtener la probabilidad de que transcurran más de 10 días sin producirse un paro total. Ejercicio 2.6: Las llamadas que llegan a cierta centralita telefónica en determinado periodo de tiempo siguen un Proceso de Poisson de tasa 180 llamadas a la hora. La capacidad de la central telefónica permite atender un máximo de 5 llamadas por minuto. Calcular: a) La probabilidad de que en un minuto determinado se reciban más llamadas de las que se pueden atender. b) La probabilidad de que en un intervalo de 5 minutos se produzcan más de 10 llamadas. Ejercicio 2.7: a) Buscar la distribución que mejor se ajusta gráficamente a la variable Poblacion del fichero de datos Municipios.sgd entre la Gamma, la Normal y la Uniforme, y escribe a continuación el valor del/los parámetro/s. b) Con los datos de robles.sgd, buscar la distribución que mejor se ajusta gráficamente a la variable X=(10*Fosforo-Calcio)^2 entre la Normal, la Lognormal, la Uniforme y la Binomial. Usando la distribución elegida, halla el valor de x tal que 25 Práctica 2 vgaribay P(X>x)=0.2. ESTADÍSTICA 1er Curso c) Con los datos de robles.sgd, buscar la distribución que mejor se ajusta gráficamente a la variable X=Zinc/Manganeso entre la Poisson, la Gamma, la Exponencial y la Normal. Usando la distribución elegida, halla P(X≤1). Ejercicio 2.8: Comprobar la convergencia de la media con las distribuciones Uniforme Discreta en {0,1,…,10}, B(1/6) y N(10,5). Observar que en el segundo caso la media es una proporción. Ejercicio 2.9: Comprobar el Teorema Central del Límite con datos procedentes de las distribuciones: U(0,3), (3,1.5) y g(0.1). Tener en cuenta que para el programa la variable con distribución geométrica representa el nº de ensayos antes del primer éxito. Sucede lo mismo con la Pascal. Ejercicio 2.10: Simular 200 datos de 5 variables con distribución B(0.6) y comprobar que su suma es Binomial. Ídem con las distribuciones Normal, Geométrica y Exponencial. ¿A qué distribución se ajusta la suma en cada caso? Ejercicio 2.11: a) Calcular de forma teórica la probabilidad de obtener 3 doses en 5 tiradas. b) Calcula la misma probabilidad simulando 300 datos binomiales, contando los casos correspondientes a 3 doses y hallando la proporción sobre los 300. (Operadores select y sum, o bien frecuencia relativa de la categoría correspondiente). Ejercicio 2.12: Se pretende obtener la distribución del mayor resultado al lanzar 4 veces un dado legal. Generar 4 columnas de datos resultados de lanzar cuatro dados 100 veces (usar la distribución Uniforme Discreta entre 1 y 6 o bien el operador Rinteger(100;1;6)). En la siguiente columna considerar el estadístico máximo de los cuatro resultados de cada fila (Describir / Datos Numéricos / Estadísticas por Filas). Representarla gráficamente y observar la calidad del ajuste a diferentes distribuciones. Repetir el proceso anterior con el mínimo y la mediana. 26