R PRÁCTICA II Probabilidad-Variables Aleatorias Sección II.1 Probabilidad 15. En el fichero sintomas.dat se encuentran 9 columnas con los resultados de una estadı́stica médica. Cada columna corresponde a las siguientes variables: V1. Fumador V2.Ha viajado a Asia V3. Cancer de pulmón V4. Bronquitis % V5. Tuberculosis V6.Auscultación torácica normal V7. Doloren el pecho % V8. Rayos X normales V9. Edad Todos los campos, excepto el último, están codificados mediante un 1 si la respuesta es NO y 2 si la respuesta es SI. Importar dicho fichero de los ficheros de datos y responder a: a) Crear un gráfico de barras con la probabilidad de padecer cáncer de pulmón por franjas de edad de 10 años. b) Calcular la probabilidad de padecer cáncer de pulmón si tomamos un individuo de la franja de edad de 40 a 70 años. c) Calcular, para esa misma franja de edad: 1) la probabilidad de padecer cáncer de pulmón teniendo en cuenta que el paciente es fumador. 2) la probabilidad de padecer cáncer de pulmón dado que es fumador y siente dolor en el pecho. 3) la probabilidad de padecer cáncer de pulmón dado que NO es fumador y NO siente dolor en el pecho. 8 II.2. VARIABILIDAD A CORTO PLAZO. REGULARIDAD A LA LARGA 4) la probabilidad de padecer cáncer de pulmón dado que el paciente ha visitado Asia. d ) ¿Son los siguientes sucesos dependientes o independientes? 1) Haber visitado Asia y padecer tuberculosis. 2) Fumar y haber visitado Asia. 3) Fumar y padecer cáncer de pulmón. Sección II.2 Variabilidad a corto plazo. Regularidad a la larga 16. Variabilidad a corto plazo. Crear un data.frame nuevo de nombre dado.12. a) Simular 12 lanzamientos de un dado regular (no trucado), almacenando los resultados de los lanzamientos en la columna 1 (”dado_1”). dado.1<-sample(c(1:6),12,replace=TRUE) b) Repetir el apartado anterior almacenando los resultados en la columna 2 (”dado_2”) y (”dado_3”). c) Dibujar diagramas de barras de los datos de las tres columnas. barplot(table(dado.1)) d ) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas 1 iguales a ? 6 17. Variabilidad a largo plazo. Crear un data.frame nuevo de nombre dado.1200. Simular 1200 lanzamientos de un dado regular (no trucado), almacenando los resultados de los lanzamientos en la columna (”dado_4”). b) Repetir el apartado anterior almacenando los resultados en las columnas (”dado_5”) y (”dado_6”). c) Dibujar diagramas de barras de los datos de las dos columnas. d ) Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativas 1 iguales a ? 6 a) 18. ¿Es siempre admisible el concepto clásico de probabilidad? Simular 120 lanzamientos de un dado en cuyo interior se han introducido asimétricamente bolas de acero, de forma que P (1) = 0.5; P (2) = 0.25; P (3) = 0.15; P (4) = 0.04 y P (5) = P (6) = 0.03. Almacenar los resultados de los lanzamientos en la variable (”dado.trucado.120”). b) Dibujar diagramas de barras para la variable anterior. c) ¿Son aproximadamente iguales las frecuencias relativas de los 6 sucesos posibles? ¿A qué concepto de la probabilidad conduce este experimento aleatorio? a) Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 9 CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS Sección II.3 Concepto frecuentista de la probabilidad 19. La concepción frecuentista interpreta que la probabilidad de un suceso es el lı́mite de la frecuencia relativa de dicho suceso cuando el número de veces que se repite el experimento asociado tiende a infinito. Por ejemplo, que la probabilidad de sacar cruz al tirar una moneda es 0.5 significa que, en una sucesión de tiradas, la frecuencia relativa de las cruces obtenidas se irá aproximando paulatinamente a 0.5 según avanza la sucesión. a) Generamos un vector que represente la sucesión de tiradas; suponiendo n = 500 tiradas. b) Generamos otro vector F A con las frecuencias absolutas del número de cruces acumuladas hasta cada tirada. c) Calculamos las frecuencias relativas de las cruces en cada tirada. d) Representamos la secuencia de frecuencias relativas acumuladas. e) Podemos añadir la ası́ntota, a la altura del valor teórico de la probabilidad p = 0.5 Sección II.4 Simulación de experimentos aleatorios 20. Simular el problema del aniversario: a) Simular el nacimiento de 40 personas. muestra.nac.40 b) Analizar los datos repetidos de muestra.nac.40 y comprobar si hay dos personas con el mismo dı́a de nacimiento. c) Simular el nacimiento de 23 personas, muestra.nac.23 y efectuar la misma comprobación que antes. d) Simular el experimento anterior 2000 veces y estimar la probabilidad de que al menos dos personas de un grupo de 23 elegidos al azar cumplan años el mismo dı́a. num.veces<-2000 num.personas<-23 coinciden<-replicate(num.veces,is.element(0, diff(sort(sample(c(1:365),num.personas,replace=TRUE))))) frec<-sum(coinciden)/num.veces frec Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 10 II.4. SIMULACIÓN DE EXPERIMENTOS ALEATORIOS e) Compara los resultados obtenidos con la solución exacta. p=1− 21. 365 · 364 · 363 · · · (365 − n + 1) 365n Simular el problema de los dados de Galileo1 : a) Abrir un nuevo conjunto de datos o data.frame de nombre Galileo. Simular el lanzamiento de un dado 1000 veces.(C1=dado.1) b) Realizar lo mismo para las columnas (C2=dado.2) y (C3=dado.3) c) Establecer en la columna (C4=Suma) la suma de las tres dados. d ) Estimar la probabilidad de que la suma de los dados sea 10. e) Estimar la probabilidad de que la suma de los dados sea 9. f ) Realizar, con otra simulación los pasos anteriores y comparar los resultados Suma =10 g) Suma =9 Comparar con los resultados exactos P (sumen 9) = 1 25 = 0.116 63 P (sumen 10) = 27 = 0.125 63 galileo<-data.frame(dado.1=sample(1:6,1000,rep=TRUE)) Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 11 CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS Sección II.5 Distribuciones discretas y continuas más comunes 22. 23. 24. 25. 26. Una v.a. X binomial B(200; 0.4). Se pide: a) P (X < 71) P (X ≥ 90) b) P (X ≤ x) = 0.4 P (X ≥ x) = 0.8 FX (100) FX (75) La centralita telefónica de un hotel recibe un número de llamadas por minuto que sigue una ley de Poisson con parámetro λ = 0.5. Determinar la probabilidad de que en un minuto al azar: a) Se reciba una única llamada. b) c) Se reciban un máximo de dos llamadas. La centralita quede bloqueada, sabiendo que no puede realizar más de 3 conexiones por minuto. Sea X una variable aleatoria normal con µ = 50 y σ 2 = 25. Calcular: a) p(X ≤ 40) p(X ≤ 60) p(X > 65) b) p(X > 35) p(40 < X < 60) p(30 < X < 42) Una v.a. X se distribuye uniformemente en (2, 4). Se pide: a) P (X < 2.5) b) P (X ≤ x) = 0.4 P (X ≥ 3.2) P (X ≥ x) = 0.8 P (2.2 < X < 3.5) FX (2.7) Una v.a. X se distribuye de forma normal N (0; 1). Se pide: a) P (X < 1.2) b) P (X ≤ x) = 0.4 P (X ≥ 2.6) P (X ≥ x) = 0.8 Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz FX (1.5) FX (−0.7) 12 II.6. TEOREMA CENTRAL DEL LÍMITE Sección II.6 Teorema Central del Lı́mite En este apartado estudiaremos la distribución del promedio de variables independientes e idénticamente distribuidas y a través de los histogramas correspondientes analizaremos el comportamiento de estas distribuciones a medida que promediamos un número creciente de variables aleatorias. X= X1 + X2 + . . . + Xn n Teorema de central del lı́mite: Si X1 , . . . , Xn son variables aleatorias independientes con la misma media µ y la misma varianza σ 2 6= 0 y finita, la función de distribución de la variable aleatoria X1 + . . . + Xn σ X= −→ N µ, √ n n cuando n tiende a infinito. 27. Con este ejemplo ilustraremos que el promedio de la media muestral, E[X] = µ y la desviación σ tı́pica de la media muestral es D.T.[X] = √ . n a) Simula una v.a. normal N (0, σ = 4) de tamaño N = 1000 datos (este valor grande para aumentar la precisión) y calcula de ella su media y su desviación tı́pica. b) Simula 16 muestras de una población normal N (0, σ = 4) de tamaño N = 1000. X1 + X2 + . . . + X16 . 16 2) Calcula la desviación tı́pica de la variable X 16 1) Calcula la media X 16 = σ Comprueba que realmente se cumple que E[X] = µ y D.T.[X] = √ . n muestra.16 <- replicate(16, rnorm(1000,mean=0,sd=4)) medias.16<-apply(muestra.16,1,mean) mean(medias.16) sd(medias.16) 28. Simular y representar la media de un muestreo aleatorio simple de tamaño 2 (X1 , X2 ) de una distribución U (0, 1). a) Simular dos muestras muestras.2 de tamaño N = 1000 para obtener un histograma con bastante precisión muestra.2 <- replicate(2, runif(1000,min=0,max=1)) b) Construir el vector de medias media.2 medias.2<-apply(muestra.2,1,mean) c) Realiza el histograma. hist(medias.2,breaks=100) Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 13 CAPÍTULO II. PROBABILIDAD-VARIABLES ALEATORIAS d) 29. 30. Añadir en el histograma una lı́nea vertical azul2 que represente el promedio del vector de medias obtenido. Representar con una lı́nea de puntos (lty=3) de color rojo (col=red”) la media de la población. A partir del ejercicio anterior, simular y representar la media de un muestreo aleatorio simple de tamaño 5, (X1 , X2 , · · · , X5 ) de una distribución U (0, 1). A partir del ejercicio anterior, simular y representar la media de un muestreo aleatorio simple de tamaño 30, (X1 , X2 , · · · , X30 ) de una distribución U (0, 1). muestra.30 <- replicate(30, runif(1000,min=0,max=1)) medias.30<-apply(muestra.30,1,mean) hist(medias.30,breaks=100,freq=FALSE) √ Le añadimos la curva normal para visualizar la comparación, N (µ, σ/ n) curve(dnorm(x,0.5,1/sqrt(360)),col="red",add=T,lwd=3) 31. 32. Realizar el ejercicio anterior para una distribución exponencial Ex(α = 2). Un sistema electrónico está dispuesto de forma que cuando falla el primer dispositivo E1 se activa automáticamente el segundo E2 , y ası́ sucesivamente hasta el En . Si el tiempo Ti hasta que falla Ei , para cualquier i, es de tipo exponencial con parámetro α = 0.1 hora−1 y T (n) = T1 + T2 + · · · + Tn es el tiempo total de funcionamiento de n dispositivos, hallar: a) P [T (1) > 12]. b) P [T (2) > 18]. c) P [T (30) > 350]. d) Calcular los apartados anteriores por simulación Soluciones 15. 22. 23. 24. 25. 26. 2 b) 0.0457172 c) 1)0.0964605; 2) 0.2150754;3) 0.0007471; 4) 0.0769230 a) 0.08439778-0.08572368-0.9983152 b) 78-75-0.2589559 a) 0.303 b) 0.9856 c) 0.00175 a) 0.02275- 0.9772- 0.0013 b) 0.9986 - 0.9544- 0.05476 a) 0.25- 0.4- 0.65 b) 2.8 - 2.4- 0.35 a) 0.8849303- 0.004661188- 0.9331928 b) -0.2533471 - −0.8416212 - 0.2419637 abline(v=mean(medias),col=.a zul”,lwd=3) Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 14