CÀLCUL DE PROBABILITATS (Laboratoris) DIPLOMATURA D’ESTADÍSTICA Mónica Bécue Bertaut Despatx Campus Nord C5-209 Lídia Montero Mercadé Despatx Camous Nord C5-217 Departament Estadística i Investigació Operativa Setembre de 2005 Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Prof. Lídia Montero i Mónica Bécue Programa de Pràctiques Laboratori Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 1. PRÁCTICAS Las sesiones de prácticas comportan sesiones de problemas, en las cuales los estudiantes aplican los conocimientos adquiridos en las sesiones de teoría, y sesiones de análisis de datos, que permiten introducir ideas básicas sobre la estadística descriptiva. Todas las sesiones, excepto la primera, son objeto de evaluación. Dicha evaluación corresponde a la entrega, al final de la sesión, del trabajo efectuado en la sesión (o parte del trabajo efectuado) o a la exposición de problemas resueltos trabajados durante la semana (por grupos de dos estudiantes). Las notas obtenidas pueden sustituir, totalmente o parcialmente, la nota del parcial. Programa dels laboratoris L’assignatura de Càlcul de Probabilitats comporta l’assistència obligatòria a les pràctiques de laboratori. Les sessions de laboratori previstes són: 1ª Sesión: 2a Sesión: 3a Sesión: 4a Sesión: 5a Sesión: Introducció : presentació de las pràctiques Descripció de dades: obtener informació a partir de dades (Minitab) Combinatoria y probabilidad Probabilidad condicional y teorema de Bayes Variables aleatorias: función de probabilidad, función de distribución, esperanza, varianza Problemas de repaso 6a Sesión: ---------------- Examen parcial -----------------------------------------------------------------7a Sesión: Par de variables aleatorias Variable de Bernoulli, variable binomial (Tablas) 8a Sesión: Tablas de contingencia: concluir sobre 9a Sesión: la independencia entre variables a partir de una muestra (Minitab) 10ª Sesión: Variable geométrica, binomial negativa y de Poisson (Tablas) 11ª Sesión: Variable exponencial, relación con la variable de Poisson Variable Normal (Tablas) 12a Sesión: Teorema límites: teorema de los grandes números, TLC 13a Sesión: Problemas de repaso 14 a Sesión: Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Prof. Lídia Montero i Mónica Bécue Programa de Pràctiques Laboratori Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 2. ARXIU DE DADES Dades Què son les dades? Població, Individu, Variable, Taula Individu×Variable Matriu/fitxer de dades Arxiu base El arxiu base de treball, el que no treu que ocasionalment es pugui fer-ne servir d’altres, es: LECTURA.MTW A més, es troba a disposició dels alumnes de l’assignatura un conjunt d’arxius de dades en el en la carpeta del servidor KOLMOGOROV relativa a assignatures de la Diplomatura. Lectura El archivo LECTURA.MTW contiene información extraída de una investigación destinada a conocer las actitudes hacia la lectura que presentan los escolares de Enseñanza Primaria (Les actitudes envers la lectura, un model d’anàlisi a l’Educació Primària, Nuria Rajadell Puiggros, Tesis de Pedagogía de la Universidad de Barcelona, 1990). 857 alumnos de 5º nivel de enseñanza general básica (10-11 años) son observados. Una vez depurados los datos únicamente se usa una población de 678 alumnos, (se pierden muchas observaciones debido a la gran cantidad de “missing”). Para este ejemplo, se ha conservado solamente una muy pequeña parte de información recogida sobre los niños, extraída del cuestionario de opinión general, del cuestionario general de inventario de actitudes hacia la lectura, y de las fichas escolares. Se obtienen así 30 variables, presentadas a continuación. Se detallan las modalidades correspondientes a cada variable. En el fichero, hay 31 columnas, la primera contiene –alfanumérico- el identificador del individuo. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Descripción de las variables y de las modalidades C1. IDENTIFICADOR ---------------------------------------------------------------------------------------------------C2. EN LA ESCUELA LEEMOS ( 4 MODALIDADES ) EL1 - POCO EL2 - BASTANTE EL3 - MUCHO EL4 - MISSING ESC LEEMOS ---------------------------------------------------------------------------------------------------C3. EN CASA TENEMOS ( 4 MODALIDADES ) HH1 - POCOS LIBROS HH2 - BASTANTES LIBROS HH3 - MUCHOS LIBROS HHMI - MISSING LIBROS CASA ---------------------------------------------------------------------------------------------------C4. YO LEO ( 4 MODALIDADES ) JL1 - POCO JL2 - BASTANTE JL3 - MUCHO JLMI - MISSING YO LEO ---------------------------------------------------------------------------------------------------C5. LEO CON ( 4 MODALIDADES ) LA1 - MUCHA DIFICULTAD LA2 - ALGUNA DIFICULTAD LA3 - FACILIDAD LAMI - MISSIN LEO CON ---------------------------------------------------------------------------------------------------C6 LIBROS ESCUELA DADOS POR MAESTRO ( 3 MODALIDADES ) LM1 - ME GUSTAN LM2 - NO ME GUSTAN LMMI - MISSING LI ESC MAES ---------------------------------------------------------------------------------------------------C7 LEO CUANDO ( 4 MODALIDADES ) PL1 - HAGO TRABAJO PL2 - ME APETECE PL3 - LAS DOS COSAS PLMI - MISSING LEO CUANDO ---------------------------------------------------------------------------------------------------C8 PREFIERO LEER ( 4 MODALIDADES ) PB1 - EN SILENCIO PB2 - EN VOZ ALTA PB3 - 1+2 PBMI - MISSING PREF. LEER ---------------------------------------------------------------------------------------------------C9 LEER TEXTOS ESCUELA ( 4 MODALIDADES ) TX1 - NO ME GUSTAN TX2 - ME GUSTAN TX3 - GUST. A VECES SI, A TXMI - MISSING ESC ---------------------------------------------------------------------------------------------------C10 GUSTAR ESCUELA ( 4 MODALIDADES ) AE1 - SI AE2 - NO AE3 - SI I NO AEMI - MISSING GUS ESC ---------------------------------------------------------------------------------------------------C11 ASIGNATURA PREFERIDA ( 13 MODALIDADES ) AM1 - MATEMATICAS AM5 - LENGUA CAT. AM8 - GIMNASIA AM11 - MUSICA AM2 - LENGUA CAST. AM6 - LENGUA EXTRAN. AM9 - DIBUJO AM12 - OTROS AM3 - SOCIALES AM7 - PLASTICA AM10 - ETICA-RELIGION AMMI - MISSING ASIG.PREF. AM4 - NATURALES ---------------------------------------------------------------------------------------------------C12 ASIGNATURA RECHAZADA ( 13 MODALIDADES ) AR1 - MATEMATICAS AR5 - LENGUA CATAL. AR8 - GIMNASIA AR11 - MUSICA AR2 - LENGUA CAST. AR6 - LENGUA EXTRAN. AR9 - DIBUJO AR12 - OTROS AR3 - SOCIALES AR7 - PLASTICA AR10 - ETICA-RELIGION AR13 - MISSING ASIG RECH. AR4 - NATURALES ---------------------------------------------------------------------------------------------------C13 ESTUDIOS MADRE ( 6 MODALIDADES ) ES1 - SIN ES3 - MEDIOS ES5 - UNIV. SUP. ESMI - MISSING ESTUDIM ES2 - ELEMENTALES ES4 - UNIVERSITARIOS ---------------------------------------------------------------------------------------------------C14 ESTUDIOS PADRE ( 6 MODALIDADES ) ER1 - SIN ER3 - MEDIOS ER5 - UNIV.SUP. ERMI - MISSING ESTUDIP ER2 - ELEMENTALES ER4 - UNIVERSITARIOS ---------------------------------------------------------------------------------------------------C15 IDIOMA FAMILIAR ( 4 MODALIDADES ) FU1 - CATALAN FU2 - CASTELLANO FU03 - CATALAN Y CASTELLANO FUMI - MISSING LENGUA ---------------------------------------------------------------------------------------------------C16 SE SIENTE BIEN EN CLASE...? ( 9 MODALIDADES ) GC1 - SI POR TODO GC4 - SI POR MAESTRO Y COM GC6 - NO POR MAESTRO GC8 - NO POR MAESTRO Y COM GC2 - SI POR EL MAESTRO GC5 - NO POR NADA GC7 - NO POR COMPAÑEROS GCMI - MISSING BIEN CLASE GC3 - SI POR LOS COMPAÑERO ---------------------------------------------------------------------------------------------------C17 NUMERO DE HERMANOS ( 9 MODALIDADES ) NG1 - NINGUN HERMANO NG4 - TIENE 3 HERMANOS NG6 - TIENE 5 HERMANOS NG8 - TIENE 7 HERMANOS NG2 - TIENE 1 HERMANO NG5 - TIENE 4 HERMANOS NG7 - TIENE 6 HERMANOS NGMI - MISSIN N. HERMANOS NG3 - TIENE 2 HERMANOS ---------------------------------------------------------------------------------------------------C18 NIVEL SOECIOECONOMICO FAMILIAR ( 4 MODALIDADES ) NS1 - BAJO NS2 - MEDIO NS3 - ALTO NSMI - MISSING ---------------------------------------------------------------------------------------------------C19 PORQUE LEO TEXTOS ESCOLARES ( 8 MODALIDADES ) PE1 - DIVERTIDOS PE3 - BONITOS PE5 - FACILES PE7 - LENGUA CATALANA PE2 - INTERESANTES PE4 - ABURRIDOS PE6 - DIFICILES PEMI - MISSING PQ L TE ESC ---------------------------------------------------------------------------------------------------C20 TIPO DE ESCUELA ( 3 MODALIDADES ) PP1 - PUBLICA PP2 - PRIVADA PPMI - MISSING ESCUELA ---------------------------------------------------------------------------------------------------C21 CALIFICACIONES GLOBALES ( 6 MODALIDADES ) QG1 - SUSPENSO QG3 - BIEN QG5 - SOBRESALIENTE QGMI - MISSING CALIF GLO QG2 - SUFICIENTE QG4 - NOTABLE ---------------------------------------------------------------------------------------------------C22 CALIFICACIONES LENGUA ( 6 MODALIDADES ) QL1 - SUSPENSO QL3 - BIEN QL5 - SOBRESALIENTE QLMI - MISSING CALIF. LEN QL2 - SUFICIENTE QL4 - NOTABLE ---------------------------------------------------------------------------------------------------C23 SEXO ( 3 MODALIDADES ) SX1 – NIÑO SX2 - NIÑA SXMI - MISSING SEXO ---------------------------------------------------------------------------------------------------C24 OCUPACIOM DE LA MADRE ( 12 MODALIDADES ) TM1 - ADM. BANC. EMP TM4 - PR. INDUSTRIA TM7 - TRANS. COMUNIC TM10 - PARADO TM2 - FUNCIONARIO TM5 - AGR. GANA. MIN, TM8 - OFICIOS TM11 - JUBILADO TM3 - PR. LIBERALES TM6 - COMERCIO TM9 - AMA DE CASA TMMI - MISSING TRABA MADRE ---------------------------------------------------------------------------------------------------C25 OCUPACIÓN DEL PADRE ( 12 MODALIDADES ) TP1 - ADM. BANC. EMP. TP4 - PR. INDUSTRIA TP7 - TRANS. COMUNIC TP10 - PARADO TP2 - FUNCIONARIO TP5 - AGR. GAN. MIN. TP8 - OFICIOS TP11 - JUBILADO TP3 - PR. LIBERALES TP6 - COMERCIO TP9 - AMA DE CASA TPMI - MISSING TRAB PADRE ---------------------------------------------------------------------------------------------------C26 SEXO*LENGUA FAMILIAR ( 8 MODALIDADES ) SL1 - NIÑO CATALAN SL3 - NIÑO CAT*CAST SL5 - NIÑA CATALAN SL7 - NIÑA CAT*CAST SL2 - NIÑO CASTELLANO SL4 - NIÑO MISSING SL6 - NIÑA CASTELLANO SL8 - NIÑA MISSING ---------------------------------------------------------------------------------------------------C27 EDAD DE LA MADRE ( CONTINUE ) AAAB - EDAD DE LA MADRE ---------------------------------------------------------------------------------------------------C28 EDAD DEL PADRE ( CONTINUE ) AAAC - EDAD DEL PADRE ---------------------------------------------------------------------------------------------------C29 IGNV INTELIGENCIA NO VERBAL ( CONTINUE ) AAAF - IGNV ---------------------------------------------------------------------------------------------------C30 IGV INTELIGENCIA VERBAL ( CONTINUE ) AAAG - IGV ---------------------------------------------------------------------------------------------------C31 M.I. INTELIGENCIA GLOBAL ( CONTINUE ) AAAH - M. I. ---------------------------------------------------------------------------------------------------- Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3. SESIONES 3.1 Introducció al anàlisi de dades amb Minitab Entrar a Minitab Treballar per comandes o per menus Full de dades El paquet estadístic realitza operacions i tractaments sobre un full de dades (worksheet).Al entrar en Minitab, es troba una worksheet vacia. Es pot entrar dades o utilitzar worksheets amb dades entrades abans. Un full de dades es pot considerar com una matriu de dades on: • les columnes s’identifiquen amb les variables (o atributs o característiques) (nom per defecte c1, c2, c3…) • les files corresponen als individus (o unitats estadístiques o observacions); • cada fila conté els valors que toma el individu para totes les variables. Els fulls de dades de MINITAB tenen la extensió per defecte .mtw. Obrir una worksheet o un projecte Què és una worksheet, què és un projecte (Project manager) exemples: lectura.mtw, lectura mpj Estructures de dades • • Variables-columnes, C1, c2, c3…. Constants: k1, k2, k3 Donar un nom als constants o variables : MTB> NAME K1 ‘DADES’ Qualsevol referència posterior, en comandes, a la variable dades ha de fer-se amb la cadena de caràcters entre cometes. Ajuda en línia MTB> HELP NAME Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Sortir i conservar el full de treball En entorn WINDOWS, sortir del sistema MINITAB assoleix amb la selecció d’icones File Exit. Pel recull de la sessió de treball File SaveProject as (salva fulls i icones de resultats oberts, texte i gràfics I alters parts) File SaveWorksheet as només per salvar el full de dades actual. Informació sobre l’arxiu Comanda INFO. Informa de l’existència de noms d’usuari lligats a les variables i del nombre d’observacions de cadascuna. Lectura de les dades Una primera tasca fonamental és la lectura/escriptura de dades, bé en format ASCII o en format intern MINITAB. La lectura/escriptura de dades en format ASCII es realitza amb les comandes READ i WRITE respectivament. La lectura/escriptura d’arxius de dades en format intern mitjançant les comandes RETRIEVE i SAVE, respectivament. • Arxius en format intern Minitab: Icona File OpenWorksheet (lectura d’un arxiu existent), File NewWorksheet (creació d’un nou full de dades), Save (As) Worksheet (escriptura). • Arxius en format ASCII: File OtherFiles Import Text (lectura) i File OtherFiles Export Text (escriptura). • Per recuperar un projecte anterior (fulls de càlculs i resultats): Icona File OpenProject. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Simular la tirada de una moneda − Entrar en Minitab − Ventana “sesión”, ventana “hoja de cálculo” − Otras ventanas En la práctica, se ve cómo simular la tirada de una moneda: a) “inventando los resultados”, b) utilizando las facilidades ofrecidas por el Minitab y, finalmente, c) tirando realmente una moneda. Se comparan las secuencias obtenidas. PARTE I: Simular una moneda 1. Entre todos los estudiantes, se “inventa” la cara de la moneda que se “simula” haber tirado. En total 30 tiradas. Se apuntan todos los resultados en la columna “imita-moneda” Es aconsejable emplear “0” para cara y “1” para cruz. Con esta codificación, cuando se calcula la media de las tiradas, se obtiene la proporción de “1” y, por tanto, de cruces. (Se puede intercambiar, evidentemente, la cara y la cruz). 2. Se tira una moneda real 30 veces Se apuntan todos los resultados en la columna “moneda” 3. Simular la moneda mediante las facilidades ofrecidas por Minitab Calc-Random Data-Integer Y conservar los resultados de la simulación en la columna “simula-moneda” 4. ¿Cómo estudiar las dos secuencias producidas? Así, por separado para cada columna: • Calculen y apunten la media: ¿Qué se espera? ¿Qué valor se observa? Se utiliza la secuencia de iconos Calc-Column statistics-mean • Calculen los efectivos y las proporciones de “caras” y “cruces” mediante un “Tally” ¿Qué se espera? ¿Qué valores se observan? Se utiliza la secuencia de iconos Stat Tables Tally • Representen dichas proporciones mediante un “diagrame de queso”. Se utiliza la secuencia de iconos Graph Chart • Busquen la secuencia más larga de caras y la secuencia más larga de cruces. ¿Qué longitud de secuencia se espera? ¿Qué valor se observa? Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.2 Descripció de dades: obtener informació a partir de dades Una variable empírica es una variable observada sobre una muestra. Se suelen emplear herramientas descriptivas para describirla y obtener una primera información. Se habla de estadística descriptiva univariante, dado que se describe una variable a la vez, sin tener en cuenta los valores que toman las otras variables para el mismo individuo. Les variables aleatòries, com s’indica a teoria, es classifiquen principalment en variables qualitatives i variables quantitatives. Els procediments de descriptiva, per la seva banda es classifiquen en gràfics i numèrics. Parte I: Descripció numèrica d’una variable cuantitativa: inteligencia global Es busca resumir la informació d’una variable mitjançant indicadors clàssics i robustos de la distribució de la variable. Els indicadors clàssics són més comunament coneguts. Els indicadors robustos són aquells pocs sensibles a variar el seu valor en presència de valors extrems en les observacions (llamados outliers si ocupan una posición claramente distinta del “grueso” de la muestra). Els indicadors clàssics de la distribució de la variable són: • Tendència central: la mitjana x = 1 n ∑ xi o en termes MINITAB mean. n i =1 MTB > mean c31 Mean of Inteligengia global Mean of Inteligengia global = 42,5914 ( ) 2 1 n s x n − 1 ∑ xi − x o la seva arrel quadrada que i =1 s’anomena desviació tipus o estàndard S x (STDEV en MINITAB). • Dispersió dels valors: variància 2 = MTB > stdev c31 Standard Deviation of Inteligengia global Standard deviation of Inteligengia global = 30,7301 Els indicadors robustos facilitats pel MINITAB són: • Tendència central: mediana (me o median en terminologia MINITAB), definida com el valor real tal que el 50% de les observacions prenen un valor inferior a me i el 50% prenen un valor superior. • Dispersió dels valors de la variable: distància interquartil (IQR) definida com la diferència entre els quartils del 75 (Q3) i 25% (Q1) (en terminologia MINITAB IQR=Q3-Q1) on: 1. Q1 és un valor real tal que el 25% de les observacions prenen un valor inferior a Q1. 2. Q3 és tal que un 25% de les observacions prenen un valor superior a Q3. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Molts d’aquests valors es troben a la sortida de la instrucció MINITAB DESCRIBE. En entorn Windows, els anteriors estadístics s’obtenen seleccionant els icons Statistics BasicStatistics DescriptiveStatistics. Ex: Descriptive Statistics: Inteligencia global Variable Inteligengia glo N 678 N* 0 Mean 42,59 SE Mean 1,18 StDev Minimum 30,73 1,00 Q1 15,00 Median 39,00 Q3 Maximum 68,00 99,0 Descripció gràfica de variables contínues La visualització de la distribució d‘una variable contínua complementa la descripció numèrica de la mateixa. Aquesta visualització es pot obtenir mitjançant diverses eines gràfiques MINITAB: histograma, box-plot, i d’altres. min max +------+----------+ I----------| | |------------------I +------+----------+ ↑ ↑ |<----- 1.5(Q3-Q1) ----->| | | Q1 ↑ | | mediana ↑ * ↑ |<----- 1.5(Q3-Q1) ----->| | | Q3 L’esquema vol il·lustrar en què consisteix el box-plot. La caixa central representa el 50% de les observacions, les que són entre el primer quartil i el tercer quartil; la mediana s’explicita amb una línia. Les cues són les línies que es prolonguen fins a un cert punt. Per exemple, en la cua superior es construeix un punt imaginari, situat a 1.5 vegades el IQR a partir del tercer quartil. La cua arribarà fins a l’observació més gran, però menor que aquest límit. La resta es representaran com a ‘*’, i anàlogament amb la cua inferior. Les observacions a més de 3 vegades el IQR a partir del tercer quartil són codificades gràficament pel MINITAB amb un símbol ‘o’. L’histograma és una representació extensament emprada. Les comandes bàsiques MINITAB per Estadística Descriptiva Univariant Gràfica són BOXPLOT i HISTOGRAM. En entorn Windows, l’obtenció de boxplots requereix seleccionar els icons Graph Boxplot i per tenir histogrames Graph Histo. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Ex: Comparar la información de la variable continua “Inteligencia global” desde un histograma, seleccionar el icono Graph y elegir Histogram… Y después el Boxplot Histogram Inteligencia global Boxplot Inteligengia global Histogram of Inteligengia global Boxplot of Inteligengia global 80 70 Frequency 60 50 40 30 20 10 0 0 15 30 45 60 Inteligengia global 75 90 0 20 40 60 Inteligengia global 80 100 Descripció d’una variable categòrica Les variables categòriques no prenen valors numèrics, sinó modalitats o categories (per exemple, el sexe pot ser home o dona, o el color dels ulls pot ser blau, verd, marró, etc.). Les variables categòriques no tenen significat numèric, tampoc té sentit establir mesures de tendència o de dispersió. Interessa obtenir la distribució dels efectius entre les distintes modalitats: icons Stat/ Tables/ Tally Ex: Tally for Discrete Variables: Yo leo Yo leo 1 2 3 N= Count 104 383 191 678 CumCnt 104 487 678 Percent 15,34 56,49 28,17 CumPct 15,34 71,83 100,00 Les variables categòriques es descriuen simplement amb recomptes de les modalitats presents gràficament representades via la selecció de les seqëncies Graph/ Pie Chart i Graph/ Bar Chart en entorn Windows. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Ex: Pie Chart: Yo leo Pie Chart of Yo leo Category 1 2 3 Ex: Chart Yo leo Chart of Yo leo 400 Count 300 200 100 0 1 2 Yo leo 3 Parte II (a entregar) Hagan la descripción de la variable cuantitativa “inteligencia verbal”. ¿Qué comentarios podéis hacer? Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.3 Combinatoria y probabilidad Problema 1 ¿Cuál es la probabilidad de obtener un número sin “0” ni “1” al formar números de tres cifras al azar? Problema 2 Se forma una palabra de tres letras, escogiendo las tres letras al azar. ¿Cuál es la probabilidad de que no haya letras repetidas? El alfabeto es de 26 letras. Problema 3 Se distribuyen 4 premios literarios entre 100 autores. ¿Cuál es la probabilidad de que el autor “AAA” tenga uno de los 4 premios? Se atribuye un solo premio por autor. Se atribuyen los premios al azar…. Problema 4 Problema planteado a Galileo por le Príncipe de Toscana. El Príncipe de Toscana, gran jugador, constató que “obtener una suma igual a 9 con 3 dados” era menos frecuente que “obtener una suma igual a 10 con 3 dados”. Le extraño este resultado empírico, dado que hay 6 combinaciones de números distintos (entre 1 y 6 cada uno) cuya suma es igual a 9 y también 6 combinaciones de números distintos (entre 1 y 6 cada uno) cuya suma es igual a 10. ¿Pueden justificar la constatación empírica con cálculos de probabilidad? Problema 5 En el lotto 6/49, una lotería oficial, se deben escoger 6 números entre 49 posibles. Se gana el gordo si los 6 números escogidos son los extraídos el día D. Se comparte el premio entre los que han dado la secuencia correcta. Se puede escoger el número libremente. ¿Una de las dos siguientes secuencias es preferible: • 1, 2, 3, 4, 5, y 6 • 39, 36, 32, 21, 14 y 3? ¿O bien uno debe ser indiferente frente a la elección entre las dos secuencias? Problema 6 Se lanzan dos dados, uno rojo y uno verde. 1 Asocien a esta experiencia un conjunto fundamental Ω. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 2. Se considera como conjunto de los sucesos, las partes de Ω. Si los dados no son trucados, definir la probabilidad que permite modelizar adecuadamente la tirada de los dos dados. 3. ¿Es este conjunto fundamental equiprobable? 4. Calculen la probabilidad de los sucesos: obtener 2 caras repetidas, obtener un 3 y un 5, obtener un 3 en el dado rojo, un 5 en el dado verde Problema 7 (noviembre 1999) Se dispone de dos urnas con, cada una, cinco bolas numeradas de 1 a 5. Se extrae una bola de cada urna; cada extracción es independiente de la otra. Se obtiene así un par de cifras. 1. ¿Cuál es el conjunto fundamental asociado a esta experiencia?. Dar una representación gráfica de este conjunto. Representar los acontecimientos A = “Par de cifras repetidas” y B = “Par de cifras cuya suma es igual a 7”. 2. ¿Cuál es la probabilidad del acontecimiento A? Problema 8 (noviembre 1999) 1. ¿Cuál es la probabilidad de que un jugador tenga que efectuar 6 tiradas de un dado hasta que salga un “6”? 2. ¿Cuál es la probabilidad de que un jugador tenga que efectuar un total de 6 tiradas hasta obtener un “6” en dos ocasiones (al obtener el “6” por segunda vez, deja de tirar el dado). Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.4 Probabilidad condicional. Teorema de Bayes Utilización de las cifras en los periódicos • Se lee en un periódico: “el 55% de los muertos en accidentes de avión corresponden a vuelos charter, lo que indica que volar en un charter es más peligroso que volar en una compañía regular”. ¿Están de acuerdo? ¿Falta otra información para concluir? • Siguiendo el mismo tipo de razonamiento, Coluche afirma “sólo el 23% de los accidentes mortales están causados por un conductor ebrio, ¡debemos prohibir formalmente que conduzcan personas sobrias!”. ¿Tiene razón? Problema 1 Hay dos sacos, los dos con 3 bolas rojas y 7 bolas negras. Se extrae al azar una bola del primer saco y se pone en el segundo. Después, se extrae una bola del segundo saco. ¿Cuál es la probabilidad de obtener una bola roja en esta segunda extracción? Problema 2 Se tiran dos dados equilibrados, uno rojo y uno verde Comprobar que los sucesos {obtener un “2” con el dado rojo} y {obtener un “4” con el dado verde} son independientes Problema 3 Se lanzan dos dados. Calcular la probabilidad de obtener al menos un “1” sabiendo que se han obtenido dos números distintos. Problema 4 En una caja, hay 5000 chips, 1000 provienen de la fábrica X que tiene una tasa del 10% de defectuosos, 4000 provienen de la fábrica Y que tiene una tasa del 5% de defectuosos Se escoge un chip al azar. Es defectuoso. Calculen la probabilidad de que venga de X. Problema 5 Los taxis azules y verdes En un juicio por un atropello mortal causado por un conductor de taxi, se está investigando qué conductor de taxi puede ser el responsable del atropello. En un primer tiempo, se intenta determinar en qué compañía trabaja. En la ciudad en la cual se cometió el atropello, hay solamente dos compañías de taxi. La compañía “TAXIS AZULES” y la compañía “TAXIS VERDES”. La primera utiliza taxis azules, la segunda, taxis verdes. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori El atropello se cometió en una noche de invierno con niebla. El conductor de taxi no se paró y tampoco se manifestó después. Un testigo dice que el taxi era de color azul. Dadas las condiciones, noche y niebla, se efectúan pruebas para determinar la fiabilidad del testigo: se le somete a una experiencia similar, reconocer el color de un taxi en este tipo de noche. Se determina así que el testigo reconoce el color correcto del taxi el 80% de las veces. Por otra parte, se sabe que el 85% de los taxis que circulaban en este momento pertenecían a “TAXIS VERDES”. Por tanto, en base a estas informaciones, el experto consultado por el juez concluye que el color del taxi complicado en el atropello: a) era azul con una probabilidad igual a 0.8 b) tiene una probabilidad mayor de ser azul que de ser verde, pero esta probabilidad es inferior a 0.8 c) tiene la misma probabilidad de ser verde que de ser azul d) tiene una probabilidad mayor de ser verde que de ser azul Problema 6 (Noviembre 1999) Un laberinto tiene 3 entradas: A, B y C. La probabilidad de que un visitante del laberinto entre por A es de 20%, de que entre por B es de 40% y de que entre por C de 40%. La probabilidad de encontrar la salida sin ayuda es de 60% si se entra por A, de 50% si se entra por B y de 40% si se entra por C. Se pide: 1. La probabilidad de que un visitante salga sin ayuda. 2. La probabilidad de que el visitante haya entrado por A, dado que ha salido sin ayuda. 10 personas deciden visitar el laberinto (estos visitantes entran de manera independiente y efectúan el recorrido de manera independiente). Se pide calcular: 3. a. La probabilidad de que ningún visitante consiga salir sin ayuda. b. La probabilidad de que todos los visitantes salgan sin ayuda c. La probabilidad que al menos dos visitantes salgan sin ayuda Problema 7 (Noviembre 2002) En esta joyería de lujo, vienen tres tipos de clientes: (A) clientes habituales domiciliados en la comunidad, (B) clientes ocasionales domiciliados en la comunidad y (C) clientes ocasionales domiciliados en otra comunidad o en el extranjero. Cuando entra un cliente en la joyería, la probabilidad de que sea un cliente de tipo A de 0.1 y la probabilidad de que sea un cliente de tipo B es de 0.7. 1. ¿Cuándo un cliente entra en la joyería, ¿cuál es la probabilidad de que sea un cliente de tipo C? Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Se considera una compra importante si su importe supera 3000 euro. La probabilidad de que un cliente de tipo A efectué una compra importante es de 0.5, la probabilidad de que un cliente de tipo B efectué una compra importante es de 0.1 y la probabilidad de que un cliente de tipo C efectué una compra importante es de 0.2 2. Expliciten la notación empleada e indiquen cuáles son las probabilidades «a priori» conocidas. Se acaba de vender un collar de 7000 euro, 1. ¿cuál es la probabilidad de que el cliente fuese un cliente de tipo A?, ¿cuál es la probabilidad de que el cliente fuese un cliente de tipo B?, ¿cuál es la probabilidad de que el cliente fuese un cliente de tipo C?. Sean pA, pB y pC las probabilidades calculadas en 3. 4 ¿Qué propiedad cumple pA+pB+pC?. Justificar la respuesta Problema 8. El test T y la enfermedad M Un laboratorio farmacéutico fabrica un test T para detectar una enfermedad M poco frecuente. El laboratorio dice que: • cuando la persona a la cual se aplica el test tiene la enfermedad M, entonces el test da positivo con una probabilidad igual a 0.95 • cuando la persona a la cual se aplica el test no tiene la enfermedad M, entonces el test da negativo con una probabilidad igual a 0.98 Por otra parte, se sabe que la probabilidad de tener la enfermedad M en la población a la cual se aplica el test es de 0.005 Se aplica el test a una persona de dicha población, escogida al azar ¿cuál es la probabilidad de que tenga realmente la enfermedad M? Problema 9. La política en el pueblo En este pueblo, 1/3 de los habitantes votan al partido P1, 2/3 al partido P2 En los votantes de P1: • 80% están a favor del cura (20% están a favor del alcalde) • 90% a favor de prohibir el acohol (10% en contra) En los votantes de P2: • 30% están a favor del cura (70% están a favor del alcalde) • 20% a favor de prohibir el acohol (80% en contra) Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Al interior de los partidos, hay independencia entre las opiniones sobre cura/alcalde y sobre alcohol. Un individuo se declara a favor del alcalde y en contra del alcohol. ¿Cuál es la probabilidad de que vote a P1? 2. En la población global, ¿hay independencia entre las opiniones sobre cura/alcalde y sobre alcohol? 1. Problema 10. Sistema complejo Determinen la probabilidad de que funcione el siguiente sistema en función de las probabilidades pi, i=1,…,5 de que funcionen los componentes Ci, i=1,…,5. Los estados de los componentes son mutuamente independientes. Sistema S C1 C4 C2 C3 C5 11. Preguntas cortas • Una de las dos expresiones tiene un valor “particular”. ¿Cuál? a) P(A|B) + P(Ā|B)= b) P(A|B) + P(A| B )= • La sucesión de sucesos (Ei)i=1,…,n es tal que ΣP(Ei)= partición de Ω? Prof. Lídia Montero i Mónica Bécue 1, ¿(Ei)i=1,…,n es una Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Prof. Lídia Montero i Mónica Bécue Programa de Pràctiques Laboratori Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.5 Variable aleatoria discreta: función de probabilidad, función de distribución, esperanza, varianza, desviación-tipo Problema 1 Se tiran simultáneamente 2 dados. Se nota X el número de caras pares obtenidas e Y el máximo de las cifras de las caras obtenidas. Determinen las funciones de probabilidad y de distribución de X y de Y. Problema 2 X es una variable aleatoria discreta cuya función de probabilidad viene dada por: xi p(xi) 1 0,30 2 0,20 3 0,15 4 0,15 5 0,10 6 0,10 1. Representar gráficamente la función de probabilidad de X. Calcular la esperanza, la varianza y la desviación-tipo de X. Situar la esperanza en la gráfica. Mostrar gráficamente lo que representa la varianza. 2. Sea Y una variable aleatoria que tiene una esperanza que vale el doble de la esperanza de X y una varianza que vale cuatro veces la varianza de X. Determinen una posible función de probabilidad para esta variable. 3. Sea Z una variable aleatoria que tiene la misma esperanza que X y una varianza que vale cuatro veces la varianza de X. Determinar una posible función de probabilidad para esta variable. Problema 3 X es una variable aleatoria discreta cuya función de probabilidad viene dada por la siguiente tabla: Prof. Lídia Montero i Mónica Bécue xi p(xi) 1 0,20 2 0,20 3 0,15 4 0,15 5 0,10 6 0,10 7 0,05 8 0,05 Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 1. Hagan el gráfico de la función de probabilidad de esta variable. 2. Determinen la función de distribución de X y represéntenla gráficamente. 3. Con la ayuda de esta función de distribución, determinen la probabilidad de que: a. X tome un valor superior a 5.5; b. X tome un valor entre que 3 y 4.6; c. X tome un valore inferior a 2.3. Problema 4 Se tiran sucesivamente 3 dados. A una tirada se asocia 0, si la cara observada es par, ó 1, si la cara observada es impar. Se definen las variables: X= suma de valores asociados a la primera y segunda tiradas; Y= suma de valores asociados a la segunda y tercera tiradas. Calculen las funciones de probabilidad de X e Y, las esperanzas y varianzas de X eY. Problema 5 Sea X una variable aleatoria cuya función de probabilidad viene dada por la siguiente tabla: xi p(xi) -2 0,30 -1 0,20 0 0,15 1 0,15 2 0,10 3 0,10 1. Se define la variable Y de la manera siguiente: Y=0 si X>0 Y=1 si X≤0 Determinen la función de probabilidad de Y. 2. Se define la variable Z como Z=X2; determinen la función de probabilidad de Z. Problema 6 Sea X el número de buques-tanques que entran en el puerto cada día. X se puede considerar como una variable aleatoria de ley: Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori xi p(xi) 0 0,05 1 0,25 2 0,35 3 0,15 4 0,10 5 0,05 6 0,03 7 0,02 1. ¿Cuál el número esperado de buques-tanques que llegan un día cualquiera? 2. ¿Cuál la desviación-tipo del número de buques-tanques que llegan un día cualquiera? 3. El puerto puede atender como mucho K buques-tanques. Los buques-tanques que superan a la capacidad del puerto se desvían hacia otro puerto. a.¿ Calculen cuál debe ser la capacidad K del puerto para que se puedan atender a todos los buques-tanques que llegan el 90% de los días? b. En función de K, ¿cuál es la función de probabilidad de la variable Y, número de buquestanques desviados hacia otro puerto? Calculen la esperanza de Y. c. Se define la variable: Z número de buques-tanques atendidos, en función de K ¿cuál es la esperanza de esta variable? Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.6 Problemas de repaso En esta sesión de repaso, se estudian los problemas de las listas anteriores no resueltos en las correspondientes sesiones. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.7 Par de variables aleatorias Problema 1 Se tiran sucesivamente 3 monedas. A cara se asocia “1”, a cruz, se asocia “2”. Se definen las dos variables aleatorias: X: suma de los números asociados a las dos primeras monedas Y: suma de los números asociados a las dos últimas monedas Se pide: • Ley de X • Ley de Y • Ley del par (X,Y) • Ley de Z=XY • Calcular E(X), E(Y), COV(X,Y), V(X), V(Y), ρX,Y Problema 2 Consideramos el conjunto de todos los paquetes de 3 bits que se envían por una línea de comunicación (Ω = {000, 001, 010, 011, 100, 101, 110, 111}). Supongamos que todas las secuencias son equiprobables. Se definen dos variables aleatorias X e Y. La variable X es la suma de los 3 bits y la variable Y es el número de alternancias en la secuencia de bits. 1 2 3 4 5 Construya la tabla con la función de probabilidad conjunta de las variables X e Y. Determine las funciones de probabilidad marginales de X y de Y. ¿Son X e Y independientes? Razone la respuesta. Calcule las esperanzas de X y de Y. Calcule las varianzas de X e Y. Calcule la covarianza y el coeficiente de correlación entre X e Y. Problema 3 Se supone que 10% de los paquetes enviados al extranjero no llegan a su destino. Una persona desea mandar dos regalos a y b a un amigo y se pregunta si es mejor enviarlos juntos o separadamente. Cuando se mandan varios paquetes, los sucesos relativos a estos paquetes son mutuamente independientes. 1. Construir espacios de probabilidad asociados a los diferentes métodos de envío. 2. Para cada uno de los dos métodos, ¿cuál es la probabilidad del suceso A: al menos un regalo llega a destino? 3. Para cada uno de los dos métodos, ¿cuál es la probabilidad del suceso B: los dos regalos llegan a destino? 4. Para cada uno de los dos métodos, determinen la esperanza (en Euro) del valor que llega a destino, sabiendo que el regalo a cuesta 150 Euro y el b, 100 Euro. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 5. En función de cada uno de los criterios introducidos en las preguntas 2, 3 y 4, ¿Cuál es el mejor método de expedición? Problema 4 Programa si (B1) escribir “si” fsi si (B2) escribir “si” sino escribir “no” fsi fprog En función de P(B1)=p1 y P(B2)=p2, determinar la ley de 3. X1: número de “si” escritos 4. X2: número de “no” escritos ¿Se puede o no determinar la función de probabilidad conjunta de X e Y? Problema 5 Recanvis de Peces (en parte igual al pb 3.28 de la lista) Un taller de reparacions ha controlat durant un cert temps les reparacions fetes sobre un determinat tipus de màquina que presenta una avaria simple (1 fallada) o doble (2 fallades). El taller s’ocupa d’anar reparant les fallades i si cal canviar la peça base. Els resultats del control mostren que • un 40% de les reparacions eren per una avaria simple sense que calgui el canvi de la peça base, • un 30% eren per una avaria simple però que requeria de canviar la peça, • la resta que eren avaries dobles, n’hi havia igual nombre que havien necessitat el canvi de peça, com sense canvi. 1. Quina és la funció de probabilitat de les variables, X: número de fallades i Y: canvi o no de peça? 2. Quina es la llei conjunta d’ambdues variables ? 3. És independent el número de fallades i el fet d’haver de canviar la peça? 4. Calcule E(X), E(Y), V(X), V(Y), COV(X,Y) Problema 6 Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Sea X una que toma el valor 0 si se no se añade azúcar al zumo de naranja envasado, y el valor 1 si se añade azúcar. Sea Y una variable que indica la sensación “azucarada” percibida por el consumidor (1: muy poco azucarado, 2: poco azucarado, 3: bastante azucarado, 4: muy azucarado). Después de efectuar estudios, se ha establecido que la función de probabilidad conjunta de X e Y viene dada por la siguiente tabla: Y 1 2 3 4 0 0,01 0,02 0,06 0,01 1 0,09 0,18 0,54 0,09 X 1. Obtengan las funciones de probabilidad marginales de X e Y. 2.¿Le parece que añadir o no azúcar está relacionado con la sensación “azucarada” que tiene el consumidor? Razone la respuesta. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.8 Variable Bernoulli y binomial Uso de las tablas n p 0.05 0.5 k 2 0 1 4 0 0.8145 1 0.9860 2 0.9995 =f(0)+f(1) 3 1.000 =0.9860 …. F(1)=P(X≤1) f(1)=F(1)-F(0) =0.9860-0.8145 X, binomial (4,0.005) Se lee en la tabla F(x) Prof. Lídia Montero i Mónica Bécue =0.1715 Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Problema 1. Ejemplos de lectura de la tabla. X ~B(4,0.05) 1. ¿Cuanto vale FX(2)? 2. Calcular fX(2) 3. Calculen P(1<X<3), P(1<X≤3), P(1≤X≤3) Problema 2 Se repite una experiencia de Bernoulli 4 veces de manera independiente. La probabilidad de acertar en una experiencia es igual a 0.15. Calculen: 1. Probabilidad de no acertar en ninguna experiencia 2. Probabilidad de tener sólo un acierto 3. Probabilidad de tener al menos 2 aciertos Problema 3 Se repite una experiencia de Bernoulli 4 veces de manera independiente. La probabilidad de acertar en una experiencia es igual a 0.85. Calculen: 1. Probabilidad de no acertar en ninguna experiencia 2. Probabilidad de tener sólo un acierto 3. Probabilidad de tener al menos 2 aciertos Problema 4 Se repite una experiencia de Bernoulli 10 veces de manera independiente. La probabilidad de acertar en una experiencia es igual a 0.80 Calculen: 1. Probabilidad de tener 3 aciertos o menos. 2 Probabilidad de tener al menos 3 aciertos 3 Probabilidad de tener exactamente 3 aciertos 4. Sea X la variable que cuenta el número de aciertos, calculen P(3<X<8), P(5<X≤9), P(2≤X≤6). Problema 5 Sea X una variable binomial de parámetros 8 y 0.1. Determinar el menor entero k tal que P(X>k) ≤1/100 Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Problema 6 Una pieza fabricada tiene la probabilidad 0.1 de ser inutilizable. ¿Cuál es el número mínimo de piezas que se debe fabricar para obtener al menos 5 piezas utilizables con una probabilidad ≥ 0.98 Problema 7 X ~Bernoulli (0.5), Y ~Bernoulli (0.5), X e E independientes Z=|X-Y| a) Determinene la ley de Z b) Calculen P (X=1∩Y=1∩Z=1) y deduzcan del resultado que X, Y y Z no son mutuamente independientes. c) Verifiquen que X, Y y Z son independientes dos a dos. Problema 8 Se controla a la fabricación de un determinado productos por lotes de 10 productos escogidos al azar. Se sabe que en media un 5% de los productos son defectuosos. Al azar se escoge un lote de 10 productos. Se rechaza el lote si hay 2 ó más artículos defectuosos. ¿Cuál es la probabilidad de rechazar el lote? Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.9 Tablas de contingencia Les taules de contingència s’usen per estudiar la independencia/ no independencia entre dues variables categòriques. Parte I Suposem que estudiem una mostra de n=400 electors, extractada de una població donada més amplia. Coneixem la seva ciutat de residència i el partit al qual han votat. Es a dir, s’han observat dues variables qualitatives sobre 400 individus. a. Se ha perdido la tabla que contiene los efectivos cruzados, el número nij de individuos con la modalidad i-ésima de la primera variable categórica (ciutat i) con la modalidad jésima de la segunda variable categòrica (partit j). Sólo se conoce la distribución marginal de las dos variables. En un primer tiempo, parece posible asumir la hipótesis de independencia entre las dos variables “partit votat” y “ciutat. Completen la tabla siguiente en función de esta hipótesis. PARTIT A CIUTA T B TOTAL C Ciutat-1 115 Ciutat-2 110 Ciutat-3 175 TOTAL 200 140 60 400 Notacions • nij pij = nij / n. Marges: • • ni⋅ = Σj nij n⋅ j = Σi nij pi⋅ = Σj pij p⋅ j = Σi pij Efectius esperats “sota la hipòtesi d’independència” Sota la hipòtesi d’independència, en la població: pij = pi . ⋅ p . j , es a dir, la funció de probabilitat conjunta es el producte de les marginals. Al observar n individus, s’espera observar nij = n. pij = n. pi . . p . j Els valors poblacionals pij, pi i pj son desconeguts. S’estimen pi i pj a partir de la mostra (per estimar pij, els efectius de cada submostra son massa petits) p̂i . = ni . n p̂ . j = n. j n Per tant, s’espera sota la hipòtesi d’independència, un efectiu de Prof. Lídia Montero i Mónica Bécue np̂i . . p̂ , j = ni . .n. j n individus en la cel·la i,j Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori b. Después, se recupera la información perdida y se sabe que la verdadera tabla cruzada (o tabla de contingencia) es la siguiente: PARTIT CIUTA T TOTAL A B C Ciutat-1 40 55 20 115 Ciutat-2 60 35 15 110 Ciutat-3 100 50 25 175 TOTAL 200 140 60 400 ¿Qué se puede decir de la hipótesis de independencia mediante la comparación de las dos tablas? Parte II En lo que sigue, se va a ver algunas de las ideas a la base del razonamiento, propiamente estadístico, que permite comparar los efectivos observados de una tabla de contingencia con los efectivos ”esperados bajo la hipótesis de independencia”. Se utilizan algunas herramientas ofrecidas por el Minitab. Comando Minitab La comanda Minitab TABLES permet aplicar les eines adequades per l’estudi de les taules de contingència. Les icones a seleccionar són Stat Tables CrossTabulation Estudiar la independència entre variable qualitatives (o categòriques) El objectiu es estudiar la independència de les dues variables categòriques i, en cas de no existir independència, donar una descripció de la dependència (atraccions entre modalitats de les dues variables/ repulsions entre modalitats de les dues variables). Se estudia en esta sesión la dependencia existente entre las variables “Yo leo”, por una parte, y las variables “cualificación en idioma” y “nivel socio-económico familiar”, por otra parte. Lectura per files (o per columnes): comparació dels perfils-fila (y/o dels perfilscolumna) Si les variables son independents, els perfils-files son iguals en la població, poc diferents en la mostra. Per tant, fer la lectura per files (o la lectura per columnes segons lo que interessa) de la taula ens aporta informació sobre la independència. La subcomanda ROWPERCENT de la comanda TABLE s’usa per obtenir taules de freqüències per files (es a dir, de les files condicionades als seus totals). Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Si no hi ha relació (si hi ha independència), les files condicionades son iguals entre elles (i iguals a la marginal). Com es tracta d’una mostra, es considera que hi ha independència (en la població), si les files condicionades son molt semblants (en la mostra). Es podria, de forma simètrica, obtenir la taula de freqüències per columnes mitjançant la subcomanda COLPERCENT. Segons la aplicació, es privilegiará una de las dues eines. Comparació dels efectius esperats i dels efectius observats nij. Abans, s’han calculat els “efectius esperats”, però Minitab ens facilita aquests càlculs (chi-square analysis, above and expected frequency). Les cel·les que presenten una major discrepància entre els dos valors són les que més contribueixen a la dependència de les variables: • si la freqüència observada es més gran que la freqüència esperada, això indica que existeix atracció entre la modalitat i de la variable-fila i la modalitat j de la variablecolumna • si la freqüència observada es més petita que la freqüència esperada, això indica que existeix repulsió entre la modalitat i de la variable-fila i la modalitat j de la variablecolumna Si a totes les cel·les, el valor observat i el valor esperat d’observacions son raonablement semblants, aleshores es verifica la independència (no relació) entre les dues variables estudiades. A més a més, el Minitab calcula l’estadístic denominat χ2 (chi-square o chi-dos), mesura de la desviació a la independència. Aquest estadístic s’estudiarà en Estadística Matemàtica-2, per tomar una decisió sobre la independència/ dependència entre les dues variables. Es calcula a partir de les diferencies entre efectius observats i efectius esperats sota la hipòtesi de independència: χ 2 = ∑∑ i j n .n n ij − i . . j n n i . .n . j 2 n Evidentment, quan els efectius observats i esperats coincideixin, χ2=0; més se està lluny de la hipòtesi d’independència, més χ2 es gran. Es veurà, en Estadística Matemàtica-2, com decidir si el valor es significativament gran. El valor crític varia amb la grandària de la taula. Parte III Comenten los resultados obtenidos con las variables propuestas Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.10 Variable Geométrica, binomial negativa y de Poisson Problema 1 El número de buques-tanques que llegan cada día a una determinada refinería sigue una distribución de Poisson con parámetro λ=2. Las actuales instalaciones portuarias permiten atender como máximo 3 buques al día. Si llegan más de 3 buques un mismo día, a partir del cuarto se desvían hacia otro puerto. 1. En un día determinado, ¿cuál es la probabilidad de tener que desviar uno o más buques tanques? 2. ¿En cuanto se deben aumentar las instalaciones actuales para permitir despachar todos los buques tanques al menos el 90% de los días? 3. ¿Cuál es el número esperado de buques-tanques que llegan al día? 4. ¿Cuál es el número más probable de buques-tanques que llegan diariamente? 5. ¿Cuál es el número esperado de buques-tanques que se atienden diariamente? 6. ¿Cuál es el número esperado de buques-tanques devueltos diariamente Problema 2 En esta centralita, se recibe un promedio de 5 llamadas de teléfono entre las 9h y las 10h de la mañana los días laborales. Calcular: 1. Probabilidad de que se produzca al menos 1 llamada entre las 9h y las 10h 2. Probabilidad de que se produzcan exactamente 2 llamadas entre las 9h y las 9h12mn 3. Probabilidad de que durante una semana laboral de 5 días, haya 2 días sin llamada entre las 9h y las 9h12mn Problema 3 Los días laborales, la llegada de los clientes a la ventanilla del banco sigue una ley de Poisson de tasa media 10 clientes cada hora entre las 8h y las 14h, horas de atención al público. Calcular la probabilidad de que en una hora de atención al público lleguen menos de 5 clientes. Calcular la probabilidad de que en los 12 primeros minutos después de abrir no llegue ningún cliente. Lo mismo para los 12 últimos minutos antes de cerrar. 1. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Problema 4 En una cierta carretera, el número de coches que pasan cada minuto sigue una ley de Poisson de tasa media 4. Un peatón que desea cruzar lo hace cuando ve que no va a pasar ningún coche en los próximos 20s. 1. Calcular la probabilidad de que no tenga que esperar 2. ¿Cuál es la ley que sigue el número de coches que tiene que dejar pasar antes de cruzar? Problema 5 Los pescadores de perla preciosa encuentran en media una perla cada 30000 ostras. A lo largo de una semana, un pescador pesca 6000 ostras. Calculen: 1. el número de perlas que espera obtener 2. la probabilidad de pescar al menos 1 perla Problema 6 Se tira un dado hasta obtener dos “6”. 1. Ley del número de tiradas, esperanza y varianza 2. Calculen la probabilidad de tener que hacer 6 tiradas Problema 7 En una determinada lotería, se gana con probabilidad 1/10 1. Se compran 20 billetes. Calculen la ley de la variable que cuenta el número de billetes ganadores. Calculen la esperanza y la varianza de esta variable. 2. Se repite la compra de un billete hasta ganar. Determinen la ley de la variable que cuenta el número de billetes comprados, su esperanza y su varianza. Problema 8 3 jugadores tiran una moneda equilibrada. Cada jugador para cuando obtiene “cruz”. Sea X: número de caras obtenidas por los jugadores cuando acaban el juego. Determinen la ley de X. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.11 Variable aleatoria continua. Variable uniforme. Variable exponencial, relación con la variable de Poisson Problema 1 Una variable aleatoria continua X puede tomar valores entre -1 y +1 a. sabiendo que fX(x) tiene la forma de un triangulo isócelo, determinar fX(x) b. Calculen P(X2<1/4∩X<1/4) c. Determinen la función de distribución de X, FX d. Determinen la función de distribución de |X| y su densidad de probabilidad Problema 2 La función de densidad de la variable X viene dada por la siguiente gráfica: fX(x) k 1 x a. ¿Cuál es el valor de k? b. Expresen la función de densidad y la función de distribución de X. c. Calculen P(1/3<X≤2/3) Problema 3 La vida d’un dispositiu electrònic del tipus A segueix una llei exponencial de mitjana 1000 hores. Calculeu la probabilitat que un dispositiu de tipus A duri almenys 1000 hores. Problema 4 Se está observando un componente electrónico. La duración de su vida se puede modelizar mediante una exponencial de parámetro λ=5 cuando se cuenta el tiempo en días. Sabiendo que lleva 50 días funcionando, calcular la probabilidad de que viva al menos 100 días (es decir, 50 días más). Problema 5 En una hora cualquiera de la jornada laboral, la variable que cuenta el número de llamadas que llegan a una centralita telefónica es una variable de Poisson de parámetro λ =10. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Ahora, interesa estudiar la variable que mide al tiempo de espera entre dos llamadas, o desde la apertura, a las 9h, hasta la primera llamada. A partir de la función de probabilidad la variable que cienta el número de llamadas, determinar la ley deY la variable aleatoria “tiempo de espera” desde “0” hasta la primera llamada. El tiempo se cuenta en horas. Mostrar que la variable que cuenta el tiempo de espera a partir de cualquier instante hasta que se produzca una llamada tiene la misma distribución qye Y. Problema 6 El tiempo de vida T (en meses) de un semiconductor sigue una ley exponencial de media 500 meses. a) Calculen la probabilidad de que un semiconductor funcione más de 10 años. b) Si un semiconductor lleva funcionando 10 años, ¿cuál es la probabilidad de que funcione al menos 10 años más? c) El diseño de un circuito consta de 3 semiconductores independientes dispuestos en serie (falla el sistema si falla al menos uno de los elementos). Se define la variable aleatoria S como el tiempo de vida, en meses de este sistema. ¿Cuál es la probabilidad de que el sistema funcione más de 10 años? ¿Qué ley sigue la variable aleatoria S? Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.12 Variable Normal Tabla de la normal (0,1) En las tablas, se tiene siempre la función de distribución Z~N(0,1) z 0.00 …. 0.05 0.0 0.5000 0.5199 0.1 0.5398 0.5596 0.2 0.5793 0.5987 … 0.09 F(0.15)=0.559 0.3 3.4 Se lee en la tabla F(x) Prof. Lídia Montero i Mónica Bécue 0.9998 Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori Problema 1 Ejemplos de utilización de la tabla para una normal cualquiera. Sea la variable X~N(100, 25) 1. Cuanto vale FX(104) 2. Calcular x, tal que FX(x)=0.90 3. Cuanto vale FX(90) 4. Calcular x, tal que FX(x)=0.10 Problema 2 (en la lista: 2.42 El Tub de Rajos Catòdics) Els tubs de rajos catòdics d’una terminal gràfica tenen una fina malla darrera la superfície visible que s’ha de tensar durant l’ensamblatge. Si es tensa massa, la malla es desgarra, mentre que si no es tensa prou, s’hi formen arrugues. La tensió a la que es sotmet aquesta malla es pot mesurar en miliVolts (mV) mitjançant un dispositiu electrònic. Actualment, la lectura de la tensió de successius tubs es distribueix segons una llei normal N(µ=275,s=43). La tensió mínima acceptable per tal que la malla no s’arrugui és de 200 mV. La tensió màxima que suporten aquestes malles sense trencar-se és de 375 mV. ⇒ Calculeu la probabilitat que la malla s’arrugui ⇒ Si una malla s’ha arrugat, quina és la probabilitat que s’hi hagi aplicat una tensió inferior a 175mV ? ⇒ Quina és la probabilitat que una malla estigui en bones condicions ? ⇒ Quina és la probabilitat que entre 5 tubs almenys 3 d’ells tinguin la malla en bones condicions? ⇒ Sigui X la lectura de tensió en mV i µ = E(X). Quina és la tensió t tal que P(µ−t ≤X≤ µ+t) = 095 . ? Problema 3 (en la lista, 2.43 Vida de Dispositius Electrònics) La vida d’un dispositiu electrònic del tipus A segueix una llei exponencial de mitjana 1000 hores i la vida d’un dispositiu del tipus B segueix una llei normal de mitjana 1000 hores. La vida dels dispositius de tipus A pot considerar-se independent de la vida dels dispositius de tipus B. a. Calculeu la probabilitat que un dispositiu de tipus A duri almenys 1000 hores. b. Quina és la probabilitat que un dispositiu de tipus B duri almenys 60.000 minuts? c. Quin dispositiu escolliríeu? Per tal d’augmentar la fiabilitat d’un sistema que requereix d’un dispositiu electrònic es decideix de col·locar en paral·lel un dispositiu tipus A i un altre tipus B. d. Quina és la probabilitat que el sistema funcioni després de 1.000 hores? e. Quin és el valor de la variància de la vida d’un dispositiu del tipus B si se sap que la probabilitat que duri més de 500 hores és 0.9993. Problema 4 Una máquina se utiliza para fabricar barras de metal de 2 metros de longitud en media. Sea X la longitud (en metros) de una barra producida por dicha máqina. Se admite que X sigue una ley normal 1. Sabiendo que E(X2) = 4.01m2, calcular la desviación-tipo Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 2. ¿Cuál es la probabilidad de que una barra tenga una longitud superior a 2.2.m? ¿Cuál es la probabilidad de que una barra tenga una longitud comprendida entre 1.8m y 2.2m? 3. . ¿Cuál es la probabilidad de que una barra tenga una longitud comprendida entre 1.98m y 2.02m? 4. ¿Cuál es le valor máximo de la desviación-tipo que permita garantizar que el 95% de las barras tengan una longitud entre 1.98 y 2.02m? Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 3.13 Teoremas límites Problema 1. (en la lista, 3.2.14) Sea S la suma de los 100 errores. Cada error sigue una ley uniforma U(-1/2, +1/2) (de media 0 y varianza 1/12). S = E1 + E2+...Ei+...E100 con Ei U(-1/2,+1/2) e independientes Problema 2. (en la lista: 2.45, La Màquina d’Emplenar Caramels) Una màquina d’emplenar bosses de caramels diposita en cada bossa una quantitat en pes de caramels que pot considerar-se distribuït segons una llei normal, de manera que el 33% de bosses emplenades contenen més de 81.76 g de caramels i només el 0.6% de les bosses contenen un pes de caramels inferior a 69.96 g. Quin són els paràmetres que defineixen la variable aleatòria X, quantitat de caramels per bossa (en g)? Si es trien 10 bosses a l’atzar, quina és la probabilitat que 5 bosses pesin més de 80 g i 5 bosses menys de 80 g? Justificar la formulació. Si es trien 100 bosses a l’atzar, quina és la probabilitat de trobar-ne com a mínim 40 amb un pes superior a 80 g? Justificar la formulació. Problema 3. La comida navideña Un restaurador está encargado de preparar la comida navideña de 1200 clientes. Esta comida comporta 2 tipos de menú: A o B. La larga experiencia del restaurador le permite sabe que 1 persona sobre 3 escobe el menú A. El restaurado prevé a menús A y b menús B. ¿Qué valor mínimo debe dar a a para que haya una probabilidad inferior o igual a 0.1 de tener un número suficiente de menús A? Misma pregunta para b. Con estos valores mínimos, ¿cuál es la probabilidad de que el restaurador no pueda satisfacer las demandas de todos sus clientes? Problema 4. El viaje en tren Para llevar de excursión a los 1000 participantes en un congreso, se utilizan 2 trenes de la misma categoría. Cada participante puede escoger uno de los dos trenes, sin tener preferencia para uno u otro. ¿Qué número mínimo de asientos deberá comportar cada uno de estos trenes para que la probabilidad de que este mínimo sea insuficiente valga 1/5? Misma pregunta con 1/1000. Prof. Lídia Montero i Mónica Bécue Diplomatura d’Estadística Assignatura Càlcul de Probabilitats Programa de Pràctiques Laboratori 1. PRÁCTICAS ....................................................................................................................................... 3 2. ARXIU DE DADES ............................................................................................................................ 5 3. PROBABILIDAD Y ESTADÍSTICA: PREGUNTAS, PROBLEMAS Y SITUACIONES ¡ERROR! MARCADOR NO DEFINIDO. 4. INTRODUCCIÓ AL PAQUET ESTADÍSTIC MINITAB .................¡ERROR! MARCADOR NO DEFINIDO. 5. SESIONES ........................................................................................................................................... 7 5.1 INTRODUCCIÓN AL MINITAB: SIMULAR UN DADO .....................¡ERROR! MARCADOR NO DEFINIDO. 5.2 COMBINATORIA Y PROBABILIDAD .................................................................................................... 7 5.3 PROBABILIDAD CONDICIONAL. TEOREMA DE BAYES ................................................................... 16 5.4 DISTRIBUCIÓN DE UNA VARIABLE EMPÍRICA. PARÁMETROS DE LA DISTRIBUCIÓN ...........¡ERROR! MARCADOR NO DEFINIDO. 5.5 VARIABLE ALEATORIA DISCRETA: FUNCIÓN DE PROBABILIDAD, FUNCIÓN DE DISTRIBUCIÓN, ESPERANZA, VARIANZA, DESVIACIÓN-TIPO ............................................................................................. 21 5.6 PAR DE VARIABLES ALEATORIAS ................................................¡ERROR! MARCADOR NO DEFINIDO. 5.7 VARIABLE BERNOULLI Y BINOMIAL ............................................................................................... 28 5.8 TABLAS DE CONTINGENCIA ............................................................................................................. 31 5.9 VARIABLE GEOMÉTRICA, BINOMIAL NEGATIVA Y DE POISSON ................................................... 34 5.10 VARIABLE ALEATORIA CONTINUA. VARIABLE UNIFORME. VARIABLE EXPONENCIAL, RELACIÓN CON LA VARIABLE DE POISSON .............................................................................................. 36 5.11 VARIABLE NORMAL....................................................................................................................... 38 5.12 TEOREMAS LÍMITES....................................................................................................................... 41 Prof. Lídia Montero i Mónica Bécue