CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES 1 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES 1.1 Conceptos fundamentales de estadística 1.2 Estadística descriptiva 1.3 Conceptos elementales de probabilidad 2 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 1: INTRODUCCIÓN Y CONCEPTOS FUNDAMENTALES 1.1 Conceptos fundamentales de estadística • Situaciones deterministas y aleatorias. • El modelo matemático. Concepto de probabilidad y estadística. • Aplicaciones a las Ciencias Experimentales • ¿Cómo se resuelve un problema utilizando la Estadística? Ejemplo: Leyes de Mendel. • Población y muestra. Cómo seleccionar una muestra aleatoria. 3 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Situaciones deterministas y aleatorias ¿Podrías predecir con certeza qué ocurrirá con el agua cuando alcance los 100º C? ¿Sabrías determinar el tiempo que le costará a un caballito de un tiovivo dar una vuelta completa? ¿Podrías predecir el sexo de un niño en el primer mes de gestación? Se está experimentando una nueva planta de tomate ¿podrías determinar el número de frutos que dará cada una de las plantas en una temporada? 4 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Situaciones deterministas y aleatorias Los fenómenos determinísticos son aquellos tales que, dado el estado inicial y las condiciones de realización, se puede predecir el estado final. Los fenómenos aleatorios o estocásticos son aquellos tales que, dado el estado inicial y las condiciones de realización, no se puede predecir el estado final. 5 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Situaciones deterministas y aleatorias Para los fenómenos determinísticos es posible encontrar modelos que los representen de forma exacta dado un conjunto de condiciones iniciales a la realización del experimento. espacio recorrido velocidad tiempo Para los fenómenos aleatorios o estocásticos es necesario especificar en el modelo, de alguna forma, la incertidumbre de la aparición de los resultados. EL CÁLCULO DE PROBABILIDADES Y LA ESTADÍSTICA MATEMÁTICA SON LAS CIENCIAS QUE ESTUDIAN LOS FENÓMENOS ALEATORIOS. 6 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA El modelo matemático: Concepto de probabilidad ¿Cuál es la probabilidad de acertar 6 en la Lotería Primitiva? MODELO MATEMÁTICO: El concepto de probabilidad. El Cálculo de Probabilidades es la disciplina que permite estudiar las posibilidades de realización de los fenómenos aleatorios. 7 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA El modelo matemático: Concepto de Estadística ¿Qué experimento realizarías para poder predecir el número esperado de tomates que dará cada una de las plantas? ¿Con qué seguridad puedes realizar la predicción anterior? MODELO MATEMÁTICO: Concepto de Estadística. La Estadística es la rama de las matemáticas que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades. 8 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Aplicaciones a las Ciencias Experimentales • Determinar el contenido de una determinada sustancia. Determinar la cantidad de ion nitrato en una muestra concreta de agua Determinar la concentración de anticuerpos de inmunoglobulina M en suero de varones. • Estudiar el rendimiento de una determinada sustancia. Comparar su efecto con otros existentes. Estudiar el rendimiento de un fertilizante de plantas de tomate. Comparar el efecto de un nuevo medicamento con otros existentes. 9 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Aplicaciones a las Ciencias Experimentales • Comprobar la eficacia de un instrumento de medida Comparar un método nuevo para la determinación de la demanda de oxígeno en aguas residuales con el método estándar de sales de mercurio. • Comparar los resultados de un experimento realizado en diferentes condiciones. Comparar la concentración de albúmina en suero sanguíneo de los individuos sanos con los que padecen una determinada enfermedad. 10 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Aplicaciones a las Ciencias Experimentales • Reconocimiento de pautas. Determinar si un derramamiento de aceite proviene de una fuente concreta. • Estudiar el alcance de una enfermedad o de una medida para prevenirla. En una plantación en la que se ha detectado la aparición de unos determinados parásitos se desea estimar el efecto en la producción. Análisis del efecto de una campaña publicitaria para prevenir el cáncer de próstata. 11 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Ejemplo: Leyes de Mendel Mendel (1865) estudió el cruce de una variedad de guisantes amarillos y otra de verdes. Observó que: • Los guisantes verdes al reproducirse dan siempre verdes. • Los amarillos dan unos sólo amarillos y otros amarillos y verdes, formando los primeros una raza pura. • Si se cruzan verdes con amarillos de raza pura se obtiene una primera raza de híbridos amarillos. • Si los híbridos amarillos se cruzan entre sí, se obtiene guisantes amarillos y verdes ¿se puede establecer en qué proporción? 12 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Ejemplo: Leyes de Mendel Recogida de datos Se seleccionan al azar 10 plantas de guisantes en la plantación disponible o se usan 10 plantas de laboratorio. Se cuenta cuántos guisantes amarillos y cuántos verdes hay en cada una de las plantas. TEORÍA DE MUESTREO y DISEÑO DE EXPERIMENTOS 13 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Ejemplo: Leyes de Mendel Descripción Se calcula la proporción de guisantes amarillos y verdes en cada una de las plantas y se presentan en una tabla de frecuencias. ESTADÍSTICA DESCRIPTIVA o ANÁLISIS EXPLORATORIO DE DATOS 14 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Ejemplo: Leyes de Mendel Planta 1 2 3 4 5 6 7 8 9 10 Verdes Amarillos Cantidad Prop. Cantidad Prop. 25 32 14 70 21 20 32 44 50 44 .69 .82 .74 .72 .62 .77 .71 .83 .78 .71 11 7 5 27 13 6 13 9 14 18 .31 .18 .26 .28 .38 .23 .29 .17 .22 .29 Totales 36 39 19 97 34 26 45 53 64 62 /10 = 0.74 15 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Ejemplo: Leyes de Mendel Análisis estadístico Se observa que en cada una de las plantas la proporción de guisantes amarillos es próxima a 3/4. La proporción promedio de guisantes amarillos por planta es de 0.74. ESTIMACIÓN Se debe contrastar, utilizando herramientas estadísticas si este valor se puede considerar igual a 0.75. CONTRASTE DE HIPÓTESIS 16 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Población y muestra Se entiende por población el conjunto de todos los elementos de interés en la realización de un estudio estadístico. En un estudio de las características antropométricas de jóvenes aragoneses, la población es el conjunto de alumnos entre 13 y 16 años matriculados en alguno de los institutos o colegios de la población aragonesa. El conjunto de mujeres españolas mayores de 18 años en un estudio sobre la incidencia del cáncer de mama. El conjunto de todos los árboles de una plantación en el estudio de la eficiencia de un nuevo fertilizante. 17 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Población y muestra Una muestra es un subconjunto representativo de la población, es decir, un subconjunto que refleja las características esenciales de la población de la cual se obtuvo. En el estudio de las características antropométricas de los jóvenes aragoneses, la muestra se ha obtenido seleccionando aleatoriamente un subconjunto de colegios e institutos y tomando medidas sobre cada uno de los alumnos de los colegios e institutos seleccionados. Una muestra aleatoria de árboles se obtiene seleccionando uno al azar entre los cinco primeros y, a continuación, uno de cada cinco. 18 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA Cómo seleccionar una muestra aleatoria Es importante garantizar que la muestra se ha seleccionado aleatoriamente. De cómo seleccionar una muestra aleatoria se encarga la teoría de muestreo. • • Scheaffer, R.L.; Mendenhall, W.; Ott, L. (1986) Elementos de muestreo. Grupo Editorial Iberoamérica (un texto sencillo con buenos comentarios desde el punto de vista práctico) Lohr, S. L. (2000) Muestreo: Diseño y análisis. International Thompson Editores. (un texto de un nivel más alto que el anterior muy claro y muy práctico) 19 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS FUNDAMENTALES DE ESTADÍSTICA ESTADÍSTICA DESCRIPTIVA Resumen de información: numérica y gráfica PROBABILIDAD+INFERENCIA ESTADÍSTICA Problema real esp ec if i ca do Modelo Conclusiones Teoría probabilidad no esp ec ifi ca do Recogida datos Inferencia estadística 20 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 1: INTRODUCCIÓN AL PROGRAMA ESTADÍSTICO SPSS En esta práctica aprenderemos a: • Acceder al programa SPSS. • Crear ficheros de datos. • Abrir ficheros de datos existentes. 21 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza ESTADÍSTICA DESCRIPTIVA Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 22 CAPÍTULO 1: ESTADÍSTICA DESCRIPTIVA 1.2 Estadística descriptiva • Introducción. • Unidad estadística o individuo. Caracteres y modalidades. Tipos de variables estadísticas. • Representación de variables. • Medidas de una distribución de frecuencias. Medidas de posición: media, mediana y moda. Cuantiles. Propiedades de las medidas. • Medidas de dispersión: recorridos y varianza. El coeficiente de variación. • Medidas de forma: asimetría y curtosis. • El diagrama de caja. • Representación de variables multidimensionales. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 23 ESTADÍSTICA DESCRIPTIVA Introducción La Estadística Descriptiva se encarga de acumular información, presentarla, criticarla, analizarla y sintetizarla. Pretende descubrir las regularidades o características existentes en un conjunto de datos. La Estadística Descriptiva proporciona: • Medidas para resumir la información. • Herramientas para presentar la información. • Métodos para detectar valores atípicos o errores en la recogida de la información. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 24 ESTADÍSTICA DESCRIPTIVA Unidad estadística o individuo Se denomina unidad estadística o individuo a cada uno de los componentes de la población en estudio. En un estudio de las características antropométricas de los jóvenes aragoneses se han considerado estudiantes entre 13 y 16 años; éstos son los individuos de la población Cada uno de los árboles de una plantación es un individuo en el estudio de la eficiencia de un nuevo fertilizante. Cada porción de agua de un río es un individuo en el estudio del contenido en lindano. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 25 ESTADÍSTICA DESCRIPTIVA Caracteres y modalidades Cada uno de los individuos de la población puede describirse según una o varias características que denominaremos caracteres o variables. De cada alumno se han recogido las siguientes características: peso, talla, cantidad de grasa en los pliegues cutáneos del bíceps, tríceps, subescapular, suprailíaco, abdomen y muslo, sexo y edad. De cada árbol se ha medido la altura, el volumen, el tipo de suelo en el que se encuentra, el número de frutos y su tamaño medio. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 26 ESTADÍSTICA DESCRIPTIVA Caracteres y modalidades Cada una de las variables en estudio puede presentar una o varias categorías denominadas modalidades o valores que toma la variable. Las modalidades de la variable sexo son hombre y mujer. La variable edad en este estudio toma cuatro valores distintos 13, 14, 15 y 16. La variable altura puede tomar muchos valores distintos. Razonablemente se espera que dichos valores estén entre 1.50 y 2.00 m. El rango de valores dependerá de la población en estudio. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 27 ESTADÍSTICA DESCRIPTIVA Tipos de variables estadísticas Cualitativas, si sus diversas modalidades no son asociables a un número real. Nominales, si sus diversas modalidades no se pueden ordenar. Ordinales, si sus modalidades se pueden ordenar. La variable sexo es una variable cualitativa nominal El grado de satisfacción en el trato con el personal sanitario es una variable cualitativa ordinal. Sus modalidades podrían ser: muy satisfecho, satisfecho, poco satisfecho. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 28 ESTADÍSTICA DESCRIPTIVA Tipos de variables estadísticas Cuantitativas, si cada modalidad tiene asociado un número. Discretas, si toma valores en el conjunto de los números enteros. Continuas, si sus valores posibles están en un intervalo. El número de frutos es una variable cuantitativa discreta. Toma valores entre 0 y 100, por ejemplo. La variable altura es cuantitativa continua. Puede tomar cualquier valor entre, por ejemplo, 150 y 200 cm. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 29 ESTADÍSTICA DESCRIPTIVA Tipos de variables estadísticas Variables cuantitativas continuas Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza Variable cualitativa nominal Variable cuantitativa discreta 30 ESTADÍSTICA DESCRIPTIVA Representación de variables estadísticas Para la representación de las variables estadísticas se utilizan las tablas de frecuencias y las representaciones gráficas. Sexo Porcentaje Porcentaje válido acumulado Frecuencia Porcentaje Válidos Chicos 775 51,6 51,6 51,6 Chicas 726 48,4 48,4 100,0 Total 1501 100,0 100,0 Chicas Chicos Variables cualitativas Diagrama de sectores Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 31 ESTADÍSTICA DESCRIPTIVA Representación de variables estadísticas Edad FrecuenciaPorcentaje Válidos 13 387 25,8 14 368 24,5 15 371 24,7 16 375 25,0 Total 1501 100,0 Porcentaje Porcentaje válido acumulado 25,8 25,8 24,5 50,3 24,7 75,0 25,0 100,0 100,0 Diagrama de barras Edad 30 20 10 Porcentaje Variables cuantitativas con muchas observaciones y pocos valores distintos. 0 13 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza Edad 14 15 16 32 ESTADÍSTICA DESCRIPTIVA Representación de variables estadísticas Variables cuantitativas con muchas observaciones y muchos valores distintos. Peso agrupado Porcentaje 1,6 16,3 36,7 29,3 11,3 3,7 ,9 ,2 ,1 100,0 Valores agrupados en intervalos Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza Peso agrupado 600 500 400 300 200 Frecuencia Válidos Frecuencia menor que 35 24 35-45 244 45-55 551 55-65 440 65-75 170 75-85 55 85-95 13 95-105 3 mayor que 105 1 Total 1501 Histograma Porcentaje acumulado 1,6 17,9 54,6 83,9 95,2 98,9 99,7 99,9 100,0 100 0 30 40 Peso agrupado 50 60 70 80 90 33 100 110 ESTADÍSTICA DESCRIPTIVA ¿Cómo se determinan las clases? Se recomienda que el número de clases esté entre 5 y 15. Habrá más clases cuanto mayor sea el número de observaciones. El rango de valores considerados debe cubrir todas las observaciones y que la primera y última clases no queden vacías. Así, el primer intervalo tiene que contener al mínimo valor observado y el último, al máximo. Los intervalos pueden tener idéntica o distinta amplitud. SPSS no contempla la posibilidad de dibujar histogramas con clases de distinta amplitud. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 34 ESTADÍSTICA DESCRIPTIVA ¿Cómo se determinan las clases? El mínimo peso observado es de 29 kg y el máximo de 107.5 kg. Por comodidad, se han fijado nueve intervalos, cuyos extremos son números enteros que van de 25 a 110 kg. El número de observaciones es 1501, lo que permite fijar un gran número de clases. Se han medido las concentraciones de succinato deshidrogenasa en una muestra de células de individuos sanos obteniéndose los siguientes resultados: 2.37, 3.45, 1.91, 4.02, 1.42, 3.78, 2.51, 3.13, 2.85, 1.98. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 35 ESTADÍSTICA DESCRIPTIVA ¿Cómo se determinan las clases? Concentración de sucinato 2,5 2,5 2,0 2,0 1,5 1,5 1,0 1,0 ,5 Frecuencia Frecuencia Concentración de sucinato 0,0 1,50 2,00 2,50 3,00 3,50 4,00 Concentración de sucinato ,5 0,0 1,40 1,70 2,00 2,30 2,60 2,90 3,20 3,50 3,80 Concentración de sucinato Si el estudio consta de muy pocas observaciones no se considerará ni el uso de tablas ni las representación gráfica de las variables. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 36 4,10 ESTADÍSTICA DESCRIPTIVA Medidas de una distribución de frecuencias Son medidas para resumir la información contenida en los datos y cuya interpretación permite detectar ciertas regularidades en el comportamiento de la población. Son de tres tipos: • Medidas de tendencia central o de posición: dan idea de en torno a qué valores se encuentra la población • Medidas de dispersión: miden la separación de los datos respecto a la medida de posición. • Medidas de forma: Estudian la simetría y el apuntamiento de la distribución. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 37 ESTADÍSTICA DESCRIPTIVA Medidas de posición: media, mediana y moda La media aritmética de la distribución es la suma de todas las observaciones dividida por el número de individuos en la población. Una muestra de suero sanguíneo de un individuo sano debe contener 42 gramos de albúmina por litro. Se ha medido en seis individuos sanos: 42.5, 41.6, 42.1, 41.9, 41.1, 42.2 La cantidad media de albúmina por litro es: (42.5 + 41.6 + 42.1 + 41.9 + 41.1 + 42.2)/6 = 41.9 gr. por litro La edad media de los estudiantes es: (13·387 + 14·368 + 15·371 + 16·375)/1501 =14.5 años Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 38 ESTADÍSTICA DESCRIPTIVA Medidas de posición: media, mediana y moda A partir de las tablas con los datos agrupados, la media se calcula utilizando como valores de la variable los puntos medios de los intervalos. El peso medio de los estudiantes es: 30·24 + 40·244 + 50·551 + 60·440 + 70·170 + 80·55 + 90·13 + 100·3 + 110·1 1501 =54.83 kilos Observa que el cálculo de la media sólo tiene sentido para variables cuantitativas. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 39 ESTADÍSTICA DESCRIPTIVA Medidas de posición: media, mediana y moda Una vez ordenadas las observaciones de menor a mayor, la mediana es el valor que divide a la población en dos mitades. Una vez ordenadas las concentraciones de albúmina: 41.1, 41.6, 41.9, 42.1, 42.2, 42.5. La mediana es: 41.9 y 42.1 gr por litro, es decir, el 50% de los individuos tiene una concentración de albúmina menor o igual que 41.9 gr/l (ó 42.1) y el otro 50% mayor o igual. La edad mediana de los estudiantes es 14 años. El 50% tiene 14 años o menos (exactamente el 50.3%) y resto más. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 40 ESTADÍSTICA DESCRIPTIVA Medidas de posición: media, mediana y moda El peso mediano de los estudiantes es 53.9 kg., es decir, el 50% de los estudiantes pesan menos de 53.9 kg. y el resto más. En la tabla de datos agrupados se observa que el valor mediano debe ser una valor entre 45 y 55 kg (intervalo mediano). En particular, se tiene que el 54.6% de los estudiantes pesan menos de 55 kg. Observa que el cálculo de la mediana sólo requiere que las modalidades se puedan ordenar, por tanto, su cálculo tiene sentido tanto para variables cuantitativas como cualitativas ordinales. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 41 ESTADÍSTICA DESCRIPTIVA Medidas de posición: media, mediana y moda La moda es el valor más frecuente. La edad más frecuente es 13 años, aunque en este ejemplo se observa que la muestra se ha seleccionado tratando de conseguir grupos de edad del mismo tamaño. El peso modal está entre los 45 y 55 kilos. A este intervalo se le denomina intervalo modal. Cuando la variable toma muchos valores distintos la moda sólo tiene sentido si se obtiene a partir de los datos agrupados. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 42 ESTADÍSTICA DESCRIPTIVA Medidas de posición: media, mediana y moda Observa que el cálculo de la moda sólo utiliza el valor de las frecuencias, por tanto, su cálculo tiene sentido para cualquier tipo de variable. En la población de estudiantes aragoneses son algo más frecuentes los chicos que las chicas, 51.6% frente al 48.4%, aunque la diferencia es muy pequeña. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 43 ESTADÍSTICA DESCRIPTIVA Medidas de posición: media, mediana y moda Peso agrupado 600 Intervalo modal 500 400 300 Frecuencia 200 100 0 30 40 50 Peso= agrupado Mediana 53.9 kg Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 60 70 80 90 100 110 Media = 54.83 kg 44 ESTADÍSTICA DESCRIPTIVA Medidas de posición: cuantiles Un cuantil de orden es el valor de la variable por debajo del cual se encuentra el ·100% de la población. Casos especiales de cuantiles son los percentiles, que dividen a la población en 100 partes iguales, y los cuartiles, que dividen a la población en 4 partes iguales. Así, el percentil de orden 1 deja por debajo al 1% de la población; el de orden 15, al 15% y el 80 al 80%. El primer cuartil deja por debajo al 25% de la población; el segundo al 50% (coincide con la mediana) y el tercero, al 75%. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 45 ESTADÍSTICA DESCRIPTIVA Medidas de posición: cuantiles Estadísticos Peso N Percentiles Válidos Perdidos 10 20 30 40 50 60 70 80 90 1501 0 42,200 45,900 48,900 51,200 53,900 56,600 59,200 62,960 68,500 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza En la población de estudiantes aragoneses se tiene que el 10% pesan menos de 42.2 kg.; el 20% menos de 45.9 kg.,...,el 50% menos de 53.9 kg., el 70% menos de 59.2 kg.,..., el 90% menos de 68.5 kg. y el 10% restante más de 68.5 kg. 46 ESTADÍSTICA DESCRIPTIVA Medidas de posición: cuantiles Peso agrupado 600 500 400 300 200 Frecuencia Suma de las áreas100 de los rectángulos 0 = 10% 30 40 50 60 70 80 90 100 110 Peso Percentil 10 =agrupado 42.2 kg Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 47 ESTADÍSTICA DESCRIPTIVA Medidas de posición: propiedades La media es sensible a valores extremos. La concentración de albúmina media es 41.9 gr. por l. Si le añadimos una observación igual a 46.5, la media pasa a ser 42.6. 41.1 41.6 41.9 42.1 42.2 42.5 46.5 42.6 La mediana no lo es. En el primer caso, la mediana es 41.9 gramos por litro y en el segundo pasa a ser 42.1. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 48 ESTADÍSTICA DESCRIPTIVA Medidas de posición: propiedades Tanto la media como la mediana pueden no representar bien el comportamiento de la variable. 41.1 41.6 41.9 42.1 42.5 43.7 46.2 46.4 46.3 46.5 42.2 ¿Podrías decir qué está ocurriendo con estas observaciones? Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 49 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza El recorrido, rango o amplitud es la diferencia entre el mayor y el menor valor de la variable. Un valor pequeño del recorrido indica poca dispersión, puesto que la variable toma valores en un intervalo pequeño. Sin embargo, un valor grande puede indicar mucha dispersión o la existencia de valores extremos. La concentración de albúmina máxima observada es de 42.5 gr/l y la mínima de 41.1 gr/l siendo la media de 41.9 gr/l. El recorrido es de 42.5 - 41.1 = 1.4 gr/l indicando poca dispersión en los datos. 41.6 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 41.1 42.1 42.5 41.9 42.2 50 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza En otra muestra la concentraciones de albúmina han sido 41.1, 41.6, 49.1, 42.1, 42.2, 42.5. 41.6 41.1 42.2 42.1 42.5 49.1 La media aumenta a 43.1 gr/l, afectada por el valor máximo observado y la mediana es 42.1 gr/l, que está menos afectada por los valores extremos. El valor del recorrido es 49.1 - 41.1 = 8 gr/l indicando mucha dispersión o existencia de valores extremos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 51 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza En una tercera muestra la concentraciones de albúmina observadas han sido 41.1, 42.6, 49.1, 45.1, 47.2, 43.5. 41.1 42.6 43.5 45.1 47.2 49.1 Ahora la media es 44.8 gr/l y la mediana es 43.5 gr/l. El valor del recorrido es 49.1 - 41.1 = 8 gr/l indicando mucha dispersión o existencia de valores extremos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 52 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza El recorrido intercuartílico es la diferencia entre tercer y primer cuartiles. Un valor pequeño del recorrido intercuartílico indica poca dispersión. Sin embargo, un valor grande puede indicar mucha dispersión. Como los cuartiles están poco afectados por la existencia de valores extremos, un recorrido intercuartílico pequeño frente a un recorrido grande indicará la existencia de valores extremos. Si ambos son grandes, podemos asegurar que existe dispersión. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 53 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza RI = 42.2 - 41.6 = 0.6 gr/l., que indica poca dispersión. (R=1.4) 41.6 41.1 42.1 42.5 41.9 42.2 RI = 42.5 - 41.6 = 0.9 gr/l, pequeño y R=8, lo que indica la existencia de valores extremos. 41.6 41.1 42.2 42.1 42.5 49.1 RI = 47.2 - 42.6 = 4.6 gr/l, un valor alto, y R=8 que indica que hay dispersión. 43.5 41.1Beatriz Lacruz Casaucau 42.6 (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 45.1 47.2 54 49.1 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza La varianza es la media las distancias de las observaciones a la media elevadas al cuadrado. • Calculamos las distancias de las cantidades de albúmina a su media 41.9 en el primer ejemplo: 41.6-41.9=-0.3 42.1-41.9=0.2 42.2-41.9=0.3 41.1 41.6 41.1-41.9=-0.8 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 41.9 41.9-41.9=0 42.5 42.1 42.2 42.5-41.9=0.6 55 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza • ¿Qué ocurre si sumamos las distancias? (- 0.8) + (- 0.3) + 0 + 0.2 + 0.3 + 0.6 = 0 Al compensarse las distancias positivas con las negativas la suma de las distancias no proporciona una buena medida de dispersión. La suma de las distancias de las observaciones a la media es siempre cero, por ello, se dice que la media es el centro de gravedad de la distribución. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 56 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza • ¿Cómo se podrían medir las distancias eliminando el efecto del signo? (- 0.8)2 + (- 0.3)2 + 0 2 + 0.2 2 + 0.3 2 + 0.6 2 = 1.22 • La varianza es, por tanto, 1.22/6=0.203 (gr/l)2 En la segunda muestra el valor de la varianza es 7.4 (gr/l) 2. En la tercera muestra el valor de la varianza es también 7.4 (gr/l) 2. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 57 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza El inconveniente de la varianza es que no se mide en las mismas unidades de medida que la variable y, por tanto, es difícil de interpretar. La solución consiste en definir la desviación típica o desviación estándar como la raíz cuadrada de la varianza. En la primera muestra el valor de la desviación típica es 0.45 gr/l, un valor pequeño que indica poca dispersión. En la segunda y tercera muestras el valor de la varianza es 2.7 gr/l, un valor alto que indica dispersión o existencia de valores extremos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 58 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza Si la suma de los cuadrados de las distancias se dividen por n-1, la medida resultante se denomina cuasivarianza. Y su raíz cuadrada es la cuasidesviación típica. El interés de estas medidas se verá en el capítulo de inferencia. Ninguna de las tres medidas de dispersión presentadas permite, por sí sola, determinar si la variable está dispersa o no. Se recomienda el uso de las tres medidas simultáneamente para poder describir esta característica de la variable. Además, el histograma o el diagrama de barras, nos permitirán determinar la existencia o no de dispersión y la posible existencia de valores atípicos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 59 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: recorridos y varianza Descriptivos Media Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Estadístico 162,9651 162,7000 80,598 8,9776 133,80 193,10 59,30 11,8000 Talla 200 Frecuencia 100 0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 60 0 19 5 18 0 18 5 17 0 17 5 16 0 16 5 15 0 15 5 14 ,0 Talla 0 14 5 13 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: el coeficiente de variación Las medidas anteriores tienen las unidades de las variables y, por tanto, dependen de la magnitud de las mismas. Para evitar esta dependencia se define el coeficiente de variación como el cociente entre la desviación típica y la media. El coeficiente de variación es adimensional y permite comparar la dispersión de poblaciones distintas. Sólo se define para variables con valores positivos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 61 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: el coeficiente de variación El peso de las chicas es de 52.66 kg. con una desviación típica de 8.94 kg. y el de los chicos de 56.91 kg. con una desviación típica de 11.91 kg. Para comparar la dispersión entre las dos poblaciones calculamos el coeficiente de variación: CVChicos 11.91 0.209 56.91 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CVChicas 8.94 0.170 52.66 62 ESTADÍSTICA DESCRIPTIVA Medidas de dispersión: el coeficiente de variación Chicas 120 120 100 100 80 80 60 60 40 40 Frecuencia Frecuencia Chicos 20 0 5 10 0 10 95 90 85 80 75 70 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 0 65 60 55 50 45 40 35 30 5 10 0 10 95 90 85 80 75 70 65 60 55 50 45 40 35 30 Peso 20 Peso 63 ESTADÍSTICA DESCRIPTIVA Medidas de forma: asimetría y curtosis Para estudiar la simetría o asimetría de una distribución se utiliza el eje que pasa por la media aritmética. Peso agrupado 600 500 400 300 Frecuencia 200 100 0 30 40 Peso agrupado 50 60 70 80 90 100 110 Media = 54.83 kg Una forma de medir la asimetría de una distribución de frecuencias es mediante el coeficiente de Fisher, aunque esta característica suele evidenciarse en su representación gráfica. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 64 ESTADÍSTICA DESCRIPTIVA Medidas de forma: asimetría y curtosis Distribución simétrica Coef. asimetría=0 Distribución asimétrica positiva Coef. asimetría>0 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza Distribución asimétrica negativa Coef. asimetría<0 65 ESTADÍSTICA DESCRIPTIVA Medidas de forma: asimetría y curtosis Cantidad de grasa en el abdomen Distribución campaneiforme y asimétrica positiva. 200 150 100 Frecuencia 50 Talla 0 4 10 16 22 28 34 40 200 46 Cantidad de grasa en el abdomen 0 0 0, 19 0 5, 18 0 0, 18 0 5, 17 0 0, 17 0 5, 16 0 0, 16 0 5, 15 0 0, 15 0 5, 14 Talla 0 0, 14 0 5, 13 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 100 Frecuencia Distribución campaneiforme simétrica. 66 ESTADÍSTICA DESCRIPTIVA Medidas de forma: asimetría y curtosis Las medidas de apuntamiento o de curtosis se aplican a distribuciones en forma de campana, es decir, unimodales, simétricas o con ligera asimetría. Las medidas de curtosis tratan de estudiar la distribución de frecuencias en la zona central. La mayor o menor concentración de frecuencias alrededor de la media dará lugar a distribuciones más o menos apuntadas. El apuntamiento se mide con respecto a una curva de referencia, la curva normal, que es simétrica, tiene forma de campana, la mayoría de los valores están alrededor de la media y los valores alejados de la media son poco numerosos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 67 ESTADÍSTICA DESCRIPTIVA Medidas de forma: asimetría y curtosis CURVA NORMAL Media = Mediana = Moda Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 68 ESTADÍSTICA DESCRIPTIVA Medidas de forma: asimetría y curtosis Talla Cantidad de grasa en el subescapular 200 Cantidad de grasa en el tríceps 160 400 140 120 300 100 80 200 100 60 40 0 135 140 145 150 155 160 165 170 175 180 185 190 Talla Frecuencia Frecuencia Frecuencia 100 0 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 Cantidad de grasa en el subescapular Aproximadamente, igual de apuntada que la normal. Mesocúrtica (curtosis = 0) Más apuntada que la normal. Leptocúrtica (curtosis > 0) Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 20 0 4 8 12 16 20 24 28 32 36 40 Cantidad de grasa en el tríceps Menos apuntada que la normal. Platicúrtica (curtosis < 0) 69 44 ESTADÍSTICA DESCRIPTIVA El diagrama de caja El diagrama de caja es una representación gráfica muy útil que combina medidas de posición y dispersión y que nos ayudará también a detectar la existencia de valores extremos. Valor máximo 200 696 740 768 1068 789 1308 1100 599 635 190 Extremos entre los que se espera encontrar los valores de la variable Cuartiles, la caja contiene al 50% de las observaciones 180 170 160 150 Valor mínimo 140 917 924 130 N= Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 1501 Talla 70 ESTADÍSTICA DESCRIPTIVA El diagrama de caja El diagrama de caja representa el recorrido y el recorrido intercuartílico, así como los límites entre los que se espera encontrar a la mayor parte de las observaciones. Los valores que quedan fuera de los límites se representan con un círculo si quedan, relativamente cerca de lo que se considera “normal” y con un asterisco si se pueden considerar datos atípicos. Ante la existencia de valores extremos se debe estudiar su procedencia: pueden ser errores de transcripción a la hora de almacenar los datos, individuos que no pertenecen a la población en estudio o simplemente datos atípicos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 71 ESTADÍSTICA DESCRIPTIVA El diagrama de caja 50 3 48 Aparecen valores 46 extremos Mucha dispersión 44 42 40 Poca MUESTRA1 Beatriz Lacruz Casaucau (lacruz@unizar.es) dispersión Dpto. Métodos Estadísticos. Universidad de Zaragoza N= 6 6 6 MUESTRA2 MUESTRA3 72 PRÁCTICA 2 y 3: ESTADÍSTICA DESCRIPTIVA En esta práctica aprenderemos a: • Construir tablas de frecuencias y representaciones gráficas. • Recodificar las variables para poder construir tablas con los datos agrupados. • Calcular las medidas de posición, dispersión y forma, interpretando los resultados. • Detectar valores extremos. • Analizar subgrupos. • Eliminar casos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 73 ESTADÍSTICA DESCRIPTIVA Representación de dos o más variables: Tablas Edad Peso agrupado menor que 35 35-45 45-55 55-65 65-75 75-85 85-95 95-105 mayor que 105 13 19 134 138 74 16 5 1 14 15 4 72 160 97 27 6 2 1 29 149 126 49 14 2 1 16 9 104 143 78 30 8 2 1 Tabla bidimensional de frecuencias absolutas Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 74 ESTADÍSTICA DESCRIPTIVA Representación de dos o más variables: Tablas Edad Peso agrupado menor que 35 35-45 45-55 55-65 65-75 75-85 85-95 95-105 mayor que 105 13 % tabla 1,3% 8,9% 9,2% 4,9% 1,1% ,3% ,1% 14 % tabla ,3% 4,8% 10,7% 6,5% 1,8% ,4% ,1% 15 % tabla ,1% 1,9% 9,9% 8,4% 3,3% ,9% ,1% ,1% 16 % tabla ,6% 6,9% 9,5% 5,2% 2,0% ,5% ,1% ,1% Tabla bidimensional de frecuencias relativas Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 75 ESTADÍSTICA DESCRIPTIVA Representación de dos o más variables: Tablas % de Peso agrupado Edad Peso agrupado Total Menor que 35 35-45 45-55 55-65 65-75 75-85 85-95 95-105 Mayor que 105 13.00 79.2% 54.9% 25.0% 16.8% 9.4% 9.1% 7.7% 14.00 16.7% 29.5% 29.0% 22.0% 15.9% 10.9% 15.4% 15.00 4.2% 11.9% 27.0% 28.6% 28.8% 25.5% 15.4% 33.3% 25.8% 24.5% 24.7% 16.00 3.7% 18.9% 32.5% 45.9% 54.5% 61.5% 66.7% 100.0% 25.0% Total 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% Tabla bidimensional de frecuencias relativas por filas Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 76 ESTADÍSTICA DESCRIPTIVA Representación de dos o más variables: Tablas % de Edad Edad Peso agrupado Total Menor que 35 35-45 45-55 55-65 65-75 75-85 85-95 95-105 Mayor que 105 13.00 4.9% 34.6% 35.7% 19.1% 4.1% 1.3% .3% 14.00 1.1% 19.6% 43.5% 26.4% 7.3% 1.6% .5% 15.00 .3% 7.8% 40.2% 34.0% 13.2% 3.8% .5% .3% 100.0% 100.0% 100.0% 16.00 2.4% 27.7% 38.1% 20.8% 8.0% 2.1% .5% .3% 100.0% Total 1.6% 16.3% 36.7% 29.3% 11.3% 3.7% .9% .2% .1% 100.0% Tabla bidimensional de frecuencias relativas por columnas Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 77 ESTADÍSTICA DESCRIPTIVA Gráficos para variables cualitativas o cuantitativas agrupadas 200 500 Peso agrupado Peso agrupado Menor que 35 Mayor que 105 400 35-45 95-105 45-55 85-95 300 55-65 100 75-85 65-75 65-75 200 85-95 95-105 Mayor que 105 0 13.00 14.00 15.00 16.00 55-65 Frecuencia Frecuencia 75-85 45-55 100 35-45 Menor que 35 0 13.00 Edad 14.00 15.00 16.00 Edad Gráficos de barras bidimensional Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 78 ESTADÍSTICA DESCRIPTIVA Representación de dos o más variables: Tablas Económicas Solicitudes Admisiones % Letras Solicitudes Admisiones % Mujeres 1000 540 54 Mujeres 800 560 70 Hombres 1000 590 59 Hombres 300 225 75 Ingeniería Solicitudes Admisiones % Global Solicitudes Admisiones % Mujeres 200 36 18 Mujeres 2000 1136 56.8 Hombres 700 140 20 Hombres 2000 955 47.7 Paradoja de Simpson Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 79 ESTADÍSTICA DESCRIPTIVA Representación de dos o más variables: Tablas Edad 13 14 15 16 Sexo Sexo Sexo Sexo Chicos Chicas Chicos Chicas Chicos Chicas Chicos Chicas Recuento Recuento Recuento Recuento Recuento Recuento Recuento Recuento Peso menor que 35 10 9 3 1 1 agrupado 35-45 75 59 35 37 10 19 1 8 45-55 69 69 67 93 46 103 34 70 55-65 37 37 59 38 73 53 74 69 65-75 12 4 17 10 33 16 63 15 75-85 2 3 6 11 3 25 5 85-95 1 1 1 2 6 2 95-105 1 2 mayor que 105 1 Tabla tridimensional de frecuencias absolutas Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 80 ESTADÍSTICA DESCRIPTIVA Representación de dos o más variables: Tablas Sexo Chicos Sexo Chicas Edad Peso agrupado menor que 35 35-45 45-55 55-65 65-75 75-85 85-95 95-105 mayor que 105 13 10 75 69 37 12 2 14 3 35 67 59 17 6 1 Edad 15 10 46 73 33 11 2 1 16 1 34 74 63 25 6 2 1 13 Peso agrupado menor que 35 35-45 45-55 55-65 65-75 75-85 85-95 95-105 mayor que 105 9 59 69 37 4 3 1 14 15 1 37 93 38 10 1 19 103 53 16 3 1 Tablas bidimensionales según los valores de una tercera variable Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 81 16 8 70 69 15 5 2 ESTADÍSTICA DESCRIPTIVA Representación de dos o más variables: Diagrama de dispersión 120 120 100 100 80 80 60 60 40 40 Sexo Peso Peso Chicas 20 130 140 150 160 170 180 190 200 20 Chicos 130 140 150 160 170 180 190 200 Talla Talla Diagrama de dispersión o nube de puntos Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 82 ESTADÍSTICA DESCRIPTIVA Medidas de asociación La medida de asociación lineal más simple entre dos variables cuantitativas es la covarianza. 4 6 3 4 2 1 2 0 0 -1 -2 -2 -4 Y Y -3 -3 X -2 -1 s 0 XY 1 2 0 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 3 -4 -3 X -2 -1 0 1 2 s XY 0 83 3 ESTADÍSTICA DESCRIPTIVA Medidas de asociación 1 3 0 2 -1 1 -2 0 -3 -1 -4 -5 Y4 Y -2 -3 -3 X -2 -1 0 1 2 sXY 0 3 -6 -3 X -2 -1 0 1 2 3 sXY 0 Por definición la covarianza entre X e Y es igual a la covarianza entre Y y X. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza sXY sYX 84 ESTADÍSTICA DESCRIPTIVA Medidas de asociación El coeficiente de correlación lineal es: sXY rXY sX sY • Es un valor entre -1 y 1. • Si existe una relación lineal exacta entre X e Y, Y = aX + b, el coeficiente de correlación valdrá 1 si a > 0 y -1, si a < 0. • Cuanto más próximo a 1 o -1 se encuentre el coeficiente de correlación lineal, más fuerte será la relación lineal entre las variables. Si está próximo a 0, no existe relación lineal entre las variables. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 85 ESTADÍSTICA DESCRIPTIVA Bibliografía • Martín Pliego, F. J. (1994) Introducción a la Estadística Económica y Empresarial. (Teoría y práctica). Editorial AC. (Aunque es un libro dedicado a la economía y a las ciencias empresariales en lo que se refiere a los ejemplos que utiliza, los conceptos estadísticos están claramente ordenados y definidos.) • Lacruz, B.; Pérez-Palomares, A.; Del Pozo, L.; SánchezValverde, B. (1999) Estadística Elemental con SPSS. Universidad de Zaragoza. (Este libro contiene varias colecciones de datos, la mayoría de ellas han sido analizadas desde el punto de vista de la Estadística Descriptiva, por lo que proporciona una visión práctica de ésta.) Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 86 PRÁCTICA 4: ESTADÍSTICA DESCRIPTIVA En esta práctica aprenderemos a: • Construir tablas de frecuencias con dos o más variables. • Representar nubes de puntos. • Calcular las medidas de asociación entre dos variables: la covarianza y el coeficiente de correlación. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 87 CONCEPTOS ELEMENTALES DE PROBABILIDAD 88 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 1: CONCEPTOS ELEMENTALES DE PROBABILIDAD 1.3 Conceptos elementales de probabilidad • Introducción. Concepto de probabilidad. Propiedades. • Probabilidad condicionada. Sucesos independientes. • Teorema de la probabilidad total. Teorema de Bayes. • Variables aleatorias. • Distribuciones discretas de probabilidad: binomial, hipergeométrica y Poisson. • Distribuciones continuas de probabilidad: Normal. • Distribuciones multivariantes: multinomial y Normal • Distribuciones relacionadas con la normal: chi-cuadrado, F de Snedecor y t de Student. • Otras distribuciones discretas: geométrica o de Pascal y binomial negativa. • Otras distribuciones continuas: lognormal, uniforme, exponencial, beta, gamma y Weibull. 89 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Introducción La Estadística es la rama de las matemáticas que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades. El Cálculo de Probabilidades es la disciplina que permite estudiar las posibilidades de realización de los fenómenos aleatorios. 90 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Concepto de probabilidad • Un experimento aleatorio es aquél en el que, con la información que tenemos, no podemos predecir con seguridad el resultado. • El conjunto de todos los resultados se llama espacio muestral. • Llamaremos suceso a aquel conjunto del espacio muestral del que se puede afirmar si ha sucedido o no, una vez realizado el experimento. • Los posibles resultados de un experimento aleatorio se denominan “sucesos elementales”. La unión de sucesos elementales da lugar a “sucesos compuestos”. • Experimento: Sacar una carta de una baraja española • Suceso elemental: As de copas • Suceso compuesto: Copas Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 91 CONCEPTOS ELEMENTALES DE PROBABILIDAD Concepto de probabilidad El cálculo de probabilidades se encarga de obtener las probabilidades de sucesos compuestos a partir del conocimiento de las probabilidades de los sucesos elementales y unas reglas de cálculo. Interpretación de la probabilidad: si el experimento se puede repetir un gran número de veces probabilidad~proporción de ocurrencia Ejemplo: Se sacan 4 cartas de una baraja española. La probabilidad de que las 4 sean de distinto palo es 1000/9139=0.10942 Si se realiza el experimento un número grande de veces, un 11% de las veces (aproximadamente) las cartas serán de distintos palos 92 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Reglas del cálculo de probabilidades • Suceso seguro (ocurre siempre) = unión de todos los posibles resultados. Coincide con el espacio muestral. “Sale una carta” • Suceso imposible (no puede ocurrir) “Sale 13 de bastos” • Unión de sucesos (ocurre al menos uno de ellos) A=“Sale rey” B =“Sale copas” A B =“Sale rey o copas” • Intersección de sucesos (ocurren todos ellos) A=“Sale rey” B =“Sale copas” A B =“Sale rey de copas” • Suceso complementario o contrario. A=“Sale rey”, A sale rey” =“No • A B (si ocurre A, entonces ocurre B) A=“Sale rey”B=“Sale figura” 93 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Reglas del cálculo de probabilidades • Notación: p(A) es la probabilidad de que ocurra el suceso A. • La probabilidad de cualquier suceso está entre 0 y 1. 0 p(A) 1 • La probabilidad del suceso seguro es 1. p( ) 1 • La probabilidad de que ocurra un suceso A o un suceso B, siendo ambos excluyentes, es la suma de las probabilidades. p(A B) p(A) p(B) si A B 94 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Propiedades (conclusiones de las reglas) • Probabilidad del complementario p( A ) 1 p(A) • Probabilidad del suceso imposible p( ) 0 • La probabilidad de que ocurra un suceso A o un suceso B, si no son mutuamente excluyentes, es la suma de las probabilidades de A y B menos la probabilidad de que ocurran los dos a la vez. p(A B) p(A) p(B) - p(A B) A = rey, B = copas A B • Si el suceso A está incluido en B entonces p(A) p(B) 95 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Modelos de Probabilidad Modelo clásico: número finito de resultados equiprobables (cartas de la baraja) casos favorables cardinal(A ) p(A) cardinal( ) casos posibles Modelo finito: número finito de resultados (dado trucado) p(A) i A pi Modelo geométrico: espacio muestral = figura geométrica acotada resultados “equiprobables” medida(A) p(A) medida( ) 96 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Probabilidad condicionada La probabilidad de un suceso A sabiendo que ha ocurrido un suceso B, esto es, la probabilidad de A condicionado a B, es igual a la probabilidad de que sucedan simultáneamente A y B, dividido por la probabilidad de B. p(A B) p(A B ) , con p B 0 p(B) Ejemplo: Si sabemos que la carta que ha salido es una figura, ¿cuál es la probabilidad de que sea un caballo? p(caballo y figura) 4 / 40 1 p(caballo figura ) p(figura) 12 / 40 3 97 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Sucesos independientes Dos sucesos A y B son independientes si p(A B) p(A) p(B) Es decir, si p(B)>0, son independientes si p(A B) p(A) el conocimiento de que ha ocurrido el suceso B no modifica nuestras creencias sobre la posibilidad de que ocurra A. Simetría en A y B La dependencia de A y B no implica necesariamente relación causa-efecto Ejemplo: A=“sacar rey”, B=“sacar copas” p(A B)=p(sacar rey de copas)=1/40=p(rey)·p(copas) p(. B) cumple las reglas de la probabilidad 98 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Regla de la multiplicación (teorema de la probabilidad compuesta) Si A 1 ,..., A k son sucesos cualesquiera (con probabilidad positiva), la probabilidad de que ocurran todos ellos puede ponerse como p(A 1 ... A k ) p(A 1 )· p(A 2 | A 1 )· p(A 3 | A 1 A 2 )·...· p(A k | A 1 ... A k -1 ) Ejemplo: Se sacan 4 cartas, ¿cuál es la probabilidad de que sean los 4 reyes? A1=“la primera carta es rey”, A2=“la segunda carta es rey”, A3=“la tercera carta es rey”, A4=“la cuarta carta es rey” 4 3 2 1 p(A 1 A 2 A 3 A 4 ) 40 39 38 37 1 0 . 000011 91390 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 99 CONCEPTOS ELEMENTALES DE PROBABILIDAD Probabilidad condicionada: Ejemplo En una caja con 100 peces hay 10 que tienen una malformación. Se escogen 2 al azar, ¿cuál es la probabilidad de que ambos sufran malformación? P1= el primer pez sufre malformación P2= el segundo pez sufre malformación 9 10 p(P1 P2 ) p(P2 P1 ) p(P1 ) 0.0091 99 100 100 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Teorema de la probabilidad total p(B) p(B A1 ) p(B A2 ) p(B Ak ) p(B A1 )p(A1 ) p(B A2 )p(A2 ) p(B Ak )p(Ak ) A1 A2 ... Ak k p(A ) 1 j1 i B Ai Aj , i j 101 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Teorema de la probabilidad total: Ejemplo El test de alcoholemia, que realiza la policía en la carretera, es fiable en un 80% de las ocasiones (en los dos sentidos). Se sabe que el 5% de los conductores detenidos por la policía está embriagado, ¿qué proporción de conductores detenidos dará positivo? p( E ) 0.8 p( nE ) 0.8 p(E)=0.05 E p( ) p( E) p( nE) p( E ) p(E) p( nE ) p(nE) No E Positivo 0.8 0.05 (1 - 0.8) 0.95 0.23 102 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Teorema de Bayes p(B Ai ) p(Ai B) p(B) k p(B Ai )p(Ai ) j1 p(B Aj )p(Aj ) Ejemplo: si un conductor ha dado positivo, ¿cuál es la probabilidad de que esté embriagado? p ( | E ) p ( E ) p(E | ) p ( | E ) p ( E ) p ( | nE ) p ( nE ) 0 . 8·0 . 05 0 . 04 0 . 174 0 . 8·0 . 05 0 . 2 ·0 . 095 0 . 23 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 103 CONCEPTOS ELEMENTALES DE PROBABILIDAD Teorema de Bayes: Ejemplo La sensibilidad del test RIA-PAP para detectar el cáncer de próstata, es decir, la proporción de resultados positivos en pacientes con cáncer, es de 0.7. Su especificación, esto es, la proporción de resultados negativos en individuos sanos, es 0.94. La prevalencia de la enfermedad en varones blancos es de 35 por 100.000. ¿Qué probabilidad tiene un paciente de tener cáncer de próstata si el resultado del test RIA-PAP ha sido positivo? C = tener cáncer de próstata, p(C) = 0.00035 P = test positivo, p(P|C) = 0.7, p(no P|no C) = 0.94 p(P C) p(C) p(C P) p(C P) p(P) p(P C) p(C) p(P C) p(C) 0.7 0.00035 104 0.0041 Beatriz Lacruz Casaucau (lacruz@unizar.es) 0.7 0.00035 (1 0.94) (1 0.00035) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias En todo proceso de observación o experimento aleatorio se puede definir una variable aleatoria asignando a cada resultado del experimento un número. Ejemplo: Lanzamiento de un dado. X= "Puntuación del dado". Si en el experimento se miden varias características, se obtienen varias variables aleatorias. Ejemplo: Lanzamientos de dos dados. X="Puntuación del primer dado",Y="Puntuación del segundo dado". Las variables pueden tener alguna relación entre sí o, por el contrario, ser independientes, es decir, cuando los sucesos asociados a las mismas son sucesos independientes. Ejemplo: P(X=2 Y=3)=1/36=P(X=2)P(Y=3) (todos sucesos de este tipo son independientes por lo que X e Y son independientes). 105 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias discretas Las variables aleatorias discretas toman valores en un conjunto contable. Si en un invernadero se mezclan semillas de rosas rojas y blancas y se sabe que el 25% de las rosas de segunda generación son blancas, ¿cuál es la probabilidad de que entre 400 rosas de segunda generación más de 115 sean blancas? 106 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias discretas Una variable aleatoria discreta tiene asociada una función, llamada de probabilidad o de masa, que asocia a cada resultado su probabilidad. Un paciente sufre una enfermedad que tiene dos posibles tratamientos. Uno de ellos debe administrarse durante 15 días y al término debe elegirse si prolongarlo por 20 días más (en un 50% de las ocasiones) o intentar el otro tratamiento durante 30 días (en el otro 50%). Otra posibilidad es comenzar con el segundo tratamiento y prolongarlo durante 60 días. Este segundo tratamiento es más económico por lo que se elige en el 60% de los casos. ¿Cómo es la distribución de probabilidad de la variable “tiempo que dura el tratamiento de la enfermedad?” 107 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias discretas: Ejemplo X = tiempo que dura el tratamiento X = 15 + 20 = 35, si se elige administrar el primer tratamiento y continuar con él; X = 15 + 30 = 45, si se elige administrar el primer tratamiento y después cambiar; y, X = 60, si se elige administrar solo el segundo tratamiento. p(X = 60) = p(elegir el segundo tratamiento) = 0.6 p(X = 35) = p(elegir el primero y continuar) = (1 - 0.6)·0.5 p(X = 45) = p(elegir el primero y cambiar) = (1 - 0.6)·0.5 108 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias discretas: ejemplo 1 X 35 p 0.2 0.2 0.6 45 60 0.6 0.2 p(X x ) 0.2 0.2 0.6 1 i i 35 45 60 ¿Cuál es la probabilidad de que el tratamiento dure un mes y medio o más? p(X 45) 0.2 0.6 0.8 109 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias discretas La media o esperanza de una variable aleatoria discreta es: k E[X] xi p(X xi ) i1 La desviación típica de una variable aleatoria discreta es: k 2 (x ) p(X x i ) i i 1 El número medio de días que dura un tratamiento es E[X] 35 0.2 45 0.2 60 0.6 52 días con una desviación típica de 10.3 días. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 110 CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias continuas Las variables aleatorias continuas toman valores en un conjunto infinito no numerable (un intervalo). La distribución de probabilidad de una variable continua viene dada a través de una función denominada función de densidad. Propiedades de la función de densidad (se denota f) : • Es una función positiva. • El área encerrada bajo la función de densidad es 1. • La función de densidad proporciona el medio para determinar la probabilidad de que la variable aleatoria tome un valor en un intervalo determinado. 111 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias continuas • La probabilidad de que la variable aleatoria esté entre dos valores a y b es igual al área que encierra la función de densidad en este intervalo. p(a X b) b f ( x)dx a f(X) a Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza b X 112 CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias continuas La media o esperanza de una variable aleatoria continua es: E[X] x f(x)dx La desviación típica de una variable aleatoria continua es: (x - )2 f(x)dx 113 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias continuas: Ejemplo La vida de un virus en horas es una variable aleatoria con función de densidad 0 f(x) 3 x 4 si x 1 hora si x 1 hora ¿Cuál es el tiempo medio de vida de dicho virus? ¿Y su desviación típica? ¿Cuál es la probabilidad de que un virus tomado al azar viva más de cinco horas? 114 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias continuas: Ejemplo El tiempo medio de vida de dicho virus es E[X] x f(x)dx 1 3 dx -3 x 4 1.5 horas 2 x 2 x 1 y su desviación típica es 0.9 horas. La probabilidad de que un virus tomado al azar viva más de cinco horas es p(X 5) f(x)dx 5 5 3 dx -3 0.008 4 3 x 3 x 5 115 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Importancia de la esperanza La importancia del concepto de esperanza se sigue de las denominadas Leyes de los Grandes Números • Si X1 , X 2 , , X n son variables independientes con la misma distribución y media entonces, para n grande X1 X 2 X n n 116 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Variables aleatorias continuas: Relación entre histograma y función de densidad 600 600 600 500 500 500 400 400 400 300 300 300 200 200 200 100 100 100 0 0 3,20 X 3,97 4,75 5,52 0 6,30 3,01 X 3,78 4,56 5,33 6,11 2,91 3,49 4,07 4,65 5,23 5,82 6,40 X El histograma tiende a una curva suave que es la función de densidad. Como la suma de las áreas de los rectángulos del histograma es la unidad (suma de las frecuencias relativas), el área que encierra la función de densidad es la unidad. 117 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones de probabilidad Algunas distribuciones específicas de probabilidad han demostrado, empíricamente, que son modelos útiles para diversos problemas prácticos. Tales distribuciones presentan también un carácter teórico en el sentido de que sus funciones de probabilidad o de densidad se deducen matemáticamente, basándose en ciertas hipótesis que se suponen válidas para ciertos fenómenos aleatorios. La elección de una distribución de probabilidad para representar un fenómeno de interés práctico debe estar motivada tanto por la comprensión de la naturaleza del fenómeno en sí, como por la posible verificación de la distribución seleccionada a través de la evidencia empírica. Beatriz Lacruz Casaucau (lacruz@unizar.es) 118 Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad Supongamos que un experimento aleatorio en el que • En cada prueba del experimento sólo son posibles dos resultados: la presencia de una determinada característica ‘A’ (éxito) o su ausencia ‘no A’ (fracaso). • El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. • La probabilidad del suceso A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de ‘no A’ es 1- p. • El experimento consta de un número n de pruebas. 119 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad En la Antártida se está realizando una toma de muestras de hielo para determinar su contenido de oxígeno. Dadas las difíciles condiciones de muestreo, solo el 10% de las muestras extraídas resultan válidas para el análisis. Para un experimento se necesita disponer de 6 muestras válidas. Si se recogen 20, ¿cuál es la probabilidad de que se pueda realizar el experimento? • En cada muestra de hielo observamos si es válida (éxito) o no lo es (fracaso). • Cada muestra es observada de forma independiente. • La probabilidad de que una muestra sea válida es p = 0.1 y de que no sea 1 – p = 0.9. • El experimento lo repetimos para cada una de las n = 20 muestras de hielo. 120 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Binomial La distribución binomial cuenta el número de éxitos en n repeticiones independientes de un experimento aleatorio. Los valores que toma la variable son: 0, 1, 2, ..., n, siendo n el número total de observaciones. La probabilidad de que se presente el suceso al observar un individuo de la población es p. La probabilidad de que se presente r veces el suceso al observar n individuos es: n r pX r p 1 p n r , r 0,..., n r Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 121 CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Binomial X = número de muestras válidas n = 20 p = 0.1 p(X 6) p(X 6) p(X 7) p(X 20) 20 20 0.16 (1 0.1)20 6 0.120 (1 0.1)20 20 0.011 6 20 La distribución binomial se encuentra tabulada según los valores de n y p. p(X 6) 1 p(X 6) 1 p(X 5) 1 0.9887 0.0113 p(X 6) 1 p(X 5) 1 CDF.BINOMIAL(5,20,0.1) 0.0113 122 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Binomial La media de la distribución binomial es: Y su varianza: μ E[X] n p 2 Var[X] n p (1 - p) El número de muestras válidas esperado es μ E[X] 20 0.1 2 muestras válidas Con una desviación típica igual a 20 0.1 0.9 1.8 1.3 muestras válidas 123 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Binomial Bi(10,0.2) Bi(10,0.8) Bi(10,0.5) 124 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Hipergeométrica Si en un conjunto de N unidades hay k que tienen una determinada característica y se extrae una muestra con reemplazamiento de tamaño n, el número de unidades en la muestra con la característica es Bin(n,k/N) ya que en cada extracción la probabilidad de obtener un individuo con la característica se mantiene constante y cada extracción es independiente de las demás. Si la muestra se extrae sin reemplazamiento, las extracciones no son independientes (el resultado de cada una depende de las anteriores). En esta situación se define la distribución Hipergeométrica. 125 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Hipergeométrica Sea una población de tamaño N en la que hay k unidades que verifican una determinada característica. Se extrae una muestra de n unidades seleccionadas sin reemplazamiento. El número de veces que se observa la característica en la muestra sigue una distribución hipergeométrica. n N 126 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Hipergeométrica La distribución hipergeométrica viene dada por: k N k r n-r p(X r) , N n k E[X] n N 0 r k y 0 n-r N-k k (N - k) ( N n) Var[X] n N 2 ( N 1) 2 Si N es muy grande, n pequeño y k/N=p, entonces la distribución hipergeométrica se aproxima a una Binomial(n,p) 127 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Hipergeométrica Se tiene una población de 100 muestras de hielo de las que 10 son válidas. Se seleccionan 20 para la realización de un experimento, ¿cuál es la probabilidad de que 6 de ellos sean válidas? 10 100 10 6 20 6 p(X 6) 0.0003 100 20 El número esperado de muestras válidas en una muestra de tamaño 20 es 2 con una desviación típica de 1.2 muestras válidas. 128 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Hipergeométrica k 20 N 100 k 50 k 80 n 10 129 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Poisson La distribución de Poisson cuenta el número de veces que se presenta un suceso en un intervalo de longitud uno, cuando el promedio de ocurrencias en cada intervalo de longitud t es t, las ocurrencias del suceso están igualmente repartidas en todo el intervalo y son independientes de un intervalo a otro. e - r p(X r) r! r 0,1,2... donde es una constante. E[X] 2 Var[X] 130 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Poisson Para un volumen fijo, el número de células sanguíneas rojas es una variable aleatoria que se presenta con frecuencia constante. Si el número medio para un volumen dado es 9 células en personas normales, ¿cuál es la probabilidad de que una persona se encuentre dentro de una desviación típica del valor promedio? p( - X ) p(9 - 9 X 9 9 ) p(6 X 12) p(X 12) - p(X 6) p(X 12) - p(X 5) 0.8758 - 0.1157 0.7601 131 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Poisson La distribución binomial se aproxima a la de Poisson cuando el número de observaciones n es muy grande y la probabilidad de que ocurra el suceso de interés p es muy pequeña, con =np. Por esto, la ley de Poisson se denomina ley de los sucesos raros. La distribución Poisson se encuentra tabulada según los valores de . Número de casos de gripe en una ciudad en una semana Número de mutaciones en una raza en un mes Número de señales que recibe un receptor en un minuto Número de plantas de musgo por metro cuadrado en una ladera 132 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Poisson Mediante estudios recientes se ha determinado que la probabilidad de morir por causa de una vacuna contra la gripe es de 2 casos de cada 100.000 personas. Si se administra la vacuna a 100.000 personas, ¿cuál es la probabilidad de que mueran no más de dos personas a causa de la vacuna? • Se considera que el que una persona muera por efecto de la vacuna es independiente de lo que le ocurra al resto. • El número de personas que muere por causa de la vacuna es una variable binomial con n=100.000 personas y probabilidad de morir p=0.00002. 133 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Poisson 1 4 2 8 134 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones discretas de probabilidad: Poisson Debido a que la probabilidad es muy pequeña y el número de individuos sobre el que se realiza el experimento es muy grande, se aproxima la distribución binomial por la Poisson con n p 100.000 0.00002 2 p(X 2) p(X 0) p(X 1) p(X 2) 20 e -2 21 e -2 22 e -2 0.6767 0! 1! 2! 135 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones discretas: Geométrica o de Pascal La distribución geométrica cuenta el número de repeticiones necesarias hasta que se presenta un éxito por primera vez en realizaciones independientes del experimento. . , 2 , 1 r La probabilidad de que se necesiten r intentos hasta que se presente el suceso de interés, cuya probabilidad de aparecer es p, es: p(X r) (1 p)r-1 p , 1 E[X] p .. (1 - p) Var[X] 2 p 2 136 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones discretas: Geométrica o de Pascal ¿Cuál es la probabilidad de tener que tomar 20 muestras de hielo hasta encontrar la primera válida? X = número de muestras de hielo hasta encontrar la primera válida, p=0.1 p(X 20) (1 0.1)19 0.1 0.0135 El número medio de observaciones que se deben realizar hasta encontrar la primera muestra válida es 10 con una desviación típica de 9.5 intentos. 137 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones discretas: Geométrica o de Pascal p 0.3 p 0.5 p 0.7 138 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones discretas: Binomial negativa La distribución binomial negativa cuenta el número de fracasos que se presentan antes de que se produzcan k éxitos en realizaciones independientes del experimento. La probabilidad de que se presenten r fracasos antes de que se produzcan k éxitos, (donde p es la probabilidad de éxito), es: k r 1 k p (1 p) r , r 0,1,... p(X r) r k 1 p E[X] p Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 2 Var[X] k (1 - p) p2 139 CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones discretas: Binomial negativa ¿Cuál es la probabilidad de tener que observar 20 muestras para disponer de dos válidas? X = número de muestras de hielo no válidas para encontrar dos válidas, p=0.1 2 18 1 2 0.1 (1 0.1)18 0.0285 p(X 18) 18 El número medio de muestras no válidas que se deberán encontrar antes de conseguir dos válidas es 18 con una desviación típica de 13.4 muestras. 140 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones discretas: Binomial negativa p 0.3 k4 p 0.5 p 0.7 141 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones discretas : Ejemplo Un biólogo desea capturar un ejemplar de una clase de mariposa que se encuentra en un porcentaje del 15%. ¿Qué posibilidades tiene de tener que cazar 10 mariposas de una clase no deseada antes de encontrar un ejemplar de la clase deseada? p(X 11) (1 0.15)10 0.15 0.0295 ¿Y antes de conseguir 3 ejemplares de la clase deseada? 3 10 1 0.153 (1 0.15)10 0.0439 p(X 10) 10 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 142 CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss La distribución Normal es la distribución continua más importante y usada. Puede tomar cualquier valor entre - y +. Su función de densidad es 1 e f(x) 2 (x )2 2 2 donde y son constantes que coinciden con la media y la desviación típica, respectivamente, y determinan la posición y la forma de la distribución. Esta función es simétrica, con forma de campana y alcanza su valor máximo en . 143 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss Se encuentra tabulada la distribución normal estándar, es decir, la distribución normal con media 0 y desviación típica 1. N(0,1) N(-2,1) N(2,1) 144 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss N(0,1) N(0,2) 145 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss p(X 2.5) p(X 2.5) 146 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss Propiedades: • Si X es una variable normal con media y desviación típica , entonces Z (X - ) / se distribuye según una normal estándar. • Si X1 , X 2 , , X n son variables aleatorias independientes y normales con media i , y desviación típica i , n c1X1 c 2 X 2 c n X n es N ci i , i 1 c i 1 n 2 i 2 i • Si X1 , X 2 , , X n son independientes con la misma distribución, media , y desviación típica , entonces, para n grande (Teorema central del límite) X1 X 2 X n N(n , n ) 147 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss La longitud de las alas de mosca común se distribuye normalmente con media 4.55 mm. y desviación típica 3.9 mm. ¿Cuál es la probabilidad de encontrar una mosca que tenga una longitud de ala superior a 5 mm.? ¿E inferior a 3 mm.? X - 4.55 5 - 4.55 p(X 5) p p(Z 0.12) 3.9 3.9 1 p(Z 0.12) 1 - 0.5478 0.4522 3 - 4.55 p(X 3) p Z p(Z 0.4) p(Z 0.4) 3.9 1 - p(Z 0.4) 1 0.6554 0.3446 148 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss El peso en kilos de los recién nacidos de un hospital está distribuido normalmente con media 3 kg. ¿Cuál es la desviación típica, si el 98% de los bebés tiene un peso comprendido entre los 2.5 y los 3.5 kilos? X = peso en kilos de un recién nacido 3.5 - 3 0.5 - 0.5 2.5 - 3 0.98 p(2.5 X 3.5) p Z - p Z p Z 0.5 0.5 0.5 0.5 0.5 p Z p Z 1 - p Z 2 p Z 1 p Z 0.5 0.98 1 0.5 p Z 0.99 2.33 0.21 gr. 2 149 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss La distribución binomial se aproxima por la normal cuando el número de observaciones n es grande y la probabilidad de que ocurra el suceso de interés no está próximo ni a 0 ni a 1. Bi(n, p) N np, np(1 p) En la población de mosquitos en los que el 40% están infectados se observa una muestra de 100 mosquitos, ¿cuál es la probabilidad de que la mitad o menos estén sanos? Sanos = X ~ Bi100,0.6 N 100 0.6, 100 0.6 0.4 50 100 0.6 p(X 50) p Z p(Z -2.02) 1 0.979 0.021 100 0.6 0.4 150 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss Bi(5,0.2) Bi(10,0.2) Bi(20,0.2) Bi(30,0.2) 151 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss En un invernadero se mezclan las semillas de dos clases de rosas: rojas y blancas. La proporción de descendientes de segunda generación blancos puros es 25 de cada 100, ¿cuál es la probabilidad de que entre 400 rosas de segunda generación, más de 115 sean blancas? X ~ Bi400,0.25 N 400 0.25, 400 0.25 0.75 115 - 400 0.25 p(Z 1.73) 1 p(Z 1.73) 0.0418 p(X 115) p Z 400 0.25 (1 - 0.25) ¿Podrías dar un límite superior del número de rosas blancas con una probabilidad del 80%? k - 100 k - 100 k - 100 0.85 k 107 0.2 p(X k) p Z 1 p Z 152 75 75 75 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss La distribución Poisson se aproxima por la normal cuando el promedio es mayor que 5. P() N , 5 10 30 153 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss El número de casos de cáncer de vejiga en hombres entre 35 y 40 años en un hospital es aproximadamente de 15 por año, ¿cuál es la probabilidad de que en un año determinado aparezcan más de 10 casos? X ~ P15 N 15, 15 10 - 15 p(X 10) p Z p(Z 1.29) p(Z 1.29) 0.9015 15 154 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones continuas de probabilidad: Normal o de Gauss El número de piezas defectuosas en una caja de 100 unidades de un producto es 0, 1, 2 ó 3 con probabilidades respectivas 0.3, 0.3, 0.3 y 0.1. En un total de 1000 cajas, ¿cuál es la probabilidad de que haya más de 1250 piezas defectuosas? Xk Número piezas defectuosas en la caja k 0 0.3 1 0.3 2 0.3 3 0.1 1.2 2 (0 1.2) 2 0.3 (1 1.2) 2 0.3 (2 1.2) 2 0.3 (3 1.2) 2 0.1 0.96 S k 1 Xk 1000 Número total de piezas defectuosas S ~ N 1000 , 1000 N1200,30.98 S 1200 1250 1200 pS 1250 p pZ 1.61 0.054 30.98 30.98 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 155 CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones continuas : Lognormal Cuando una variable aleatoria X se transforma mediante la función logarítmica, ln X, y esta nueva variable se distribuye según una normal, se dice que X tiene distribución lognormal. El tamaño de elementos se suele distribuir según una distribución lognormal. Es útil para comparar distribuciones asimétricas con variabilidades muy distintas. 156 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones continuas: Lognormal 50 50 40 40 30 30 20 20 10 10 0 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 X 30 32 ,6 ,9 1,1 1,4 1,6 1,9 2,1 2,4 2,6 2,9 3,1 Ln X 157 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 3,4 CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones relacionadas con la normal: Chi-cuadrado Si Z1,...,Zn son variables aleatorias independientes e igualmente distribuidas con distribución N(0,1), la variable Z12 Z 22 Z n2 sigue una distribución 2 con n grados de libertad. La distribución 2 es asimétrica y se encuentra tabulada según los valores de n. Es una distribución asociada al concepto de distancia, puesto que Z Z Z 2 1 2 2 2 n representa la distancia del vector (Z1, Z2 ,..., Zn ) a su media (0,0,...,0). Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 158 CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones relacionadas con la normal: Chi-cuadrado n 2 n4 n 8 159 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones relacionadas con la normal: F de Snedecor Cuando se compara la longitud de dos vectores aleatorios de variables normales independientes de dimensiones n y m, respectivamente, surge la distribución F de Snedecor con n y m grados de libertad. Si X=(X1,...,Xn) e Y=(Y1,...,Ym) son vectores de variables aleatorias N(0,1), todas independientes entre sí X 12 X 22 X n2 2n n n F n ,m Y12 Y22 Ym2 2m m m La F se encuentra tabulada según los valores de n y m. 160 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones relacionadas con la normal: F de Snedecor F16,16 F4,2 161 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones relacionadas con la normal: t de Student La distribución t de Student con n grados de libertad compara una variable N(0,1) con la longitud promedio de un conjunto de n variables independientes. Z tn 2 n n Es una distribución simétrica, con forma de campana, con más dispersión que la distribución normal estándar y que tiende a ésta cuando n crece. La t es un caso particular de la F: t n2 F1,n Se encuentra tabulada según los valores de n. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 162 CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones relacionadas con la normal: t de Student n 3 N(0,1) n 1 163 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones continuas: Uniforme La distribución uniforme toma cualquier valor en un intervalo finito, de forma que los valores se encuentran distribuidos igualmente sobre el intervalo. 1 f(x) b a 0 a b 2 U[a, b] si a x b resto 2 (b a) 2 12 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 1 b-a a b 164 CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones continuas: Uniforme La concentración de un contaminante se encuentra distribuida uniformemente en el intervalo de 4 a 20 partes por millón. Si se considera tóxico cuando aparecen 15 ppm o más, ¿cuál es la probabilidad de que al tomarse una muestra la concentración de ésta sea tóxica? p(X 15) 20 15 dx x 20 - 15 5 0.3125 20 4 16 15 16 16 20 165 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones continuas: Exponencial Una distribución exponencial cuenta el tiempo entre la ocurrencia de dos sucesos consecutivos de Poisson o el tiempo que transcurre hasta el primer suceso de Poisson. Toma valores entre 0 y +. Suele usarse para modelar tiempos de vida o tiempos de espera. f(x) e 1 x si x 0 1 2 2 166 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones continuas: Exponencial La vida de un tipo de insecto se distribuye según una exponencial con media 8 meses, ¿cuál es la probabilidad de que un insecto cualquiera viva entre 3 y 12 meses? 12 p(3 X 12) 3 x 8 x 8 12 e dx - e 0.4642 8 3 ¿Cuál es la probabilidad de que un insecto que ha vivido 10 meses, viva 15 meses más? p(X 25 X 10) p(X 25) p(X 25 X 10) 0.1533 p(X 10) p(X 10) 167 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones continuas: Beta La distribución beta sirve para modelizar magnitudes físicas cuyos parámetros se encuentran restringidos a un intervalo de longitud fija. Beta(2,3) Beta(2,2) Beta(1,1) Beta(0.5,1) Beta(1,0.5) Beta(2,1) 168 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Otras distribuciones continuas: Gamma y Weibull La distribución gamma y la Weibull sirven para modelizar tiempos de vida. La variable gamma cuenta el tiempo transcurrido hasta la ocurrencia del suceso de Poisson k-ésimo. Gamma(1,1) Gamma(2,1) Gamma(2,2) Weibull(1, 1) Weibull(2, 1) Weibull(2, 2) 169 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones multivariantes Cuando sobre cada individuo se miden varias variables se tiene una variable multidimensional. Las dimensiones de una red de alcantarillado, que resuelva los problemas de evacuación de aguas pluviales, depende de la duración de las tormentas y de la precipitación total de ellas para lo que se requiere la distribución conjunta de ambas variables. 170 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones multivariantes: Multinomial Sea un experimento que consiste en observar individuos al azar de forma independiente y clasificarlos en uno de entre k grupos, siendo pi la probabilidad de pertenecer al grupo i-ésimo. La variable aleatoria X=(X1,..., Xk) donde Xi cuenta el número de elementos en la clase i-ésima es la variable multinomial. La distribución multinomial es la generalización multivariante de la distribución binomial. k ni n n! i1 p(x1 n1 , x2 n2 , , xk nk ) p1n1 p2n2 pknk k n1 !n2 ! nk ! pi 1 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza i1 171 CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones multivariantes: Multinomial En el servicio de urgencias de un hospital se atiende a los enfermos clasificándolos en sanos, de carácter leve y de carácter grave. Se sabe que el 70% de los pacientes que acuden a este servicio están sanos, el 20% con enfermedades leves y el resto graves. Si en un momento dado entran 3 pacientes a la vez, ¿qué probabilidad hay de que sea uno de cada tipo? 3! p(x1 1, x 2 1, x 3 1) 0.71 0.21 0.11 0.084 1!1!1! 172 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones multivariantes: Normal Un vector X=(X1,..., Xk) sigue una distribución Normal multivariante si su función de densidad es: 1 f(x1 , x2 , , xk ) e n2 det (2) 12 21 k1 12 22 2k 1 -1 ( X ) ( X - ) 2 1k 1 , 2 , , k 2k es el vector de medias. 2k es la matriz de varianzas-covarianzas. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 173 CONCEPTOS ELEMENTALES DE PROBABILIDAD Distribuciones multivariantes: Normal 174 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CONCEPTOS ELEMENTALES DE PROBABILIDAD Bibliografía • W. Feller (1991) Introducción a la Teoría de Probabilidades y sus Aplicaciones (7ª edición), Ed. Limusa. • S. Ross (1994) A first course in probability, Fourth Edition, Prentice Hall. • N. L. Johnson, S. Kotz y A. W. Kemp (1992) Univariate Discrete Distributions, Wiley. • N. L. Johnson, S. Kotz y N. Balakrishnan (1994 y 95, respectivamente) Continuous univariate distributions, Vol. 1 y 2, Wiley (Estos libros proporcionan una recopilación exahustiva de los modelos de distribuciones de probabilidad.) 175 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA 176 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA 2.1 Introducción a la inferencia estadística 2.2 Estimación paramétrica puntual y por intervalos 2.3 Contrastes de hipótesis paramétricas 2.4 Crítica del modelo 2.5 Contrastes de hipótesis no paramétricas para dos muestras 2.6 Análisis de tablas de contingencia 177 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Introducción a la inferencia estadística La Inferencia Estadística: • permite inducir características de una población a partir de las características obtenidas de los datos de una muestra, y • proporciona una medida del grado de confianza, medido en términos de probabilidad, que debe atribuirse a las características inducidas a través de los valores de la muestra. 178 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Introducción a la inferencia estadística Los procedimientos de inferencia estadística pueden clasificarse en: Los métodos paramétricos suponen que los datos provienen de una distribución que se caracteriza por cierto número de parámetros que se estiman a partir de los datos. El número de chicos en una familia es una binomial de parámetros n y p. Los métodos no paramétricos suponen aspectos muy generales de la distribución (que es continua, simétrica, etc.) y tratan de estimar su forma o contrastar su estructura. 179 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Métodos de inferencia basados en muestras La naturaleza de la inferencia estadística requiere una muestra aleatoria que proporcione los medios adecuados para poder estimar o contrastar los parámetros desconocidos. La población de la que proviene la muestra puede consistir en: Un conjunto infinito de posibles resultados para alguna característica medible de interés. La muestra aleatoria se elige repitiendo el experimento (la medición) en las mismas condiciones hasta obtener varias observaciones de dicha característica. Ejemplo: El número de caras al lanzar 20 veces una moneda. 180 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Métodos de inferencia basados en muestras Un conjunto finito de individuos de los que interesa cierta característica cualitativa o cuantitativa. Del conjunto de mujeres mayores de 40 años se estudia la edad y si padecen cáncer de mama. La muestra se puede elegir aleatoriamente de forma que: cada elemento de la población tenga la misma probabilidad de ser elegido, y en cada extracción se devuelve el elemento seleccionado a la población (muestreo con reemplazamiento o con reposición) o se seleccionan uno tras otro sin reemplazo (muestreo sin reemplazamiento o sin reposición) . 181 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Métodos de inferencia basados en muestras Una muestra aleatoria simple (m.a.s.) es una muestra donde cada observación es independiente de las demás y su distribución es la misma que la de la población. • Una muestra aleatoria simple corresponde a la extracción de n individuos en una población infinita o en una población finita con reemplazamiento y selección equiprobable. • Si el tamaño de la población es finito pero muy grande, una muestra tomada sin reemplazamiento se asimila a una con reemplazamiento, con lo que puede considerarse también una muestra aleatoria simple. • Las muestras aleatorias simples son las más utilizadas en estadística. 182 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Estadísticos Una muestra aleatoria simple es una colección de variables aleatorias independientes. Cada una tiene la misma distribución que la característica poblacional en estudio. Un estadístico es una cantidad numérica que se obtiene a partir de los valores de la muestra. Se ha realizado estudio sobre la presión sanguínea medida en 10 mujeres entre 30 y 35 años. Los resultados en mm Hg. son: 88, 84, 85, 80, 82, 87, 84, 86, 83, 81 La media muestral, 84 mm Hg, y la desviación típica, 2.75 mm Hg., son estadísticos. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 183 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de un estadístico en el muestreo Un estadístico es una variable aleatoria. La probabilidad de que un estadístico tome un determinado valor depende de la probabilidad de seleccionar la muestra o muestras que lo determinan. Para determinar qué tipo de enfermedad padece un individuo se utiliza un conjunto de 5 síntomas. El individuo puede no padecer ninguno de los síntomas, 1, 2, 3, 4 o todos, indistintamente. E(X) 2.5 síntomas 1/6 2 Var(X) 2.92 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 0 1 2 3 4 5 184 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de un estadístico en el muestreo Paciente 1 Paciente 1 Varianza 1 2 3 4 5 0 0 0.5 1 1.5 2 2.5 1 0.5 1 1.5 2 2.5 3 2 1 1.5 2 2.5 3 3.5 3 1.5 2 2.5 3 3.5 4 4 2 2.5 3 3.5 4 4.5 4 5 2.5 3 3.5 4 4.5 5 5 Paciente 2 0 Paciente 2 Media 0 1 2 0 0 0.25 1 1 0.25 0 2 1 3 4 6.25 4 2.25 0.25 0.25 0 185 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 6.25 0.25 1 0.25 0 2.25 1 5 2.25 4 0.25 1 0.25 0 2.25 1 4 2.25 4 0.25 1 0.25 0 2.25 1 3 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de un estadístico en el muestreo Las distribuciones de probabilidad de la media y varianza muestrales son 0 X 0.5 1.5 1 2 2.5 3 1/36 2/36 3/36 4/36 5/36 6/36 5/36 p(X) E(X) 2.5 s 0 2 2 p(s ) 0.25 1 2.25 3.5 4 5 4.5 4/36 3/36 2/36 1/36 2 Var( X) 1,46 ,n 2 n 4 6.25 6/36 10/36 8/36 6/36 4/36 2/36 E(m 2 ) 1,46 2 Var(m 2 ) 2,90 186 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA 30 30 20 20 10 10 Porcentaje Porcentaje Distribución de un estadístico en el muestreo 0 ,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 MEDIA Distribución simétrica, con forma de campana, centrada en el valor =2.5 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 0 ,00 ,25 1,00 2,25 4,00 6,25 VARIANZA Distribución asimétrica cuya media es 1.46 2 187 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la media muestral X1 X2 Xn X n Si la característica poblacional tiene media y varianza 2, entonces MEDIA MUESTRAL: E(X) μ σ2 Var( X) n Si la muestra se extrae sin reposición en una población de tamaño N E(X) μ N n σ2 Var( X) N 1 n Se observa que si el tamaño de la población N es infinito o muy grande con respecto a n, las dos situaciones son equivalentes. 188 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la media muestral Si la variable es normal con media y varianza 2, entonces X ~ N , n La desviación típica n se denomina error estándar de la media. Esta expresión permite obtener el tamaño de la muestra, fijado el error que se desea cometer en la estimación de la media. El error estándar disminuye al aumentar el tamaño de la muestra. 189 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la media muestral TEOREMA CENTRAL DEL LÍMITE Dada una población con media y varianza 2 finita, y se extrae de dicha población una muestra aleatoria simple de tamaño n, entonces la media muestral tiene una distribución con media y varianza 2/n, que tiende hacia la distribución normal cuando n tiende a infinito. X ~ N(, n) Este resultado es muy importante en la práctica porque no se requiere que la distribución de la población sea conocida. 190 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la media muestral Media 1,96 100 120 90 110 Media 0,51 100 80 90 70 80 60 70 50 60 40 50 40 30 30 20 20 10 10 0 0 ,83 1,15 1,47 1,79 2,11 2,43 2,75 3,07 ,23 Medias de muestras de tamaño 10 de una Poisson(2) ,31 ,39 ,47 ,55 ,63 ,71 ,79 Medias de muestras de tamaño 10 de una U(0,1) Media 2,01 100 120 Media 0,5 100 80 80 60 60 40 40 20 20 0 0 ,88 1,18 1,49 1,80 2,10 2,41 2,72 Beatriz Lacruz Casaucau (lacruz@unizar.es) de muestras de tamaño 100 de unade Poisson(2) Dpto. Medias Métodos Estadísticos. Universidad Zaragoza 3,02 ,23 ,31 ,39 ,47 ,55 ,63 Medias de muestras de tamaño 100 de una U(0,1) ,71 ,79 191 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la media muestral Para una muestra relativamente grande, se espera que el valor de la media muestral esté muy próximo al verdadero valor de la media poblacional. 50 2 50 40 Error de estimación de la media Las muestras grandes son difíciles y caras de conseguir. Además, en general, el aumento en precisión no se compensa con el aumento excesivo del tamaño de la muestra. 30 10 2 20 10 0 0 10 20 30 40 192 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza Tamaño de la muestra 50 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la proporción muestral Supongamos que en una población, la proporción de individuos que presentan una determinada característica es P. Se selecciona una muestra aleatoria simple de tamaño n, donde cada observación es 1 indicando que el individuo posee la característica, o bien 0 indicando que el individuo no la posee. En este caso, la media muestral es: x p proporción muestral n Donde x representa el número de veces que aparece la característica. La media muestral representa la proporción muestral de individuos que poseen la característica. 193 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la proporción muestral Puesto que x mide el número de veces que aparece una característica en n repeticiones independientes, x tiene una distribución binomial cuya media es n·P y cuya varianza es n·P·(1-P). Así, E(p) P P(1 - P) Var(p) n son la media y la varianza de la distribución de la proporción muestral. Si n es grande, entonces p es una variable aleatoria normal con media P y varianza P·(1-P)/n 194 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la varianza muestral VARIANZA MUESTRAL: n -1 2 E(m2 ) σ n CUASIVARIANZA MUESTRAL E(s2 ) σ 2 1 n 2 m2 Xi X n i1 1 n 2 2 s Xi X n 1 i1 La esperanza de la cuasivarianza muestral coincide con 2. Las distribuciones de la varianza y cuasivarianza muestrales son asimétricas. 195 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la cuasivarianza muestral Paciente 2 Cuasivar. s 0 1 2 3 4 5 0 0 0.5 2 4.5 8 12.5 1 0.5 0 0.5 2 4.5 8 2 2 0.5 0 0.5 2 4.5 3 4.5 2 0.5 0 0.5 2 4 8 4.5 2 0.5 0 0.5 5 12.5 8 4.5 2 0.5 0 E(s2 ) 2.92 2 Var(s ) 11,62 2 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 0 2 2 0.5 2 4.5 8 12.5 6/36 10/36 8/36 6/36 4/36 2/36 p(s ) 30 20 10 Porcentaje Paciente 1 0 ,0 ,5 CUASIVARIANZA 2,0 4,5 8,0 12,5 196 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la cuasivarianza muestral En una distribución normal, s2 ~ χ2 (n 1) n 1 2 σ E(s2 ) 2 4 2 2 Var(s ) n -1 En una distribución normal, la media y la cuasivarianza muestrales son variables aleatorias independientes. 197 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Distribución de la cuasivarianza muestral La distribución del espesor de un material plástico es normal con una desviación estándar de 0.01 cm. La variación en el espesor influye en los resultados del control de calidad. Una muestra aleatoria de 25 piezas tiene una (cuasi)desviación estándar de 0.015 cm, ¿cuál es la probabilidad de que una muestra presente una (cuasi)desviación típica igual o mayor que 0.015? ¿Qué se puede concluir con respecto a la variación de este proceso? 2 2 (n 1) s (n 1) 0.015 2 2 p(s 0.015 ) p 2 2 p(2251 (25 - 1) 0.0152 2 ) 1 p( 25 1 54) 0 2 0.01 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 198 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Estimación puntual En estadística paramétrica, un estimador puntual es un estadístico que nos sirve para estimar el valor de un parámetro desconocido. Algunas características Estimador insesgado: su esperanza es el valor del parámetro. Sesgo: diferencia entre el verdadero valor del parámetro y la esperanza del estimador. Error cuadrático medio: sesgo al cuadrado más la varianza del estimador. Estimador consistente: su error cuadrático medio tiende a 0 cuando el tamaño muestral tiende a infinito. Estimador suficiente: utiliza toda la información que hay en la muestra sobre el parámetro. 199 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Estimación puntual Hay diversos métodos para la construcción de estimadores El método de sustitución consiste en estimar los valores poblacionales (media, varianza, mediana…) por sus correspondientes muestrales. Ejemplo: media muestral para media poblacional es insesgado, consistente y (en muchas ocasiones) suficiente. m2 no es insesgado para la varianza poblacional, sí es consistente s2 es insesgado y consistente. 200 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Estimación por intervalos La información que proporciona un estimador puntual de un parámetro desconocido es sólo un valor. Interesa, en general, conocer también alguna medida de la incertidumbre de la estimación. Una posibilidad consiste en obtener, utilizando los datos de la muestra, dos estadísticos que representen un nivel inferior y un nivel superior entre los que se encuentre el verdadero valor del parámetro desconocido, de forma que el intervalo contenga dicho valor con una cierta probabilidad o nivel de confianza. El intervalo será aleatorio puesto que, para cada muestra los estadísticos podrán tomar valores distintos. 201 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Estimación por intervalos En la estimación por intervalos se consideran tanto el estimador puntual como su distribución en el muestreo con el propósito de determinar un intervalo que, con cierta seguridad, contendrá al verdadero valor del parámetro. El intervalo, llamado intervalo de confianza, permite precisar la incertidumbre existente en la estimación. Un intervalo de confianza para el parámetro con nivel de confianza 1 - es un intervalo de la forma: (a,b) donde los límites a y b son estadísticos de forma que la probabilidad de que contengan al verdadero valor de es al menos 1 - . Beatriz Lacruz Casaucau (lacruz@unizar.es) 202 Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Estimación por intervalos La interpretación de un intervalo a nivel 1 es la siguiente. Si construimos, utilizando los estadísticos a y b, un número grande de intervalos de confianza, al menos un 100(1)% de ellos contendrá al verdadero valor del parámetro. Si observamos una muestra y calculamos un intervalo de confianza a nivel 0.95 (por ejemplo) y obtenemos los límites numéricos 2.5 y 4.1, esto no podemos interpretarlo como que “hay una probabilidad de al menos el 95% de que el parámetro esté entre 2.5 y 4.1”, sino en el sentido frecuentista anterior. 203 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Estimación por intervalos Para construir el intervalo de confianza para un parámetro desconocido se puede utilizar el método del pivote que consiste en: encontrar una función (pivote) que dependa del parámetro desconocido y del estadístico elegido como estimador que no contenga cantidades desconocidas, excepto el parámetro en cuestión, y cuya distribución sea conocida y no dependa de parámetros desconocidos. Dada la distribución de dicha función elegir los valores a y b tales que p(a b) = 1-. 204 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la media de una población normal Si la varianza de la población es conocida, se tiene X ~ N , n X que ~ N0,1 n 2 2 X p z1α 2 z1α 2 1 n Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza z1 2 z1 2 205 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la media de una población normal El intervalo de confianza para la media de una variable normal con varianza 2 conocida, con nivel de confianza 1- , es , X z1 2 X z1 2 n n donde z1- /2 es el valor de una variable normal estándar tal que p(z < z1- /2)= 1-/2. 206 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la media de una población normal Para determinar el nivel de alcohol en la sangre que produce parada respiratoria en ratas, se les inyecta cantidades de alcohol hasta que se les produce la parada respiratoria. El nivel de alcohol en la sangre en esta población se distribuye según una normal de desviación típica 0.2795 mg/mL. Se seleccionan 7 ratas al azar y se observan las siguientes cantidades de alcohol: 9.0, 9.7, 9.4, 9.3, 9.2, 8.9 y 9.0. La media de la muestra es 9.21 mg/mL. con un error de estimación de 0.2795 7 0.1179 Al 95% de confianza la media de la población está entre 9.2143Beatriz zLacruz 0.1179 9.2143 1.96 0.1179 (8.9832, 9.4454) 0.975Casaucau (lacruz@unizar.es) 207 Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la media de una población normal Si la varianza de la población es desconocida, se tiene que X s n X n (n - 1) s 2 (n - 1) 2 N0,1 2 n 1 n -1 ~ tn-1 puesto que numerador y denominador son independientes. El intervalo de confianza para la media de una variable normal con desconocida, con nivel de confianza 1- , es X t n 1,1- 2 s , X t n 1,1- n 2 s n donde tn-1,1- /2 es el valor de una variable t de Student con n-1 grados de libertad tal que p(t < tn-1,1- /2 ) = 1 - /2. 208 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la media de una población normal A 9 personas que padecen neurosis de ansiedad se les mide la presión sanguínea en mm Hg antes de tomar un fármaco (propanol) y 4 horas después. Se calcula la diferencia de presión Antes-Después con los siguientes resultados: +1, -1, +20, -10, +19, +8, +6, -1, y +3. La diferencia media es 5 mm Hg y la (cuasi)desviación típica 9.6695 mm Hg. Si se supone que las diferencias en la presión sanguínea se distribuyen según una normal, entonces al 95% de confianza la diferencia media en la población estará entre 5 t91, 0.975 9.6695 9 5 2.31 3.2232 (-2.446, 12.446) Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 209 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la media Los niveles de confianza más usuales dan lugar a los siguientes percentiles: Se observa que para muestras pequeñas de poblaciones normales con varianza desconocida, el intervalo que resulta es más ancho que el que resulta cuando la varianza es conocida. 210 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la media: Caso general Cuando la muestra proviene de una población cualquiera, si el tamaño de la muestra n es grande, se tiene que X ~ N(0,1) s n El intervalo de confianza para la media con desconocida con nivel de confianza 1- , cuando tamaño de la muestra grande, es s s , X z1 2 X z1 2 n n donde z1- /2 es el valor de una variable normal estándar tal que p(z < z1- /2)=1 - /2. 211 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la media: Caso general Los errores de redondeo que se cometen al tomar un solo dígito decimal en la medición de la concentración de una sustancia en la sangre sigue una distribución desconocida en [-0.05, 0.05]. Nos interesa conocer el error medio que se comete para ver si este procedimiento tiene sesgo. Se realizan 100 mediciones obteniéndose un error medio de 0.001 con una (cuasi)desviación típica de 0.03. La estimación de la media es por tanto 0.001 con un error de estimación de 0.03 100 0.003 Al 95% de confianza el error medio estará en el intervalo 0.001 1.96 0.03 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 100 (-0.005, 0.007) 212 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la proporción Cuando el tamaño de la muestra es grande, la proporción muestral p es una variable aleatoria normal con media P y varianza P·(1-P)/n El intervalo de confianza para la proporción P con nivel de confianza 1- , cuando el tamaño de la muestra n es grande, es p (1 p) p (1 p) p z1 2 , p z1 2 n n donde z1- /2 es el valor de la normal estándar tal que p(z < z1- /2)= 1 - /2. 213 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la proporción En una medicación proporcionada a 100 pacientes con una enfermedad cardiaca se ha observado que diez de ellos han sufrido efectos secundarios. La estimación del porcentaje de pacientes que sufren efectos secundarios es, por tanto, del 10% con un error de estimación del 3%. 0.1 (1 - 0.1) 100 0.03 Al 95% de confianza la proporción de pacientes que sufre efectos secundarios estará en el intervalo 0.1 1.96 0.03 (0.04, 0.16) Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 214 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza. Tamaño muestral Para un nivel de confianza dado, cuanto más grande es el tamaño de la muestra, más pequeño es el intervalo, puesto que, al aumentar el tamaño de la muestra, disminuye el error de estimación. Para un tamaño de la muestra dado, cuanto más alto es el nivel de confianza 1-, más ancho es el intervalo, puesto que la probabilidad de que el parámetro quede fuera de los límites del intervalo es menor. 215 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza. Tamaño muestral Para estimar la media de una población, utilizando el intervalo (normal) si se conoce la varianza (o se tiene una cota superior suya), el error que se comete es z1 2 / n con lo que si se quiere que el error no sea mayor que E, el tamaño muestral debe ser 2 z 1 2 con conocida, estimada o acotada. n E Para estimar una proporción P, utilizando el intervalo (aprox. normal) el error que se comete es de z1 2 p (1 p ) / n con lo que si se quiere que el error no sea mayor que E, el tamaño muestral debe ser al menos n p(1 p)z1 2 / E2 o, como no se conoce p antes de tomar los datos, 2 z1 2 n 2E Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 216 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la varianza: Poblaciones normales Para la varianza de una población normal, se sabe que (n1)s2 2 ~ n2-1 El intervalo de confianza para la varianza 2 con nivel de (n 1) s 2 (n 1) s 2 confianza 1- , es , 2 2 n 1,1 2 n 1, 2 2 2 donde n 1, 2 y n 1,1 2 son los valores de la distribución chicuadrado con n - 1 g.l. que dejan a su izquierda una probabilidad igual a /2 y 1-/2, respectivamente. 217 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Intervalos de confianza para la varianza: Poblaciones normales La longitud del ala de la mosca común se distribuye según una normal. De una muestra de 30 moscas se ha obtenido una longitud media del ala de 4.55 mm y una desviación estándar de 0.37 mm. La estimación de la variabilidad de la longitud en la población es de 0.372 = 0.137. Al 95% de confianza la varianza de la población de moscas comunes estará en el intervalo (30 1) 0.37 2 (30 1) 0.37 2 (30 1) 0.37 2 (30 1) 0.37 2 , (0.087, 0.25) , , 2 302 -1, 0.975 45.7 16 30-1, 0.025 218 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas iguales y tamaños de la muestra n y m Se tiene una m.a.s. de tamaño n de una normal de media 1 y varianza 2 y otra de tamaño m, independiente de la anterior, de media 1 y varianza 2 (igual a la anterior). El intervalo de confianza para a nivel 1- es 1 2 1 1 1 1 X Y tnm2,1- 2 s , X Y tnm2,1- 2 s n m n m donde 2 2 (n 1) s (m 1) s X Y s2 n m 2 219 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas iguales y tamaños de la muestra n y m En un grupo de enfermos que sufren esquizofrenia paranoica se ha estudiado la edad en que se produjo el primer ataque. Hombres: 24, 33, 23, 20, 26, 32, 35, 21 y 25. Mujeres: 22, 34, 26, 31, 26, 35, 25, 38, 36, 22, 23 y 37. Calcula un intervalo de confianza para la diferencia de medias de la edad entre hombres y mujeres Es necesario suponer que la edad en la que se produce el primer ataque se distribuye tanto para los hombres como para las mujeres según una normal con la misma varianza. En otro caso, serían necesarias muestras más grandes. 220 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas iguales y tamaños de la muestra n y m Hombres : n 9, X 26.56, sX2 29.78 Mujeres : m 12, Y 29.58, sY2 38.45 s2 (9 1) 29.78 (12 1) 38.45 34.8, s 34.8 5.9 9 12 2 El intervalo de confianza a nivel 0.95 será 1 1 1 1 26.5629.58 t9122,0.975 5.9 , 26.5629.58 t9122,0.975 5.9 9 12 9 12 (8.42, 2.38) 221 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas distintas y tamaños de la muestra n y m En el caso de que no se pueda suponer que las varianzas de las dos poblaciones son iguales, se puede utilizar el siguiente intervalo aproximado 2 2 2 2 s s s s X Y X Y X Y t , t X Y g , 1- 2 g , 1- 2 n m n m donde g son los grados de libertad calculados de forma aproximada. 222 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA I.C. para la diferencia de medias. Poblaciones normales independientes: Varianzas distintas y tamaños de la muestra n y m Si no se puede suponer que las varianzas son iguales Hombres : n 9, X 26.56, sX2 29.78 Mujeres : m 12, Y 29.58, sY2 38.45 el intervalo queda 29.78 38.45 29.78 38.45 26.5629.78 t18,0.975 ,26.5629.78 t18,0.975 9 12 9 12 (-8.38, 2.32) 223 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA 2.3 Contrastes de hipótesis paramétricos • Introducción a los contrastes de hipótesis. • La hipótesis nula y la hipótesis alternativa. Errores de tipo I y de tipo II. • La medida de discrepancia. Valor crítico y región de rechazo. Elección del nivel de significación. • Relación entre los contrastes de hipótesis y los intervalos de confianza. • Etapas del contraste. • Contrastes de hipótesis para la media, la proporción y la varianza poblacionales. Contrastes para la diferencia de medias y proporciones, y para el cociente de varianzas. 224 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Introducción a los contrastes de hipótesis Una hipótesis estadística es una conjetura sobre alguna característica desconocida de la población de interés. Se sabe que el tiempo medio que duerme una rata tratada con 80 mg/kg de hexobarbital es 26 min. Se sospecha que un tratamiento posterior con iproniácido aumenta el tiempo de sueño. Para analizar esta hipótesis se eligen nueve ratas tratadas con hexobarbital y se les aplica un tratamiento con iproniácido. Su tiempo de sueño es: 25, 31, 24, 28, 29, 30, 31, 33 y 35. El tiempo medio para esta muestra es 29.6 min. Con estos datos, ¿se puede afirmar que este tratamiento aumenta el tiempo de sueño? 225 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Introducción a los contrastes de hipótesis Probar una hipótesis estadística consiste en decidir si la afirmación se encuentra apoyada por la evidencia experimental que se obtiene de los datos que proporciona una muestra aleatoria. Para ello, y con la información obtenida de la muestra, nos planteamos la pregunta “¿sería razonable el tiempo medio de 29.6 obtenido en la muestra si el iproniácido no tuviera ningún efecto?” Si la respuesta es NO, habremos obtenido una evidencia a partir de los datos de que el iproniácido aumenta el tiempo de sueño. 226 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA La hipótesis nula y la hipótesis alternativa En un contraste de hipótesis intervienen: la hipótesis nula H0 sobre la que buscamos evidencias en contra, y la hipótesis alternativa H1, la complementaria de H0 H0: = 26, el tiempo medio de sueño en ratas tratadas con hexobarbital e iproniácido es 26 minutos, H1: 26, el tiempo de sueño es distinto en ratas tratadas además con iproniácido 227 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA La hipótesis nula y la hipótesis alternativa Se parte del hecho de que la hipótesis nula es cierta a menos que los datos de la muestra proporcionen suficiente evidencia en contra. Un contraste de hipótesis analiza si los datos observados permiten rechazar la hipótesis nula, comprobando si éstos tienen una probabilidad de aparecer lo suficientemente pequeña cuando es cierta dicha hipótesis. Se presentan las siguientes situaciones: Rechazar H0 H0 es cierta H0 es falsa Aceptar H0 H0 es cierta H0 es falsa 228 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Errores de tipo I y de tipo II Hay, pues, dos situaciones en las que la decisión sería incorrecta: rechazar la hipótesis nula cuando es cierta o aceptarla cuando es falsa. El error que se comete cuando se rechaza la hipótesis nula siendo esta cierta se denomina error de tipo I o nivel de significación. p(Error de tipo I) p(rechazar H0 H0 es cierta ) El error que se comete cuando se acepta la hipótesis nula siendo esta falsa se denomina error de tipo II. p(Error de tipo II) p(aceptar H0 H0 es falsa ) Estas probabilidades son condicionales, debido a que no se puede saber a ciencia cierta cuál es la hipótesis verdadera. 229 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA La medida de discrepancia Para determinar si los datos observados proporcionan o no evidencia para rechazar la hipótesis nula, se construye una medida de discrepancia entre los datos de la muestra y la hipótesis nula. La medida constituirá un estadístico de prueba. Para ciertos valores de dicho estadístico, la decisión será rechazar la hipótesis nula. H0: = 26 = tiempo medio de sueño en ratas tratadas con hexobarbital e iproniácido es 26 min Medida de discrepancia: Se rechazará la hipótesis nula si el tiempo medio que se observa en la muestra es mayor que 28. Estadístico de prueba: El tiempo medio en la muestra de ratas tratadas con iproniácido es 29.6 min. 230 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Valor crítico y región de rechazo Función de densidad de la media muestral cuando H0 es cierta. p(X 28 26) Región de rechazo Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza Valor crítico 231 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Valor crítico y región de rechazo Si la hipótesis nula fuese realmente cierta y se tomasen varias muestras de tamaño n, un ·100% de las veces se encontrará un valor mayor que el dado por el valor crítico. Por tanto, si en estas condiciones la muestra nos da un valor mayor que el valor crítico, debe rechazarse la hipótesis nula. El tiempo medio de sueño en la muestra de ratas tratadas con iproniácido, 29.6 min., es un valor que se encuentra en la región crítica, por tanto, se rechaza la hipótesis de que sea igual al tiempo de sueño de las ratas tratadas sólo con hexobarbital. Discrepancias demasiado grandes tienen una probabilidad pequeña de ocurrir, si H0 es cierta. 232 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Valor crítico y región de rechazo ¿Por qué hemos elegido el valor 28 como valor crítico? Con este valor 28, la probabilidad de error de tipo I es igual a 0.064. En general, se suele trabajar en el sentido contrario; se fija de antemano una P(error de tipo I) y se busca el valor crítico k para obtenerla. En este caso, donde la región de rechazo es del tipo “Rechazar H0 si la media muestral es mayor que k”, si queremos tener una P(error de tipo I)=0.05, el valor de k sería 28.2. Notemos que podemos hacer P(error de tipo I) tan pequeño como queramos, pero esto implicará aumentar P(error de tipo II), por lo que hay que mantener un compromiso entre ellos; normalmente, se suele trabajar con niveles fijos de P(error tipo I)=0.1, 0.05 ó 0.01. Si nos interesa disminuir ambos tipos de error, la solución es aumentar el tamaño muestral. 233 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Valor crítico y región de rechazo Función de densidad de la media muestral cuando H0 es cierta. Función de densidad de la media muestral cuando H0 es falsa. p(aceptar H0 H0 es falsa ) p(rechazar H0 H0 es cierta ) Valor crítico: 28 min Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 234 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Valor crítico y región de rechazo p(aceptar H0 H0 es falsa ) p(rechazar H0 H0 es cierta ) Valor crítico: 30 min Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 235 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Valor crítico y región de rechazo Cuando la discrepancia observada entre la hipótesis nula y los datos de la muestra pertenece a la región de rechazo, se dice que se ha producido una diferencia significativa. La diferencia en el tiempo medio de sueño de ratas tratadas con iproniácido, 29.6 min., y las tratadas sólo con hexobarbital, 26 min., se considera una diferencia significativa, según el criterio establecido. La decisión de aceptar la hipótesis nula no implica que sea verdadera, sólo que falta evidencia sustancial para considerarla falsa. 236 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Selección del nivel de significación El resultado del test puede depender del nivel de significación prefijado. Si el valor de la discrepancia es mayor que el valor crítico pero está cerca de él (se rechaza la hipótesis nula), un nivel de significación menor llevaría a la aceptación de la hipótesis nula. Tomando como valor crítico 30 se aceptaría que el tiempo medio de sueño es el mismo con los dos tratamientos. 237 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Selección del nivel de significación Si el tamaño de la muestra es grande y se rechaza H0, siendo el valor de la hipótesis nula cercano al valor del estadístico que se usa para contrastar, se recomienda estudiar la precisión en la selección de la muestra y la naturaleza del problema. P-valor • Otra forma de medir la evidencia para aceptar o rechazar H0 consiste en utilizar el nivel crítico o p-valor de la muestra, que se calcula como la probabilidad de obtener una discrepancia mayor que la obtenida, dado que la hipótesis nula es cierta. • Tiene la ventaja de que su cálculo no depende de la decisión “arbitraria” del valor de . • El p-valor coincide con el mínimo que lleva a rechazar H0 con mi muestra. Así, si trabajo a un nivel , rechazaré H0 si p-valor< 238 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Introducción a los contrastes de hipótesis p valor p(X 29.6 26) Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza X 29.6 239 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Etapas del contraste Definir la hipótesis nula H0 y la hipótesis alternativa H1. Definir la medida de discrepancia entre los datos muestrales y la hipótesis nula. Decidir a partir de qué valor de la discrepancia se asume que la diferencia no puede ser debida al azar, es decir, se detectan diferencias significativas. Calcular el valor del estadístico a partir de los datos de la muestra que se va a comparar con el valor dado por la hipótesis nula. Calcular la discrepancia y decidir. 240 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Tipos de contrastes La hipótesis nula H0 suele ser que el parámetro es igual a un valor concreto que se toma como referencia. H0 : 0 La hipótesis alternativa H1 puede ser de dos tipos: Se desconoce en qué dirección H0 puede ser falsa y se especifica H1 como que el parámetro o vector de parámetros es distinto del valor especificado en la hipótesis nula (contraste bilateral). H1 : 0 El parámetro toma concretamente valores mayores o menores que el especificado en la hipótesis nula (contraste unilateral). H1 : θ θ0 H1 : 0 241 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Relación entre los contrastes de hipótesis y los intervalos de confianza Contrastar una hipótesis nula con un determinado nivel de significación frente a una alternativa bilateral es lo mismo que comprobar si el valor del estadístico de prueba está dentro del intervalo de confianza al nivel 1- para el valor dado por la hipótesis nula. Suponiendo que el tiempo de sueño se distribuye según una normal de varianza 9, el intervalo de confianza para el tiempo medio de sueño de ratas tratadas con iproniácido es 3 29.6 1.96 (27.64,31.56) 9 El tiempo medio teórico es 26, que no pertenece al intervalo. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 242 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la media de una variable normal con 2 conocida Hipótesis nula: H0 : 0 Estadístico de prueba: X 0 Hipótesis alternativa: H1 : 0 Si la muestra es una m.a.s. que n proviene de una normal con varianza conocida y H0 es cierta, el estadístico de prueba se distribuye según una N(0,1). La región de rechazo al nivel de significación es X 0 n z1 2 i.e. X 0 z1 2 , 0 z1 2 n n donde z1- /2 es el valor de una variable normal estándar tal que p(z < z1- /2 ) = 1 - /2. 243 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la media de una variable normal con 2 conocida H0 : 26 Tiempo medio ~ N(26, 3 H1 : 26 2 0.025 2 0.025 24 26 1.96 3 9 24.04,27.96 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 28 29.6 244 9) CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la media de una variable normal con 2 conocida Hipótesis nula: H0 : 0 Hipótesis alternativa: H1 : 0 La región de rechazo al nivel de significación es: X 0 n z1 i.e. X 0 z1 n donde z1- es el valor de una variable normal estándar tal que p(z < z1- ) = 1 - Si la hipótesis alternativa es H1 : 0 la región de rechazo es X 0 n -z1 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza i.e. X 0 z1 n 245 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la media de una variable normal con 2 conocida H0 : 26 Tiempo medio ~ N(26, 3 H1 : 26 0.05 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 27.7 29.6 246 9) CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la media de una variable normal con 2 desconocida Hipótesis nula: H0 : 0 Estadístico de prueba: Hipótesis alternativa: H1 : 0 X 0 s n Si la muestra es una m.a.s. que proviene de una normal con varianza desconocida y H0 es cierta, el estadístico de prueba se distribuye según una tn-1. La región de rechazo al nivel de significación es X 0 s n t n 1, 1 2 s s , 0 t n 1, 1 2 i.e. X 0 t n 1, 1 2 n n donde tn-1,1- /2 es el valor de una variable t de Student con n-1 grados de libertad tal que p(t < tn-1,1- /2 ) = 1 - /2. 247 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la media de una variable normal con 2 desconocida H0 : 26 26 2.31 3.54 H1 : 26 2 0.025 23.3 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 9 (23.3, 28.7) 2 0.025 0 26 28.7 29.6 248 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la media de una variable normal con 2 desconocida Hipótesis nula: H0 : 0 Hipótesis alternativa: H1 : 0 La región de rechazo al nivel de significación es: X 0 s n t n 1, 1 s i.e. X 0 t n 1, 1 n donde tn-1,1- es el valor de una variable t de Student con n-1 grados de libertad tal que p(t < tn-1,1- ) = 1 - Si la hipótesis alternativa es H1 : 0 la región de rechazo es X 0 n t n 1, 1 s Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza s i.e. X 0 t n 1, 1 n 249 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la media: Caso general Hipótesis nula: H0 : 0 Hipótesis alternativa: H1 : 0 X 0 ~ N(0,1) Estadístico de prueba: s n si la muestra es m.a.s. de una distribución cualquiera con n grande y H0 es cierta. La región de rechazo al nivel de significación es el intervalo X 0 s s n z1 2 i.e. X 0 z1 2 , 0 z1 2 s n n donde z1- /2 es el valor de una variable normal estándar tal que p(z < z1- /2 ) = 1 - /2. 250 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m H0 : 1 2 H1 : 1 2 XY Estadístico de prueba: 2 2 (n 1) s (m 1) s X Y s2 n m 2 1 1 s n m Si las muestras provienen de distribuciones normales y H0 es cierta, el estadístico de prueba se distribuye según una t de Student con n+m-2. La región de rechazo es: X Y Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 1 1 s n m t n m 2, 1- 2 251 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m En un grupo de enfermos que sufren esquizofrenia paranoica se ha estudiado la edad en que se produjo el primer ataque. Hombres: 24, 33, 23, 20, 26, 32, 35, 21 y 25. Mujeres: 22, 34, 26, 31, 26, 35, 25, 38, 36, 22, 23 y 37. ¿Se podría afirmar que la edad media es la misma para los hombres que para las mujeres? Es necesario suponer que la edad en la que se produce el primer ataque se distribuye tanto para los hombres como para las mujeres según una normal con la misma varianza. En otro caso, serían necesarias muestras más grandes. 252 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m Se contrasta H0: 1 = 2 contra H1: 1 2. Hombres : n 9, X 26.56, sX2 29.78 Mujeres : m 12, Y 29.58, sY2 38.45 s2 (9 1) 29.78 (12 1) 38.45 34.8, s 34.8 5.9 9 12 2 El valor del estadístico de prueba es: X Y s 1 1 n m 26.56 29.58 5 .9 1 1 9 12 1.161 El valor t9+12-2,0.975 es 2.09. Como 1.161<2.09, no hay evidencia para rechazar H0 a nivel del 5%. De hecho p-valor=0.26. 253 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras normales e independientes: Varianzas iguales y tamaños de la muestra n y m Hipótesis alternativa Región de rechazo H1 : 1 2 X-Y t n m 2, 1- 1 1 s n m H1 : 1 2 X-Y t n m 2, 1- 1 1 s n m 254 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras normales e independientes: Varianzas distintas y tamaños n y m XY Estadístico de prueba: sX2 sY2 n m donde sX y sY son las cuasivarianzas muestrales. La región de rechazo es aproximadamente: X Y 2 X 2 Y s s n m t g , 1- 2 donde g son los grados de libertad calculados de forma aproximada. 255 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras independientes Varianzas distintas y tamaños n y m Se contrasta H0: 1 = 2 contra H1: 1 2. Hombres : n 9, X 26.56, sX2 29.78 Mujeres : m 12, Y 29.58, sY2 38.45 El valor del estadístico es: X Y s 2X s 2Y m n 26.56 29.58 29.78 38.45 9 12 1.183 El valor t18.4,0.975 es 2.09. Como 1.183<2.1, no hay evidencia para rechazar H0 a nivel del 5%. De hecho p-valor=0.25. 256 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras independientes Caso general Si las muestras provienen de distribuciones cualesquiera, pero grandes, y H0 es cierta, XY Estadístico de prueba: sX2 sY2 n m ~ N(0,1) La región de rechazo es: X Y 2 X 2 Y s s n m z 1- 2 257 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras emparejadas D X Y ~ N(D , D ) H0 : X Y ó D 0 Estadístico de prueba: XY sD n H1 : X Y ó D 0 1 sD2 n 1 n X Y X Y i1 i i 2 La región de rechazo es X Y sD n t n -1, 1- 2 258 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras emparejadas A 9 personas que padecen neurosis de ansiedad se les mide la presión sanguínea en mm Hg antes de tomar un fármaco (propanol) y 4 horas después. Se calcula la diferencia de presión Antes-Después con los siguientes resultados: +1, -1, +20, -10, +19, +8, +6, -1, y +3. La diferencia media es 5 mm Hg y la (cuasi)desviación típica 9.6695 mm Hg. Si se supone que las diferencias en la presión sanguínea se distribuyen según una normal, el estadístico de prueba es 5 9 1.55 9.67 259 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de medias de muestras emparejadas Si se quiere comparar contra la hipótesis alternativa de que las medias son distintas, el valor de t9-1,0.975 es 2.31, con lo que no se rechaza a nivel del 5%. Si la hipótesis alternativa es que la presión media ha disminuido, el estadístico hay que compararlo (a nivel 5%) con t9-1,0.95 = 1. 86, con lo que se mantiene la hipótesis nula al 5% también en esta situación. 260 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la varianza de una población normal 2 2 Hipótesis nula: H0 : 0 Estadístico de prueba: Hipótesis alternativa: H1 : 2 02 (n - 1) s2 02 ~ n2-1 si la muestra es una m.a.s que proviene de una normal y H0 es cierta. La región de rechazo al nivel de significación es (n 1) s 2 2 n 1, σ 02 2 ó (n 1) s 2 2 n 1,1- σ 02 2 donde los extremos inferior y superior son los valores de la chicuadrado que dejan a su izquierda una probabilidad /2 y 1-/2, respectivamente. 261 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la varianza de una población normal Las regulaciones del gobierno prescriben que la dosis estándar de un determinado preparado debería ser de 600 unidades por cm3 con una variabilidad de 10 unidades por cm3. Se preparan 10 muestras obteniéndose una media de 592.5 unidades por cm3 con una desviación típica de 11.2 unidades por cm3. ¿Es la variabilidad obtenida en la muestra diferente que la exigida por el gobierno? Es necesario suponer que la dosis estándar se distribuye según una normal de media 600 y varianza 100. Se contrasta H0: 2 = 100 contra H1: 2 100. 262 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la varianza de una población normal El estadístico de prueba es: (10 1) 11.22 10 2 11.29 Con significación 0.05, como el estadístico de prueba está en: 2 2 10 , 1,0.025 10 1,0.975 (2.7, 19.03) se acepta que no existen diferencias significativas. 263 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la varianza de una población normal H1 : 2 02 Se rechaza la hipótesis nula si: (n 1) s 2 2 0 2 n 1, 1 ¿Es la variabilidad obtenida en la muestra mayor que la exigida por el gobierno? 2 11.29 10 -1, 0.95 16.93 H1 : 2 02 Se rechaza la hipótesis nula si: Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza No se detectan diferencias significativas. (n 1) s 2 2 0 n21, 264 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Comparación de varianzas de poblaciones normales H0 : X2 Y2 Estadístico de prueba: H1 : X2 Y2 s 2X ~ Fn 1,m 1 2 sY si H0 es cierta Se rechaza la hipótesis nula si: 1 s X2 2 sY F m -1, n -1, 1- 2 ó s X2 F n -1, m -1, 1- 2 2 sY 265 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Comparación de varianzas de poblaciones normales H0 : X2 Y2 Fn 1,m1 H1 : X2 Y2 s 2X Se rechaza H0 si: 2 Fn 1, m 1, 1- sY Aceptar X2 Y2 Rechazar X2 Y2 266 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Comparación de varianzas de poblaciones normales H0 : X2 Y2 H1 : X2 Y2 Se rechaza H0 si: 2 X 2 Y s 1 s Fm 1,n 1, 1- 29 adultos alcohólicos que sufren hipertensión han sido utilizados para estudiar el efecto de un antihipertensivo. Han sido asignados aleatoriamente a un grupo tratado con un placebo o a un grupo tratado con el medicamento. Placebo: 105, 107, 110, 117, 124, 153, 137, 174, 109, 119, 143, 162, 91, 146 y 109. Medicamento: 92, 96, 104, 119, 106, 100, 93, 90, 98, 109, 106, 88 y 94. 267 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Comparación de varianzas de poblaciones normales Para contrastar el efecto del medicamento en la tensión arterial media debemos primero determinar si las muestras provienen de poblaciones con la misma varianza o no. La varianza en el grupo tratado con un placebo es 579.8 y en el grupo tratado con el medicamento es 77.7. 579.8 7.5 77.7 7.5 2.55 F15 1,14 1, 0.95 2.55 F14 1,15 1, 0.95 2.51 por lo que se rechaza que las varianzas son iguales (al 10%). 268 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la proporción Hipótesis nula:H 0 : P p 0 Hipótesis alternativa:H1 : P p 0 si el tamaño de la p p0 ~ N(0,1)muestra n es grande y Estadístico de prueba: p 0 (1 - p 0 ) n H0 es cierta. La región de rechazo al nivel de significación es p - p0 p 0 (1 - p 0 ) n z1 2 donde z1- /2 es el valor de una variable normal estándar tal que p(z < z1- /2 ) = 1 - /2. Si n es pequeño, la zona de aceptación se obtiene, fijado , por la distribución binomial. 269 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contraste para la diferencia de proporciones H 0 : P1 P2 H1 : P1 P2 p1 p2 Estadístico de prueba: 1 1 p (1 p) n m n p1 m p2 p nm Para muestras grandes, se rechaza la hipótesis nula si: p1 p 2 1 1 p (1 p) n m Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza z 1- 2 270 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Bibliografía • ROBERT F. WOOLSON, (1987), Statistical Methods for the Analysis of Biomedical Data, John Wiley and sons. 271 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 5: ESTIMADORES, INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS En esta práctica aprenderemos a: • Calcular los estimadores de la media, la proporción y la varianza de la población. • Construir intervalos de confianza para la media y para la diferencia de medias. • Calcular los estadísticos necesarios para el contraste de hipótesis de la media y la proporción, para la diferencia de medias y el cociente de varianzas. 272 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA 2.4 Crítica del modelo • Introducción: La importancia de las hipótesis. • Contrastes de normalidad. • Influencia de los valores atípicos. 273 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Introducción: La importancia de las hipótesis Al estimar los parámetros del modelo se ha supuesto que los datos constituyen una muestra aleatoria de una distribución, que salvo sus parámetros, es conocida. Cuando se extrae una muestra de una distribución distinta de la supuesta, el procedimiento de inferencia deja, en general, de ser óptimo. Es decir, los estimadores no tienen por qué tener las buenas propiedades que se les suponían. Algunas técnicas están más influidas que otras por el fallo en las hipótesis. Por ejemplo, el contraste de hipótesis para las medias no está muy influido cuando falla la hipótesis de normalidad, si se trabaja con muestras grandes. En cambio, la inferencia con respecto a la varianza son muy dependientes de esta hipótesis. 274 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contrastes de normalidad GRÁFICOS Con muestras grandes, dibujar el histograma. Con muestras pequeñas, gráfico Q-Q. n 41 16 14 12 Gráfico Q-Q normal de Concentración de SO2 3 2 10 1 8 0 Normal esperado 6 Frecuencia 4 2 0 10 20 30 40 50 60 70 80 90 100 Concentración de SO2 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 110 -1 -2 -3 -20 0 Valor observado 20 40 60 80 100 275 120 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contrastes de normalidad Para TIPO= Sano Gráfico Q-Q normal de Concentración de sucinato 3,5 Para TIPO= Sano 1,5 2,5 1,0 2,0 ,5 1,5 0,0 Normal esperado 3,0 Frecuencia 1,0 ,5 0,0 1,5 2,0 2,5 3,0 3,5 4,0 Concentración de sucinato Para TIPO= Enfermo -,5 -1,0 -1,5 1,0 n 10 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Valor observado Gráfico Q-Q normal de Concentración de sucinato 3,5 Para TIPO= Enfermo 1,5 2,5 1,0 2,0 ,5 1,5 0,0 Normal esperado 3,0 Frecuencia 1,0 ,5 0,0 ,5 1,0 1,5 2,0 2,5 Beatriz Lacruz Casaucau Concentración de sucinato (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 3,0 -,5 -1,0 -1,5 ,5 1,0 Valor observado 1,5 2,0 2,5 3,0 3,5 276 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contrastes de normalidad CONTRASTES Con muestras grandes, test de Kolmogorov-Smirnov-Lilliefors. Con muestras pequeñas, test de Shapiro-Wilk. Se contrasta la hipótesis nula de que la muestra proviene de una población normal. Pruebas de normalidad a Concentración de SO2 Kolmogorov-Smirnov Estadístico gl Sig. ,216 41 ,000 Shapiro-Wilk Estadístico gl ,811 41 Sig. ,010** 277 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Contrastes de normalidad Pruebas de normalidad a Concentración de sucinato Tipo de individuo Enfermo Sano Kolmogorov-Smirnov Estadístico gl Sig. ,193 10 ,200* ,113 10 ,200* Shapiro-Wilk Estadístico gl ,943 10 ,974 10 Sig. ,555 ,916 278 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Influencia de los valores atípicos Cuando una pequeña fracción de la muestra (entre el 1% y el 10% de los valores) aparece como atípica, debemos preguntarnos cuáles son las causas: La variable que se está midiendo es razonable que tome este tipo de valores extremos, o bien se han cometido errores de medición o de transcripción de los datos, ha habido cambios en los instrumentos de medida, u otras alteraciones en la recogida de datos. 279 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Influencia de los valores atípicos El efecto de la existencia de valores atípicos puede ser muy grave. Por ejemplo, el valor de la media está afectado por un valor grande que ha aparecido en la muestra y, además, como la varianza de la muestra también será grande, también lo será el error de estimación. Existen dos soluciones para el tratamiento de los datos atípicos: Cambiar el estimador por otro que no se vea tan afectado. Por ejemplo, usar la mediana o la media recortada en vez de la media. O suponer que los datos provienen de una distribución más general, que permita la existencia de estos datos. Identificar los valores extremos, indagar las causas que los motivan y eliminarlos, si se confirma que son realmente atípicos. 280 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 6: CRÍTICA DEL MODELO En esta práctica aprenderemos a: • Representar el gráfico Q-Q para contrastar la hipótesis de normalidad. • Calcular los estadísticos y los p-valores de los test S-W y K-SL. • Detectar y eliminar datos atípicos. 281 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA 2.5 Contrastes no paramétricos para dos muestras • Introducción • Contraste para muestras independientes: U de Mann-Whitney y Wald-Wolfowitz. • Contrastes para muestras emparejadas: prueba de los rangos con signo de Wilcoxon 282 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Introducción Los contrastes no paramétricos requieren menos hipótesis sobre la la distribución de la que proceden los datos que los paramétricos. En estas condiciones puede parecer que sean preferidos a los contrastes paramétricos. Pero, si se conoce la distribución de la que provienen las observaciones, estos últimos son, en general, más eficientes que aquellos. Los contrastes no paramétricos que se van a estudiar en este capítulo son comparables con los métodos paramétricos para el contraste de medias. 283 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Introducción Los contrastes no paramétricos son particularmente útiles cuando las muestras son pequeñas, y/o las observaciones están medidas en escala ordinal. Un laboratorio está interesado en si su medicamento para la gripe es preferido a uno de la competencia. Elige al azar 7 consumidores y les pide que den su opinión con respecto a cada uno de los productos según una escala de 1=Poca aceptación a 5=Mucha aceptación. Propio 1 2 5 5 4 3 5 Competidor 2 2 1 1 3 1 2 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 284 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba U de Mann-Whitney La prueba U de Mann-Whitney contrasta la hipótesis de que dos muestras independientes que provienen de poblaciones continuas con la misma forma tienen la misma localización, que se mide por el valor de la mediana. La hipótesis alternativa es que las medianas son distintas, es decir, la localización es distinta. Esto es, se supone que las dos muestras provienen de distribuciones continuas con la misma forma, pero una de ellas está trasladada hacia la derecha o hacia la izquierda de la otra. 285 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba U de Mann-Whitney Un investigador ha estudiado las respuestas a la glucosa oral en pacientes con la enfermedad de Huntington y en un grupo de control. Los datos correspondientes al porcentaje de glucosa son: Pacientes: 85, 89, 86, 91, 77, 93, 100, 82, 92, 86 y 86. Controles: 83, 73, 65, 65, 90, 77, 78, 97, 85 y 75. 286 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba U de Mann-Whitney Si las dos muestras provienen de la misma población, las observaciones de una y otra se hallarán bien mezcladas. En otro caso, cabe esperar que las observaciones de una y otra muestras se encuentren juntas en los extremos. 287 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba U de Mann-Whitney La prueba consiste en: Ordenar de menor a mayor las observaciones de las dos muestras combinadas. Asignar a cada observación un número de orden. En caso de empate, se asigna el promedio de los números de orden de las observaciones empatadas. C C C C C P C P C C P P P P P C P P P C P 65 65 73 75 77 77 78 82 83 85 85 86 86 86 89 90 91 92 93 97 100 1.5 1.5 3 4 5.55.5 7 8 9 10.5 10.5 13 13 13 15 16 17 18 19 20 21 288 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba U de Mann-Whitney Sumar los números de orden de las observaciones de las dos muestras y dividir por el número de elementos en cada muestra (rango promedio) . Pacientes: (5.5+8+10.5+13+13+13+15+17+18+19+21)/11=13.9, Controles: (1.5+1.5+3+4+5.5+7+9+10.5+16+20)/10=7.8. Si una de las muestras está más a la derecha que la otra, el rango promedio de sus observaciones será mayor que el de la otra muestra. 289 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba U de Mann-Whitney Construir el estadístico que permita determinar cuando una de las sumas es suficientemente grande o suficientemente pequeña. Rangos GLUCOSA Tipo de individuo Paciente Caso Total N 11 10 21 Rango promedio 13,91 7,80 Suma de rangos 153,00 78,00 Estadísticos de contrasteb U de Mann-Whitney W de Wilcoxon Z Sig. asintót. (bilateral) Sig. exacta [2*(Sig. unilateral)] GLUCOSA 23,000 78,000 -2,259 ,024 ,024a a. No corregidos para los empates. b. Variable de agrupación: Tipo de individuo 290 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba de Wilcoxon La prueba de rangos con signo de Wilcoxon contrasta la hipótesis de que dos muestras emparejadas provienen de poblaciones con la misma distribución. De un conjunto de 8 pacientes que sufren anemia crónica se ha calculado el índice de riesgo de padecer una enfermedad coronaria antes y después de un tratamiento. Después 56 44 55 40 62 46 49 41 Antes 109 57 53 57 68 72 51 65 291 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba de Wilcoxon La prueba consiste en: Calcular las diferencias y ordenarlas de menor a mayor sin importar el signo. Si alguna diferencia es 0, se elimina del estudio. Asignar a cada diferencia su número de orden con el signo correspondiente. Si hay empates, se asigna la media de los números de orden. (+)2 (-)2 (-)6 (-)13 (-)17 (-)24 (-)26 (-)53 1.5 -1.5 -3 -4 -5 -6 -7 -8 292 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba de Wilcoxon Sumar los números de orden positivos y los negativos, por separado. S+=1.5, S-=-34.5 Si las muestras provienen de la misma población, se espera encontrar el mismo número de rangos con signo positivo que con signo negativo. Por tanto, se espera que, en magnitud, ambas sumas sean aproximadamente iguales. Construir el estadístico que permita determinar cuando las sumas se pueden considerar iguales. 293 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Prueba de Wilcoxon Rangos N DESPUES - ANTES Rangos negativos Rangos positivos Empates Total 7a 1b 0c 8 Rango promedio 4,93 1,50 Suma de rangos 34,50 1,50 a. DESPUES < ANTES b. DESPUES > ANTES c. ANTES = DESPUES Estadísticos de contrasteb Z Sig. asintót. (bilateral) DESPUES - ANTES -2,313a ,021 a. Basado en los rangos positivos. b. Prueba de los rangos con signo de Wilcoxon 294 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Bibliografía • WAYNE W. DANIEL, (1990), Applied Nonparametric Statistics (2ª Ed.), The Duxbury Advanced Series in Statistics and Decision Sciences. PWS-KENT Publishing Company. • SHESKIN, D. J. (2000), Handbook of Parametric and Nonparametric Statistical Procedures, (2ª Ed.), Chapman and Hall/CRC. 295 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 7: CONTRASTES NO PARAMÉTRICOS En esta práctica aprenderemos a: • Aplicar contrastes no paramétricos. • Elegir si aplicar un contraste paramétrico o uno no paramétrico. 296 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA 2.6 Análisis de tablas de contingencia • Test de la chi-cuadrado 297 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Test de la chi-cuadrado El test de la chi-cuadrado permite analizar si existe alguna relación entre dos características diferentes en las que una población ha sido clasificada, donde cada una de ellas se encuentra dividida en varias categorías. ¿Existe relación entre ser fumador y desarrollar cáncer de pulmón? Las dos características se representan en una tabla de frecuencias, denominada tabla de contingencia. 298 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Test de la chi-cuadrado ¿Existe relación entre sufrir una enfermedad crónica y el sexo? Tabla de contingencia SEXO * ¿Sufre enfermedad crónica? Recuento SEXO Total Hombre Mujer ¿Sufre enfermedad crónica? Sí No 19 77 33 61 52 138 Total 96 94 190 H0: Las variables son independientes pij = pi pj, i,j H1: Las variables son dependientes pij pi pj El estadístico del test compara las frecuencias observadas con las esperadas bajo la hipótesis de independencia. 299 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Test de la chi-cuadrado h k i1 i1 Observadasi Esperadasi 2 Esperadasi ninj n h k ij n ninj i1 i1 2 n grande χ 2h1 k 1 n donde h y k son el número de categorías de cada una de las variables. Región crítica 300 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Test de la chi-cuadrado Tabla de contingencia SEXO * ¿Sufre enfermedad crónica? Recuento SEXO Hombre Mujer Total 2 ¿Sufre enfermedad crónica? Sí No 19 77 33 61 52 138 2 Total 96 94 190 2 2 52 96 96 138 52 94 138 94 61 33 77 19 190 190 190 190 5.604 52 96 96 138 52 94 138 94 190 190 190 190 (2-1)(2-1),0.95 =3.84 y el p-valor asociado de 0.018. Al 95% de confianza se rechaza que las variables sean independientes. 301 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 2: INFERENCIA ESTADÍSTICA Test de la chi-cuadrado En un estudio sobre el número de veces que un paciente ha sufrido estrés en un periodo de 40 años y su influencia en el tipo de enfermedad psiquiátrica que padece se han obtenido los siguientes datos Tabla de contingencia Tipo de enfermedad * Número de veces que ha sufrido estrés Recuento Tipo de enfermedad Esquizofrenia Desórdenes afectivos Total 0 23 7 30 Número de veces que ha sufrido estrés 1 2 3 4 5 6 39 46 21 21 13 9 10 28 42 75 34 15 49 74 63 96 47 24 7 2 3 5 El p-valor asociado al estadístico de prueba es 0.00. Se rechaza la hipótesis de que las variables sean independientes. 302 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza Total 174 214 388 CAPÍTULO 2: INFERENCIA ESTADÍSTICA Test de la chi-cuadrado En el test de la chi-cuadrado las frecuencias de la tabla se comparan con las frecuencias esperadas, calculadas bajo la hipótesis de que las variables son independientes. Las frecuencias esperadas deben ser mayores que 1 en todas las celdas y no más del 20% de las celdas deben tener valores esperados menores que 5. En caso de no cumplirse se recomienda utilizar el test exacto de Fisher, si la tabla es 22; o, combinar categorías, en otro caso. Se recomienda, además, utilizar muestras mayores que 30. 303 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 8: ANÁLISIS DE TABLAS DE CONTINGENCIA En esta práctica aprenderemos a: • Construir tablas de contingencia. • Aplicar el contraste chi-cuadrado para la independencia. • Otros contrastes. 304 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA 305 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA 3.1 Introducción al diseño de experimentos 3.2 Análisis de la varianza de un factor: El modelo de efectos fijos 3.3 Contrastes no paramétricos para varias muestras independientes 3.4 Otros diseños experimentales 306 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos El objetivo de un experimento es estudiar el efecto que sobre la variable de interés, llamada respuesta o variable dependiente, tienen la o las variables que pueden influir en la variabilidad de la respuesta, llamados factores o variables independientes. Se dispone de cinco medios para el cultivo de la vacuna B.C.G. y se desea saber si, en conjunto, los medios son equivalentes entre sí o, por el contrario, unos favorecen más la aparición de colonias que otros. La variable respuesta es el número de colonias y el factor es el tipo de cultivo . 307 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos Un nivel o tratamiento del factor es un valor o condición de éste bajo el cual se medirá la respuesta. Se consideran cinco tipos de cultivo o cinco niveles o tratamientos. Se supone que la variable respuesta es continua o puede tomar muchos valores distintos y que los factores se fijan durante el experimento a ciertos niveles determinados. Todos los factores externos distintos de los considerados que puedan influir en la respuesta deben eliminarse o controlarse. No existe ninguna característica distinta de la que define el tipo de cultivo que afecte al crecimiento. 308 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos Se sospecha que, en los pacientes con úlcera péptica que han seguido un tratamiento, el tiempo que tarda en reaparecer la sintomatología ulcerosa está relacionado con el tiempo que tarda el paciente en responder al tratamiento. Se somete a un conjunto de pacientes con úlcera péptica al tratamiento, siendo todos ellos fumadores, y cada dos semanas, se comprueba si la sintomatología ulcerosa persiste o ha desaparecido. Una vez desaparecida, el paciente sigue sometido a revisiones mensuales para comprobar el tiempo que tarda en reaparecer. 309 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos Teniendo en cuenta que, en la mayoría de los casos, los síntomas han desaparecido al cabo de ocho semanas, se descartarán todos los pacientes en los que, pasadas ocho semanas, la enfermedad aún persiste. Antes de comenzar el tratamiento algunos pacientes han decidido dejar de fumar, por lo que se sospecha que en la reaparición de los síntomas, además del tiempo de respuesta al tratamiento, puede influir el efecto del abandono del tabaco. 310 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos Respuesta: Tiempo que tardan en reaparecer los síntomas Factores: El paciente ha dejado de fumar y tiempo que ha tardado en responder al tratamiento Niveles del primer factor: Ha dejado de fumar-No ha dejado de fumar Niveles del segundo factor: 2, 4, 6 y 8 semanas Se asume que no existe ningún otro factor importante que influya en el tiempo que tardan en reaparecer los síntomas. 311 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos Los individuos en estudio deben estar asignados aleatoriamente a cada uno de los niveles de los factores. El proceso aleatorio protege contra el sesgo sistemático y tiende a neutralizar los efectos de todos aquellos factores externos que no se encuentran bajo el control del experimentador. Los niveles de los factores pueden fijarse a priori, dando lugar a un modelo de efectos fijos, o pueden seleccionarse aleatoriamente entre el conjunto de posibles niveles, dando lugar a un modelo de efectos aleatorios. En el caso en el que se fijen unos factores y se seleccionen aleatoriamente otros, aparece el denominado modelo mixto. 312 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos Existen tres caminos para eliminar el efecto de una variable: mantenerla fija durante toda la realización del experimento, reorganizar la estructura del experimento de manera que las comparaciones de interés se efectúen para distintos valores fijos de dicha variable, lo que supone eliminar estadísticamente su efecto, y aleatorizar su aparición en los niveles o tratamientos. Los dos primeros caminos se utilizan para variables controladas por el experimentador. El tercero se reserva para eliminar el efecto de variables fuera de control y de poca influencia esperada, cuyos efectos se englobarán dentro del error experimental. 313 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos Un laboratorio quiere comparar el efecto de dos fertilizantes para lo cual dispone de un terreno dividido en parcelas sembradas de alfalfa, ¿cómo debe asignar las parcelas al tratamiento? 314 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción al diseño de experimentos ¿Depende la fertilidad del suelo de su ubicación? ¿Depende el grado de humedad de su ubicación? ¿Tienen todas las parcelas el mismo microclima? ¿Podría esta selección sistemática dar lugar a dos grupos sistemáticamente diferentes? ¿En qué aspectos debería cambiar el experimento si las parcelas estuvieran sembradas con cultivos diferentes? 315 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA 3.2 Análisis de la varianza de un factor: El modelo de efectos fijos • Introducción • Descomposición de la variabilidad de la respuesta • Análisis de las diferencias entre medias • Consideraciones finales 316 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción El análisis de la varianza consiste en descomponer la variabilidad de una magnitud en sus posibles causas. En el análisis de la varianza de un factor con efectos fijos se parte de un conjunto de observaciones clasificadas según un factor cuyos niveles han sido fijados por el experimentador. El objetivo del estudio es comprobar si existen diferencias entre los grupos definidos por el factor. ¿Son todos los medios de cultivo equivalentes entre sí o, por el contrario, unos favorecen más la aparición de colonias que otros? 317 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción Para cada nivel del factor se obtienen varias réplicas con el propósito de medir el error experimental. Se han inseminado, a partir de una misma suspensión de B.C.G., 10 tubos por cada medio de cultivo. El número de colonias en cada réplica de cada cultivo son: Cultivo 1: 10, 12, 8, 10, 6, 13, 9, 10, 8 y 9. Cultivo 2: 11, 18, 12, 15, 13, 8, 15, 16, 9 y 13. Cultivo 3: 7, 14, 10, 11, 9, 10, 9, 11, 7 y 9. Cultivo 4: 12, 9, 11, 10, 7, 8, 13, 14, 10 y 11. Cultivo 5: 7, 6, 10, 7, 7, 5, 6, 7, 9 y 6. 318 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción La hipótesis nula es H0: 1=2=...=k = siendo k el número de niveles del factor considerado. La hipótesis alternativa es H1: No todas las medias son iguales. Nivel 1 Nivel 2 Nivel 3 H0 Nivel 1 Nivel 2 Nivel 3 H1 319 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción Las hipótesis sobre los datos son: Las k muestras provienen de una población normal con la misma varianza 2. Las k muestras son independientes. Las técnicas a usar se denominan ANOVA, usando las siglas en inglés de (ANalysis Of VAriance) o ADEVA, usando las siglas en español de (Analisis DE la VArianza) El método consiste en descomponer la variabilidad de la respuesta en dos componentes, una debida al factor y otra dentro del factor. 320 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción NOTACIÓN Yij es la j-ésima observación correspondiente al nivel o tratamiento i Y11=10 es la primera observación en el cultivo 1 Y.. es el estimador de la media poblacional Estadísticos Número de colonias N Válidos Media Varianza 50 9,94 8,38 321 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción NOTACIÓN Yi es el estimador de la media poblacional en el nivel o tratamiento i-ésimo Estadísticos Número de colonias 1 Media 9,50 Tipo de cultivo 2 3 4 Media 13,00 Media 9,70 Media 10,50 5 Media 7,00 322 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Introducción Los datos recogidos deben tener el siguiente aspecto: Observaciones Factor Media Nivel 1 Y11 Y12 Y1n Y 1 Nivel 2 Y21 Y22 Y2n Y 2 Yk1 Yk2 Ykn Yk ... Nivel k 323 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Descomposición de la variabilidad de la respuesta Y k n ij i 1 j1 k k n Y.. Yij Y i Y i Y.. 2 n i 1 j1 k 2 n Y Y Y i1 j1 ij i 2 i i1 j1 Y.. k n Y Y 2 i1 j1 ij i 2 n k Y i Y.. i1 donde k es el número de niveles o tratamientos considerados y n el número de observaciones efectuadas dentro de cada tratamiento. Observa que el doble producto no aparece porque es nulo. 324 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 2 CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Descomposición de la variabilidad de la respuesta SUMAS DE CUADRADOS SCT SCE k n Y Y i1 j1 k ij 2 .. n Y Y i1 j1 SCF n k Y i1 ij i Y .. 2 i 2 es la variabilidad total. es la variabilidad dentro del tratamiento, llamada variabilidad no explicada o residual. Cuanto más grande sea, mayor es la variación que puede atribuirse a un error aleatorio. es la variabilidad debida al factor, entre tratamientos o variabilidad explicada. Si todas las muestras provienen de la misma población SCF=0. Cuanto más grande sea, mayor es la diferencia entre los tratamientos. 325 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Descomposición de la variabilidad de la respuesta La estimación de la varianza dentro de cada nivel o tratamiento es: Y Y n i ij j1 2 n 1 y el promedio de estas varianzas es un estimador insesgado de la varianza poblacional 2. Y Y Y Y n CME 1 k i1 k j1 ij n 1 i k 2 n i1 j1 ij i 2 k (n 1) 326 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Descomposición de la variabilidad de la respuesta La estimación de la varianza dentro de cada tipo de cultivo es: Estadísticos Número de colonias 1 2 Tipo de cultivo 3 Varianza 4,06 Varianza 9,78 Varianza 4,23 4 5 Varianza 4,72 Varianza 2,22 1 CME (4.06 9.78 4.23 4.72 2.22) 5.002 5 327 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Descomposición de la variabilidad de la respuesta Como se parte de la hipótesis de que las muestras provienen de poblaciones con idéntica varianza 2 y la varianza de la media es 2/n; si se supone que la hipótesis nula es cierta, es decir, que las medias de las poblaciones son iguales, entonces la varianza de las medias de cada muestra Y k i i1 Y.. 2 k 1 es un estimador insesgado de 2/n y, por tanto, CMF es también un estimador insesgado de 2. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza k n Yi Y.. i1 k 1 328 2 CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Descomposición de la variabilidad de la respuesta La varianza de las medias es: (9.5 - 9.94)2 (13.0 - 9.94)2 (9.7 - 9.94)2 (10.5 - 9.94)2 (7.0 - 9.94)2 (9.5 - 9.94) 2 4.643 5 -1 CMF 10 4.643 46.43 En cambio, si la hipótesis nula es falsa,entonces CMF es un estimador sesgado y mayor que CME. Y, cuanto mayor sea la diferencia entre las medias de los tratamientos y la media global, mayor será CMF. CMF k21 Además, 2 ~ Fk 1,k(n-1) CME k(n-1) 329 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Descomposición de la variabilidad de la respuesta CMF 46.43 9.3 CME 5.002 que ha de compararse con el valor de la F5-1, 5·(10-1) = F4, 45 Al 95% de confianza F4, 45 = 2.59. Como 9.3 es mayor que 2.59, se rechaza la hipótesis nula de que todos los cultivos se comporten del mismo modo. Al 99% de confianza F4, 45 = 5.6, obteniéndose la misma conclusión. 330 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Tabla ANOVA Fuente de variación Factor Grados de libertad Suma de cuadrados n k Y i Y .. Cuadrados medios k 2 k-1 i1 i1 Error Y Y i1 j1 k Total n ij i n 2 Y Y i1 j1 ij .. 2 k·(n-1) 2 k 1 CMF CME Y Y k k n Yi Y.. F n i1 j1 ij i 2 k (n 1) k·n-1 331 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Tabla ANOVA ANOVA Número de colonias Inter-grupos Intra-grupos Total Suma de cuadrados 185,720 225,100 410,820 gl 4 45 49 Media cuadrática 46,430 5,002 F 9,282 Sig. ,000 332 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Análisis de las diferencias entre medias Si se rechaza la hipótesis nula de que las medias son iguales para todos los grupos, será interesante determinar entre qué parejas existen diferencias significativas. Un posible método consistiría en contrastar todas las posibles parejas dos a dos con los contrastes para la diferencia de medias de dos muestras independientes vistas en el capítulo 2. Pero, si cada contraste se realiza con un nivel de significación del 5%, ¿cuál es el nivel de significación para el conjunto de comparaciones? En el caso más simple en el que se consideran tres niveles, cuando se compara el primero con el segundo y el segundo con el tercero, ¿cuál es la probabilidad de que uno o los dos rechacen la hipótesis nula cuando es verdadera? 333 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Análisis de las diferencias entre medias Existen diversos procedimientos para resolver este problema. Entre otros: • la prueba de Bonferroni y • el método de Scheffé. PRUEBA DE BONFERRONI Se realiza cada contraste individual al nivel /número de contrastes, de forma que se garantiza que el contraste conjunto se realiza al nivel al menos 1-. Es un prueba apropiada cuando se trata de comparar pocas parejas de medias. 334 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Análisis de las diferencias entre medias MÉTODO DE SCHEFFÉ DE COMPARACIONES MÚLTIPLES Se realizan los contrastes individuales de forma que la región de confianza depende del número de niveles del factor y del número de observaciones y no del número de contrastes que se desee realizar. 335 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Consideraciones finales • Las muestras en cada grupo pueden tener tamaños diferentes. • Aunque una hipótesis de partida ha sido que las muestras provengan de poblaciones normales, el análisis de la varianza es una técnica robusta frente a desviaciones de normalidad y, por tanto, válida para pequeñas desviaciones. • La otra hipótesis de partida es que las muestras provengan de poblaciones con la misma varianza. Si las varianzas son muy diferentes, pero los tamaños de la muestra son iguales o muy parecidos, el contraste es igualmente exacto. En cambio, si los tamaños de las muestras son muy diferentes, las diferencias entre las varianzas pueden ser graves. 336 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Consideraciones finales • Si se considera que los datos provienen de distribuciones normales, se puede contrastar la igualdad de varianzas antes de efectuar el análisis de la varianza. Dado que el contraste para la igualdad de varianzas que proporciona SPSS es robusto con respecto a la hipótesis de normalidad, se puede contrastar incluso cuando los datos muestren ligera falta de normalidad. • En el caso de que falle la hipótesis de igualdad de varianzas (se dice que los datos presentan heterocedasticidad), los datos pueden transformarse para conseguir homocedasticidad (veáse, por ejemplo, Peña, Vol. 2, pág. 59, 1999) o aplicar contrastes específicos de ANOVA que no suponen homocedasticidad (SPSS). • Es necesario asegurarse de que la falta de normalidad o heterocedasticidad no es debida a la existencia de datos atípicos. 337 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Pruebas no paramétricas para varias muestras independientes La prueba de Kruskal-Wallis para dos muestras independientes es la análoga no paramétrica del análisis de varianza de un factor y una extensión de la prueba paramétrica U de Mann-Whitney para dos muestras independientes. Contrasta la hipótesis nula de que las muestras provienen de la misma población contra la hipótesis alternativa de las distribuciones presentan diferencias en cuanto a su localización. 338 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 3: ANÁLISIS DE LA VARIANZA Bibliografía DUNN, O. J. y CLARK, V. A. (1987) Applied Statistics: Analysis of Variance and Regression, (2ª Ed.), John Wiley and Sons. 339 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 9: ANÁLISIS DE LA VARIANZA En esta práctica aprenderemos a: • Aplicar el test del análisis de la varianza para un factor de efectos fijos. • Aplicar los contrastes a posteriori de igualdad de medias dos a dos cuando se rechaza la hipótesis nula de que todas la medias son iguales. • Aplicar el contraste no paramétrico de Kruskal-Wallis para varias muestras independientes. 340 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN 341 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN 4.1 Introducción 4.2 El modelo de regresión simple 4.3 El modelo lineal general 4.4 Diagnosis y validación del modelo lineal 4.5 Extensiones del modelo de regresión 342 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción Los modelos estadísticos que explican la dependencia de una variable respecto de una o varias variables se denominan modelos de regresión. La variable que se desea explicar se denomina variable respuesta, endógena, dependiente o explicada (Y) y las variables que aportan la información se denominan variables predictoras, exógenas, independientes o explicativas (X1, X2,...,Xk). El interés recae en determinar una función matemática sencilla que describa, de forma razonable, el comportamiento de la variable respuesta, dados los valores de las variables explicativas, por ejemplo: Y ~ 0 + 1 X1 + 2 X2 +... + k Xk 343 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción Cuando el conocimiento de una variable determina totalmente el valor de la otra se dice que existe una relación funcional entre ambas. Si un objeto se mueve a una velocidad constante de 20 metros por segundo, conocido el tiempo que lleva en movimiento se puede determinar con exactitud el espacio que ha recorrido mediante la función Espacio = Velocidad Tiempo, siendo la velocidad igual a 20m/s. Por el contrario, si el conocimiento de una variable no aporta información sobre el valor de la otra, se dice que son variables independientes. 344 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción Existe un tipo de relación intermedia que se da cuando el conocimiento de una variable permite determinar con cierto grado de exactitud el valor de la otra. Se dice, entonces, que existe una relación estadística o estocástica entre las variables. Los modelos de regresión analizan este tipo de relaciones. ¿Cuál es la presión sanguínea esperada en un animal para un determinado nivel de concentración en la sangre de un medicamento? ¿Se puede determinar la polución anual media en una ciudad conocidas la medias anuales de la temperatura, la velocidad del viento y la precipitación? 345 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción Los objetivos del análisis de la regresión son: Obtener un modelo que explique el comportamiento conjunto de dos o más variables La relación entre la polución anual media en una ciudad y la medias anuales de la temperatura (T), la velocidad del viento (V) y la precipitación (P) viene explicada por la ecuación Polución ~ 130.2 - 1.9 · T - 1.7 · V + 0.6 · P Evaluar la importancia relativa de una de las variables independientes y analizar su efecto en la variable dependiente Si la temperatura aumenta un grado, la polución disminuye 1.9 microgramos por centímetro cúbico. 346 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción Predecir los valores de la variable respuesta para valores conocidos de las variables independientes. Para una ciudad cuyos valores anuales medios de la temperatura, velocidad del viento y precipitación son 50º Fahrenheit, 6 millas por hora y 7 pulgadas, respectivamente, la polución esperada es: 130.2 - 1.9 · 50 - 1.7 · 6 + 0.6 · 7 = 29.2 gr. por cm3 347 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN 4.1 El modelo de regresión simple • Introducción • Hipótesis del modelo • Estimación de los parámetros • Inferencias respecto a los parámetros • Coeficiente de determinación y coeficiente de correlación lineal • Análisis de los residuos • Predicción • Comentarios finales 348 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción En el modelo de regresión lineal simple se considera que existe una única variable que explica el comportamiento de la variable respuesta y que dicho comportamiento puede representarse mediante una recta. 300 200 100 VIRUS La representación gráfica de la variable respuesta (Virus) sobre la variable explicativa (Tiempo) ayuda a determinar si la relación entre ambas es lineal o de otro tipo. 0 0 TIEMPO Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 10 20 30 40 50 349 60 CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción En algunas ocasiones la representación gráfica nos sugerirá otro tipo de funciones o ninguna en particular. 240 220 200 180 160 140 120 100 100 80 0 10 20 30 40 50 60 80 TIEMPO 60 Concentración de SO2 VIRUS 120 40 20 0 0 1000 Población en miles Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 2000 3000 4000 350 CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción Si estamos dispuestos a admitir que la relación entre las variables es lineal, el siguiente paso es encontrar la ecuación de la recta (Y=aX+b) que mejor se ajusta al conjunto de observaciones disponible. Dicha recta es la que más cerca pasa de todos los puntos a la vez para lo cual es necesario determinar el criterio que representa la distancia. Y=0.5·X+0.5 Y Y Y=aX+b y 3 2 1 n=2 1 3 X Y=eX+f y 1 y 2 Y=cX+d x 1 x x 2 3 X 351 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción Y Y X X 352 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Hipótesis del modelo En el modelo de regresión lineal simple se considera que todos los factores que influyen en el comportamiento de la variable respuesta Y pueden dividirse en dos grupos: el primero contiene a la variable explicativa X, y el segundo es una perturbación aleatoria. Por tanto: yi 0 1 x i i , i 1,...,n donde xi son valores de la variable X conocidos (fijos, no aleatorios), yi representa la variable respuesta dado el valor xi (yi son variables aleatorias observables) i son los errores del modelo (variables aleatorias NO observables) y 0 y 1 son parámetros desconocidos, que se desean estimar. 353 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Hipótesis del modelo Se desea estudiar el número de virus en un cultivo al cabo del tiempo (en horas). Se ha dejado actuar el cultivo durante 6 horas y se ha medido el número de virus cada hora. Así, tenemos xi=i, i=1,…6. Yi=número de virus al cabo de i horas. (yi no es un número fijo, ya que no observaremos siempre el mismo número de virus) 354 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Hipótesis del modelo 1.- E[i]=0 i=1,..,n. 2.- Var[i]= 2 , i=1,..,n. La varianza de los errores es constante. Esta propiedad se denomina homocedasticidad. 3.- Los errores i son variables aleatorias independientes y normalmente distribuidas. Las condiciones sobre los errores son equivalentes a: 1.- La esperanza de la respuesta depende linealmente de X E[yi ] 0 1 xi 2.- La varianza de la respuesta es constante Var[yi ] 2 3.- yi son variables aleatorias independientes y normalmente distribuidas. 355 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Interpretación de los coeficientes El parámetro 0 representa la respuesta media cuando xi=0 (si este valor tiene sentido) 1 representa el incremento medio que experimenta la variable explicada o respuesta cuando la variable X aumenta en una unidad. Al estudiar el número de virus en un cultivo al cabo del tiempo (en horas), el parámetro 0 representa el número de virus que hay al inicio del experimento. El parámetro 1 representa el incremento del número medio de virus que aparecen al cabo de una hora. 356 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Estimación de los parámetros Para estimar los parámetros se utiliza el criterio de los mínimos cuadrados que consiste en minimizar la suma de los cuadrados de las distancias entre los valores observados de la variable respuesta y los valores sobre la recta. Es decir, encontrar ˆ0 , ˆ1 que minimicen la suma de los cuadrados de los errores: n i 1 y i ˆ0 ˆ1 x i 2 Se obtienen los siguientes estimadores: sXY ̂1 2 sX ̂0 y sXY x 2 sX Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza La obtención de los estimadores con este método no requiere ninguna hipótesis. Sin embargo, si se desea que sus propiedades sean buenas hemos de imponer las hipótesis 357 mencionadas. CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Estimación de los parámetros Por tanto, la ecuación del modelo es de la forma sXY Y y 2 X x sX que se denomina recta de regresión de Y sobre X. Si se asume que los errores son variables aleatorias normales, se tiene que 2 2 2 x ˆ 0 ~ N 0 , 1 ˆ ~ N , 1 sX2 1 n s2 n X 358 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Estimación de los parámetros Valores ajustados yi ( ˆ0 ˆ1 x i ) Residuos: e yi yi yi ( ˆ0 ˆ1 x i ) i Error cometido en cada observación Además, un estimador insesgado de la varianza 2 es la varianza residual y ˆ n sR2 i1 i ˆ 0 1 xi n -2 e n 2 i1 2 i n -2 359 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Inferencias respecto a los parámetros Y yi ŷi y i yˆ i yi y yˆi y y xi X 360 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Estimación de los parámetros n Se tiene: 2 e i i 1 ~ n2 2 2 Además, un pivote para construir intervalos de βˆ1 β1 ~ tn 2 confianza para la pendiente es: sR ( n s X ) Así, los intervalos de confianza para los parámetros son ˆ t 1 1 2,n -2 sR n sX ˆ 0 t1- 2,n-2 2 sR x 1 2 sX n 361 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Inferencias respecto a los parámetros El contraste de la hipótesis nula H0 : 1 0 contra la hipótesis alternativa H1 : 1 0 equivale a contrastar la falta de relación lineal entre las variables. ̂1 El estadístico de prueba es que se distribuye según una sR ( n sX ) t de Student con n-2 grados de libertad, si la hipótesis nula es cierta. El contraste más habitual para el parámetro 0 es H0 : 0 contra H1 : 0 . El estadístico de prueba también se distribuye según t con n-2 grados de libertad, si la hipótesis nula es cierta. 362 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Inferencias respecto a los parámetros Para estudiar la pérdida de agua del escarabajo Tribolium confusum se han mantenido nueve grupos de 25 escarabajos en nueve medios con diferente humedad relativa y se ha medido la pérdida de peso después de seis días de ayuno. El objetivo es establecer si la relación entre el nivel de humedad y la pérdida de peso pueden ser explicadas mediante una ecuación lineal. La humedad relativa es una variable controlada por el experimentador, por tanto se busca una ecuación de la forma: Pérdida de peso = 0 + 1·Humedad relativa. 363 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Inferencias respecto a los parámetros 10 La nube de puntos muestra que una relación lineal es razonable y además, que la pérdida de peso disminuye al aumentar el porcentaje de humedad relativa. 9 8 7 Pérdida de peso 6 5 4 3 -20 0 20 40 60 80 100 Porcentaje de humedad relativa Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) Porcentaje de humedad relativa B 8,704 Error típ. ,192 -5,32E-02 ,003 a. Variable dependiente: Pérdida de peso Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza Coeficientes estandarizados Beta -,987 t 45,437 Sig. ,000 -16,346 ,000 Intervalo de confianza para B al 95% Límite Límite inferior superior 8,251 9,157 -,061 -,046 364 CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Inferencias respecto a los parámetros La ecuación de la recta de regresión es Pérdida de peso = 8.704 - 0.053·Humedad relativa. Al 95% de confianza se acepta que existe una relación lineal entre las variables consideradas, puesto que el p-valor asociado al coeficiente 1 es menor que 0.05. Al 95% de confianza se espera que valor de 1 esté entre -0.061 y -0.046 y el de 0 entre 8.251 y 9.157. Es decir, si la humedad relativa es del 0%, la pérdida de peso esperada está entre de 8.251 y 9.157 mg. Si la humedad relativa aumenta en un 1%, el peso esperado disminuye entre 0.046 y 0.061 mg. 365 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Descomposición de la variabilidad total n VT yi y i1 2 es la variabilidad total n 2 VNE yi yˆ i es la variabilidad no explicada o residual i1 n VE i1 yˆ i y 2 es la variabilidad explicada por la regresión n n n yi y yi ŷi ŷi y 2 i 1 2 i 1 VT = VNE 2 i 1 + VE 366 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Inferencias respecto a los parámetros La hipótesis de que existe una relación lineal entre Y y X debería aceptarse cuando la variación explicada por la recta de regresión (VE) sea muy parecida a la total (VT) (es decir, la regresión es capaz de explicar una gran parte de la incertidumbre de los datos) o equivalentemente, cuando VE sea grande en comparación con VNE. Se tiene que, bajo la hipótesis de normalidad, VE 1 2 VE VT VE VNE 2 2 2 2 ~ F1,n-2 ~ n 1 ~ 1 ~ n 2 2 2 2 VNE n 2 sR 2 VE 23.514 VNE 0.616 VT 23.514 0.616 24.130 VE 23.514 23.514 267.183 2 sR 0.616 (9 2) 0.088 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza F1,9 2; 0.95 5.59 367 CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Inferencias respecto a los parámetros ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 23,514 ,616 24,131 gl 1 7 8 Media cuadrática 23,514 8,801E-02 F 267,183 Sig. ,000a a. Variables predictoras: (Constante), Porcentaje de humedad relativa b. Variable dependiente: Pérdida de peso Además, en regresión lineal simple el valor del estadístico t del contraste H0 : 1=0 al cuadrado coincide con el estadístico F. t2 = 16.3462 =267.192 368 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Coeficiente de determinación y coeficiente de correlación lineal Se define el coeficiente de determinación del modelo como la proporción de variabilidad total de la variable respuesta Y explicada por la variable X. n R2 VE VT i1 n yˆ i y 2 y y i1 2 i Es una medida de la bondad del ajuste que toma valores entre 0 y 1. Si el ajuste lineal es perfecto, es decir, yˆ i yi , entonces R2=1. Si no existe ajuste lineal entre las variables, entonces yˆ i y y R2=0. 369 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Coeficiente de determinación y coeficiente de correlación lineal Además, el coeficiente de determinación coincide con el cuadrado del coeficiente de correlación lineal 2 sXY 2 2 R r 2 2 sX sY Resumen del modelob Modelo 1 R R cuadrado a ,987 ,974 R cuadrado corregida ,971 Error típ. de la estimación ,2967 a. Variables predictoras: (Constante), Porcentaje de humedad relativa b. Variable dependiente: Pérdida de peso El porcentaje de humedad relativa explica el 97.4% de la variabilidad de la pérdida de peso. 370 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos Todos los resultados obtenidos para el análisis de la regresión se han basado en un conjunto de hipótesis sobre los residuos. Un valor alto de R2 o test de la t significativo no son suficientes para asegurar la bondad del ajuste. Aunque el método utilizado para la obtención de los estimadores es robusto cuando se detectan pequeñas desviaciones de las hipótesis de partida, desviaciones grandes pueden distorsionar las conclusiones. El análisis de los residuos puede ayudar a detectar dichas violaciones del modelo. 371 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN 11 10 10 9 9 8 8 7 7 6 6 5 5 4 Y2 Y1 Análisis de los residuos 4 2 4 6 8 10 12 14 3 16 2 14 14 12 12 10 10 8 8 6 6 4 2 6 8 10 12 14 16 8 10 12 14 16 18 20 X2 Y4 Y3 X1 4 4 6 8 10 12 14 X3 16 4 6 X4 372 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos Resumen del modelob Modelo 1 R R cuadrado a ,816 ,667 R cuadrado corregida ,629 Error típ. de la estimación 1,2366 a. Variables predictoras: (Constante), X1 b. Variable dependiente: Y1 El valor de R2, la tabla del análisis de la varianza, los estimadores de los ANOVAb coeficientes y los test de la t para los coeficientes son Modelo 1 Regresión Residual Total Suma de cuadrados 27,510 13,763 41,273 gl 1 9 10 Media cuadrática 27,510 1,529 F 17,990 Sig. ,002a a. Variables predictoras: (Constante), X1 b. Variable dependiente: Y1 Coeficientesa Modelo 1 (Constante) X1 Coeficientes no estandarizados B Error típ. 3,000 1,125 ,500 ,118 Coeficient es estandari zados Beta ,816 t 2,667 4,241 a. Variable dependiente: Y1 Sig. ,026 ,002 idénticos para los cuatro conjuntos de datos. 373 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos El análisis de los residuos consiste en determinar: • Si su distribución es aproximadamente normal. • Si su variabilidad es constante y son independientes. • Si presentan evidencia de una relación no lineal entre las variables. • Si existen observaciones atípicas o heterogéneas. Para contrastar la normalidad de los residuos, se utilizan las representaciones gráficas y los contrastes vistos en el capítulo 2. La heterodasticidad (varianza no constante) puede detectarse con el gráfico de los residuos en función de los valores predichos. 374 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos Este gráfico permite detectar una posible relación no lineal entre las variables y la existencia de valores atípicos. Variable dependiente: Pérdida de peso Se espera que los residuos: • se encuentren entre los valores -2 y 2, • estén aleatoriamente distribuidos alrededor del 0, y • que no muestren ningún patrón. 2,0 1,5 Regresión Residuo tipificado 1,0 ,5 0,0 -,5 -1,0 -1,5 -2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 Regresión Valor pronosticado tipificado Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 1,5 2,0 375 CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos Variable dependiente: Y1 Variable dependiente: Y2 2,0 1,5 1,5 1,0 ,5 Regresión Residuo tipificado Regresión Residuo tipificado 1,0 ,5 0,0 -,5 -1,0 -1,5 -2,0 -2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0 0,0 -,5 -1,0 -1,5 -2,0 -2,0 Regresión Valor pronosticado tipificado -1,5 -1,0 -,5 0,0 ,5 Variable dependiente: Y3 Datos atípicos Regresión Residuo tipificado 1,0 1 0 -1 -1,0 -,5 0,0 2,0 Observaciones influyentes 1,5 2 -1,5 1,5 Variable dependiente: Y4 2,0 -2,0 1,0 Regresión Valor pronosticado tipificado 3 Regresión Residuo tipificado Falta de linealidad ,5 1,0 1,5 Regresión Valor pronosticado tipificado 2,0 ,5 0,0 -,5 -1,0 -1,5 -,5 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5 Regresión Valor pronosticado tipificado 376 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Predicción Cuando el modelo obtenido explica bien el comportamiento de las dos variables consideradas, la ecuación sirve para predecir la respuesta esperada para otros valores conocidos de la variable explicativa. 10 Pérdida de peso = 8.704 - 0.053·100 = 3.404mg 9 8 7.644 7 6 Pérdida de peso ¿Cuál es la pérdida de peso esperada si el porcentaje de humedad relativa es del 100%? 5 4 3 -20 0 20 40 Porcentaje de humedad relativa Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 60 80 377 100 CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Predicción Para predecir hay que tener en cuenta que: el ajuste represente bien el comportamiento conjunto de las dos variables. los valores de la variable independiente deben sustituirse en las mismas unidades de medida en las que se ha obtenido el ajuste. los valores para los que se desea predecir deben estar próximos a los utilizados para estimar el modelo. sólo se puede predecir la variable respuesta conocida la variable explicativa y no en el otro sentido. 378 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Comentarios finales En resumen, la metodología para construir un modelo de regresión consiste en: Representar gráficamente las observaciones para obtener una idea intuitiva de la relación entre las variables. Estimar los parámetros del modelo. Construir intervalos de confianza para los parámetros y contrastar la hipótesis de linealidad. Contrastar las hipótesis de partida mediante el análisis de los residuos. Si se detectan problemas, replantear el modelo. 379 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Comentarios finales Para la interpretación del modelo regresión es importante tener en cuenta que: Una alta correlación entre dos variables no implica causalidad. A veces, es debida a la existencia de una tercera variable que actúa sobre Y y X moviéndolas en la misma dirección. La falta de relación significativa no implica ausencia de relación. Puede ser debida a una relación no lineal o a que el rango de variación de la variable X sea pequeño y el error experimental alto. Si los datos provienen de un experimento es posible evitar el efecto de variables no incluidas en el modelo mediante aleatorización. Además, si se controlan los valores de la variable explicativa es posible observar relaciones causa-efecto. 380 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 10 : ANÁLISIS DE LA REGRESIÓN: ANÁLISIS GRÁFICO En esta práctica aprenderemos a: • Dibujar nubes de puntos. • Dibujar una recta, una parábola o una cúbica sobre la nube de puntos. • Obtener el valor del coeficiente de determinación general. 381 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 11 : ANÁLISIS DE LA REGRESIÓN: REGRESIÓN SIMPLE En esta práctica aprenderemos a: • Obtener la ecuación de la recta de regresión y los intervalos de confianza asociados a los parámetros. • Obtener el test t para la significatividad de los parámetros. • Calcular el test F del análisis de la varianza. • Calcular el coeficiente de determinación lineal. • Representar y analizar gráficamente los residuos. 382 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN 4.3 El modelo lineal general • Introducción • Hipótesis básicas • Estimación de los parámetros • Contrastes para los parámetros • El coeficiente de determinación y el coeficiente de correlación lineal • Métodos de selección de variables explicativas 383 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción El modelo general de regresión es la extensión para k variables explicativas del modelo de regresión simple para una. Cada observación de la variable respuesta puede representarse en función de los valores de las variables explicativas mediante la ecuación: y x x x i 0 1 1i 2 2i k ki i donde y y son variables aleatorias, x1, x2,..., xk son variables fijas con valores conocidos y 0, 1,...,k son los parámetros del modelo. 384 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Hipótesis básicas Los errores deben verificar las mismas propiedades que en el caso de regresión simple: su media es 0, su varianza es constante, son independientes entre sí, y su distribución es normal. El valor de 0 es el valor medio de la respuesta cuando todas las variables explicativas son iguales a 0. El valor de j es el cambio medio en la respuesta cuando Xj aumenta en una unidad y el resto de las variables permanecen fijas. 385 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Hipótesis básicas Además, se asume que: para cualquier conjunto de valores de las variables explicativas que caen dentro del rango de observación, la ecuación lineal proporciona una aproximación razonable de la verdadera relación entre las variables, el número de observaciones es mayor que el número de variables explicativas incluidas en el modelo, es decir, mayor que el número de parámetros, y las variables explicativas tienen valores conocidos, están medidas sin error y son linealmente independientes entre sí. 386 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Estimación de los parámetros En un estudio sobre la relación entre el crecimiento y la composición mineral del follaje de alerces japoneses, se plantaron una serie de árboles en suelo de diferentes tipos. Se seleccionaron 26 árboles. Para cada uno de ellos se midió la altura en centímetros y la concentración de nitrógeno (N), fósforo (F), potasio (P) y cenizas residuales (C) en los nudos de un vástago en partes por millón. Si se asume una relación lineal entre las variables, la ecuación que se desea estimar es Alturai = 0 + 1·Ni + 2·Fi + 3·Pi + 4·Ci + i 387 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Estimación de los parámetros Para estimar los parámetros se utiliza el criterio de los mínimos cuadrados, que consiste en encontrar ˆ0 , ˆ1 , , ˆk que minimicen: n i 1 y i ˆ0 ˆ1 x1i ˆk x ki 2 Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) Nitrógeno Fósforo Potasio Cenizas residuales B -185,330 97,764 256,975 126,573 40,277 Error típ. 36,298 24,572 169,905 46,429 36,615 Intervalo de confianza para B al 95% Límite superior Límite inferior -260,816 -109,844 46,664 148,864 -96,363 610,312 30,019 223,127 -35,867 116,421 Altura = -185.330 + 97.764·N + 256.975·F + 126.573·P + 40.277·C a. Variable dependiente: Altura en cm 388 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Estimación de los parámetros Así como en regresión lineal simple, el modelo se representa mediante una recta, en regresión lineal múltiple con dos variables el modelo se representa mediante un plano y con tres o más variables con un hiperplano. 389 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Contrastes para los parámetros El primer contraste que se plantea es: H 0 : 1 2 k 0 frente a H1 : algún i 0 Es decir, la hipótesis nula es que ninguna variable explicativa influye en la respuesta (no existe relación lineal) frente a la alternativa de que al menos una de las variables es influyente. 390 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Contrastes para los parámetros Como en regresión simple, la variabilidad total de la respuesta puede descomponerse como suma de la variabilidad recogida por el modelo más la variabilidad residual por lo que, si todos los parámetros son simultáneamente iguales a 0, tenemos VE k ~ Fk,n-k -1 2 sR donde k es el número de variables explicativas en el modelo y n s 2 R i1 ei2 n -k -1 es la varianza residual. 391 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Contraste para los parámetros ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 197832,430 30121,916 227954,346 gl 4 21 25 Media cuadrática 49458,107 1434,377 F 34,481 Sig. ,000a a. Variables predictoras: (Constante), Cenizas residuales, Nitrógeno , Potasio, Fósforo b. Variable dependiente: Altura en cm Se rechaza la hipótesis nula H0 : 1 = 2 = 3 = 4 =0, esto es, que alguna de las variables consideradas explica la altura de los árboles. Al menos una de ellas influye en la respuesta. 392 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Contrastes para los parámetros Sobre cada parámetro asociado a una variable independiente se realiza el contraste j = 0, que implica que la variable Xj no afecta a la respuesta y no debería aparecer en la ecuación. Para cada parámetro el estadístico de prueba se distribuye según una t de Student con n-k-1 grados de libertad. Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) Nitrógeno Fósforo Potasio Cenizas residuales B -185,330 97,764 256,975 126,573 40,277 Error típ. 36,298 24,572 169,905 46,429 36,615 Coeficientes estandarizados Beta ,436 ,188 ,330 ,137 t -5,106 3,979 1,512 2,726 1,100 Sig. ,000 ,001 ,145 ,013 ,284 a. Variable dependiente: Altura en cm 393 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Contrastes para los parámetros CONTRASTE CONJUNTO Significativo CONTRASTES INDIVIDUALES Todos significativos Verificar las hipótesis Algunos significativos Ninguno significativo Eliminar variables Multicolinealidad 394 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Coeficiente de determinación y coeficiente de correlación lineal Se define el coeficiente de determinación múltiple R2 como la proporción de variabilidad total de la variable respuesta Y explicada por las variables independientes X1, X2,..., Xk. Su raíz cuadrada se denomina coeficiente de correlación múltiple. Hay que tener en cuenta que: R2 no sirve por sí solo para comparar la eficacia de distintas regresiones puesto que, siempre aumenta al introducir nuevas variables, aunque su efecto no sea significativo. Si el modelo contiene muchos parámetros y la muestra es pequeña, R2 será alto. 395 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Coeficiente de determinación y coeficiente de correlación lineal Para poder comparar la bondad de modelos con distinto número de variables explicativas, se utiliza el coeficiente de determinación corregido por los grados de libertad. sR2 R corregido 1 2 sY 2 Resumen del modelob Modelo 1 R R cuadrado a ,932 ,868 R cuadrado corregida ,843 Error típ. de la estimación 37,87 a. Variables predictoras: (Constante), Cenizas residuales, Nitrógeno , Potasio, Fósforo b. Variable dependiente: Altura en cm 396 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Métodos de selección de variables Cuando tenemos muchos potenciales predictores (es decir, k es grande) es difícil determinar cuáles deben estar en el modelo de regresión ya que muchas de ellas pueden tener relación con Y (coeficiente de correlación entre las variables X y la variable Y significativo) y las variables tener mucha relación entre sí. Si se ajusta el modelo con todas las X saldrán muchos coeficientes no significativos y no está claro la forma de proceder para quedarse con el mejor subconjunto de las variables X para explicar Y. Hay métodos iterativos implementados en los programas de ordenador que utilizan criterios de R cuadrado, R cuadrado ajustado o errores de predicción para obtener un buen subconjunto de las X. 397 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Métodos de selección de variables Se suele trabajar de 3 formas alternativas: • Selección hacia delante (forward): se parte con un modelo sin ninguna X y en cada iteración se introduce la variable X más importante que no esté en el modelo hasta que de las que quedan fuera ninguna aporta nada significativo. • Selección hacia atrás (backward): se parte con un modelo con todas las potenciales variables explicativas X y en cada iteración se quita la menos importante, hasta que todas las que quedan en el modelo son importantes. • Selección paso a paso (stepwise): mezcla de los anteriores donde en un paso se introduce una variable y en el siguiente se saca otra. Ha de entenderse que estos métodos son una ayuda pero no siempre proporcionan el mejor modelo, que ha de basarse en el conocimiento del problema, el chequeo de las hipótesis, etc. Beatriz Lacruz Casaucau (lacruz@unizar.es) 398 Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN 4.4 Diagnosis y validación del modelo de regresión múltiple • Introducción • Análisis de los residuos • La hipótesis de normalidad • Heterocedasticidad • Multicolinealidad • Observaciones influyentes y observaciones atípicas • Autocorrelación • Error de especificación 399 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Introducción El fallo de algunas de las hipótesis necesarias para la construcción del modelo afectará a sus propiedades. Los problemas frecuentes son: Falta de normalidad. Heterocedasticidad: la varianza de los residuos no es constante. Multicolinealidad: las variables explicativas son muy dependientes entre sí. Existencia de valores extremos que influyen en la estimación. Autocorrelación: los residuos no son independientes. Error de especificación: la relación entre las variables no es lineal, faltan o sobran variables en el modelo. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 400 CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos Para comenzar esta fase, debemos tener un modelo ajustado en el que las variables incluidas sean significativas. Los residuos aportan información sobre si se cumplen las hipótesis de linealidad, normalidad, homocedasticidad e independencia y permiten detectar observaciones influyentes y/o atípicas. El histograma y el gráfico P-P (Q-Q) para comprobar la hipótesis de normalidad y detectar valores atípicos. Gráfico P-P normal de regresión Residuo tipificado Histograma Variable dependiente: Altura en cm Variable dependiente: Altura en cm 1,00 12 10 ,75 6 Frecuencia 4 Desv. típ. = ,92 2 Media = 0,00 N = 26,00 0 -1,28 -,65 -,02 ,62 1,25 1,88 Regresión Residuo tipificado Prob acum esperada 8 ,50 ,25 0,00 0,00 ,25 ,50 ,75 1,00 Prob acum observada 401 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos El gráfico de los residuos sobre los valores predichos para detectar falta de linealidad, heterocedasticidad y valores atípicos. Gráfico de dispersión Variable dependiente: Altura en cm 3 2 Regresión Residuo tipificado 1 0 -1 -2 -2 -1 0 1 2 3 Los residuos se encuentran aleatoriamente distribuidos alrededor del cero, no muestran ningún patrón ni la existencia de valores atípicos. Regresión Valor pronosticado tipificado 402 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos 2,0 10 1,5 1,0 0 ,5 0,0 -10 Residuos Residuos -,5 -20 20 30 40 50 60 70 -1,0 -1,5 ,5 1,0 1,5 2,0 2,5 3,0 3,5 X X Heterocedasticidad Falta de linealidad 403 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 4,0 CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos Los gráficos de residuos parciales sobre cada una de las variables explicativas ayudan a comprobar la importancia de cada variable en el modelo y a identificar si la falta de linealidad o heterocedasticidad, en su caso, es debida a alguna variable explicativa. El gráfico de residuos parcial de la variable Xj muestra el diagrama de dispersión de la variable Y frente a Xj una vez quitada la influencia de las demás variables explicativas. Si el gráfico muestra relación, esa variable aporta información para el conocimiento de la respuesta. 404 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Análisis de los residuos Gráfico de regresión parcial Gráfico de regresión parcial Variable dependiente: Altura en cm Variable dependiente: Altura en cm 80 80 60 60 40 20 0 0 -20 -20 -40 Altura en cm Altura en cm La altura aumenta al aumentar las cantidades de nitrógeno y potasio. 40 20 -60 -80 -100 -,6 -,4 -,2 -,0 ,2 ,4 ,6 -40 -60 -80 -,1 0,0 ,1 Nitrógeno Fósforo Gráfico de regresión parcial Gráfico de regresión parcial Variable dependiente: Altura en cm ,2 Variable dependiente: Altura en cm 200 100 80 60 100 40 20 Altura en cm Altura en cm 0 0 -100 -,3 -,2 -,1 -,0 ,1 Potasio ,2 ,3 ,4 -20 -40 -60 -80 -,3 -,2 -,1 -,0 ,1 ,2 ,3 ,4 ,5 Las cantidades de fósforo y cenizas residuales no parecen aportar mucha información. Cenizas residuales 405 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN La hipótesis de normalidad La hipótesis de normalidad es necesaria para realizar contrastes de significación y obtener intervalos de confianza para los parámetros. La ligera falta de normalidad hace que los resultados de los contrastes sean sólo aproximados y las estimaciones de los parámetros poco eficientes, con lo que no se extraerá la máxima información posible de la muestra. Si la desviación de la normalidad es importante, entonces muchas de las propiedades (en particular los tests de hipótesis y los intervalos) dejan de ser válidos. 406 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN La hipótesis de normalidad La falta de normalidad puede ser debida a: La presencia de unas pocas observaciones atípicas o una distribución fuertemente asimétrica. Observaciones heterogéneas que producen una distribución más apuntada que la normal y que pueden ser debidas a una mala especificación del modelo. Las soluciones al problema de falta de normalidad son: Transformar los datos. Plantear un modelo con distribución de los errores distinta de la normal (modelos lineales generalizados). 407 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Heterocedasticidad La heterocedasticidad es el fallo en la hipótesis de que la varianza de los residuos sea constante. Los estimadores serán insesgados, pero dejarán de ser eficientes. Los errores de estimación no son válidos y los contrastes dejan de ser aplicables. Los gráficos de los residuos sobre los valores predichos o los gráficos de residuos parciales permiten detectar el problema. Las posibles soluciones son: transformar las variables, o aplicar la técnica de mínimos cuadrados ponderados. 408 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Multicolinealidad Las estimaciones de los parámetros asociados a las variables relacionadas serán poco precisas y muy dependientes entre sí. Por tanto, pequeñas modificaciones en la muestra o en el modelo, afectarán mucho a los valores de los estimadores y a sus varianzas. Además, en ocasiones se pueden obtener estimaciones de los parámetros con signo cambiado. Correlaciones altas entre parejas de variables explicativas son signo de multicolinealidad, puesto que muestran un alto grado de asociación entre las variables dos a dos. Pero si una de ellas es función de dos o más de las otras, no será detectado por el coeficiente de correlación lineal. Existen otros estadísticos para determinar la colinealidad en este caso. 409 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Multicolinealidad Correlaciones Nitrógeno Nitrógeno Fósforo Potasio Cenizas residuales Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N ,602** ,001 26 ,546** ,004 26 ,651** ,000 26 **. La correlación es significativa al nivel 0,01 (bilateral). Fósforo ,704** ,000 26 ,671** ,000 26 Potasio ,671** ,000 26 Cenizas residuales La matriz de correlaciones muestra valores altos y significativamente no nulos para todas las parejas de variables. Si en la ecuación de regresión se incluyen, por ejemplo, el fósforo y el potasio, parte de la variación explicada por una de ellas en un ajuste con una sola de las variables, será explicada por la otra cuando se incluyan las dos. 410 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Multicolinealidad R cuadrado Constante Nitrógeno Fósforo Coeficiente -185.330 Error Cenizas 256.975 126.573 40.277 (24.572) (196.905) (46.429) (36.615) Coeficiente -193.070 Error 107.797 304.235 143.129 (22.925) (165.167) (44.131) Coeficiente -180.868 Error 97.764 Potasio 123.264 188.685 (22.414) (38.404) corregida 0.843 0.841 0.825 Los errores de estimación de los parámetros aumentan al aumentar el número de variables incluidas en el modelo. Las estimaciones son dependientes entre sí porque los valores de los coeficientes cambian mucho según las variables que se hayan incluido. 411 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Multicolinealidad Nitrógeno Fósforo Potasio Cenizas residuales Altura en cm Las variables explicativas son muy dependientes dos a dos, por tanto existe el problema de multicolinealidad al menos de este orden. 412 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Multicolinealidad ¿Se necesitan las cuatro variables independientes para explicar la altura de los árboles? ¿Se detectan valores atípicos? 413 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Multicolinealidad Las variables explicativas son muy dependientes. Observa que la cantidad de cenizas residuales aumenta al aumentar las cantidades del resto de componentes. 414 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Observaciones influyentes y observaciones atípicas Una observación influyente puede determinar por sí sola el modelo y no tiene por qué ser atípica. Cuando se utilizan varias variables explicativas es más difícil detectar estos valores. El gráfico de los residuos sobre los valores predichos no sirve para detectar valores influyentes, porque sus residuos serán pequeños, aunque sí valores atípicos. 14 12 10 8 Y4 6 4 6 8 10 12 14 16 18 20 X4 Para detectar valores influyentes pueden utilizarse medidas de influencia como la distancia de Cook. 415 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Autocorrelación La dependencia entre los residuos del modelo es un problema frecuente cuando se estudian variables que evolucionan en el tiempo (y en el espacio: geoestadística). Los efectos de la dependencia son estimadores y predicciones ineficientes, y contrastes no válidos. Para identificar el problema se utiliza el gráfico de los residuos sobre el tiempo para identificar autocorrelación de primer orden y el análisis de series temporales para modelos más complejos. 416 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Autocorrelación El contenido de hierro en las escorias producidas por los altos hornos pueden determinarse mediante un test químico o estimarse mediante un test magnético más barato y rápido de aplicar. El objetivo es estudiar si los resultados del test químico pueden predecirse a partir de los obtenidos con el test magnético y la naturaleza de la relación entre estas dos cantidades. Las observaciones se muestran en el orden en el que han sido recogidas ¿tiene esto algún efecto? 417 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Autocorrelación 2 El gráfico de los residuos respecto del instante en el que ha sido tomada la observación muestra un patrón de autocorrelación negativa, por lo que se confirma que el tiempo influye en la medición. 1 Standardized Residual 0 -1 -2 0 10 20 30 40 50 60 tiempo 418 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN Error de especificación Se comete error de especificación cuando los errores del modelo no tienen esperanza nula, es decir, se establece una relación errónea de la respuesta en función de las variables explicativas: Incluir variables irrelevantes (aumenta el error de estimación y la posibilidad de multicolinealidad). Excluir variables relevantes (estimadores sesgados, contrastes no adecuados, residuos con malas propiedades). Error en la transformación de las variables. Afecta al sesgo de los estimadores, al error de estimación, a los contrastes sobre los parámetros y a los residuos. La estructura de los residuos cambiará al excluir variables relevantes y cuando no se elige la transformación adecuada. 419 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza CAPÍTULO 4: ANÁLISIS DE LA REGRESIÓN 4.5 Extensiones del modelo de regresión Regresión con variables explicativas cualitativas. El análisis de la covarianza para analizar la posible interacción entre variables cualitativas y cuantitativas de un modelo de regresión. Regresión con variable respuesta cualitativa: Modelo logístico o modelo Logit y modelo Probit que se utilizan, por ejemplo, para ajustar la relación entre la dosis administrada de un medicamento y la respuesta al tratamiento y para estimar las dosis que inducen niveles específicos de respuesta. Modelos polinómicos. Regresión no lineal. Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza 420 CAPÍTULO 3: ANÁLISIS DE LA REGRESIÓN Bibliografía • SAMPRIT CHATTERJEE, ALI S. HADI y BERTRAM PRICE (2000), Regression Analysis by example(3ª Ed.), John Wiley and Sons. 421 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza PRÁCTICA 12 : ANÁLISIS DE LA REGRESIÓN: REGRESIÓN MÚLTIPLE En esta práctica aprenderemos a: • Obtener la ecuación de la recta de regresión y los intervalos de confianza asociados a los parámetros. • Obtener el test t para la significatividad de los parámetros. • Calcular el test F del análisis de la varianza. • Calcular el coeficiente de determinación lineal. • Representar y analizar gráficamente los residuos. 422 Beatriz Lacruz Casaucau (lacruz@unizar.es) Dpto. Métodos Estadísticos. Universidad de Zaragoza