Jaime Vázquez Alamilla Lizbeth Naranjo Albarrán Ruth Fuentes Garcı́a Margarita Chávez Cano inferencia estadı́stica para estudiantes de ciencias Facultad de Ciencias, UNAM 2020 519.5 Vázquez Alamilla, Jaime, autor. Inferencia estadı́stica para estudiantes de ciencias / Jaime Vázquez Alamilla, Lisbeth Naranjo Albarrán, Ruth Fuentes Garcı́a, Margarita Chávez Cano. – Ciudad de México : Universidad Nacional Autónoma de México, Facultad de Ciencias, 2019. xv, 384 páginas: ilustraciones ; 22 cm Incluye ı́ndice Bibliografı́a: páginas 375-378 ISBN: 978-607-30-2477-8 1. Estadı́stica matemática. 2. Probabilidades. I. Naranjo Albarrán, Lizbeth, autor. II. Fuentes Garcı́a, Ruth, autor. III. Chávez Cano, Margarita, autor, IV. Universidad Nacional Autónoma de México, Facultad de Ciencias, editor. V. Tı́tulo. Biblioteca Nacional del México Esta obra contó con el apoyo del proyecto PAPIME PE-107117 Inferencia estadı́stica para estudiantes de ciencias 1a edición, 29 de septiembre de 2019 c D.R. 2019. Universidad Nacional Autónoma de México. Facultad de Ciencias. Ciudad Universitaria. Delegación Coyoacán, C. P. 04510, Ciudad de México Coordinación de servicios editoriales: editoriales@ciencias.unam.mx Plaza Prometeo: tienda.fciencias.unam.mx ISBN: 978-607-30-2477-8 Diseño de portada Laura Uribe Hernández y Celia Ayala Escorza Prohibida la reproducción parcial o total de la obra por cualquier medio, sin autorización por escrito del titular de los derechos patrimoniales. Impreso y hecho en México. scdd 22 Agradecimientos A la Dirección General de Asuntos del Personal Académico por el apoyo para la realización de esta obra a través del Proyecto Papime PE107117. A nuestro maestro de Inferencia Estadı́stica, el Dr. Federico O’Reilly Togno, por sus sugerencias y por haber accedido a escribir el prólogo de este libro, pero sobre todo por habernos transmitido el gusto por esta materia. Es un honor, siendo él uno de los pilares de la estadı́stica en México. A los colegas profesores e investigadores que nos hicieron comentarios acerca de las notas que antecedieron a este texto. En particular al Dr. Eduardo Gutiérrez Peña por sus valiosas observaciones. A Rafael Reyes Sánchez por su extraordinario apoyo en la edición y formato de este libro. A los ayudantes (profesores adjuntos), quienes con su labor han sido parte fundamental del éxito de los cursos de Inferencia Estadı́stica que hemos impartido. Gracias también por sus aportaciones para la realización de este documento. A nuestros estudiantes de la Facultad de Ciencias de la Universidad Nacional Autónoma de México, porque ellos son la razón de nuestro trabajo y quienes nos motivaron a escribir el libro. Índice general Prólogo XV Introducción XVII 1. ¿Qué es la estadı́stica? 1.1. La probabilidad y la estadı́stica . . . . . 1.2. Enfoques de la estadı́stica . . . . . . . . 1.2.1. El concepto de muestra aleatoria 1.3. Familia de localización y escala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 6 8 2. Estadı́stica descriptiva 11 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2. Datos y variables . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 12 2.2.2. Escalas de medición . . . . . . . . . . . . . . . . . . . 13 2.2.3. Formas de recolección . . . . . . . . . . . . . . . . . . 14 2.3. Los datos y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.1. Cargando los datos . . . . . . . . . . . . . . . . . . . . 15 2.4. Representación gráfica de los datos . . . . . . . . . . . . . . . 16 2.4.1. Frecuencia, frecuencia relativa y frecuencia acumulada 17 2.4.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . 17 2.4.3. Gráficas de barras . . . . . . . . . . . . . . . . . . . . 18 2.4.4. Gráficas de pay o pastel . . . . . . . . . . . . . . . . . 18 2.4.5. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . 21 2.4.6. Histograma . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4.7. Boxplot o diagrama de caja y brazos . . . . . . . . . . 24 2.5. Medidas muestrales de tendencia central . . . . . . . . . . . 27 2.5.1. La media muestral . . . . . . . . . . . . . . . . . . . . 27 2.5.2. La mediana muestral . . . . . . . . . . . . . . . . . . . 27 2.5.3. Porcentiles o percentiles . . . . . . . . . . . . . . . . . 28 v vi Índice general 2.6. Medidas de dispersión . . . . . . . . . . . . . . . 2.6.1. Varianza y desviación estándar muestrales 2.6.2. Rango muestral . . . . . . . . . . . . . . . 2.6.3. Rango intercuartil . . . . . . . . . . . . . 2.7. Otras medidas de resumen . . . . . . . . . . . . . 2.8. Relaciones lineales entre variables . . . . . . . . . 2.9. Anexo . . . . . . . . . . . . . . . . . . . . . . . . 2.10. Ejercicio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 31 31 32 33 35 38 3. Estadı́sticas y distribuciones muestrales 39 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2. Distribución de las estadı́sticas . . . . . . . . . . . . . . . . . 44 3.2.1. Distribución de la media muestral . . . . . . . . . . . 44 3.2.2. La distribución de la varianza muestral . . . . . . . . 45 3.2.3. La distribución F de Fisher y el cociente de varianzas muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.2.4. La distribución t de Student y algunas estadı́sticas relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.3. Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . 59 3.3.1. r-ésima estadı́stica de orden (Yr ) . . . . . . . . . . . . 60 3.3.2. Distribución conjunta de las estadı́sticas de orden mı́nima y máxima . . . . . . . . . . . . . . . . . . . . . . . 61 3.4. Estadı́sticas suficientes . . . . . . . . . . . . . . . . . . . . . . 63 3.4.1. El concepto de suficiencia . . . . . . . . . . . . . . . . 65 3.4.2. El teorema de factorización . . . . . . . . . . . . . . . 70 3.4.3. La familia exponencial . . . . . . . . . . . . . . . . . . 76 3.4.4. Suficiencia minimal . . . . . . . . . . . . . . . . . . . . 78 3.5. 3.6. 3.7. 3.8. Completez . . . . . . . . Algunas generalizaciones Estadı́sticas auxiliares . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 88 90 93 4. Estimación puntual 4.1. Introducción . . . . . . . . . . . . . . . . . . . 4.2. Métodos de estimación . . . . . . . . . . . . . 4.2.1. Método de momentos . . . . . . . . . 4.2.2. Estimadores basados en verosimilitud 4.2.3. Verosimilitud en el enfoque Bayesiano 4.2.4. Otros métodos de estimación . . . . . 4.3. Evaluación de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 105 106 108 112 125 133 138 Índice general 4.3.1. Error cuadrático medio y estimadores insesgados 4.3.2. Consistencia . . . . . . . . . . . . . . . . . . . . 4.3.3. Funciones de pérdida y estimación . . . . . . . . 4.4. Estimación insesgada . . . . . . . . . . . . . . . . . . . . 4.4.1. La propuesta de Cramèr y Rao . . . . . . . . . . 4.4.2. El teorema de Rao-Blackwell . . . . . . . . . . . 4.4.3. El teorema de Lehmann-Scheffé . . . . . . . . . . 4.5. Propiedades asintóticas de los estimadores . . . . . . . . 4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . vii . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 144 146 148 149 159 160 167 172 5. Estimación por intervalos 5.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . 5.1.1. Método pivotal para encontrar intervalos de confianza 5.1.2. El método de la cantidad pivotal para funciones de distribución continuas . . . . . . . . . . . . . . . . . . 5.1.3. Método basado en estadı́sticas suficientes . . . . . . . 5.2. Intervalos para muestras de la distribución normal . . . . . . 5.2.1. Intervalos para la media . . . . . . . . . . . . . . . . . 5.2.2. Intervalo para la varianza . . . . . . . . . . . . . . . . 5.2.3. Región de confianza para (µ, σ 2 ) . . . . . . . . . . . . 5.2.4. Intervalo para la diferencia de medias de poblaciones normales independientes . . . . . . . . . . . . . . . . . 5.2.5. Intervalo para el cociente de varianzas de poblaciones normales independientes . . . . . . . . . . . . . . . . . 5.3. Intervalos de confianza para muestras grandes . . . . . . . . . 5.3.1. Intervalo de confianza para el parámetro p de una distribución binomial . . . . . . . . . . . . . . . . . . . . 5.4. Enfoque Bayesiano en la estimación por intervalos . . . . . . 5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 183 189 6. Pruebas de hipótesis 6.1. Conceptos fundamentales en pruebas de hipótesis . . . . . . . 6.1.1. Hipótesis estadı́sticas . . . . . . . . . . . . . . . . . . . 6.1.2. Tipos y tamaños de los errores . . . . . . . . . . . . . 6.1.3. La función potencia . . . . . . . . . . . . . . . . . . . 6.2. Hipótesis simples . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Pruebas más potentes y el lema de Neyman-Pearson . 6.3. Pruebas uniformemente más potentes . . . . . . . . . . . . . 6.3.1. Hipótesis simple contra compuesta . . . . . . . . . . . 6.3.2. La razón monótona de verosimilitudes y el teorema de Karlin-Rubin . . . . . . . . . . . . . . . . . . . . . . . 227 227 229 232 234 238 240 248 248 193 196 200 201 203 204 204 209 211 214 216 218 251 viii Índice general 6.4. La razón de verosimilitudes generalizadas . . . . . . . . . . . 256 6.4.1. La prueba de la razón de verosimilitudes generalizadas 257 6.4.2. La distribución asintótica de la razón de verosimilitudes264 6.5. El valor p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . 268 6.6. Algunas pruebas basadas en razón de verosimilitudes . . . . . 275 6.6.1. Prueba Ji-cuadrada para bondad de ajuste . . . . . . 276 6.6.2. La prueba de independencia en tablas de contingencia 286 6.7. Pruebas de hipótesis en el contexto Bayesiano . . . . . . . . . 296 6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 A. Algunos conceptos y resultados de probabilidad 319 A.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 319 A.2. Probabilidad condicional e independencia . . . . . . . . . . . 320 A.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 321 A.4. Distribuciones conjuntas y condicionales . . . . . . . . . . . . 322 A.4.1. Variables aleatorias discretas . . . . . . . . . . . . . . 324 A.4.2. Variables aleatorias continuas . . . . . . . . . . . . . . 325 A.4.3. Distribución condicional e independencia estocástica . 327 A.5. Momentos de variables aleatorias . . . . . . . . . . . . . . . . 328 A.5.1. Esperanza y varianza . . . . . . . . . . . . . . . . . . . 328 A.5.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 329 A.5.3. Función generadora de momentos . . . . . . . . . . . . 330 A.5.4. Esperanza de g (X1 , . . . , Xn ) . . . . . . . . . . . . . . 331 A.5.5. Coeficiente de correlación ρxy . . . . . . . . . . . . . . 332 A.5.6. Esperanza condicional . . . . . . . . . . . . . . . . . . 333 A.5.7. Función generadora de momentos conjunta y momentos 334 A.5.8. Independencia y esperanza . . . . . . . . . . . . . . . 334 A.6. Resumen de familias paramétricas . . . . . . . . . . . . . . . 336 A.6.1. Uniforme Discreta . . . . . . . . . . . . . . . . . . . . 336 A.6.2. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 336 A.6.3. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 337 A.6.4. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 337 A.6.5. Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 338 A.6.6. Binomial negativa . . . . . . . . . . . . . . . . . . . . 338 A.6.7. Hipergeométrica . . . . . . . . . . . . . . . . . . . . . 339 A.6.8. Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . 339 A.6.9. Uniforme continua . . . . . . . . . . . . . . . . . . . . 340 A.6.10. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 340 A.6.11. Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 A.6.12. Ji-cuadrada . . . . . . . . . . . . . . . . . . . . . . . . 342 A.6.13. Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342 Índice general ix A.6.14. Normal . . . . . . . . . . . . . . . . . . . . A.6.15. t de Student . . . . . . . . . . . . . . . . . A.6.16. F de Fisher . . . . . . . . . . . . . . . . . . A.6.17. Log-Normal . . . . . . . . . . . . . . . . . . A.6.18. Logı́stica . . . . . . . . . . . . . . . . . . . A.6.19. Log-logı́stica . . . . . . . . . . . . . . . . . A.6.20. Pareto . . . . . . . . . . . . . . . . . . . . . A.6.21. Gaussiana inversa . . . . . . . . . . . . . . A.6.22. Gompertz . . . . . . . . . . . . . . . . . . . A.6.23. Makeham . . . . . . . . . . . . . . . . . . . A.6.24. Benktander . . . . . . . . . . . . . . . . . . A.6.25. Gumbel . . . . . . . . . . . . . . . . . . . . A.6.26. Weibull . . . . . . . . . . . . . . . . . . . . A.6.27. Fréchet . . . . . . . . . . . . . . . . . . . . A.7. Convergencia . . . . . . . . . . . . . . . . . . . . . A.7.1. Convergencia puntual . . . . . . . . . . . . A.7.2. Convergencia casi segura . . . . . . . . . . . A.7.3. Convergencia en probabilidad . . . . . . . . A.7.4. Convergencia en r-media (o r-ésima media) A.7.5. Convergencia en distribución . . . . . . . . B. Tablas de distribuciones de probabilidad B.1. Cuantiles para la distribución normal estándar B.2. Cuantiles para la distribución Ji-cuadrada . . . B.3. Cuantiles para la distribución t de Student . . B.4. Cuantiles para la distribución F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 343 343 343 344 344 345 346 346 346 347 347 348 348 348 348 349 350 350 350 . . . . . . . . . . . . . . . . . . . . . . . . 351 351 353 354 355 Bibliografı́a 357 Índice analı́tico 361 Índice de figuras 2.1. Gráfica de barras correspondiente a las especies B (blue) u O (orange) de los cangrejos. . . . . . . . . . . . . . . . . . . . . 19 2.2. Gráfica de pay para las especies de cangrejos. . . . . . . . . . 19 2.3. Diagrama de pay para las 5 respuestas de una encuesta. . . . 20 2.4. Histogramas para la caracterı́stica ancho del caparazón de los cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.5. Diagrama de caja y brazos para la caracterı́stica ancho del caparazón de la base de datos de los cangrejos crabs. . . . . . 24 2.6. Diagramas de caja y brazos para la caracterı́stica ancho del caparazón por especie y por sexo para los datos de los cangrejos. 25 2.7. Gráfica de caja y brazos para la caracterı́stica ancho del caparazón para las diferentes variables asociadas a especie y sexo. 26 2.8. Gráfica de dispersión para la base crabs y que ilustra la relación entre las diferentes medidas morfológicas para los cangrejos. 33 2.9. Gráfica de correlación para las medidas morfológicas de los cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.1. Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada y estudió su distribución asintóntica. Se le considera el padre de la estadı́stica. Imagen tomada de commons.wikipedia.org (public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 48 xi xii Índice de figuras 3.2. Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesitan sus héroes y Fisher fue sin duda el héroe de la estadı́stica del siglo XX. Sus ideas transformaron nuestra disciplina de tal forma que hasta un César o un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importante para mı́, es cómo Fisher, en los 1920..., hizo que los estadı́sticos reflexionáramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos citas que hacen alusión a la importancia de las contribuciones de Fisher en la estadı́stica. La distribución que lleva su nombre fue producto del trabajo que realizó con George Snedecor (1881-1974) de la Universidad de Iowa. Imagen tomada de commons.wikipedia.org (public domain). . 3.3. William Sealy Gosset (1876-1937), quien usó el pseudónimo de Student para publicar su trabajo, desarrolló la distribución t como respuesta a problemas prácticos de variedades de cebada, trabajando en la cervecerı́a Guiness. Imagen tomada de commons.wikimedia.org (public domain). . . . . . . . . . . . 55 58 4.1. Karl Pearson con Francis Galton. Ambos fundaron la revista Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.2. Placa English Heritage dedicada a Fisher en la casa Inverforth.108 4.3. Gráfica de la función de verosimilitud para una muestra de tamaño n de la distribución Uniforme continua en el intervalo [0, θ]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.4. Estimación máximo verosı́mil para la familia Gama. . . . . . 125 4.5. Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de alta calidad). . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.6. Comportamiento de las funciones a priori, a posteriori y de verosimilitud para la proporción de marcas defectuosas y distintos valores de la muestra en el ejemplo 4.22. . . . . . . . . 133 4.7. El estimador T1 = X es insesgado para µ en el ejemplo 4.26. . 142 4.8. El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado para σ 2 , pero tiene un error cuadrático medio menor que T2 (ejemplo 4.26). . . . . . . . . . . . . . . . . . . . . . . . . . . 142 4.9. Ilustración de la consistencia de X en el contexto del ejemplo 4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 4.10. Ilustración de la consistencia de S 2 en el contexto del ejemplo 4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 Índice de figuras xiii 5.1. Intervalos correspondientes a 100 muestras para tamaños de muestra 10, 30 y 50, respectivamente y desviación estándar de 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 5.2. Intervalos del 99 % de credibilidad para el ejemplo 5.10. . . . 217 5.3. Intervalos obtenidos por simulación para diferentes valores de σ y distintos tamaños de muestra. . . . . . . . . . . . . . . . 219 6.1. Función potencia del ejemplo 6.1. . . . . . . . . . . . . . . . . 6.2. Funciones potencia del ejemplo 6.2. . . . . . . . . . . . . . . . 6.3. Funciones de densidad de la estadı́stica de prueba S = X bajo ambas hipótesis y tamaños de los errores. . . . . . . . . . . . 6.4. Probabilidad posterior del modelo por tamaño de muestra. . 236 238 246 300 Prólogo Es para mı́ un honor el que los autores me hayan pedido escribir el prólogo a este libro. Lo es porque tengo un respeto muy grande por su trayectoria académica y porque todos ellos fueron destacados estudiantes de la Maestrı́a en Estadı́stica en la que tuve la suerte de participar desde su inicio; de hecho, todos fueron mis alumnos del curso de Inferencia Estadı́stica que durante muchos años he impartido. Es importante hacer notar que algunos de estos autores obtuvieron posteriormente su doctorado mientras que otros atendieron tareas académico-administrativas y de superación. Su participación en el Departamento de Matemáticas de la Facultad de Ciencias es y ha sido de enorme valor. Me tocó estar en el inicio de la Maestrı́a en Estadı́stica e Investigación de Operaciones, que se ubicó dentro del CCH con la participación muy destacada de la Facultad de Ciencias y del ahora IIMAS. Esto, a principios de los años 70, en que se inició formalmente un posgrado en estadı́stica. Esa maestrı́a, junto con otros posgrados, en los 90’s se integraron en el ahora Posgrado en Ciencias Matemáticas de la UNAM, siendo una de sus áreas la estadı́stica y teniendo ya la posibilidad de ofrecer el nivel de doctorado en ese campo particular. En el posgrado, una materia central dentro de la estadı́stica sigue siendo la inferencia. Pues bien, los autores de este libro cursaron la materia de Inferencia Estadı́stica conmigo. Una de ellas la cursó en los inicios, durante los 70’s, otros dos durante los 90’s, y la más reciente, cursó esa materia ya entrado el 2000. Sus experiencias compartidas y el interés por hacer un libro en estadı́stica los llevaron a escribir este tomo que yo califico como excelente. Este libro, además de satisfacer sobradamente necesidades de los alumnos de la Facultad de Ciencias que quieran aprender estadı́stica, contiene material de nivel de maestrı́a. El libro resulta una fuente de consulta y un sólido texto para cursos serios introductorios y para cursos intermedios, incluido, repito, el nivel de maestrı́a. Algunas discusiones hechas en el libro rememoran discusiones en clase cuando he impartido el curso. xv xvi Prólogo Mis felicitaciones por un libro muy necesitado; y me enorgullece como universitario que un libro hecho por universitarios comprometidos tenga una calidad que yo califico de internacional. Me siento muy afortunado también por poder decir que con los autores he mantenido lazos académicos y de amistad por muchos años. Dr. Federico O’Reylli Togno Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas Universidad Nacional Autónoma de México Introducción Se puede decir que la estadı́stica es una disciplina reciente con relación a otras ramas de las matemáticas, no obstante que desde la antigüedad existieron actividades relacionadas con el manejo de cifras, tales como las cuentas y datos vinculados con las poblaciones de las ciudades o, más generalmente, de los estados; situación que posiblemente es la génesis del término “estadı́stica”. En Rao (1997), el estadı́stico hindú Radhakrishna Rao menciona que “la estadı́stica tiene gran antigüedad pero escasa historia”, frase que refleja el hecho de que la estadı́stica es joven como área formal, pero que prácticamente ha estado presente a lo largo de la historia de la humanidad. Entre los cientı́ficos que más han aportado a la estadı́stica para convertirla en la disciplina con el carácter matemático y de importante aplicación para ayudar a explicar fenómenos del mundo real, sobresalen Francis Galton (1822-1911), Karl Pearson (1857-1936), Charles Spearman (1863-1945), Ronald Fisher (1890-1962) y Jerzy Neyman (1894-1981), sólo por mencionar algunos. La inferencia estadı́stica es una disciplina que se basa en gran medida en la probabilidad y que ayuda a resolver problemas haciendo conclusiones de alguna caracterı́stica de la población, usando para ello datos muestrales de la misma. Por ejemplo, los estadı́sticos pueden realizar estudios de opinión, en donde a través del punto de vista de algunos ciudadanos que componen una muestra suficientemente representativa, se puede medir el pulso de temas de interés para el paı́s. La estadı́stica involucra conceptos y resultados que pueden resumirse en grandes temas: análisis exploratorio de datos, distribuciones muestrales, estimación puntual, estimación por intervalo y pruebas de hipótesis, los cuales son fundamentales en el estudio y la aplicación de esta disciplina. Para la lectura de este documento es importante contar con conocimientos de teorı́a de la probabilidad, ası́ como de cálculo diferencial e integral en una y varias variables. xvii Capı́tulo 1 ¿Qué es la estadı́stica? El progreso de la ciencia con frecuencia se adscribe a la experimentación. El investigador lleva a cabo un experimento, una encuesta o un conjunto de mediciones; obtiene datos y con base en ellos se busca sustentar una hipótesis o responder a una pregunta de investigación. Es decir, a partir de un experimento particular, es deseable generalizar hacia la clase de todos los experimentos similares. La estadı́stica no se refiere únicamente a la recolección de datos y a la presentación de cuadros y tablas resumen. Actualmente se comprende como la ciencia que basa la inferencia en datos observados y toma decisiones en términos de incertidumbre. Aunque en su estado actual no puede manejar todas las situaciones que se presentan alrededor de la incertidumbre, constantemente se desarrollan nuevas técnicas de análisis. La estadı́stica está presente en muchos ámbitos: el cientı́fico, el social y el empresarial, sólo por mencionar algunos. Por ejemplo, tanto en la iniciativa privada como en el ámbito gubernamental, es vital contar con un manejo adecuado de la información y el análisis de grandes bases de datos que sirva a los diferentes agentes de la economı́a y la polı́tica al momento de tomar decisiones. Actualmente existen profesionales de la estadı́stica que utilizan diversas técnicas de este campo en empresas privadas, tales como casas encuestadoras que se dedican a hacer estudios de mercado, o bien en industrias relacionadas con diversos campos de la actividad económica. Ejemplos de instituciones en donde el uso de la estadı́stica es fundamental son: el INEGI, las secretarı́as de estado, el IMP, PEMEX, el Banco de México y las aseguradoras, sólo por mencionar algunas, pues el análisis y modelado de datos puede hacerse prácticamente en cualquier entidad en donde se cuente con información de cierto fenómeno o proceso. Adicionalmente, la 1 2 1. ¿Qué es la estadı́stica? estadı́stica juega un papel importante en los estudios de mercado y otros procesos en donde es necesario obtener datos para posteriormente analizarlos y llegar a conclusiones mediante un modelo que dependerá de la naturaleza de dicha información. Algunos estadı́sticos participan en el diseño y validación de encuestas y conteos rápidos relacionados con procesos electorales. Se puede decir entonces que la estadı́stica se ocupa de los métodos cientı́ficos para recolectar, organizar, resumir, presentar y analizar datos usando modelos, ası́ como de obtener conclusiones válidas y tomar decisiones con base en ese análisis. Es la rama de la matemática que utiliza conjuntos de datos para obtener inferencias basadas en el cálculo de probabilidades. En los siguientes párrafos se pretende explicar la relación entre la probabilidad y la estadı́stica, ası́ como establecer la diferencias entre los enfoques para analizar un conjunto de datos. 1.1. La probabilidad y la estadı́stica La teorı́a de probabilidad permite modelar ciertos fenómenos que ocurren en la naturaleza, siendo el modelo básico un espacio de probabilidad (Ω, F, P) y una variable aleatoria X definida en ese espacio. En el contexto paramétrico, dada una variable aleatoria X, se tiene asociada una función de densidad f (x; θ), la cual actúa en función de caracterı́sticas desconocidas llamadas parámetros. Gracias al conocimiento de la función de densidad de probabilidad, y por lo tanto de la función de distribución de una variable aleatoria X, se facilita la construcción de espacios de probabilidad adaptados a fenómenos aleatorios concretos. Es decir, gracias a la teorı́a de la probabilidad se puede construir un modelo para describir una determinada variable aleatoria real a través de su función de distribución. Por ejemplo, gracias a la teorı́a de la probabilidad se pueden hacer aseveraciones como “el número de accidentes que ocurren en una importante intersección vial de la Ciudad de México durante un determinado periodo de tiempo se puede modelar como una variable aleatoria X que tiene una distribución Poisson(λ)” o “la vida (tiempo de supervivencia) de un cierto tipo de foco tiene una distribución Exponencial (λ)”. Asimismo, se pueden contestar preguntas probabilı́sticas relacionadas con la variable aleatoria como: ¿cuál es la probabilidad de que no haya accidentes en ese cruce importante de avenidas en un dı́a determinado? o ¿cuál es la probabilidad de que el foco dure más de un determinado periodo de tiempo? Sin embargo, las respuestas a estas preguntas quedan en términos de parámetros; por ejemplo, si X tiene distribución Poisson(λ), P(X = 0) = e−λ , está en función de λ, donde λ > 0. Si se conociera el 1.2. Enfoques de la estadı́stica 3 valor de λ, serı́a posible obtener un valor numérico para las probabilidades de interés asociadas a la variable aleatoria. De esta manera, si se desea profundizar en la forma de adaptar un modelo probabilı́stico a cada fenómeno concreto, serı́a necesario llevar a cabo observaciones del fenómeno en cuestión con la finalidad de poder hacer conclusiones acerca de los parámetros de una población y llegar a resultados numéricos en el cálculo de probabilidades. Es aquı́ donde la estadı́stica juega un papel importante al analizar e interpretar la información obtenida de una cierta población con la finalidad de poder concluir sobre la ley de probabilidad que rige un fenómeno aleatorio. Este procedimiento se conoce como inferencia estadı́stica o estadı́stica matemática. Cuando se tiene un conjunto de observaciones acerca del fenómeno considerado, se entra al terreno de la estadı́stica con la finalidad de obtener información acerca de la población en estudio con base en un conocimiento parcial o no exhaustivo de dicha población, ya que en la mayorı́a de los casos, una observación exhaustiva es imposible o muy costosa. Por ejemplo, si se desea saber la intención del voto para una elección presidencial, no se encuestará a todos los ciudadanos en edad de votar, sino a una muestra representativa de la población (cómo elegir una muestra representativa, el tamaño adecuado de la misma y la forma de hacer la encuesta es objeto de estudio de otra materia), y con las observaciones obtenidas y los métodos de inferencia estadı́stica se puede decir con cierta precisión el porcentaje de la población que en ese momento votarı́a por cada uno de los candidatos de la contienda electoral. Con frecuencia el término estadı́stica se entiende como el proceso de recolección de datos u observaciones, ası́ como el tratamiento numérico que se le da a estos datos a través de gráficas y medidas que resumen la información, pero es necesario recalcar que el objetivo de la inferencia estadı́stica es obtener conclusiones acerca de alguna caracterı́stica de la población en estudio a través del análisis e interpretación de las observaciones. Sin embargo, el tratamiento numérico de los datos no es menos importante e idealmente un procedimiento de inferencia va antecedido por un tratamiento descriptivo. 1.2. Enfoques de la estadı́stica La estadı́stica se puede analizar desde dos enfoques: el descriptivo y el de inferencia o inferencial. Enfoque descriptivo: resumen y descripción de un conjunto de datos mediante gráficas y medidas descriptivas. 4 1. ¿Qué es la estadı́stica? Enfoque de inferencia: análisis e interpretación de la información obtenida de una muestra de la población para hacer conclusiones generales acerca de las caracterı́sticas desconocidas de dicha población. De acuerdo a lo que se desea conocer del parámetro, la inferencia estadı́stica puede abordarse de la siguiente manera: 1. Estimación puntual: consiste en obtener un valor numérico único para el parámetro, que represente de la mejor manera el proceso que generó las observaciones. 2. Estimación por intervalos: consiste en obtener un rango de valores que el parámetro puede tomar, que represente de la mejor manera el proceso que generó las observaciones. 3. Pruebas de hipótesis: consiste en contrastar dos aseveraciones acerca de la distribución de una variable aleatoria (usualmente representadas en términos de valores que el parámetro puede tomar). Asimismo, la inferencia estadı́stica se puede realizar desde una perspectiva diferente (no clásica) conocida como método Bayesiano o estadı́stica Bayesiana, el cual es un paradigma en el que se asocia una distribución inicial al parámetro y, junto con las observaciones, se obtiene una distribución final para dicho parámetro. Con base en este planteamiento, se hacen inferencias desde la óptica de estimación puntual o por intervalos y de pruebas Bayesianas. También puede hablarse de inferencia estadı́stica paramétrica y no paramétrica. En el primer caso se conoce la forma de la distribución pero se desconocen los parámetros y es sobre éstos que se realizará la inferencia. En el segundo caso se desconocen la forma de la distribución y los parámetros y las inferencias se hacen sobre ciertas caracterı́sticas que no tienen por qué corresponder a parámetros de una distribución. Definición 1.1 Al conjunto de valores que el parámetro θ puede tomar se le llama espacio paramétrico (o parametral) y se le denota por Θ. Ejemplos: En el caso de la distribución Bernoulli Θ = [0, 1]. En el caso de la distribución Poisson Θ = (0, ∞). La inferencia estadı́stica también suele denominarse estadı́stica inductiva o inferencia inductiva, pues va de lo particular a lo general al hacer conclusiones de una población a partir de una muestra representativa de la misma. 1.2. Enfoques de la estadı́stica 5 La necesidad de trabajar con un conjunto reducido de la población está asociada a varios factores, siendo uno de los más importantes el económico. Se puede decir que la población es el conjunto de observaciones o individuos sobre los que se desea información y de ella se extrae un subconjunto al que se denomina muestra. El procedimiento para obtener las observaciones con las cuales se intenta disminuir el grado de desconocimiento de θ debe ser tal que la recolección de datos se realice siempre bajo las mismas condiciones y sin importar los resultados anteriores. En un contexto experimental, la definición de la muestra puede depender de cuáles son los tratamientos que se desea comparar, bajo qué condiciones y si las comparaciones se harán con tamaños de muestra y repeticiones iguales. En la literatura sobre diseño de experimentos se aborda este tipo de planteamiento. Si se hace referencia al estudio de poblaciones, hay diferentes formas de obtener una muestra representativa. Aunque la teorı́a del muestreo requiere una asignatura aparte, a continuación se resumen las principales caracterı́sticas de los muestreos probabilı́sticos más usuales. Muestreo aleatorio simple: se trata de un procedimiento de muestreo (sin remplazo), en el que se seleccionan n unidades de las N en la población, de forma que cualquier posible muestra del mismo tamaño tenga la misma probabilidad de ser elegida. Muestreo por conglomerados: se divide la población en grupos de acuerdo con su proximidad geográfica o de otro tipo (conglomerados). Se busca que cada grupo sea heterogéneo y que tenga representadas todas las caracterı́sticas de la población. Se selecciona una muestra de conglomerados al azar y se toma el conglomerado completo o una muestra del mismo. Muestreo estratificado: se divide la población en grupos homogéneos (estratos) de acuerdo con las caracterı́sticas a estudiar. Por ejemplo, en un estudio de las caracterı́sticas socioeconómicas de una ciudad los estratos pueden ser las colonias de la misma, ya que las colonias suelen presentar caracterı́sticas diferenciales. Se selecciona una muestra aleatoria de cada estrato tratando de que todos los estratos de la población queden representados. En un muestreo estratificado se consideran todos los estratos y en cada uno se considera una muestra de individuos. En el muestreo por conglomerados se seleccionan al azar los conglomerados que serán considerados y una vez elegidos se estudian todos los individuos de cada conglomerado. Existen otros tipos de muestreo, pero todo lo que se verá en los siguientes capı́tulos está pensado para observaciones obtenidas con muestreo aleatorio simple. 6 1. ¿Qué es la estadı́stica? 1.2.1. El concepto de muestra aleatoria El muestreo aleatorio simple garantiza una muestra representativa de la población y la obtención de observaciones independientes. Esta terminologı́a de muestreo puede entenderse si se considera una de las siguientes situaciones que aparecen frecuentemente en la estadı́stica: (1) Se extraen los objetos, uno cada vez, de una colección finita llamada población y se determina una caracterı́stica particular de interés de cada objeto extraı́do. Después de cada observación y antes de la siguiente extracción, se devuelve el objeto extraı́do y se mezcla la población de objetos. (2) Se extraen los objetos de una población finita como en (1), excepto que los objetos no se remplazan. La población de objetos puede ser una colección de personas y la caracterı́stica observada puede ser el peso, color de ojos, preferencia polı́tica o alguna otra. Si se supone que cada selección es aleatoria, el muestreo en (1) recibe el nombre de muestreo aleatorio con remplazo y en (2) muestreo aleatorio sin remplazo o muestreo aleatorio simple. En cierto sentido, el muestreo aleatorio sin remplazo es mejor que el muestreo aleatorio con remplazo, ya que algunas veces la mezcla que se requiere con el remplazo de los objetos no siempre es fácil de conseguir. Considerando los casos extremos, suponga que hay solamente 2 objetos en la población; cuando se extrae uno de ellos, la selección de un segundo objeto proporciona la información completa acerca de la población original si el primero no fue remplazado. Por otro lado, si una población es muy grande con respecto al tamaño de la muestra que va a ser extraı́da, es prácticamente lo mismo si los objetos extraı́dos son o no son remplazados; el muestreo sin remplazo se convierte en muestreo con remplazo cuando el tamaño de la población es infinito. La diferencia básica entre los tipos de muestreo (1) y (2) no está en las distribuciones marginales de las observaciones individuales, porque en ambos casos estas observaciones son idénticamente distribuidas. Sin embargo, en el caso (1) el resultado de cualquier observación no está afectado por los resultados de cualesquiera otras observaciones; las observaciones son fenómenos aleatorios independientes. En el caso (2) las observaciones no son independientes. Hay otro tipo de situación que ocurre continuamente, diferente de (1) y (2), en la cual los resultados son matemáticamente del mismo tipo que (1): 7 1.2. Enfoques de la estadı́stica (3) Las observaciones se obtienen como resultado de realizaciones independientes repetidas de un experimento, bajo condiciones que son idénticas con respecto a los factores que pueden ser controlados. Esta descripción incluye a (1) como un caso especial, aunque no necesariamente se refiere a una “población” tangible de la cual se va a seleccionar un objeto. Sin embargo, es posible imaginar una población muy grande de posibles resultados, en donde en cada repetición del experimento se cuenta con la misma colección que estaba disponible en el primer ensayo. Esto es, repetir el experimento bajo condiciones idénticas significarı́a que el primer resultado es “remplazado” y es nuevamente uno de los candidatos a ser “extraı́dos” la siguiente vez. En ambos tipos de muestreo (1) y (3), las observaciones son independientes e idénticamente distribuidas. El término muestreo aleatorio sin más especificación se referirá a tal proceso. Suponga que cuando se extrae un objeto la caracterı́stica a medir se denota por X. A la distribución de X se le llama la distribución poblacional. Ejemplo 1.1 Una urna contiene cuatro bolas numeradas del 1 al 4. Se extraen 2 aleatoriamente, una cada vez. Sea X1 el número de la primera bola extraı́da y X2 el número de la segunda bola extraı́da. Hay 12 posibles resultados del experimento: (1, 2) (1, 3) (1, 4) (2, 3) (2, 4) (3, 4) (2, 1) (3, 1) (4, 1) (3, 2) (4, 2) (4, 3) Cada uno de estos 12 resultados tiene probabilidad 1/12. A partir de esto, se pueden calcular las distribuciones de X1 y X2 . Por ejemplo, P(X1 = 1) = P[(1, 2), (1, 3) o (1, 4)] = P[(1, 2)] + P[(1, 3)] + P[(1, 4)] = 1 1 1 1 + + = . 12 12 12 4 Similarmente: P(X2 = 1) = P[(2, 1), (3, 1) o (4, 1)] = P[(2, 1)] + P[(3, 1)] + P[(4, 1)] = 1 1 1 1 + + = . 12 12 12 4 De la misma forma se encuentra que para X1 cada uno de los valores posibles 1, 2, 3 y 4 tiene probabilidad 1/4 y que X2 tiene exactamente la misma distribución, la distribución poblacional. 8 1. ¿Qué es la estadı́stica? De esta manera, se diseña un experimento y se lleva a cabo para proporcionar la observación X1 de la caracterı́stica observable X. El experimento se repite bajo las mismas condiciones proporcionando el X2 . El proceso continúa hasta tener n observaciones X1 , X2 , . . . , Xn de la caracterı́stica X; a estas observaciones se les llaman los valores muestrales de X y se dice que constituyen una muestra aleatoria. Note que cuando se ha obtenido una muestra se tienen n observaciones numéricas (x1 , x2 , . . . , xn ), pero cuando se está planificando el procedimiento de muestreo y diseñando el método para obtener inferencias aún no se sabe qué valores numéricos se obtendrán y deben considerarse n variables aleatorias; estas variables aleatorias serán, en el contexto que se discute, independientes e idénticamente distribuidas. Definición 1.2 Si X1 , . . . , Xn es un conjunto de variables aleatorias, independientes e idénticamente distribuidas, entonces se dice que X1 , . . . , Xn es una muestra aleatoria (m.a.). Observación 1.1 Si X1 , . . . , Xn es una muestra aleatoria, entonces su función de densidad conjunta está dada por fX1 ,...,Xn (x1 , . . . , xn ; θ) = n Y f (xi ; θ). i=1 Observación 1.2 La distribución de la muestra aleatoria (o simplemente distribución de la muestra) será la función de densidad conjunta de las variables aleatorias que componen la muestra aleatoria y, por la observación anterior, se calculará como el producto de las densidades marginales de dichas variables. En el siguiente capı́tulo se estudiará el análisis exploratorio de datos y en el capı́tulo 3 se analizarán funciones de la muestra aleatoria y sus caracterı́sticas con la finalidad de usarlas posteriormente en el proceso de estimación de parámetros. Para cerrar este capı́tulo, se abordan brevemente los conceptos de parámetros de localización y escala. 1.3. Familia de localización y escala Una familia de localización y escala es una familia de distribuciones con elementos obtenidos por traslación y cambio de escala de una familia de elementos estándar. 1.3. Familia de localización y escala 9 Sea Z una variable aleatoria con distribución conocida. A las distribuciones de probabilidad de la variable aleatoria X que se pueden definir de la forma: X = a + bZ, a, b ∈ R, b > 0 se le denomina familia de localización y escala construida a partir de la distribución de Z. En particular, si Z es una variable aleatoria continua con función de densidad de probabilidad f (·), la familia de funciones de densidad: x−a 1 , a ∈ R, b > 0 f (x; a, b) = f b b forman la familia de localización y escala de f (x). El parámetro de escala expande a la distribución si b > 1 y la contrae si b < 1. El parámetro de localización a traslada a la densidad por |a| unidades a la derecha si a > 0 o a la izquierda si a < 0. • Si b = 1 se tiene una familia de localización: f (x; a) = f (x − a) . • Si a = 0 se tiene una familia de escala: f (x; b) = 1b f xb . Ejemplo 1.2 La familia de distribuciones normales: f (x; a, b) = 1/2 f (x) = 1 2π 1/2 1 2πb2 1 exp − x2 2 1 2 exp − 2 (x − a) , con a = µ y b = σ 2b Ejemplo 1.3 La familia de distribuciones exponenciales: f (x) = e−x , x > 0 f (x; a, b) = 1 −(x−a)/b e ,x>a b f (x; a) = e−(x−a) , x > a Ejemplo 1.4 La familia de distribuciones Cauchy: f (x) = f (x; a, b) = 1 1 , x∈R π 1 + x2 1 1 , x∈R πb 1 + x−a 2 b Capı́tulo 2 Estadı́stica descriptiva Se ha planteado ya que la recolección de datos es un proceso que requiere planeación. Una vez que los datos están disponibles, su complejidad puede variar tanto en el número, como en el tipo de variables que se miden o registran. Un procedimiento de análisis comienza con la extracción de resúmenes útiles; ası́, cualquier procedimiento inductivo acerca de una población en estudio debe confirmar las hipótesis planteadas mediante el análisis exploratorio. Es por ello que la estadı́stica descriptiva es el inicio de cualquier procedimiento de análisis estadı́stico. En este capı́tulo se proporcionan los elementos básicos para llevar a cabo un análisis exploratorio de datos. 2.1. Introducción La estadı́stica descriptiva se distingue de la inferencia estadı́stica en que la primera tiene como objetivo resumir un conjunto de datos en lugar de utilizarlos para hacer inferencias de la población que se cree que dichos datos representan. Esto generalmente significa que la estadı́stica descriptiva, a diferencia de la inferencia estadı́stica, no se desarrolla sobre la base de la teorı́a de la probabilidad. Su objetivo primario es entonces analizar un grupo determinado, resumiendo los datos de manera que se pueda enfatizar la información relevante que sea útil para el planteamiento de preguntas y modelos. Este tema se puede abordar desde diferentes ángulos, pero considerando el objetivo del presente texto, que está más enfocado a la inferencia estadı́stica, sólo se hace una breve revisión de los conceptos más importantes de la estadı́stica descriptiva. Se utilizan para ello datos que están disponibles en el paquete estadı́stico R, con el fin de ilustrar también el uso y resultados de 11 12 2. Estadı́stica descriptiva este software. La razón principal para usar R es que este paquete es asequible por ser de uso libre y que, además de la popularidad que ha adquirido en los últimos años en el ámbito educativo, se utiliza ampliamente en otros sectores. También se exhiben los términos más importantes del análisis exploratorio de datos. 2.2. Datos y variables Una premisa básica en el análisis estadı́stico es que el origen del conocimiento estadı́stico está en los datos. Cualquier procedimiento inductivo acerca de una población en estudio debe confirmar la fuerza de las diferencias encontradas mediante un procedimiento exploratorio. Es por ello que la estadı́stica descriptiva debe anteceder a cualquier procedimiento de inferencia. Una muestra es una parte de la población obtenida y se entiende por datos a las mediciones u observaciones recolectadas de una muestra. Los individuos son las personas, animales o cosas descritos en un conjunto de datos; a veces se les llaman unidades experimentales. Una variable es cualquier caracterı́stica de un individuo. Las variables pueden tomar distintos valores para distintos individuos. Por ejemplo, los datos para un estudio del nivel socioeconómico y cultural de los estudiantes de la Facultad de Ciencias tienen que hacer referencia a todos los alumnos. Estos son los individuos descritos por el conjunto de datos. Para cada individuo, los datos contienen los valores de variables como la edad en años, el sexo (hombre o mujer), situación laboral (trabaja o no), tipo de horario (matutino, vespertino, mixto), ingreso mensual del principal sostén económico de su familia, tipo de entretenimientos (cine, TV, teatro, otro), práctica de deportes (sı́, no), deporte preferido, entre otros. No existe una única clasificación con respecto a la naturaleza de los datos. A continuación se darán dos clasificaciones de los datos considerando dos criterios: el tipo de escala en la que se miden los datos y la manera en la que se recolectó la información. 2.2.1. Tipos de variables De acuerdo a su tipo, se puede clasificar a las variables en cualitativas y cuantitativas. Los datos cuantitativos son aquellos en los que las observaciones se miden en una escala numérica. Los datos no-numéricos que sólo se pueden clasificar por categorı́as se conocen como datos cualitativos o datos categóricos. 2.2. Datos y variables 13 El número de hijos que tienen las familias en cierto poblado, el sueldo que perciben los trabajadores de cierta empresa, son datos cuantitativos. Sin embargo, el tipo de sangre (O, A, B, AB) de los pacientes de cierto hospital y el estado civil de las personas (soltero, casado, divorciado) son datos categóricos. 2.2.2. Escalas de medición Para considerar la precisión con la que se evalúan los diferentes valores, existen cuatro niveles de medición, los cuales se usarán de acuerdo al tipo de variable que se esté usando. Dato categórico en escala nominal. Como su nombre lo dice, este tipo de variables hace referencia a “nombres”. Básicamente es una clasificación de los datos con respecto a cierto criterio. En esta escala no hay ningún tipo de orden entre los datos. Son simples identificadores y son completamente arbitrarios. La única operación que se puede realizar con este tipo de escala es el de conteo de los datos con el mismo identificador. Ejemplos de datos en esta escala son el tipo de sangre de los pacientes de cierto hospital y el estado civil de las personas. Dato categórico en escala ordinal. Desde un punto de vista formal no tienen un orden; sin embargo, se le puede asignar uno que tenga sentido ya sea “creciente” o “decreciente”. Por ejemplo, pequeño, mediano o grande; o mucho, poco o nada. Los valores de esta escala representan categorı́as con cierto orden asociado pero no en una cantidad especı́fica, es decir, no se puede determinar la distancia entre las categorı́as, sólo es interpretable el orden entre sus valores. Se pueden hacer operaciones de igualdad y “orden de magnitud”. Generalmente representan una cualidad que se está “midiendo” y establecen si una observación tiene más de una cualidad que otra. Un ejemplo de datos en esta escala es el nivel socio-económico de las personas en una ciudad. Dato cuantitativo en escala de intervalo. Mediante esta escala se puede medir exactamente la intensidad con la que se posee una caracterı́stica. Para ello se usa una unidad de medición cuyo origen se denomina “cero flotante” para enfatizar que cuando dicho origen se alcanza no implica la ausencia del atributo. Esta escala representa magnitudes, con la propiedad de igualdad de la distancia entre puntos de escala de la misma amplitud. Aquı́ se puede determinar el orden (formal) entre sus valores, hacerse comparaciones de igualdad, y medir la distancia existente entre cada valor de la escala. La distancia igual entre puntos de la escala significa que puede saberse cuántas unidades 14 2. Estadı́stica descriptiva de más tiene una observación comparada con otra, con respecto a cierta caracterı́stica analizada. El ejemplo por excelencia de este tipo de escala es cualquier escala de temperatura, ya que el cero en ellas no significa que no haya temperatura. Dato cuantitativo en escala de razón. Se dice que esta escala es la más completa. Tiene las mismas propiedades que la escala de intervalo, pero sı́ existe la noción de cero “absoluto”, ya que se sitúa un punto cero fijo que al ser alcanzado implica ausencia de un atributo. En este caso, es posible realizar operaciones aritméticas de producto y cociente, y ası́ comparar mediante proporciones o razones. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo estudiado. Ejemplos de datos en esta escala son longitud, peso, distancia, ingresos, precios, etc. Ahora, suponga que se va a realizar un estudio médico y para ello se dispone de un conjunto de variables referentes a un grupo de pacientes. Las variables son: (a) Género (hombre o mujer). (b) Edad (en años). (c) Raza (asiática, blanca, negra u otras). (d) Fumador (sı́ o no). (e) Presión sanguı́nea sistólica (milı́metros de mercurio). (f) Nivel de calcio en la sangre (microgramos por mililitro). (g) Practica algún deporte o actividad deportiva (1 a 4 dı́as de la semana; 5 a 7 dı́as de la semana; ningún dı́a de la semana). Como variables categóricas se distinguen a género (en escala nominal), raza (en escala nominal), fumador (en escala nominal) y actividad deportiva (en escala ordinal). Como variables cuantitativas se tienen a edad (en escala de razón), presión sanguı́nea (en escala de intervalo) y nivel de calcio (en escala de razón). 2.2.3. Formas de recolección También se puede clasificar a los datos con respecto a la manera en la que se recolectaron. 15 2.3. Los datos y R Los datos en sección cruzada son datos que se recolectan de diferentes elementos o variables en el mismo punto del tiempo (o en el mismo intervalo de tiempo). Los datos en serie de tiempo o longitudes son datos que se recolectan de un mismo elemento o variable en diferentes puntos en el tiempo (o para diferentes periodos de tiempo). 2.3. Los datos y R R es un lenguaje y entorno de programación para análisis estadı́stico y gráfico. Se trata de un proyecto de software libre, resultado de la implementación GNU del lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadı́stica, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. R se puede descargar gratuitamente en la página oficial del proyecto http://www.r-project.org/. Para ilustrar los conceptos fundamentales de la estadı́stica descriptiva, se considerará un conjunto de datos, crabs que se encuentra en la biblioteca de R MASS. Los datos corresponden a un marco de datos (data frame) de 200 renglones y 8 columnas, describiendo 5 medidas morfológicas de 50 cangrejos cada uno de dos colores y de ambos sexos, de la especie Leptograpsus recolectada en Fremantle, W. Australia1 . 2.3.1. Cargando los datos Se cargarán los datos desde R de la siguiente manera: > > > > library(MASS) data(crabs) help(crabs) attach(crabs) Los datos cargados están en el formato data.frame que es un formato que está compuesto de varios campos. La ventaja de este tipo de formato es que se pueden agrupar variables de varios formatos en una sola. Para saber los campos que contiene el data.frame se puede utilizar la instrucción ls() de la siguiente manera: > ls(crabs) [1] "BD" "CL" "CW" "FL" "index" "RW" "sex" "sp" 1 Campbell, N.A. and Mahon, R.J. (1974). A multivariate study of variation in two species of rock crab of genus Leptograpsus. Australian Journal of Zoology 22, 417-425. 16 2. Estadı́stica descriptiva Este conjunto de datos contiene las siguientes columnas: sp especie - “B” o “O” para blue u orange. sex sexo del cangrejo. index ı́ndice 1 a 50, dentro de cada unos de los cuatro grupos. FL tamaño del lóbulo frontal (mm). RW ancho trasero (mm). CL longitud del caparazón (mm). CW ancho del caparazón (mm). BD profundidad del cuerpo (mm). En este punto se tienen las variables listas para realizar el análisis descriptivo. 2.4. Representación gráfica de los datos Una vez que se obtiene una muestra, para entender con más claridad el tipo de información que se está analizando, es muy común representar dicha información a través de tablas o gráficas. Estas representaciones gráficas son muy útiles ya que dan un recurso visual que muchas veces facilita el análisis de la información al mostrar algunos patrones con respecto al comportamiento de las variables que se están estudiando. En un primer curso de estadı́stica se estudian datos asociados a una sola variable. Las representaciones gráficas más comunes son: Tabla de frecuencias. Gráfica de pastel. Gráfica de barras. Histograma. La información categórica generalmente se resume en tablas o gráficamente con gráficas de barras, diagramas de puntos y gráficas de pastel. 2.4. Representación gráfica de los datos 2.4.1. 17 Frecuencia, frecuencia relativa y frecuencia acumulada Suponga que se tienen los n elementos de una muestra de tamaño n, obtenida de una población, con k valores asociados a los eventos observados al realizar el experimento aleatorio que define la muestra, x1 , x2 , x3 , . . . , xk , y que de ésta hay fi resultados idénticos a xi (i ∈ {1, . . . , k}). Los números f1 , f2 , f3 , . . . , fk se conocen como freciencias de ocurrencia de los valores x1 , x2 , x3 , . . . , xk , respectivamente; y satisfacen f1 + · · · + fk = n. Al cociente de una frecuencia fi entre el total de observaciones n (el tamaño de la muestra), se le conoce como frecuencia relativa de ocurrencia del valor xi correspondiente. Representando la frecuencia relativa de xi con fi∗ , se tiene que fi fi∗ = , i ∈ {1, . . . , k}. n A partir de la definición de frecuencia relativa se obtienen de inmediato las condiciones para que un conjunto de números sean frecuencias relativas de los valores de una muestra. Éstas son 0 ≤ f1∗ ≤ · · · ≤ fk∗ ≤ 1 y f1∗ + · · · + fk∗ = 1. Se conoce como frecuencia relativa acumulada de un valor xi , a la suma de frecuencias relativas de todos los valores anteriores o iguales al valor xi . Si Fi representa la frecuencia relativa acumulada de xi entonces Fi = f1∗ + · · · + fi∗ . 2.4.2. Tablas de frecuencias Las tablas son muy usadas para resumir información. En R la función para crear tablas es la función table(). En su uso más simple, table(x) encuentra todos los valores únicos en el vector x y tabula las frecuencias y su ocurrencia. La variable sexo (sex) puede ser tabulada como > table(sex) sex F M 100 100 18 2. Estadı́stica descriptiva Si se quisieran tabular conjuntamente las variables sexo (sex) y la especie del cangrejo (sp), se harı́a de la siguiente manera: > table(sex,sp) sp sex B O F 50 50 M 50 50 2.4.3. Gráficas de barras Los datos categóricos también se pueden resumir de manera gráfica. La representación más común quizá sea la gráfica de barras. Una gráfica de barras es un arreglo simple que acomoda los niveles de la variable en algún orden y representa su frecuencia con una barra. Una gráfica de barras es una gráfica en la que las “barras” representan las frecuencias (o frecuencias relativas) de las diferentes categorı́as. En R, las gráficas de barras se hacen con la función barplot(). Ésta usa un resumen de la información, frecuentemente el que hace la función table(). Los datos resumidos pueden estar en frecuencias o en proporciones. El resultado gráficamente será el mismo, sin embargo, la escala del eje Y será distinto. > barplot(table(sp),xlab="Especie",ylab="Frecuencia") En la figura 2.1 se presenta una gráfica de barras para la base de datos de los cangrejos. 2.4.4. Gráficas de pay o pastel La gráfica de pay o pastel se utiliza para representar las frecuencias relativas o proporciones de las distintas posibles respuestas de una variable categórica. Esta grafica, ası́ como la gráfica de barras es ampliamente utilizada en los medios de difusión de información. Para hacer una gráfica de pay en R se utiliza la función pie(), que utiliza argumentos similares al histograma para cambiar colores y agregar nombres: > pie(table(sp),radius = 0.68, cex=1.1, col = c("cornflowerblue","coral4"), labels=NA, main="Especies") > text(0.1,-0.3,"50%", cex=1.2) > text(0.1,0.3,"50%", cex=1.2) > legend(-1.1,-0.56,c("Orange", "Blue"), fill=c("cornflowerblue","coral4"),cex=0.8) 19 2.4. Representación gráfica de los datos 100 Frecuencia 75 Especie Blue 50 Orange 25 0 B O Figura 2.1: Gráfica de barras correspondiente a las especies B (blue) u O (orange) de los cangrejos. En la figura 2.2 se muestra una gráfica de pay correspondiente a la base de los cangrejos. Especie Orange Blue Figura 2.2: Gráfica de pay para las especies de cangrejos. 20 2. Estadı́stica descriptiva Para ejemplificar el caso de más categorı́as, considere una encuesta con 5 posibles respuestas A, B, C, D y E, codificadas, respectivamente como 1, 2, 3, 4 y 5. Las respuestas obtenidas fueron 4, 2, 3, 2, 1, 2, 3, 3, 3, 3, 4, 3, 5, 3, 3, 2, 2, 4, 3, 2 Para generar el diagrama de pay se realiza lo siguiente: > respuesta<-scan() 1: 4 2 3 2 1 2 3 3 3 3 4 3 5 3 3 2 2 4 3 2 21: Read 20 items La tabla de los resultados obtenidos en la encuesta es: > (Tabla=table(respuesta)) respuesta 1 2 3 4 5 1 6 9 3 1 > names(Tabla) = c("A","B","C","D","E") > pie(Tabla, main="Encuesta") Una gráfica para los datos de la encuesta descritos arriba, puede observarse en la figura 2.3. Respuesta A B C D E Figura 2.3: Diagrama de pay para las 5 respuestas de una encuesta. 21 2.4. Representación gráfica de los datos 2.4.5. Diagrama de tallo y hojas El diagrama de tallo y hojas es una variante del histograma para desplegar la información muestral, especialmente cuando las observaciones tienen dos dı́gitos y no son conjuntos muy grandes de datos. Algo conveniente de este diagrama es el hecho de que se conserva la información de las observaciones en lugar de sólo agruparlas en intervalos. Esta manera de desplegar los datos se obtiene al ordenar las observaciones de acuerdo a su dı́gito principal. Para ilustrar mejor este diagrama, antes de hacerlo en R se construirá el siguiente ejemplo. Supóngase que se tienen las siguientes observaciones: 75 68 93 98 57 85 42 95 70 75 55 62 84 79 80 87 88 74 65 76 69 59 60 90 63 77 62 86 49 84 78 92 64 37 83 73 99 71 48 66 78 72 90 53 79 81 80 77 89 58 62 78 95 63 79 98 64 79 99 65 80 66 80 68 81 69 83 Ordenando los datos se tiene lo siguiente: 37 70 84 42 71 84 48 72 85 49 73 86 53 74 87 55 75 88 57 75 89 58 76 90 59 77 90 60 77 92 62 78 93 Primero se listan los dı́gitos principales a la izquierda de la lı́nea vertical. Después, para cada observación se anota el segundo dı́gito a la derecha de la lı́nea vertical en el renglón de su dı́gito principal. Por último, se ordenan los dı́gitos de cada renglón y a la derecha de la lı́nea para que estén en orden ascendente. Ası́, el diagrama queda de la siguiente manera: > stem(x) 3 4 5 6 7 8 9 2.4.6. 7 289 35789 022345689 01234556778899 00134456789 0023589 Histograma Un histograma es la representación visual de la distribución de un conjunto de datos. Es decir, se intenta tener una idea acerca de cómo se comportan pensando en una función de densidad empı́rica. El histograma tiene algunas similitudes con la gráfica de barras (ver la función barplot()), en el sentido 22 2. Estadı́stica descriptiva que también utiliza barras para indicar una frecuencia, pero a diferencia del diagrama de barras, cada barra en el histograma representa la frecuencia de un intervalo sobre el rango de las observaciones que se tienen. Cuando se elabora un histograma, se toma una decisión acerca de cómo se va a dividir el rango de la muestra en intervalos y cuán altas se dibujarán las barras, dado que únicamente tienen que estar en la proporción correcta. R tiene varios métodos para la selección de estos intervalos (Sturges, Scott y Freedman–Diaconis). Las dos maneras de establecer la altura de las barras son la frecuencia absoluta del intervalo y aquella que hace al área de la barra igual a la frecuencia relativa del intervalo. Bajo este último método, el área total de las barras sumará 1, lo cual es conveniente cuando se está pensando en ajustar el modelo de una distribución de probabilidad. En la función hist(), la longitud de los intervalos está controlada por el parámetro breaks. Este puede ser especificado por el nombre de un algoritmo que los genere, el número de intervalos deseados o la localización exacta de los extremos de los intervalos deseados (breaks). La siguiente instrucción imprime gráficas: 2 renglones, 2 columnas: > par(mfrow=c(2,2)) O, un renglón y 2 columnas: > par(mfrow=c(1,2)) Para graficar los histogramas la instrucción de R es: > hist(CW,breaks="Sturges",freq=TRUE,col="lightgray",main= "Ancho del caparazon", ylab="Frecuencia absoluta") > hist(CW,breaks=30,probability=TRUE,col="gray",main="Ancho del caparazon", ylab="Frecuencia relativa") Los histogramas aparecen en la figura 2.4. Puede notarse que los histogramas anteriores se graficaron de tal modo que muestran la frecuencia absoluta (freq=TRUE o probability=FALSE) y la frecuencia relativa (freq=FALSE o probability=TRUE) de los intervalos dados, respectivamente. Procedimiento y consideraciones para la construcción de una tabla de frecuencias y un histograma 1. Determinar los valores mı́nimo y máximo de las observaciones y calcular la diferencia entre estos valores. A este número se le conoce como rango. 23 2.4. Representación gráfica de los datos Ancho del caparazón Ancho del caparazón 0.06 Frecuencia relativa Frecuencia absoluta 40 30 20 0.04 0.02 10 0 0.00 20 30 40 CW 50 20 30 40 50 CW Figura 2.4: Histogramas para la caracterı́stica ancho del caparazón de los cangrejos. 2. Seleccionar el número de clases M de tal forma que estas clases abarquen toda la información. Usualmente, una forma aproximada para √ elegir el número de clases es M = n ó M = log(n) + 1, donde n es el número total de observaciones. La idea es utilizar suficientes clases para mostrar la variación de los datos pero no tantas como para que haya pocos datos en algunas de las clases. Una regla es que la longitud de las clases debe ser ligeramente mayor que el cociente max−min M donde M es el número de clases. 3. El primer intervalo debe tener extremo inferior ligeramente menor que el mı́nimo de los datos y el último intervalo debe tener extremo superior ligeramente mayor que el máximo de los datos. Los lı́mites de la clase son los valores mı́nimo y máximo en cada clase. La marca de clase es el punto medio del intervalo de clase. 4. Ninguno de los datos debe estar en las fronteras de las clases. 5. Para una tabla de frecuencias se deben enlistar los intervalos de clase y escribir el número de datos en cada clase, fi , y también la frecuencia relativa fi∗ = fni . 24 2. Estadı́stica descriptiva 6. La base de cada barra será la longitud de la clase y la altura será la correspondiente frecuencia de dicha clase (es decir, el número de datos que pertenecen a dicha clase). 2.4.7. Boxplot o diagrama de caja y brazos El boxplot o diagrama de caja y brazos es una manera de representar los datos de una muestra a través de la información de sus cuartiles (ver sección 2.5). Estos diagramas tienen unas lı́neas que indican la variabilidad presente fuera del intervalo intercuatil. Es una gráfica que suministra información sobre los valores mı́nimo y máximo, los cuartiles Q1 , Q2 (mediana) y Q3 , y sobre la existencia de valores atı́picos y la simetrı́a de la distribución. Los diagramas de caja muestran la variación de una muestra sin hacer suposiciones de la distribución probabilı́stica de la cual provienen, es decir, tienen un enfoque no-paramétrico. En R existe la instrucción boxplot() para dibujar este diagrama. En el caso de los datos que se han estado utilizando (crabs): > boxplot(CW,ylab="Ancho del caparazon") Ancho del caparazón La gráfica de caja y brazos para “ancho del caparazón” se muestra en la figura 2.5. 50 40 30 20 Cangrejos Figura 2.5: Diagrama de caja y brazos para la caracterı́stica ancho del caparazón de la base de datos de los cangrejos crabs. También se usan los diagramas de cajas y brazos cuando se busca comparar una variable cuantitativa con una variable cualitativa: 25 2.4. Representación gráfica de los datos > par(mfrow=c(1,2)) > boxplot(CW~sp, xlab="Especie",ylab="Ancho del caparazon") > boxplot(CW~sex, xlab="Sexo",ylab="Ancho del caparazon") Para una gráfica de caja y brazos con estas caracterı́sticas, véase la figura 2.6. 50 40 Especie Blue Orange 30 20 Ancho de caparazón Ancho del caparazón 50 40 Sexo Femenino Masculino 30 20 B O Especie F M Sexo Figura 2.6: Diagramas de caja y brazos para la caracterı́stica ancho del caparazón por especie y por sexo para los datos de los cangrejos. Inclusive se puede comparar una variable cuantitativa con más de una variable cualitativa de manera simultánea: > boxplot(CW~sp+sex, xlab="Especie y Sexo",ylab="Ancho del caparazon") Ver la figura 2.7. Procedimiento para construir un diagrama de caja y brazos 1. Dibujar un eje de medida vertical y marcar Q1 , Q2 (la mediana) y Q3 en este eje. 2. Construir una caja rectangular cuya base inferior es el cuantil Q1 (primer cuartil) y su base superior es el cuantil Q3 (tercer cuartil). 26 2. Estadı́stica descriptiva B O Ancho del caparazón 50 40 Sexo Femenino Masculino 30 20 F M F M Figura 2.7: Gráfica de caja y brazos para la caracterı́stica ancho del caparazón para las diferentes variables asociadas a especie y sexo. 3. Dibujar una lı́nea horizontal dentro de la caja a la altura de la mediana Q2 . 4. Sea RI el rango intercuartil, es decir, RI = Q3 − Q1 . Dibujar un segmento de recta del punto medio de la base inferior de la caja hacia abajo de longitud 1.5 · RI . 5. Dibujar un segmento de recta del punto medio de la base superior de la caja hacia arriba de longitud 1.5 · RI . A estos dos últimos segmentos se les conoce como “brazos”. 6. Marcar en el diagrama con puntos aquellas observaciones que estén por encima y por debajo en una distancia de a lo más 1.5 · RI . A estas observaciones se les conoce como observaciones atı́picas moderadas. 7. Marcar en el diagrama con asteriscos aquellas observaciones que estén por encima y por debajo en una distancia de al menos 1.5 · RI . A estas observaciones se les conoce como observaciones atı́picas extremas. 2.5. Medidas muestrales de tendencia central 2.5. 27 Medidas muestrales de tendencia central Los métodos gráficos vistos en la sección anterior ayudan a visualizar los patrones de un conjunto de observaciones. Para obtener un resumen más objetivo, el siguiente paso será obtener valores numéricos para saber dónde están centrados los datos y la variabilidad presente en ellos. Las dos medidas de tendencia central más comúnmente utilizadas son la media y la mediana. 2.5.1. La media muestral La media muestral de un conjunto de n observaciones x1 , x2 , . . . , xn es la suma de estas observaciones divididas entre n. La media muestral se denota como x. Es decir, Pn xi x = i=1 . n Para calcular la media muestral del ancho del caparazón en R, se puede hacer de la siguiente manera > (sumaCW=sum(CW)) [1] 7282.9 > nCW<-length(CW) > (mediaCW<-sumaCW/nCW) [1] 36.4145 Otra manera es utilizar la función mean() que calcula la media muestral de un conjunto de datos > mean(CW) [1] 36.4145 2.5.2. La mediana muestral Otra medida de tendencia central muestral utilizada es la mediana definida de la siguiente manera. La mediana muestral de un conjunto de n observaciones x1 , x2 , . . . , xn , es el valor mc definido en los siguiente dos casos: Si n es impar, mc es el valor que ocupa la posición n+1 una vez que 2 los datos han sido ordenados, es decir, mc = x(n+1)/2 . Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando n es par, los datos que están en el centro de la muestra x +x ocupan las posiciones n2 y n2 + 1; ası́, mc = (n/2) 2((n/2)+1) . 28 2. Estadı́stica descriptiva Para calcular la mediana muestral en R, se puede construir una función, de acuerdo a la definición anterior, como se especifica a continuación: mediana<-function(x){ n<-length(x) x<-sort(x) # sort() ordena el conjunto de datos if(n%%2==0){ # n%%2 es n modulo 2 med<-(x[n/2]+x[1+(n/2)])/2 }else{ med<-x[ceiling(n/2)]} # ceiling() es la funcion techo return(med) } Aplicando esta función, se tiene lo siguiente: > mediana(CW) [1] 36.8 Existe una función predefinida en R para el cálculo de la mediana muestral, que es median(): > median(CW) [1] 36.8 2.5.3. Porcentiles o percentiles Si el tamaño de la muestra es razonablemente grande, es útil muchas veces extender el concepto de la mediana y dividir los datos ordenados en cuartos. Ası́, el punto que divide a la muestra en dos partes es la mediana y los puntos que dividen a la muestra en cuartos son llamados cuartiles. De manera aún más general se tiene la siguiente definición. El 100 × p percentil es el valor tal que, una vez que se han ordenado los datos de menor a mayor, al menos una proporción del 100 × p % de las observaciones son menores o iguales a este valor. Aunque el término correcto es porcentil, por referirse a porcentaje, es común usar el término percentil. Existen varias maneras equivalentes de calcular los percentiles, aquı́ se proporciona una de ellas: 1. Se ordena la muestra de menor a mayor. 2. Se calcula el producto (tamaño de la muestra) × (proporción) = np. Si np no es entero, el percentil p × 100 será el valor x(dnpe) , donde d·e es la función techo. Si k = np es entero, el percentil p × 100 será el valor x(k) +x(k+1) . 2 2.6. Medidas de dispersión 29 Claramente, los cuartiles son los percentiles 25, 50 y 75. Para el cálculo de los percentiles en R, existe la función quantile(), que recibe la muestra, el valor de p y el método type, la definición dada aquı́ corresponde a type=2, ası́, para calcular el tercer cuartil CW, se hace de la siguiente manera: > quantile(CW,0.75,type=2) 75% 42 Pueden darse diversos valores de p, agrupándolo como un vector. Para calcular los cuartiles 1, 2 y 3 de ambas series se hará de la siguiente manera: > quantile(CW,c(0.25,0.5,0.75),type=2) 25% 50% 75% 31.5 36.8 42.0 2.6. Medidas de dispersión Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media o mediana, o alguna otra medida de tendencia central. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Ası́ se sabe si todos los casos son parecidos o varı́an mucho entre ellos. 2.6.1. Varianza y desviación estándar muestrales Varianza muestral Para calcular la variabilidad de una distribución respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, ası́ que lo que usualmente se toma es un promedio de los cuadrados de las desviaciones. Es decir, la varianza muestral para un conjunto de observaciones x1 , x2 , . . . , xn está definida como: n 1 X 2 2 (xi − x) . s = n − 1 i=1 Para hacer el cálculo en R, se puede hacer lo siguiente: 30 2. Estadı́stica descriptiva > difs.CW=CW-mediaCW # Diferencias respecto a la media > difs.cuad.CW=difs.CW^2 # Diferencias cuadradas > sum.difs.cuad.CW=sum(difs.cuad.CW) # Suma > var.CW=(sum.difs.cuad.CW)/(nCW-1) # Varianza muestral > var.CW # Imprime el resultado [1] 61.96768 Haciendo el cálculo de la varianza muestral para CM con menos variables auxiliares > x=CW # Para hacer la notacion menos pesada > var.CW=sum((x-mean(x))^2)/(length(x)-1) # Varianza muestral > var.CW # Imprimir el resultado [1] 61.96768 Ahora, utilizando la función var(), la cual calcula automáticamente la varianza muestral > var(CW) [1] 61.96768 Desviación estándar muestral La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación tı́pica, o desviación estándar, que se halla como la raı́z cuadrada positiva de la varianza. La desviación tı́pica informa sobre la dispersión de los datos respecto al valor de la media en las mismas unidades que los datos; cuanto mayor sea su valor, más dispersos estarán los datos. Ası́, la desviación estándar muestral estará dada por v u n √ u 1 X 2 s = s2 = t (xi − x) . n − 1 i=1 Haciendo el cálculo en R. La función sqrt() calcula la raı́z cuadrada del valor dado > (desv.est.CW=sqrt(var.CW)) [1] 7.871955 También se puede utilizar la función sd(): > sd(CW) [1] 7.871955 2.6. Medidas de dispersión 2.6.2. 31 Rango muestral Se denomina rango estadı́stico o recorrido estadı́stico al intervalo entre el valor máximo y el valor mı́nimo, por ello tiene las mismas unidades que los datos. El rango muestral es el tamaño del intervalo más pequeño que contiene a todas las observaciones. Permite obtener una idea de la dispersión de los datos: cuanto mayor es el rango, más dispersos están los datos de un conjunto. Para un conjunto de observaciones {x1 , x2 , . . . , xn }, el rango está definido por: Rango = máx {x1 , x2 , . . . , xn } − mı́n {x1 , x2 , . . . , xn } . Haciendo el cálculo en R, > (rango.CW<-max(CW)-min(CW)) [1] 37.5 2.6.3. Rango intercuartil El rango intercuartil es la diferencia entre el tercer y el primer cuartil de una muestra. Es una medida de la dispersión estadı́stica; a diferencia del rango, no se ve afectada de la misma manera por datos atı́picos. Sea Q1 y Q3 los cuartiles 1 y 3 respectivamente de una muestra {x1 , x2 , . . . , xn }, entonces el rango intercuartil estará dado por: rango intercuartil = Q3 − Q1 . Haciendo el cálculo en R: > CW.Q1.Q3<-quantile(CW,c(0.25,0.75),type=2) > (CW.R.I<-diff(CW.Q1.Q3)) 10.5 Resumen de la información y comparativo Se hace ahora un resumen de los resultados obtenidos para el ancho del caparazón de los cangrejos (CW) estudiado. Las estadı́sticas muestrales son: 32 2. Estadı́stica descriptiva Tendencia central Dispersión 2.7. mı́n Q1 x me Q3 máx Rango muestral Rango intercuartil Desv. Estándar Varianza CW 17.1 31.5 36.4145 36.8 42.0 54.6 37.5 10.5 7.871955 61.96768 Otras medidas de resumen Sesgo Se habla de sesgo negativo o hacia la izquierda si la cola izquierda es más larga, es decir, si la distribución está concentrada a la derecha. Se habla de sesgo positivo o hacia la derecha si la cola derecha es más larga, es decir, si la distribución está concentrada a la izquierda. Se define el sesgo como: Sesgo = µ3 . σ3 En este caso, µ3 es el tercer momento alrededor de la media. El sesgo muestral se define como: Pn 1 3 m3 i=1 (xi − x̄) n P . = n 1 3/2 ( n i=1 (xi − x̄)2 )3/2 m2 Curtosis La curtosis se define como: µ4 , σ4 donde µ4 es el cuarto momento alrededor de la media y σ es la desviación estándar. En ocasiones se mide con referencia a la distribución normal que tiene una curtosis igual a 3, µ4 γ2 = 4 − 3. σ 33 2.8. Relaciones lineales entre variables La distribución normal tiene entonces una medida γ2 = 0 y se llama mesocúrtica. Las distribuciones con una curtosis positiva se llaman leptocúrticas y son muy picudas y con colas pesadas. Las distribuciones con curtosis negativa se llaman platicúrticas y tienen picos menores o son aplanadas y con colas ligeras. La curtosis muestral se define como: Pn 1 (xi − x̄)4 m4 n − 3. K = 2 − 3 = 1 Pni=1 m2 ( n i=1 (xi − x̄)2 )2 2.8. Relaciones lineales entre variables Considere las variables aleatorias continuas para la base crabs; si se observa una gráfica de dispersión para ellas, se nota que existe una relación lineal entre las parejas de variables. > pairs(crabs[,4:8]) El resultado de esta instrucción se presenta en la gráfica de dispersión de la figura 2.8. 18 ● ●● ● ● ● ●● ● ●● ● ● ●● ● ●● ●●●● ● ● ● ●● ●● ●●● ● ● ●●● ● ● ● ●●●● ● ● ● ●● ●● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ●●● ● ●● ●● ● ● ● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●●●●●● ● ●● ● ● ●● ●● ●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ●●●● ● ● ●●●● ● ●● ● ● ● ● FL 20 ● ● ● ●●●● ●●● ●● ● ●● ● ● ● ●● ● ● ●●● ● ● ● ● ● ●● ●● ●● ●●●● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●●● ● ●● ●● ● ● ●●● ● ● ● ●● ●●● ●● ●● ● ●● ● ●● ● ● ● ●● ● ● ● ● 6 10 16 ● 20 40 ● ● ● ● ● ● ● ● ●● ●● ●●● ● ● ●● ● ●● ●●●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●●● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ●● ● ●● ●● ● ●● ●● ● ● ● ● ●● ● ●●● ● ● ● ●●● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ●● ● ●● ●● ● ●●● ● ● ●● ●●● 10 15 20 40 ●● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●●● ● ●● ●● ●● ● ●●● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●●● ● ● ●●● ● ●● ●● ● ● ● ● ●●●● ●●● ● ● ●● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ●●● ● ●●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● RW ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ●●● ●● ● ● ● ●●● ● ●● ● ●● ● ● ● ●● ● ● ● ●●●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ●● ●● ●● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●●● ● ●● ● ● ●● ● ● ●● ●●● ● ● ●●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ●●● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●●●● ● ●● ●● ● ● ● ● ● ●●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ●●●●●●●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●●● ●●● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●●●●●●● ● ●●● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●● ● ● ● ●●●● ●● ●●●●● ●● ● ● ● ● ●● ● ●● ● ● ● ●● CL ● ● ● ● ● ● ●● ●●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ●●● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●●●● ● ● ● ● ●●● ● 15 25 35 45 ● ● ● ●●● ● ● ●● ●●● ● ●●●● ● ● ● ●● ● ● ● ● ●●●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● 50 ● ● ●● ● ●● ●●● ● ●●● ●● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●●●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ●● ●● ● ● ●●● ●● ●● ●●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ● ● ● ●● ● ● ●●●● ●●●● ●● ● ● ● ●● ●● ●●●● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ●● ● ● ● ●● ●●● ● ●● ● ●● ● ●●●● ● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ●● ● ● ● ●● ●● ● ●●● ●● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ●●●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●●● ● ●● ● ●● ● ● ● ● ●● ● ●●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ●● ● ● ●● 30 ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ●●● ●● ●● ●● ●● ● ● ●● ● ● ●● ● ●●● ●●● ● ● ● ● ●● ● ● ●●●●● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ●●●●●●● ● ●●●● ●● ● ●●●●● ● ●● ●● ●●● ●● ●●● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ●● ●●● ● ● ●●● ●● ●● ● ● ●● ● ●● ● ●● ●● ● ● ● ● ●● ● ● ● ●● ●●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●●● ●● ●●●●● ● ● ●● ● ● ●● ● ●● ●● ● ●●● ●●● ● ●● ●● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ●● ●●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ●●● ● ● ●● ●● ● ●● ● ● ● ●●● ● ●●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●●● ● ●● ●● ● ●●● ● ●● ●● ● CW ● ● ● ● 10 15 20 14 15 25 35 45 10 ● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ● ● ●●● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ●● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ●●● ● ●●● ● ● ●● ●● ●● ●● ●● ● ● ●● ●● ●● ●●● ● ● ● ●●● ●● ● ●●●● ● ● ● ● ● ● ●●●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●● ●● ● ● ●● ●●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●●●● ● ● ●● ● ●●● ●● ● ●● ● ● ● ● ● ●●● ● ● ●● ● ●● ● ● ●●● ● ●● ● ●●●● ● ●●● ● ● ● ●● 10 15 20 6 BD 10 15 20 Figura 2.8: Gráfica de dispersión para la base crabs y que ilustra la relación entre las diferentes medidas morfológicas para los cangrejos. 34 2. Estadı́stica descriptiva Coeficiente de correlación de Pearson Para dos variables aleatorias continuas X y Y , se define el coeficiente de correlación como: Cov(X, Y ) ρXY = p 2 2 . (σX σY ) Note que −1 ≤ ρXY ≤ 1, ası́ valores cercanos a −1 y 1 indican una fuerte relación lineal con pendiente negativa y positiva, respectivamente. Para una muestra aleatoria de variables (xi , yi ), i = 1, 2, . . . , n; se define el coeficiente de correlación muestral (conocido como coeficiente de correlación de Pearson) de la siguiente manera: Pn (xi − x̄)(yi − ȳ) r = p Pn i=1 . Pn [ i=1 (xi − x̄)2 ] [ i=1 (yi − ȳ)2 ] La información muestral para las variables continuas en los datos crabs, puede resumirse en la gráfica de la figura 2.9, obtenida con la instrucción: 1 FL 0.8 0.6 0.91 RW 0.4 0.2 0.98 0.89 CL 0 −0.2 0.96 0.9 1 CW −0.4 −0.6 0.99 0.89 0.98 0.97 BD −0.8 −1 Figura 2.9: Gráfica de correlación para las medidas morfológicas de los cangrejos. 2.9. Anexo 35 >library(corplot) >corrplot.mixed(cor(crabs[,4:8]),lower="number",upper="color") Note que, como se ha observado en el diagrama o gráfica de dispersión, la asociación lineal es fuerte entre las variables. 2.9. Anexo A continuación se dan las instrucciones para elaborar algunas de las gráficas de este capı́tulo a través de la biblioteca ggplot2 de R. En la siguiente liga se puede encontrar una guı́a rápida para visualización de datos usando ggplot2. https://rstudio.com/wp-content/uploads/2016/12/ ggplot2-cheatsheet-2.1-Spanish.pdf ######## Estadistica descriptiva con ggplot2 para los ######## ######## ejemplos del capı́tulo 2 ######## >library(MASS) >library(ggplot2) >data("crabs") >help("crabs") >ls(crabs) >summary(crabs) >crabplot = ggplot(data=crabs) # GRAFICA DE BARRAS # fill se utiliza para que los ponga de distinto colores de # acuerdo a sp scale_fill_discrete es para modificar # las leyendas >barplot = crabplot + geom_bar(aes(x=sp, fill=sp), alpha=0.4) + labs(x=" ", y="Frecuencia") + scale_fill_brewer(labels=c("Blue","Orange"), guide=guide_legend("Especie"), type = "seq", palette="Set1", direction=-1) >barplot #Las escalas de colores se pueden ver en #RColorBrewer::display.brewer.all() # GRAFICA DE PAY para el ejemplo de los cangrejos >pieplot = crabplot + geom_bar(aes(x=as.factor(1), 36 2. Estadı́stica descriptiva fill=as.factor(sp)), width=1) >pieplot = pieplot + coord_polar(theta ="y") + labs(x="",y="")+ scale_fill_brewer(labels=c("Orange", "Blue"), guide=guide_legend("Especie"), type = "seq", palette="Set1", direction=1) + theme_void() >pieplot # Alternativa: scale_fill_discrete(labels=c("Orange", "Blue"), guide=guide_legend("Especie")) # theme_void() para quitar las coordenadas #Para el ejemplo de la encuesta >respuesta = c(4,2,3,2,1,2,3,3,3,3,4,3,5,3,3,2,2,4,3,2) >t_respuesta = as.data.frame(prop.table(table(respuesta))) >t_respuesta$respuesta = c("A","B","C","D","E") >pieplot_encuesta = ggplot(data=t_respuesta, aes(x=factor(1), y=Freq, fill=as.factor(respuesta))) + geom_bar(width=1, stat="identity") >pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y") + guides(fill=guide_legend("Respuesta")) + labs(x="", y="") + theme_void() >pieplot_encuesta # otra opción para el ejemplo de la encuesta >pieplot_encuesta = ggplot(data=t_respuesta, aes(x=factor(1),y=Freq, fill=as.factor(respuesta))) + geom_bar(width=1, stat="identity") pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y") + scale_fill_brewer(labels=c("A", "B","C","D","E"), guide=guide_legend("Respuesta"), type = "seq", palette="Accent", direction=1) + labs(x="", y="") + theme_void() >pieplot_encuesta #+ guides(fill=guide_legend("Respuesta")) se #sustituyo por scale_fill_brewer # HISTOGRAMA #Frecuencia absoluta >histogram_abs = crabplot + geom_histogram(aes(x=CW), binwidth = 4.755) + labs(title="Ancho del caparazón", 2.9. Anexo 37 y="Frecuencia absoluta") >histogram_abs #Frecuencia relativa >histogram_rel = crabplot + geom_histogram(aes(x=CW, y=..density..),bins=30) + labs(title="Ancho del caparazón", y="Frecuencia relativa") >histogram_rel #Para que aparezcan juntas (ver nota al final de este anexo) >ggplot2.multiplot(histogram_abs, histogram_rel, cols=2) # BOXPLOT >boxplot_cangrejos = crabplot + geom_boxplot(aes(x="", y=CW),fill="blue", alpha=0.3) + labs(x="Cangrejos", y="Ancho del caparazón") + scale_fill_brewer(type = "seq", palette="Set1", direction=-1) >boxplot_cangrejos # Especie >boxplot_especie = crabplot + geom_boxplot(aes(x=as.factor(sp), y=CW, fill=as.factor(sp)), alpha=0.3) + labs(x="Especie", y="Ancho del caparazón") + scale_fill_brewer(labels=c("Blue", "Orange"), guide=guide_legend("Especie"), type = "seq", palette="Set1", direction=-1) >boxplot_especie #Sexo >boxplot_sexo = crabplot + geom_boxplot(aes(x=as.factor(sex), y=CW, fill=as.factor(sex)), alpha=0.3) + labs(x="Sexo", y="Ancho de caparazón")+ scale_fill_brewer(labels=c("Femenino", "Masculino"), guide=guide_legend("Sexo"), type = "seq", palette="Set1", direction=1) >boxplot_sexo >ggplot2.multiplot(boxplot_especie,boxplot_sexo, cols=2) #Sexo/Especie >boxplot_espsex = crabplot + geom_boxplot(aes(x=as.factor(sex), y=CW, fill=as.factor(sex)), alpha=0.3) + 38 2. Estadı́stica descriptiva facet_grid(.~as.factor(sp)) + labs(x="", y="Ancho del caparazón") + scale_fill_brewer(labels=c("Femenino", "Masculino"), guide=guide_legend("Sexo"), type = "seq", palette="Set1", direction=1) >boxplot_espsex # guides(fill=guide_legend("Sexo")) # Nota: para gráficas múltiples usar easyGgplot2 >install.packages("devtools") >library(devtools) >install_github("easyGgplot2","kassambara") >library(easyGgplot2) # Usar este comando para gráficas múltiples en una # figura ggplot2.multiplot(plot1,plot2,plot3,plot4,cols=2) 2.10. Ejercicio Realice un análisis exploratorio para las variables de la base Cars93, incluida en la biblioteca MASS de R. La base considera autos seleccionados aleatoriamente de entre los autos de pasajeros disponibles en el mercado en 19932 , listados por el Consumer Reports issue y el PACE Buying Guide. 2 Lock, R. H. (1993). 1993 New Car Data. Journal of Statistics Education (1). Capı́tulo 3 Estadı́sticas y distribuciones muestrales 3.1. Introducción De acuerdo a la definición 1.2, una muestra aleatoria representa un conjunto de variables aleatorias X1 , . . . , Xn , las cuales son independientes e idénticamente distribuidas. En este capı́tulo se estudiarán las propiedades de funciones de la muestra aleatoria que serán fundamentales en el proceso de inferencia. Definición 3.1 El espacio de las muestras o espacio muestral es el conjunto de valores que puede tomar la muestra aleatoria X1 , . . . , Xn y se denotará por X. Definición 3.2 Una estadı́stica es cualquier función T (X1 , . . . , Xn ) de la muestra aleatoria que no depende de parámetros desconocidos. Se denotará una estadı́stica por T (X1 , . . . , Xn ) o simplemente T (X), donde X = X1 , . . . , Xn . Observación 3.1 Note que una estadı́stica, al ser función de variables aleatorias, es a su vez una variable aleatoria. De manera formal, se está pidiendo implı́citamente que la función T : Rn → Rk sea Borel medible (medible en la σ-álgebra B n ), donde k es la dimensión de la estadı́stica; no obstante, la condición de medibilidad suele omitirse debido a que las funciones de la muestra aleatoria que de manera habitual se utilizan, son claramente 39 40 3. Estadı́sticas y distribuciones muestrales medibles. Pero la importancia de señalar la medibilidad en este momento es enfatizar el hecho de que las estadı́sticas son variables aleatorias, puesto que no es posible anticipar el valor que tomarán al obtener observaciones concretas. Lo anterior tiene la implicación de que será necesario considerar la función de densidad (o de distribución) de las estadı́sticas, lo que a su vez permitirá calcular sus caracterı́sticas tales como la esperanza o la varianza. En este contexto, es común hablar de la distribución muestral de una estadı́stica T (X) al referirse a la distribución de la variable aleatoria T (X). Entre las estadı́sticas más comunes que se utilizarán en procedimientos de inferencia destacan la media muestral, la varianza muestral y las estadı́sticas de orden, las cuales se estudiarán con mayor detalle en este capı́tulo. A continuación se enlistan algunas de estas funciones de la muestra aleatoria con su respectiva notación. T (X) = T (X) = Pn i=1 Xi := X̄ n Pn 2 i=1 (Xi −X̄) n−1 media muestral. := S 2 varianza muestral. T (X) = mı́n {X1 , X2 , . . . , Xn } := X(1) mı́nima estadı́stica de orden. T (X) = máx {X1 , X2 , . . . , Xn } := X(n) máxima estadı́stica de orden. T (X) = 1 n n P i=1 Xir := Mr r-ésimo momento muestral. A continuación se probará que, en general, la esperanza de la media muestral es igual a la media poblacional, mientras que la varianza de la media muestral es la varianza poblacional dividida entre el tamaño de la muestra. Asimismo, la esperanza de la varianza muestral es igual a la varianza poblacional. Proposición 3.1 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces E(X̄) = µ y Var(X̄) = σ2 . n Demostración. Pn E(X̄) = E i=1 n Xi n = 1X 1 E(Xi ) = · nµ = µ. n i=1 n 41 3.1. Introducción Ahora, Pn Var(X̄) = Var i=1 Xi n = n 1 X σ2 nσ 2 . Var(Xi ) = 2 = 2 n i=1 n n A continuación se da una identidad que será de utilidad más adelante. Observación 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), entonces n n X X (Xi − µ)2 = (Xi − X̄)2 + n(X̄ − µ)2 . i=1 (3.1) i=1 Demostración. Ahora se comprobará (3.1): n n X X (Xi − µ)2 = (Xi − X̄ + X̄ − µ)2 i=1 i=1 n X (Xi − X̄)2 + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2 = i=1 = n X (Xi − X̄)2 + 2(X̄ − µ) i=1 = n X n X (Xi − X̄) + n(X̄ − µ)2 i=1 (Xi − X̄)2 + n(X̄ − µ)2 . i=1 En el siguiente resultado se probará que, en general, E(S 2 ) = σ 2 . Proposición 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces E(S 2 ) = σ 2 . 42 3. Estadı́sticas y distribuciones muestrales Demostración. " n # X 1 2 E(S ) = E (Xi − X̄) n−1 i=1 " n # X 1 2 2 E (Xi − µ) − n(X̄ − µ) = n−1 i=1 ( n ) X 1 2 2 = E (Xi − µ) − nE (X̄ − µ) n − 1 i=1 " n # X 1 Var(Xi ) − n · Var(X̄) = n − 1 i=1 1 nσ 2 2 = nσ − n−1 n 2 = σ2 . Ejemplo 3.1 Se quiere conocer la probabilidad θ de obtener sol con una moneda, es decir, se está estudiando la variable aleatoria que toma valores X = 1 si se obtiene sol y X = 0 si se obtiene águila, donde θ = P(X = 1), y para ello se realizarán tres lanzamientos de la moneda. En este caso, f (x; θ) = θx (1 − θ)1−x con x = 0, 1; por lo tanto se está considerando una muestra aleatoria de tamaño tres de la distribución Bernoulli(θ). En la tabla siguiente se muestran los posibles resultados, la distribución de la muestra especificada a través de su función de densidad, ası́ como los valores que pueden tomar las estadı́sticas X y S 2 bajo los diferentes escenarios. Resultados s,s,s s,s,a s,a,s a,s,s a,a,s a,s,a s,a,a a,a,a x1 , x2 , x3 1,1,1 1,1,0 1,0,1 0,1,1 0,0,1 0,1,0 1,0,0 0,0,0 Distribución θ3 2 θ (1 − θ) θ2 (1 − θ) θ2 (1 − θ) θ(1 − θ)2 θ(1 − θ)2 θ(1 − θ)2 (1 − θ)3 x̄ 1 2/3 2/3 2/3 1/3 1/3 1/3 0 s2 0 1/3 1/3 1/3 1/3 1/3 1/3 0 43 3.1. Introducción Entonces, la función de densidad conjunta está dada por fX1 ,X2 ,X3 (x1 , x2 , x3 ) = 3 Y f (xi ; θ) = i=1 3 P 3 Y θxi (1 − θ)1−xi i=1 xi 3− = θi=1 (1 − θ) 3 P i=1 xi , y las funciones de densidad de la media y la varianza muestrales son: (1 − θ)3 si x̄ = 0; 3θ(1 − θ)2 si x̄ = 1/3; fX̄ (x̄) = 3θ2 (1 − θ) si x̄ = 2/3; θ3 si x̄ = 1. ( θ3 + (1 − θ)3 si s2 = 0; fS 2 (s2 ) = 2 2 3θ(1 − θ) + 3θ (1 − θ) si s2 = 1/3. Se obtendrán ahora las caracterı́sticas numéricas de X y S 2 para ilustrar las propiedades que se presentaron previamente. 2 1 E X + 3θ2 (1 − θ) + (1 − θ)3 (0) = θ3 (1) + 3θ(1 − θ)2 3 3 = θ3 + θ 1 − 2θ + θ2 + 2θ2 (1 − θ) = θ3 + θ − 2θ2 + θ3 + 2θ2 − 2θ3 = θ. Por otro lado, 2 2 2 2 1 3 2 2 E X + 3θ (1 − θ) + (1 − θ)3 (0) = θ (1) + 3θ(1 − θ) 3 3 4 2 1 = θ3 + θ 1 − 2θ + θ2 + θ − θ3 3 3 2 2 1 3 4 2 4 3 1 3 = θ + θ− θ + θ + θ − θ 3 3 3 3 3 2 2 1 = θ + θ. 3 3 Y 2 2 1 Var X = θ + θ − θ2 3 3 1 2 1 = − θ + θ 3 3 1 = θ (1 − θ) , 3 44 3. Estadı́sticas y distribuciones muestrales es decir, la varianza poblacional dividida entre el tamaño de muestra. Finalmente, 1 2 3θ(1 − θ)2 + 3θ2 (1 − θ) E S = 3 = θ − 2θ2 + θ3 + θ2 − θ3 = θ − θ2 = θ (1 − θ) . 3.2. Distribución de las estadı́sticas muestrales bajo normalidad Suponiendo ahora que las variables de la muestra aleatoria tienen una distribución normal, se analizará la distribución y las propiedades de la media X̄ y la varianza S 2 muestrales. 3.2.1. Distribución de la media muestral Proposición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N (µ, σ 2 ), entonces X̄ ∼ N (µ, σ 2 /n). Demostración. Se obtendrá la función generadora de momentos de X̄. Para ello, se usará el hecho de que si Xi ∼ N (µ, σ 2 ), la función generadora de momentos de Xi está dada por: 1 2 2 mXi (t) = exp tµ + t σ . 2 Ası́, mX̄ (t) =E(e tX̄ ! Pn n Y Xi t t· i=1 X n )=E e =E en i i=1 n t Y = E e n Xi pues X1 , . . . , Xn son independientes = i=1 n Y i=1 mXi (t/n) 45 3.2. Distribución de las estadı́sticas = n Y t t2 1 e n µ+ 2 · n2 σ 2 pues X1 , . . . , Xn son idénticamente distribuidas i=1 1 2 σ2 n =etµ+ 2 t , 1 2 σ2 n ∴ mX̄ (t) = etµ+ 2 t 2 de donde se concluye que X̄ ∼ N µ, σn . 3.2.2. , La distribución de la varianza muestral Enseguida se revisarán las distribuciones Gama y Ji-cuadrada, las cuales serán de utilidad en los resultados que se analizarán más adelante. La distribución Gama Se dice que la variable aleatoria continua X tiene distribución Gama con parámetros de forma r > 0 y de escala λ > 0, si su función de densidad de probabilidad está dada por f (x; r, λ) = donde Γ(r) = satisface: R∞ 0 λr r−1 −λx x e , x > 0, Γ(r) xr−1 e−x dx es conocida como la función Gama, la cual Γ(r + 1) = rΓ(r) y si r ∈ N entonces Γ(r + 1) = r!. La notación X ∼ Gama(r, λ), significa que X tiene esta distribución. Las expresiones para su media, varianza y función generadora de momentos se resumen a continuación: E(X) = λr , V ar(X) = r λ2 , λ λ−t mX (t) = r . 46 3. Estadı́sticas y distribuciones muestrales La distribución Ji-cuadrada es un caso particular de la distribución Gama, de tal manera que las propiedades de la segunda pueden utilizarse para deducir las de la primera, la cual se presenta a continuación. Distribución Ji-cuadrada Se dice que la variable aleatoria continua X tiene distribución Ji-cuadrada con k grados de libertad si su función de densidad de probabilidad está dada por f (x; k) = 1 k/2 k 1 2 x 2 −1 e− 2 x , k Γ 2 x > 0. Se denota como X ∼ χ2(k) . Además: E(X) = k/2 1/2 Var(X) = = k, k/2 1/4 = 2k, k 1/2 1 mx (t) = ( 1/2−t ) 2 = ( 1−2t )k/2 . Estas propiedades pueden deducirse de las expresiones correspondientes para la distribución Gama, notando que la distribución Ji-cuadrada es un caso particular con r = k2 y λ = 12 . El siguiente resultado establece una relación entre la distribución normal y la distribución Ji-cuadrada. Teorema 3.1 Sean X1 , . . . , Xn variables aleatorias independientes tales que i ∀i ∈ {1, . . . , n}, Xi ∼ N (µi , σi2 ). Sea Zi = Xiσ−µ , entonces: i 1. Zi2 ∼ χ2(1) . 2. n P i=1 Zi2 ∼ χ2(n) . Demostración. 1. Como Zi ∼ N (0, 1), entonces 47 3.2. Distribución de las estadı́sticas mZi2 (t) = E e tZi2 Z ∞ 2 2 1 etzi √ e−zi /2 dzi 2π −∞ Z ∞ 1 − 1 zi2 (1−2t) √ e 2 dzi = 2π −∞ r Z ∞ 1 2 1 1 q = e− 2 zi (1−2t) dzi 1 − 2t −∞ 2π( 1 ) 1−2t r Z ∞ 2 1 1 1 1 q e− 2 · 1/(1−2t) zi dzi = 1 − 2t −∞ 2π( 1 ) 1−2t {z } | = 1 = 1 1 − 2t 1/2 , la cual corresponde a la función generadora de momentos de una distribución χ2(1) . 2. Para la segunda parte se utilizará el hecho de que la suma de variables aleatorias independientes con distribución Gama tiene también distribución Gama con parámetro de forma igual a la suma de los parámetros de forma de las variables que componen la suma, cuando el parámetro de escala es el mismo para todas las variables aleatorias; además de que la distribución Ji-cuadrada es un caso particular de la distribución Gama. OP bien, calculando directamente la función generadora de n momentos de i=1 Zi2 : mPn i=1 Zi2 (t) = n Y i=1 mZi2 (t) = n Y i=1 1 1 − 2t 1/2 = 1 1 − 2t n/2 . En el siguiente resultado se analizará la distribución de S 2 . La primera parte se refiere a la independencia entre X y el vector de desviaciones (X1 − X̄, . . . , Xn − X̄), la cual se justificará de dos formas: usando la función generadora de momentos y mediante una transformación. Otra manera de abordar este resultado es a través de la independencia entre una forma lineal y una forma cuadrática y las propiedades de la distribución normal multivariada (ver Rencher y Schaalje (2008)); sin embargo, en este texto no se estudiará ese enfoque. 48 3. Estadı́sticas y distribuciones muestrales Teorema 3.2 Considere a X1 , . . . , Xn una muestra aleatoria de la distribución N (µ, σ 2 ). Entonces 1. X̄ y el vector (X1 − X̄, . . . , Xn − X̄) son independientes. 2. X̄ y S 2 son independientes. 3. (n−1)S 2 σ2 ∼ χ2(n−1) . 4. E(S 2 ) = σ 2 y Var(S 2 ) = 2σ 4 n−1 . Figura 3.1: Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada y estudió su distribución asintóntica. Se le considera el padre de la estadı́stica. Imagen tomada de commons.wikipedia.org (public domain). 49 3.2. Distribución de las estadı́sticas Demostración. 1. Se considera la distribución conjunta de Y1 , Y2 , . . . , Yn , donde: Y1 = X̄, Y2 = X2 − X̄, Y3 = X3 − X̄, . . . , Yn = Xn − X̄. Con este cambio de variable, = X̄ − X2 − X̄ − · · · − Xn − X̄ Y1 − Y2 − Y3 − · · · − Yn = nX̄ − X2 − · · · − Xn = X1 + X2 + · · · + Xn − X2 − · · · − Xn = X1 . Expresando las Xi ’s en términos de las Yi ’s se obtiene: X1 = Y1 − Y2 − Y3 − · · · − Yn , X2 = Y1 + Y2 , X3 = Y1 + Y3 , .. . .. . Xn = Y1 + Yn . El Jacobiano de esta transformación es igual a n, pues la matriz tiene la forma: 1 1 1 1 .. . −1 1 0 0 .. . −1 0 1 0 .. . −1 0 0 1 .. . ··· ··· ··· ··· .. . −1 0 0 0 .. . 1 0 0 0 ··· 1 ∂Xi ∂Yj , la cual se puede transformar mediante operaciones elementales de renglones: para cada i, 2 ≤ i ≤ n, se suma el renglón i-ésimo al primer 50 3. Estadı́sticas y distribuciones muestrales renglón, obteniendo la matriz: n 0 1 1 1 0 1 0 .. .. . . 1 0 0 0 0 1 0 0 1 .. .. . . 0 0 0 ··· ··· ··· ··· .. . 0 0 0 0 .. . ··· 1 , cuyo determinante es: 1 0 n . .. 0 1 0 0 0 0 0 ··· ··· .. . 0 0 .. . ··· 1 = n. Por otro lado, de acuerdo a (3.1): n X 2 (xi − µ) = i=1 n X 2 (xi − x̄ + x̄ − µ) i=1 = n X 2 2 (xi − x̄) + n (x̄ − µ) , i=1 la función de densidad conjunta de X1 , X2 , . . . , Xn (la muestra aleatoria de la distribución N µ, σ 2 ) se puede escribir como: n Pni=1 (xi −x̄)2 n(x̄−µ)2 − − 2σ2 1 2σ 2 2 fX1 ,...,Xn x1 , . . . , xn ; µ, σ = √ e , 2πσ con −∞ < xi < ∞, i = 1, 2, . . . , n. Como y1 = x y, por lo tanto, x1 − x = −y2 − y3 − · · · − yn , la función de densidad conjunta de Y1 , Y2 , . . . , Yn es: n X 2 yi n (−y2 − y3 − · · · − yn )2 1 n(y1 − µ)2 i=2 , (n) √ exp − − − 2σ 2 2σ 2 2σ 2 2πσ −∞ < yi < ∞, i = 1, 2, . . . , n. El resultado obtenido es producto de la función de densidad de Y1 , es decir, de 1 (y1 − µ)2 p exp − , −∞ < y1 < ∞, 2σ 2 /n 2πσ 2 /n 51 3.2. Distribución de las estadı́sticas y una función de y2 , . . . , yn . De esta manera, Y1 es independiente de las n − 1 variables aleatorias Y2 , Y3 , . . . , Yn y la función de y2 , . . . , yn es la función de densidad de Y2 , Y3 , . . . , Yn . En conclusión, Y1 = X es independiente de −Y2 −Y3 −· · ·−Yn = X1 −X, Y2 = X2 −X, . . . , Yn = Xn − X. Pn (X −X̄)2 2. X̄ y S 2 son independientes porque S 2 = i=1n−1i es función de (X1 − X̄, . . . , Xn − X̄). O bien, puede verificarse notando que la variable W1 = n(Y1 − µ)2 n(X − µ)2 = 2 σ σ2 es independiente de: n X (Xi − X)2 W2 = i=1 (−Y2 − · · · − Yn )2 + Yi2 i=2 = σ2 n X σ2 . 3. Observe que (n − 1)S 2 = σ2 Pn i=1 (Xi σ2 − X̄)2 Usando nuevamente la identidad n n X X (Xi − µ)2 = (Xi − X̄)2 + n(X̄ − µ)2 i=1 i=1 se tiene que Pn i=1 (Xi σ2 n P − µ)2 Pn = i=1 (Xi σ2 − X̄)2 + n(X̄ − µ)2 σ2 (3.2) (Xi −µ)2 2 2 Pn Pero note que = i=1 Xiσ−µ ∼ χ2(n) y también n(X̄−µ) = σ2 σ2 2 X̄−µ √ ∼ χ2(1) ; y como X̄ es independiente de X1 − X̄, . . . , Xn − X̄, σ/ n entonces Pn 2 i=1 (Xi − X̄) ∼ χ2(n−1) , 2 σ i=1 debido a que bajo el supuesto de independencia y por (3.2), la función P generadora de momentos de n 2 i=1 (Xi −µ) σ2 se puede escribir como el 52 3. Estadı́sticas y distribuciones muestrales producto de las funciones generadoras de W = es decir: −n/2 (1 − 2t) = mW (t) × (1 − 2t) Pn −1/2 2 i=1 (Xi −X̄) σ2 , y n(X̄−µ)2 , σ2 t < 1/2 de donde, −n/2+1/2 mW (t) = (1 − 2t) = (1 − 2t) −(n−1)/2 . 2 ∴ (n − 1)S ∼ χ2(n−1) . σ2 4. Anteriormente se probó que E(S 2 ) = σ 2 , sin embargo conociendo ya 2 , se puede obtener de la siguiente manera, la distribución de (n−1)S σ2 además de deducir la varianza correspondiente. 2 Como (n−1)S ∼ χ2(n−1) , entonces σ2 (n − 1)S 2 (n − 1) E E S 2 = n − 1 ⇒ E S 2 = σ2 . =n−1⇒ 2 2 σ σ 2 También, como (n−1)S ∼ χ2(n−1) , se tiene que σ2 (n − 1)S 2 (n − 1)2 Var(S 2 ) = 2(n − 1) Var = 2(n − 1) ⇒ 2 σ σ4 2(n − 1)σ 4 2σ 4 ⇒ Var(S 2 ) = . = 2 (n − 1) n−1 2σ 4 ∴ Var S 2 = . n−1 Demostración. Demostración alternativa para las partes 1, 2 y 3: Se define la siguiente transformación: Y1 Y2 Y3 Yn 1 √ (X1 + · · · + Xn ), n 1 = √ (X1 − X2 ), 2 1 = √ (X1 + X2 − 2X3 ), 6 .. . 1 = p (X1 + X2 + · · · + Xn−1 − (n − 1)Xn ). n(n − 1) = 53 3.2. Distribución de las estadı́sticas Para la cual, la matriz Jacobiana correspondiente es: √1 √1 √1 √1 ... n n n n −1 √1 √ 0 . . . 0 2 2 −2 √1 √1 √ ··· 0 6 6 6 J = .. .. .. . . . √ 1 √ 1 √ 1 · · · √−(n−1) n(n−1) n(n−1) n(n−1) . n(n−1) Esta matriz es una matriz ortogonal, esto significa que JJ t = J t J = I, por lo tanto es posible escribir: | det(J)| = | det(J t )| = | det(JJ t )1/2 | = 1. Ahora, la función de densidad conjunta de X1 , X2 , . . . , Xn es: n Y 1 1 2 √ fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = exp − 2 (xi − µ) 2σ 2πσ i=1 ( ) n n 1 1 X 2 = √ exp − 2 (xi − µ) 2σ i=1 2πσ ) ( n n 1 1 X 2 (x − 2µxi + µ2 ) , = √ exp − 2 2σ i=1 i 2πσ para −∞ < x1 , x2 , . . . , xn < ∞. Entonces la función de densidad conjunta de Y1 , . . . , Yn es: ( !) n n X √ 1 1 2 2 √ yi − 2µ ny1 + nµ g(y1 , y2 , . . . , yn ) = exp − 2 2σ 2πσ i=1 ( " n #) n √ 1 1 X 2 2 √ = exp − 2 , y + (y1 − nµ) 2σ i=2 i 2πσ Pn 2 donde −∞ < y1 , y2 , . . . , yn < ∞. Además puede verse que i=1 xi = Pn 2 i=1 yi , esto puede verificarse desarrollando para diferentes valores de n; por ejemplo, para n = 2 : Y12 + Y22 1 1 (X1 + X2 )2 + (X1 − X2 )2 2 2 1 2 1 1 1 = X1 + X1 X2 + X22 + X12 − X1 X2 + X22 2 2 2 2 = X12 + X22 . = 54 3. Estadı́sticas y distribuciones muestrales Note que la función de densidad conjunta de Y1 , . . . , Yn puede reescribirse como: ( ) n−1 n X √ 1 1 1 1 √ √ exp − 2 y2 , exp − 2 (y1 − nµ)2 2σ 2σ i=2 i 2πσ 2πσ √ donde se observa que Y1 se distribuye como una N ( nµ, σ 2 ) y que Y1 , . . . , Yn son variables aleatorias independientes con una distribución N (0, σ 2 ) para Y2 , . . . , Yn . De la transformación definida, se puede escribir: X̄ = n−1/2 Y1 y n n n n X X X X (Xi − X̄)2 = Xi2 − nX̄ 2 = Yi2 − Y12 = Yi2 , i=1 i=1 i=1 i=2 Pn concluyendo que X̄ es función de Y1 únicamente y que i=1 (Xi − X̄)2 depende funcionalmente Pnde Y2 , . . . , Yn . Pero Y1 y Y2 , . . . , Yn son independientes, por lo que X̄ y i=1 (Xi − X̄)2 son independientes. √ Como X̄ = n−1/2 Y1 donde Y1 ∼ N ( nµ, σ 2 ) entonces la distribución 2 P Pn Y 2 2 n de X̄ es N (µ, σn ). Ahora, i=1 (Xiσ−2X̄) = i=2 σi2 , que es una suma de (n − 1) variables Ji-cuadradas independientes, por lo tanto tiene distribución χ2n−1 . Ahora se presentarán dos distribuciones de probabilidad importantes en la inferencia estadı́stica: la F de Fisher y la t de Student, ası́ como las propiedades que serán de utilidad más adelante. 3.2.3. La distribución F de Fisher y el cociente de varianzas muestrales Distribución F de Fisher Se dice que una variable aleatoria X tiene la distribución F de Fisher con parámetros m y n (m y n grados de libertad), si su función de densidad está dada por: m−2 m m/2 Γ( m+n x 2 2 ) f (x; m, n) = x > 0, m, n ∈ N+ . m+n n m )Γ( ) Γ( m n 2 [1 + ( n )x] 2 2 Se denota como X ∼ F (m, n). Teorema 3.3 Si U y V son variables aleatorias independientes tales que U ∼ χ2(m) y V ∼ χ2(n) , entonces U/m ∼ F (m, n). V /n 3.2. Distribución de las estadı́sticas 55 Figura 3.2: Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesitan sus héroes y Fisher fue sin duda el héroe de la estadı́stica del siglo XX. Sus ideas transformaron nuestra disciplina de tal forma que hasta un César o un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importante para mı́, es cómo Fisher, en los 1920..., hizo que los estadı́sticos reflexionáramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos citas que hacen alusión a la importancia de las contribuciones de Fisher en la estadı́stica. La distribución que lleva su nombre fue producto del trabajo que realizó con George Snedecor (1881-1974) de la Universidad de Iowa. Imagen tomada de commons.wikipedia.org (public domain). Demostración. Para probar este resultado se utilizará el teorema de cambio de variable. Sean X= U/m nU = V /n mV y Y = V. La función de densidad conjunta de U y V está dada por fU,V (u, v) = fU (u)fV (v) = = 1 m/2 1 n/2 1 1 m n −1 − u 2 2 2 −1 e− 2 v u2 e 2 n v Γ( m ) Γ( ) 2 2 1 (m+n)/2 n − 21 (u+v) m 2 u 2 −1 v 2 −1 . n e Γ( m )Γ( ) 2 2 56 3. Estadı́sticas y distribuciones muestrales Como U = m n XY y además V = Y , entonces el Jacobiano de la transformación está dado por J= m ny m nx 0 1 = m y. n La función de densidad conjunta de (X, Y ) está determinada por fX,Y (x, y) = = m+n m m2 −1 n (1) 2 m − 12 ( m n x+1)y y 2 −1 y · 2m e xy n Γ( 2 )Γ( n2 ) n m+n m m2 m+n ( 12 ) 2 m 1 m y 2 −1 x 2 −1 e− 2 ( n x+1)y . m n Γ( 2 )Γ( 2 ) n Y como la densidad marginal de X está dada por Z ∞ fX (x) = fX,Y (x, y)dy, −∞ se tiene que: fX (x) = = m+n m m2 m Z ∞ m+n ( 12 ) 2 1 m x 2 −1 y 2 −1 e− 2 ( n x+1)y dy n Γ( m )Γ( ) n 0 2 2 m 1 m+n 2 (2) Γ( m+n m 2 m −1 2 ) x2 m+n m n 1 m Γ( 2 )Γ( 2 ) n [ ( x + 1)] 2 2 = Γ( m+n 2 ) n )Γ( Γ( m 2 2) · m−2 m 2 2 (m n) x m+n m ( n x + 1) 2 n , que corresponde a la función de densidad de una variable aleatoria con distribución F , es decir, X = U/m V /n ∼ F (m, n). La distribución F en el marco del muestreo de la distribución normal Sean X1 , X2 , . . . , Xm+1 una muestra aleatoria de la distribución N (µx , σx2 ) y Y1 , Y2 , . . . , Yn+1 una muestra aleatoria de la distribución N (µy , σy2 ), de tal manera que ambas muestras son independientes entre sı́. Pm+1 1 En este caso X̄ = m+1 i=1 Xi , Ȳ = Pn+1 1 2 2 X̄) y Sy = n j=1 (Yj − Ȳ )2 . 1 n+1 Pn+1 j=1 Yj , Sx2 = 1 m Pm+1 i=1 (Xi − 3.2. Distribución de las estadı́sticas 57 Entonces, nSy2 mSx2 2 ∼ χ y ∼ χ2(n) . (m) σx2 σy2 Por el teorema anterior, se concluye que: Sx2 /σx2 ∼ F (m, n). Sy2 /σy2 3.2.4. La distribución t de Student y algunas estadı́sticas relacionadas Distribución t de Student Se dice que una variable aleatoria continua X tiene distribución t de Student con k grados de libertad, si su función de densidad está dada por f (x; k) = Γ( k+1 1 2 ) 1 √ , con k = 1, 2, . . . 2 k+1 Γ( k2 ) kπ (1 + xk ) 2 Se denota como X ∼ t(k) . Teorema 3.4 Si Z y U son variables aleatorias independientes tales que Z ∼ N (0, 1) y U ∼ χ2(k) , entonces √Z ∼ t(k) . U/k Demostración. La prueba de este resultado es similar a la del teorema 3.3, definiendo las variables Z X=p y Y = U. U/k La distribución t a partir de una muestra con distribución normal Si X1 , . . . , Xn es una muestra aleatoria de la distribución normal N µ, σ 2 , se sabe que σ2 X ∼ N µ, , n de donde: Z= X −µ √ ∼ N (0, 1) . σ/ n 58 3. Estadı́sticas y distribuciones muestrales Figura 3.3: William Sealy Gosset (1876-1937), quien usó el pseudónimo de Student para publicar su trabajo, desarrolló la distribución t como respuesta a problemas prácticos de variedades de cebada, trabajando en la cervecerı́a Guiness. Imagen tomada de commons.wikimedia.org (public domain). Por otra parte: (n − 1) S 2 ∼ χ2(n−1) . σ2 Por el teorema 3.4, X−µ √ σ/ n q (n−1)S 2 σ 2 (n−1) = X −µ √ ∼ t(n−1) . S/ n Ahora considere a X1 , . . . , Xm una muestra aleatoria de la distribución N µX , σ 2 y a Y1 , . . . , Yn una muestra aleatoria de la distribución N µY , σ 2 , tales que Xi es independiente de Yj , i {1, . . . , m} y j {1, . . . , n} . Por los resultados vistos previamente, se puede concluir que σ2 σ2 X ∼ N µX , y Y ∼ N µY , , (3.3) m n 59 3.3. Estadı́sticas de orden mientras que 2 (m − 1) SX ∼ χ2(m−1) σ2 y (n − 1) SY2 ∼ χ2(n−1) σ2 (3.4) De (3.3) se tiene que X −Y ∼N µX − µY , σ2 σ2 + m n , y por lo tanto, X − Y − (µX − µY ) q ∼ N (0, 1) . 1 σ2 m + n1 De (3.4) y las propiedades de la distribución Ji-cuadrada se sabe que: 2 + (n − 1) SY2 (m − 1) SX ∼ χ2(m+n−2) . σ2 Ası́ que por el teorema 3.4 se concluye que X−Y −(µX −µY ) q 1 1 σ2 ( m +n ) q 2 +(n−1)S 2 (m−1)SX Y σ 2 (m+n−2) =q X − Y − (µX − µY ) 2 +(n−1)S 2 (m−1)SX Y (m+n−2) 1 m + 1 n , tiene distribución t de Student con m + n − 2 grados de libertad. 3.3. Estadı́sticas de orden Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ). Considérese la muestra ordenada en forma ascendente X(1) ≤ X(2) ≤ . . . ≤ X(n) , sus elementos son llamados estadı́sticas de orden. Para facilitar la notación, sea X(i) := Yi . Las Yi0 s no son independientes, pues si Yj ≥ y entonces Yj+1 ≥ y, y en general Yi no tiene por qué coincidir con Xi . Ası́, por ejemplo, Yn = máx {X1 , . . . , Xn } puede ser cualquiera de las Xi0 s : X1 si X1 ≥ X2 , . . . , Xn . X2 si X2 ≥ X1 , X3 , . . . , Xn . Yn = .. .. . . Xn si Xn ≥ X1 , . . . , Xn−1 . En los siguientes párrafos se deducirán las funciones de distribución y densidad para las estadı́sticas de orden, únicamente para el caso continuo. 60 3. Estadı́sticas y distribuciones muestrales 3.3.1. r-ésima estadı́stica de orden (Yr ) Sea X1 , . . . , Xn una muestra aleatoria de una distribución continua con función de densidad f (x; θ) y función de distribución F (x; θ). Para obtener FYr (y) = P(Yr ≤ y), observe que el evento {Yr ≤ y} ocurre si y Pn sólo si al menos r de las Xi ’s son menores o iguales a y, es decir si i=1 Zi ≥ r, donde ( 1 si Xi ≤ y, Zi = 0 si Xi > y. Note que Zi ∼ Bernoulli[P(Xi ≤ y)], entonces | {z } Pn i=1 Zi ∼ Bin(n, F (y)). F (y) Por lo tanto, n X FYr (y) = P(Yr ≤ y) = P ! Zi ≥ r j=r i=1 ∴ FYr (y) = n X n j=r = n X n j j [F (y)]j [1 − F (y)]n−j . [F (y)]j [1 − F (y)]n−j . Usando este resultado se obtiene la distribución de Y1 , la mı́nima estadı́stica de orden, de la siguiente manera: FY1 (y) = n X n [F (y)]j [1 − F (y)]n−j j j=1 =[F (y) + 1 − F (y)]n − [1 − F (y)]n =1 − [1 − F (y)]n . Y diferenciando se deduce la función de densidad correspondiente: fY1 (y) = n[1 − F (y)]n−1 f (y). De la misma forma, se obtiene la distribución de la máxima estadı́stica de orden Yn : FYn (y) = [F (y)]n . (3.5) De donde: fYn (y) = n[F (y)]n−1 f (y). 61 3.3. Estadı́sticas de orden 3.3.2. Distribución conjunta de las estadı́sticas de orden mı́nima y máxima En teorı́a de la probabilidad se estudia que una propiedad de la función de distribución de dos variables FX,Y (x, y) es la siguiente: P[a < X ≤ b, c < Y ≤ d] = FX,Y (a, c) + FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c). Lo que, junto con las otras propiedades: lı́m FX,Y (x, y) = lı́m FX,Y (x, y) = 0 x→−∞ y→−∞ y lı́m FX,Y (x, y) = FX (x) y→∞ conduce a: P[y1 < Y1 , Yn ≤ yn ] = FYn (yn ) − FY1 ,Yn (y1 , yn ). (3.6) Por otro lado, se tiene que, por ser Y1 y Yn la mı́nima y la máxima estadı́sticas de orden, se satisface: P(y1 < Y1 , Yn ≤ yn ) =P(y1 < X1 ≤ yn , y1 < X2 ≤ yn , . . . , y1 < Xn ≤ yn ) n n Y Y (F (yn ) − F (y1 )) P[y1 < Xi ≤ yn ] = = i=1 i=1 n =(F (yn ) − F (y1 )) . Por lo tanto, P(y1 < Y1 , Yn ≤ yn ) = (F (yn ) − F (y1 ))n . (3.7) Igualando (3.6) y (3.7) se obtiene que: FYn (yn ) − FY1 ,Yn (y1 , yn ) = (F (yn ) − F (y1 ))n . De esta manera, FY1 ,Yn (y1 , yn ) = FYn (yn )−(F (yn )−F (y1 ))n . Y por (3.5) se llega a que: FY1 ,Yn (y1 , yn ) = [F (yn )]n − (F (yn ) − F (y1 ))n . Para obtener fY1 ,Yn (y1 , yn ) se usará la propiedad que relaciona a las funciones de densidad y de distribución para el caso de dos variables, a saber, ∂2 FX,Y (x, y) = fX,Y (x, y) , ∂y∂x 62 3. Estadı́sticas y distribuciones muestrales ası́: ∂ FY ,Y (y1 , yn ) = n(F (yn ) − F (y1 ))n−1 f (y1 ), ∂y1 1 n y ∂2 FY ,Y (y1 , yn ) = nf (y1 )(n − 1)(F (yn ) − F (y1 ))n−2 f (yn ). ∂yn ∂y1 1 n De esta forma se concluye que: fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ). (3.8) Ejemplo 3.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución U (0, 1). Obtener: fY1 (y1 ), fYn (yn ) y fY1 ,Yn (y1 , yn ). Ry (x) En este caso, f (x) = I(0,1) y F (y) = 0 dx = y. Entonces FY1 (y) = 1 − [1 − F (y)]n = 1 − [1 − y]n y por tanto fY1 (y) = n(1 − y)n−1 . FYn (y) = y n y por tanto fYn (y) = ny n−1 . (y1 ) (yn ) fY1 ,Yn (y1 , yn ) = n(n − 1)(yn − y1 )n−2 I(0,1) I(0,1) . Algunas aplicaciones que tienen las expresiones obtenidas previamente en esta sección, incluyen el cálculo de densidades correspondientes a funciones de las estadı́sticas de orden, por ejemplo, el rango R := Yn − Y1 y el 1 . promedio T := Yn +Y 2 Para obtener fR,T (r, t) se utilizará la siguiente igualdad: fR,T (r, t) = |J| fY1 Yn (y1−1 (r, t), yn−1 (r, t)). Para encontrar la distribución conjunta del rango y el promedio, note lo siguiente: Yn = R + Y1 y sustituyendo en la expresión para T, se tiene que 1 T = Y1 +R+Y = Y1 + R2 . Por lo tanto Y1 = T − R2 , entonces Yn = 2 R R + Y1 = T + 2 . (R, T ) 7→ (T − J= −1/2 1 1/2 1 R 2 ,T + R 2) = − 12 − = (Y1 , Yn ) es la transformación involucrada. 1 2 = −1. Entonces al sustituir se obtiene fR,T (r, t) = h r r in−2 r r n(n − 1) F t + −F t− f t− f t+ . (3.9) 2 2 2 2 63 3.4. Estadı́sticas suficientes Otra expresión relacionada con las estadı́sticas de orden que puede ser de interés es la densidad conjunta de Y1 , . . . , Yn , suponiendo nuevamente que estas variables corresponden a las estadı́sticas de orden de una muestra aleatoria X1 , . . . , Xn . Ası́, fX1 ,...,Xn (x1 , . . . , xn ; θ) = n Y f (xi ; θ) , i=1 en cualquier punto (x1 , . . . , xn ) de Rn . Pero la densidad de Y1 , . . . , Yn estarı́a dada por n Y fY1 ,...,Yn (y1 , . . . , yn ; θ) = n! f (yi ; θ) , i=1 debido a que, al ordenar la muestra, cada punto (y1 , . . . , yn ) acumula la densidad fX1 ,...,Xn (x1 , . . . , xn ; θ) (3.10) de cada punto (x1 , . . . , xn ) obtenido al permutar de forma arbitraria las coordenadas de (y1 , . . . , yn ) . Lo anterior se hace porque fY1 ,...,Yn (y1 , . . . , yn ; θ), a diferencia de (3.10), está concentrada en la región de Rn en donde y1 ≤ y2 ≤ · · · ≤ yn y vale cero fuera de esa región; es decir, (y1 , . . . , yn ) se obtiene de permutar la muestra, ası́ que n! considera las posibles permutaciones. 3.4. Estadı́sticas suficientes Una muestra aleatoria contiene información del parámetro desconocido θ en f (x; θ) , por lo que para lograr el objetivo de disminuir el grado de desconocimiento de dicho parámetro, se usará la muestra aleatoria. Como ya se ha señalado, una estadı́stica es una función de la muestra aleatoria y, como se verá utilizando métodos de estimación, las estadı́sticas resultan ser los estimadores de los parámetros. Usualmente las estadı́sticas representan una reducción de dimensión con respecto a la muestra original X1 , . . . , Xn ; el caso más común es una función T que va de Rn a R. Una pregunta que puede plantearse en este momento, es si estas estadı́sticas contienen la misma información (con respecto a θ) que la muestra original o, si en el proceso de transformación de la muestra aleatoria, se pierde información acerca del parámetro desconocido. Es claro que no se desea perder la información original que contiene la muestra aleatoria, por lo que si se tuviera que elegir entre una estadı́stica que contiene la misma información que la muestra contra otra que no, la decisión serı́a quedarse con la primera. Este razonamiento lleva a un concepto muy importante en estadı́stica, el de suficiencia. 64 3. Estadı́sticas y distribuciones muestrales Se puede decir que una estadı́stica S (X1 , X2 , . . . , Xn ) es suficiente si conserva toda la información que contiene la muestra aleatoria X1 , . . . , Xn acerca de θ. En otras palabras, es suficiente conocer la estadı́stica S (X1 , X2 , . . . , Xn ) para saber del parámetro lo mismo que con X1 , . . . , Xn ; de ahı́ el nombre de estadı́stica suficiente. Una forma alternativa de parafrasearlo es la siguiente: una estadı́stica suficiente para un parámetro θ es aquella que usa toda la información contenida en la muestra con respecto a θ; no obstante, no es claro cómo se podrı́a saber si una estadı́stica es suficiente o no utilizando esta descripción del concepto, al menos de que se tratara de un caso en donde sea posible “recuperar” los datos a través de la estadı́stica que se esté analizando. Como ilustración de estas ideas, suponga que se tiene el caso descrito en el ejemplo 3.1, en donde se quiere estudiar la probabilidad θ de obtener sol con una cierta moneda. En este ejemplo, se considera una muestra aleatoria de tamaño 3: X1 , X2 , X3 , de una distribución Bernoulli(θ) y es un ejercicio en donde se pueden escribir de manera sencilla los ocho posibles valores de la muestra aleatoria. A continuación se reproduce parcialmente el cuadro obtenido en el ejemplo 3.1, incluyendo los valores para la estadı́stica S (X1 , X2 , X3 ) = X. Resultados s,s,s s,s,a s,a,s a,s,s a,a,s a,s,a s,a,a a,a,a x1 , x2 , x3 1, 1, 1 1, 1, 0 1, 0, 1 0, 1, 1 0, 0, 1 0, 1, 0 1, 0, 0 0, 0, 0 Distribución θ3 2 θ (1 − θ) θ2 (1 − θ) θ2 (1 − θ) θ(1 − θ)2 θ(1 − θ)2 θ(1 − θ)2 (1 − θ)3 x̄ 1 2/3 2/3 2/3 1/3 1/3 1/3 0 Si se propone ahora otra estadı́stica definida como T (X1 , X2 , X3 ) = X1 X2 + X3 , los posibles valores que puede tomar son (en el orden de la tabla anterior): 2, 1, 0, 0, 1, 1, 1, 0. Regresando a la discusión sobre la suficiencia, es claro que con T (X1 , X2 , X3 ) = X1 X2 + X3 no se puede obtener o “recuperar” la información original, pues el primer sumando siempre dará cero cuando al menos uno de X1 o X2 sean cero, mientras que X sı́ permite reconstruir la información original en el sentido 65 3.4. Estadı́sticas suficientes de que si se sabe que, por ejemplo, x = 31 , se puede concluir que se obtuvieron dos águilas y un sol (o dos ceros y un uno). En otras palabras, S (X1 , X2 , X3 ) es suficiente y T (X1 , X2 , X3 ) no. Observe también que una estadı́stica, en general, condensa la información muestral en el sentido de que para cada valor t(x) de T (X) se obtiene un subconjunto del conjunto de las posibles muestras. Sean {At } los elementos de la partición generada por la estadı́stica T (asociada a T o inducida por T ), definida como el conjunto de clases de equivalencia formadas por At = {(x1 , x2 , . . . , xn ) ∈ X : T (x1 , x2 , . . . , xn ) = t} . Ası́, la estadı́stica X = X1 +Xn2 +X3 genera la siguiente partición de las posibles muestras, especificada por los valores que toma la estadı́stica: A1 = {(1, 1, 1)} , A 13 = {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} , A 23 = {(1, 1, 0) , (0, 1, 1) , (1, 0, 1)} y (3.11) A0 = {(0, 0, 0)} , mientras que la estadı́stica T (X1 , X2 , X3 ) = X1 X2 + X3 genera la siguiente partición: A0 = {(0, 1, 0) , (1, 0, 0) , (0, 0, 0)} , A1 = {(0, 0, 1) , (1, 1, 0) , (0, 1, 1) , (1, 0, 1)} , y A2 = {(1, 1, 1)} . (3.12) Puede decirse entonces que una estadı́stica suficiente condensa la información muestral (en clases de equivalencia) sin perder información relevante. Note que otras estadı́sticas que sean funciones uno a uno de estadı́sticas suficientes, también P3 son suficientes. En este ejemplo puede verse fácilmente que la estadı́stica i=1 Xi es suficiente y, de hecho, genera la misma partición del conjunto de posibles muestras que generó S (X1 , X2 , X3 ) = X, sólo que en este caso, los valores de X1 + X2 + X3 (en el orden de la tabla) son: 3, 1, 2, 0. Ası́, lo que resulta de interés para hacer inferencia sobre el parámetro es saber la clase de equivalencia en la que está x. A continuación se da una definición formal de suficiencia. 3.4.1. El concepto de suficiencia Definición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ). La estadı́stica S(X) es suficiente si y sólo si la función de densidad condicional de X1 , . . . , Xn dada S(X) = s no depende de θ para cualquier valor s. 66 3. Estadı́sticas y distribuciones muestrales Note que esta definición concuerda con la idea intuitiva discutida antes, pues lo que dice es que, dado el conocimiento de S(X), la muestra aleatoria no proporciona información adicional acerca de θ, es decir, toda la información está contenida en S(X). Usando la definición de estadı́stica suficiente, se analizará la suficiencia de S(X) y T (X) del ejemplo descrito en los párrafos anteriores. Ası́, P(X1 = 0, X2 = 0, X3 = 0, T = 0) P(T = 0) (1 − θ)3 = 2θ(1 − θ)2 + (1 − θ)3 1−θ 1−θ = . = 2θ + 1 − θ 1+θ P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) = Es decir P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) depende de θ, por lo tanto, la estadı́stica T no es suficiente. Esto puede verificarse para otros valores. Por otro lado, P(X1 = 0, X2 = 0, X3 = 0, S = 0) P(S = 0) 3 (1 − θ) = = 1, (1 − θ)3 P(X1 = 0, X2 = 0, X3 = 0|S(X) = 0) = que no depende de θ. En este último caso, debe verificarse para todos los posibles valores y llegar a la conclusión de que esta probabilidad condicional no depende de θ, para cualquier valor s (lo cual efectivamente ocurre). El concepto de estadı́stica suficiente enfatiza el hecho de que cualquier conocimiento adicional al valor de la estadı́stica, no da mayor información acerca de θ. En el ejemplo, si S(X) = 23 , se puede decir que se obtuvieron dos soles y un águila, pero no sólo eso: es posible concluir que cualquier X = (X1 , . . . , Xn ) que satisfaga que S(X) = s, tiene la misma distribución de probabilidad. Para verificarlo, suponga que sólo se tiene conocimiento de que S(X) = s, pero no se conoce especı́ficamente el valor muestral que generó este resultado (en el ejemplo hay tres posibles valores muestrales que hacen que S(X) = 23 , a saber (0, 1, 1) , (1, 0, 1) y (1, 1, 0)). Conociendo la densidad condicional P (X = x | S(X) = s) , donde x ∈ As = {(x1 , x2 , . . . , xn ) ∈ X | S(x1 , x2 , . . . , xn ) = s} , se puede usar un proceso de simulación para generar un vector X 0 tal que P X 0 = x | S(X) = s = P (X = x | S(X) = s) . 67 3.4. Estadı́sticas suficientes Ası́ P (X = x) = P (X = x, S(X) = s) = P (X = x | S(X) = s) P (S(X) = s) P X 0 = x | S(X) = s P (S(X) = s) P X 0 = x, S(X) = s P X0 = x , = = = de tal manera que X y X 0 tienen la misma distribución. En conclusión, toda la información acerca de θ está contenida en el conocimiento de que S(X) = s. Los siguientes ejemplos ilustran la definición de suficiencia. Ejemplo 3.3 Sea X1 , X2 , . . . , Xn una Pn muestra aleatoria de una población con distribución Bernoulli (θ). ¿Es i=1 Xi una estadı́stica suficiente?. En este caso, f (xi ; θ) = θxi (1 − θ) nición de suficiencia: P X1 = x1 , . . . , Xn = xn | n X 1−xi , por lo que, de acuerdo a la defi- ! Xi = s = θ Pn i=1 Xi n− (1 − θ) Pn i=1 Xi n s n−s θ (1 − θ) s i=1 n−s = = θs (1 − θ) n s n−s θ (1 − θ) s 1 n , s Pn que no depende de θ, por lo que P i=1 Xi es una estadı́stica suficiente para n θ. Note que se usó el hechoPde que i=1 Xi tiene distribución Bin(n, θ), ası́ n como la condición de que i=1 Xi = s. Ejemplo 3.4 Sea X1 , X2 , . . . , XP n una muestra aleatoria de una población n con distribución Poisson(θ). ¿Es i=1 Xi una estadı́stica suficiente?. Recordando que si X ∼ P oisson(θ) entonces f (xi ; θ) = que: e−θ θ x x! , se tiene 68 3. Estadı́sticas y distribuciones muestrales P [X1 = x1 , . . . , Xn = xn | Pn i=1 Xi = s] e−nθ Qθ n Pn = Xi i=1 i=1 xi ! s e−nθ (nθ) = e = n s s! e−nθ θs Q n x i=1 i ! s −nθ ;y n X Xi = s i=1 (nθ) s! n Y s! , xi ! i=1 Pn que no depende de θ; por lo tanto, i=1PXi es una estadı́stica suficiente para n θ. En este caso se usó el hecho de que i=1 Xi ∼ P oisson (nθ) . Observe que en los ejemplos anteriores, a no ser que la suma de los enteros x1 , x2 , . . . , xn sea igual a s, la probabilidad condicional es igual a cero. Observación 3.3 En general, sea k (s; θ) la función de densidad de la estadı́stica S (X1 , X2 , . . . , Xn ) := S (X) , donde X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de densidad f (x; θ), θ ∈ Θ. La probabilidad condicional de X1 = x1 , X2 = x2 , . . . , Xn = xn , dado que S (X) = s, es igual a P [X1 = x1 , . . . , Xn = xn | S (X) = s] = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) , k (s; θ) siempre que x1 , . . . , xn , sean tales que S (x1 , x2 , . . . , xn ) = s, y esta probabilidad condicional vale cero en otro caso. Se dice que S (X1 , X2 , . . . , Xn ) es una estadı́stica suficiente para θ si y sólo si esta razón no depende de θ. Con las distribuciones del tipo continuo, no se puede hablar de la probabilidad de que X1 = x1 , X2 = x2 , . . . , Xn = xn . En este caso, se establece que si la razón f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ) = , k (s; θ) k (s; θ) no depende de θ, entonces la distribución condicional de X1 , X2 , . . . , Xn dado S (X) = s, no depende de θ. En general, las matemáticas para probar que una estadı́stica es suficiente en una distribución continua, pueden representar una dificultad mayor que para el caso discreto. 3.4. Estadı́sticas suficientes 69 Ejemplo 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución normal N (µ, σ 2 ), donde σ 2 es conocida. La media muestral, S(X) = X̄ = (X1 + · · · + Xn )/n, es una estadı́stica suficiente para µ. Para comprobarlo, se verificará que el cociente fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2 (3.13) k (s; µ, σ 2 ) no depende de µ (σ 2 es conocida), donde k s; µ, σ 2 es la función de densidad de X̄. La función de densidad conjunta de la muestra es n Y −(xi − µ)2 (2πσ 2 )−1/2 exp fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = 2σ 2 i=1 Pn − i=1 (xi − µ)2 = (2πσ 2 )−n/2 exp 2σ 2 Pn − i=1 (xi − x̄ + x̄ − µ)2 , = (2πσ 2 )−n/2 exp 2σ 2 al desarrollar el cuadrado en el exponente, esta expresión es equivalente a " Pn # Pn 2 2 − i=1 (xi − x̄) + 2(x̄ − µ) i=1 (xi − x̄) + n(x̄ − µ) 2 −n/2 (2πσ ) exp , 2σ 2 Pn y como i=1 (xi − x̄) = 0, se tiene que fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 = " # Pn 2 2 − i=1 (xi − x̄) + n(x̄ − µ) 2 −n/2 (2πσ ) exp . 2σ 2 Recordando que la media muestral X̄ tiene distribución N (µ, σ 2 /n), entonces el cociente (3.13) está dado por fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2 k (s; µ, σ 2 ) Pn −( i=1 (xi −x̄)2 +n(x̄−µ)2 ) 2 −n/2 (2πσ ) exp 2σ 2 h i = 2 (2πσ 2 /n)−1/2 exp −n(x̄−µ) 2 2σ Pn (n−1) − i=1 (xi − x̄)2 = n−1/2 (2πσ 2 )− 2 exp , 2σ 2 que no depende de µ. Por lo tanto, la media muestral es una estadı́stica suficiente para µ. 70 3. Estadı́sticas y distribuciones muestrales 3.4.2. El teorema de factorización El siguiente resultado conocido como el teorema de factorización de Neyman o simplemente teorema de factorización, permite encontrar una estadı́stica suficiente sin hallar la función de densidad de la estadı́stica de interés y, más aún, sin tener que proponer dicha estadı́stica. Teorema 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ); S(X) es suficiente si y sólo si, la función de densidad conjunta de X1 , . . . , Xn puede factorizarse como: fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn ) , donde g y h son funciones no negativas tales que g (S(x); θ) depende de la muestra sólo a través de S(x) y también depende de θ; y h (x1 , . . . , xn ) no depende de θ. Es decir, el teorema de factorización establece que fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) | {z } depende de θ y de la muestra sólo a través de S · h (x1 , . . . , xn ) | {z } depende sólo de la muestra Demostración. (Caso discreto): ⇒ S(X) es suficiente. Si x1 , x2 , . . . , xn , son tales que S (x1 , x2 , . . . , xn ) = s, la densidad conjunta de X1 , . . . , Xn puede escribirse como P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; S(X) = s) . Usando la definición de probabilidad condicional, la expresión anterior es equivalente a P (X1 = x1 , . . . , Xn = xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14) Por la suficiencia de S(X), la probabilidad condicional en (3.14) no depende de θ, por lo que la densidad conjunta de X1 , . . . , Xn se puede expresar como: P (X1 = x1 , . . . , Xn = xn ) = h(x1 , . . . , xn ) · g(S(x); θ), donde h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s) 71 3.4. Estadı́sticas suficientes y g(S(x); θ) = P [S(X) = s] . ⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que P [ X1 = x1 , . . . , Xn = xn | S(X)] no depende de θ, bajo el supuesto de que la factorización es válida. Se tiene que P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = P [X1 = x1 , . . . , Xn = xn , S(X) = s] P[S(X) = s] pero P[S(X) = s] = X P[X1 = x1 , . . . , Xn = xn ], (3.15) As donde: As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s} y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver, por ejemplo, (3.11) y (3.12)). Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como: X X P[S(X) = s] = g(S(x); θ)h(x) = g(s; θ) h(x) As As y P [ X1 = x1 , . . . , Xn = xn | S(X) = s] = g(S(x); θ)h(x) P g(s; θ) As h(x) = g(s; θ)h(x) P g(s; θ) As h(x) = P h(x) , As h(x) si (x1 , x2 , . . . , xn ) es tal que S(x) = s y vale cero en otro caso. Es decir, P [ X1 = x1 , . . . , Xn = xn | S(X) = s] no depende de θ, por lo que S(X) es una estadı́stica suficiente. Demostración. (Caso continuo): 72 3. Estadı́sticas y distribuciones muestrales Se supone primero la factorización, es decir, fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = Πni=1 f (xi , θ) = g (S (x) ; θ) h (x1 , x2 , . . . , xn ) . Sea V1 = S (X1 , . . . , Xn ) y considere la transformación uno a uno definida de la siguiente manera v1 = S (x1 , x2 , . . . , xn ) , vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n; con funciones inversas xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n y Jacobiano J = [∂wi /∂vj ], que denota la entrada (i, j) de la matriz. Entonces la densidad conjunta de las variables V1 , V2 , . . . , Vn está dada por: kV1 ,...,Vn (v1 , . . . , vn ; θ) = |J| g (v1 ; θ) h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) . Ası́, la densidad de V1 puede obtenerse como kV1 (v1 ; θ) Z ∞ Z ∞ = ··· kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn −∞ −∞ Z ∞ Z ∞ = g (v1 ; θ) ··· |J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn . −∞ −∞ Observe que θ no está involucrada ni en el Jacobiano, ni en los lı́mites de integración, además de que la función h no depende de θ. Por lo tanto, la integral múltiple es una función exclusivamente de v1 . Sea m (v1 ) Z ∞ Z = ··· −∞ ∞ |J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn , −∞ con lo que kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) . 73 3.4. Estadı́sticas suficientes Note que si m (v1 ) > 0, es posible escribir: g (v1 ; θ) = kV1 (v1 ; θ) , m (v1 ) o g (S (x) ; θ) = kV1 (S (x) ; θ) , m [S (x)] con lo que la factorización que se ha supuesto como hipótesis, se puede reescribir como: fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) = g (S (x) ; θ) h (x1 , x2 , . . . , xn ) kV1 (S (x) ; θ) = h (x1 , x2 , . . . , xn ) m [S (x)] h (x1 , x2 , . . . , xn ) , = kV1 (S (x) ; θ) m [S (x)] de donde: fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ) h (x1 , x2 , . . . , xn ) = kV1 (S (x) ; θ) m [S (x)] no depende de θ, lo cual implica que V1 = S (X) es una estadı́stica suficiente (ver observación 3.3). Inversamente, si V1 = S (X) es suficiente, la factorización se puede hacer tomando la función g como la densidad de S (X) , es decir, como kV1 (S (x) ; θ) . Ejemplo 3.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Poisson(θ). Hallar una estadı́stica suficiente para θ. Usando el teorema de factorización: fX1 ,...,Xn (x1 , . . . , xn ; θ) = Pn i=1 Xi n i=1 xi ! e−nθ Qθ (xi ) i=1 I{0,1,... } Qn n Y Pn 1 (xi ) = e|−nθ θ{z i=1 X}i Qn I{0,1,... } x ! i i=1 i=1 g(S(x);θ) | {z } h(x1 ,...,xn ) ∴ S(X) = Pn i=1 Xi es una estadı́stica suficiente para θ. 74 3. Estadı́sticas y distribuciones muestrales Ejemplo 3.7 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme (0, θ). Para encontrar una estadı́stica suficiente para θ, se tiene que: fX1 ,...,Xn (x1 , . . . , xn ; θ) = n Y f (xi ; θ) = i=1 n 1 Y (xi ) I . θn i=1 (0,θ) Como todas las observaciones son positivas, es decir xi > 0, para i = 1, 2, . . . , n, se tiene que n Y (x ) i I(0,θ) =1 i=1 siempre y cuando yn = máx {x1 , . . . , xn } < θ. Por lo tanto, la densidad conjunta puede escribirse como fX1 ,...,Xn (x1 , . . . , xn ; θ) = 1 (yn ) I , θn (0,θ) concluyendo que, por el teorema de factorización, Yn = máx {X1 , . . . , Xn } (yn ) es suficiente, con g (s (x1 , x2 , . . . , xn ) ; θ) = θ1n I(0,θ) y h (x1 , x2 , . . . , xn ) = 1. Observe que esta factorización no es única, pueden proponerse otras; pero Yn será la estadı́stica suficiente. Ejemplo 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad: θxθ−1 , 0 < x < 1, 0 < θ f (x; θ) = 0, en otro caso. Se usará el teorema de factorización para probar que el producto S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn es una estadı́stica suficiente para θ. La función de densidad conjunta de X1 , X2 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = Πni=1 θxθ−1 i = θn Πni=1 xθ−1 i θ n n = θ (Πi=1 xi ) 1 Πni=1 xi donde 0 < xi < 1, i = 1, 2, . . . , n. En el teorema de factorización, sean: θ g (s (x1 , x2 , . . . , xn ) ; θ) = θn (Πni=1 xi ) 75 3.4. Estadı́sticas suficientes y h (x1 , x2 , . . . , xn ) = 1 . Πni=1 xi Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar la definición para este ejercicio, era necesario obtener la densidad de la estadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo valioso del teorema de factorización. Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́stica suficiente, pues en el esquema de muestreo aleatorio que se está considerando, la función de densidad conjunta no depende del orden de las variables. A pesar de que la muestra ordenada tiene la misma dimensión que la muestra original, al ordenar se elimina la información irrelevante con relación a la posición con la que se produce cada observación. Una forma de comprobarlo es usando el teorema de factorización. La función de densidad conjunta de X1 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) . En el teorema de factorización, sean: g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) y h (x1 , x2 , . . . , xn ) = n!. Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn ) es una estadı́stica suficiente. Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Logı́stica(µ,σ): f (x; µ, σ) = e−(x−µ)/σ , − ∞ < x < ∞, −∞ < µ < ∞, σ > 0. σ[1 + e−(x−µ)/σ ]2 La función de densidad conjunta de X1 , X2 , . . . , Xn es: fX1 ,...,Xn (x1 , . . . , xn ; θ) = f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) n Y e−(xi −µ)/σ = σ[1 + e−(xi −µ)/σ ]2 i=1 = n! n Y e−(yi −µ)/σ , σ[1 + e−(yi −µ)/σ ]2 i=1 76 3. Estadı́sticas y distribuciones muestrales donde y1 , . . . , yn es la muestra ordenada. Debido a que no es posible factorizar la función de densidad conjunta de otra manera tal que se pueda aplicar el teorema de factorización, entonces la muestra ordenada (Y1 , . . . , Yn ) es una estadı́stica suficiente. Cabe aclarar que la muestra ordenada se usará como la estadı́stica suficiente sólo cuando no sea posible obtener otra estadı́stica suficiente. 3.4.3. La familia exponencial Hay un conjunto de familias paramétricas de distribuciones que, por sus propiedades, tiene gran relevancia dentro de la inferencia estadı́stica. Este conjunto se conoce como la clase exponencial o la familia exponencial y su importancia en este momento es que las densidades de esta clase tienen una relación con el concepto de suficiencia, en el sentido de que si se sabe que una densidad pertenece a la familia exponencial, es posible encontrar una estadı́stica suficiente de una forma sencilla. En esta parte se revisará el caso de densidades con un sólo parámetro, mientras que en la sección 3.6 se verá el caso de dos o más parámetros. Algunas de las distribuciones más conocidas como la Binomial, la Geométrica, la Binomial negativa, la Poisson, la Gama, la Normal y la Beta, pertenecen a la familia exponencial. Definición 3.4 Se dice que f (x; θ) pertenece a la familia exponencial (o clase exponencial) si puede factorizarse como: f (x; θ) = a(θ)b(x)ec(θ)d(x) , θ ∈ Θ, − ∞ < x < ∞, donde a(θ) y c(θ) son funciones de θ, y b(x) y d(x) son funciones de x. Ejemplo 3.10 Las siguientes distribuciones pertenecen a la familia exponencial: 1. Si X tiene distribución Exponencial con parámetro θ, es decir, X ∼ exp (θ), su función de densidad está dada por (x) f (x; θ) = θ · e−θ·x · I(0,∞) . (x) En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x. 77 3.4. Estadı́sticas suficientes 2. Si X tiene distribución Poisson con parámetro θ, es decir X ∼ Poisson (θ), su función de densidad es f (x; θ) = e−θ θx (x) 1 (x) I{0,1,...} = e−θ · I{0,1,...} · ex·ln(θ) , x! x! de donde puede verse que pertenece a la familia exponencial. 3. Si X tiene distribución Bernoulli con parámetro θ, es decir X ∼ Bernoulli (θ), con f (x; θ) = θx (1 − θ) 1−x = (1 − θ) · I{0,1} · ex·ln( 1−θ ) , (x) θ se tiene que pertenece a la familia exponencial. 4. Si X tiene distribución Geométrica con parámetro θ, es decir X ∼ Geométrica(θ), su función de densidad se puede escribir como x (x) (x) f (x; θ) = θ (1 − θ) I{0,1,...} = θ · I{0,1,...} ex·ln(1−θ) , con lo que se concluye que la distribución Geométrica pertenece a la familia exponencial. Note que la distribución Uniforme en el intervalo (0, θ) no pertenece a la familia exponencial. El resultado que se enuncia a continuación proporciona la relación entre los miembros de la familia exponencial y la suficiencia. Proposición 3.4 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad de la forma f (x; θ) = a(θ)b(x)ec(θ)d(x) , es decir, f (x; θ) pertenece a la familia exponencial. Entonces una estadı́stica suficiente. Pn i=1 d(xi ) es 78 3. Estadı́sticas y distribuciones muestrales Demostración. Usando el teorema de factorización, se tiene que: fX1 ,...,Xn (x1 , . . . , xn ; θ) = Qn a(θ)b(xi )ec(θ)d(xi ) = h n i=1 Pn a (θ) ec(θ) | {z i=1 d(xi ) i · } g(S(X);θ) n Y b(xi ) i=1 | {z } h(X1 ,...,Xn ) ∴ S(X) = n P d(Xi ) es una estadı́stica suficiente para θ. i=1 En la siguiente tabla se muestran algunas de las distribuciones más conocidas que pertenecen a la familia o clase exponencial, aunque en la sección 3.6 se ampliará esta lista. Algunos miembros de la familia exponencial f (x; θ) = a (θ) b (x) exp [c (θ) d (x)] Distribución f (x; θ) a (θ) b (x) c(θ) 1−x θ x Bernoulli (θ) θ (1 − θ) 1−θ 1 ln 1−θ n−x n n x n θ Binomial (n, θ) (1 − θ) ln 1−θ x θ (1 − θ) x x Geométrica (θ) θ (1 − θ) θ 1 ln (1 − θ) −θ x 1 e θ −θ e ln θ Poisson (θ) x! x! Exponencial (θ) θe−θx θ 1 −θ 2 Rayleigh (θ) 3.4.4. x x − 2θ 2 θ2 e 1 θ2 x − 2θ12 d (x) x x x x x x2 Suficiencia minimal La idea de la suficiencia es no perder información relevante del parámetro (contenida en la muestra) al usar una estadı́stica. Pero puede haber diferentes estadı́sticas que satisfagan esa condición y lo ideal serı́a encontrar la que condense más la información. A tales estadı́sticas se les llama suficientes minimales. Intuitivamente, una estadı́stica es suficiente minimal si cualquier reducción de la misma da lugar a estadı́sticas que ya no son suficientes; es decir, ya no se puede “resumir” más la estadı́stica, puesto que se perderı́a información contenida en la muestra acerca del parámetro. Lo anterior también está asociado con la noción de clases de equivalencia o partición del espacio 79 3.4. Estadı́sticas suficientes muestral inducida por cada estadı́stica. Ambos enfoques se analizan en los siguientes párrafos. Para ilustrar la idea de suficiencia minimal, considere una muestra aleatoria X1 , X2 , . . . , Xn de la distribución Bernoulli con parámetro θ, ası́ como las siguientes estadı́sticas S1 (X) = (X(1) , . . . , X(n) ) = (Y1 , ..., Yn ) , [ n2 ] n X X S2 (X) = Xi , Xi , i=1 i=[ n 2 +1] donde [v] indica la parte entera de v, y S3 (X) = n X Xi . i=1 Considerando que fX1 ,...,Xn (x1 , . . . , xn ; θ) = = θ Pn i=1 xi n (1 − θ) n− (1 − θ) θ 1−θ Pn i=1 xi n Y i=1 Pni=1 xi Y n I{0,1} (xi ) I{0,1} (xi ) , i=1 por el teorema de factorización, las tres estadı́sticas son suficientes en la distribución Bernoulli, pues la densidad conjunta también puede escribirse como x(1) x(2) x(n) Y n θ θ θ n (1 − θ) ··· I{0,1} (xi ) 1−θ 1−θ 1−θ i=1 = (1 − θ) n θ 1−θ n 2] P[i=1 xi θ 1−θ Pn [ ] i= n +1 2 n xi Y I{0,1} (xi ) . i=1 La diferencia entre las tres estadı́sticas radica en el distinto grado de simplificación obtenido por eliminación de información que es irrelevante para el conocimiento de θ. S1 (X) tiene dimensión n, S2 (X) tienen dimensión 2 y S3 (X) tiene dimensión 1. S3 es más resumida que S1 y S2 , mientras que S2 es más resumida que S1 . Observe entonces que conociendo S1 o S2 se puede conocer S3 , pero no al revés, y conociendo S1 se puede conocer S2 , pero no al revés. Si una estadı́stica suficiente es más resumida que cualquier otra, se 80 3. Estadı́sticas y distribuciones muestrales le llama suficiente minimal. En el ejemplo, note que S3 puede escribirse como función de S1 o de S2 , y el hecho de que S3 sea más resumida que S1 significa que existe una función (medible) ϕ tal que S3 puede escribirse como S3 = ϕ (S1 ) . Lo anterior se formaliza en la definición 3.5. Siguiendo la idea del párrafo anterior, suponga que S 0 (X) es más resumida que S (X) . En términos de la partición inducida por una estadı́stica, si {As0 } son los elementos de la partición asociados con S 0 (X) y {As } son los elementos de la partición asociados con S(X), se tendrı́a que cada As es un subconjunto de algún As0 . Si en el ejemplo (de la distribución Bernoulli), se toma n = 3, se tienen los siguientes valores de S1 , S2 y S3 , de donde se pueden revisar las particiones asociadas: (X1 , X2 , X3 ) (0, 0, 0) (0, 0, 1) (0, 1, 0) (1, 0, 0) (1, 1, 0) (1, 0, 1) (0, 1, 1) (1, 1, 1) S1 (X) (0, 0, 0) (0, 0, 1) (0, 0, 1) (0, 0, 1) (0, 1, 1) (0, 1, 1) (0, 1, 1) (1, 1, 1) S2 (X) (0, 0) (0, 1) (0, 1) (1, 0) (1, 1) (1, 1) (0, 2) (1, 2) S3 (X) 0 1 1 1 2 2 2 3 Note que S1 y S3 inducen la misma partición (de 4 elementos), aún cuando en S3 hay una reducción en la dimensión; mientras que S2 induce una partición de 6 elementos, a saber: A1 = {(0, 0, 0)} , A2 = {(0, 0, 1) , (0, 1, 0)} , A3 = {(1, 0, 0)} , A4 = {(1, 1, 0) , (1, 0, 1)} , A5 = {(0, 1, 1)} y A6 = {(1, 1, 1)} , siendo cada uno de éstos un subconjunto de alguno de los elementos de la partición inducida por S3 . Por ejemplo, A2 es un subconjunto de {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} , que corresponde al subconjunto del espacio muestral tal que S3 = 1. Una forma de referirse a una partición inducida por S(X), tal que As ⊆ As0 para alguna estadı́stica S 0 (X), es como una partición más fina (es 3.4. Estadı́sticas suficientes 81 decir, S(X) induce una partición más fina que S 0 (X) o S 0 (X) induce una partición menos fina que S(X)). En estos términos, si S 0 (X) es más resumida que S(X), entonces S(X) genera una partición más fina que S 0 (X). En el ejemplo, S2 (X) induce una partición más fina que S3 (X) . En este contexto, la suficiencia minimal está asociada con la partición menos fina que conserva la suficiencia. Definición 3.5 Se dice que una estadı́stica es suficiente minimal si y sólo si (i) es suficiente y (ii) es función de cualquier otra estadı́stica suficiente; es decir, S 0 (X) es suficiente minimal si y sólo si existe ϕ tal que S 0 (X) = ϕ [S(X)] , donde S(X) es cualquier otra estadı́stica suficiente. Observación 3.5 Note que por la discusión previa, la definición 3.5 se puede reescribir de una forma alternativa. Sean {As0 } los elementos de la partición asociados con S 0 (X) y {As } los elementos de la partición asociados con S(X), se tiene que: 1. S 0 (X) es suficiente minimal si cada As es un subconjunto de algún As0 , donde S (X) es suficiente, o 2. S 0 (X) es suficiente minimal si cualquier otra estadı́stica suficiente S (X) induce una partición más fina que S 0 (X). También se puede decir que S 0 (X) induce una partición menos fina –o más gruesa– que S (X). En términos de las clases de equivalencia, cualquier estadı́stica con una partición más fina que la minimal, será suficiente. Observación 3.6 Las estadı́sticas suficientes minimales no son únicas, pues al igual que las estadı́sticas suficientes, cualquier función biyectiva resulta ser también una estadı́stica suficiente minimal. Se proporcionará un método para encontrar estadı́sticas suficientes minimales. Para ello, será necesario introducir algunos conceptos. Note que el que S 0 (X) sea función de S(X) (en la definición 3.5) significa que si S (x) = S (x0 ) , entonces S 0 (x) = S 0 (x0 ) . Lo anterior puede verificarse de la siguiente manera: si x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n ) y se cumple que S (x) = S (x0 ) , se tiene que x y x0 ∈ As y como As ⊆ As0 (por ser S 0 (X) minimal) entonces x y x0 ∈ As0 , lo cual implica que S 0 (x) = S 0 (x0 ) . Se tiene entonces la siguiente definición. 82 3. Estadı́sticas y distribuciones muestrales Definición 3.6 Sean S (X) y S 0 (X) dos estadı́sticas. Se dice que S 0 (X) es función de S(X) si para cualesquiera x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n ) en el espacio muestral X, que satisfacen que S (x) = S (x0 ) , se cumple que S 0 (x) = S 0 (x0 ). Para lo que sigue, también es necesario recordar que el soporte de una función de densidad f (x; θ) , θ ∈ Θ, es el conjunto Sopf = {x : f (x; θ) > 0 para alguna θ ∈ Θ} . A continuación se define una relación de equivalencia en Sopf , relación que será de utilidad para caracterizar a la suficiencia minimal. Definición 3.7 Para dos valores x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n ) en Sopf , se dice que x y x0 son equivalentes en verosimilitud si existe H (x, x0 ) > 0, tal que para todo θ ∈ Θ, fX1 ,...,Xn (x; θ) = H (x, x0 ) fX1 ,...,Xn (x0 ; θ), es decir, L(θ | x) = H (x, x0 ) L(θ | x0 ). Esta relación se denota como v x ∼ x0 . El siguiente resultado relaciona la equivalencia en verosimilitud con la suficiencia. Lema 3.1 Sea S (X) una estadı́stica suficiente y sean x y x0 dos valores en v Sopf . Si S (x) = S (x0 ) = s, entonces x ∼ x0 . Demostración. Si x, x0 ∈ Sopf , existe θ para el cual fX1 ,...,Xn (x0 ; θ) > 0 y como S (X) es una estadı́stica suficiente, el teorema de factorización implica que fX1 ,...,Xn (x; θ) g (s; θ) h (x) h (x) = = = H (x, x0 ) , fX1 ,...,Xn (x0 ; θ) g (s; θ) h (x0 ) h (x0 ) por lo que fX1 ,...,Xn (x; θ) se puede escribir como H (x, x0 ) fX1 ,...,Xn (x0 ; θ). En el lema anterior, el hecho de que S (x) = S (x0 ) = s, implica que el cociente fX1 ,...,Xn (x; θ) fX1 ,...,Xn (x0 ; θ) no depende de θ. 83 3.4. Estadı́sticas suficientes Teorema 3.6 Sea X1 , ..., Xn una muestra aleatoria de una población con función de densidad f (x; θ) y sea S 0 (X) una estadı́stica suficiente para θ. Suponga que para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n ) v en Sopf que son equivalentes en verosimilitud, es decir x ∼ x0 , se tiene que 0 0 0 0 S (x) = S (x ) . Entonces S (X) es suficiente minimal. Demostración. Sea S (x) cualquier estadı́stica que sea suficiente para θ y v x, x0 ∈ Sopf , tal que S (x) = S (x0 ) = s, entonces por el lema 3.1, x ∼ x0 , lo 0 0 0 cual a su vez implica (por la hipótesis) que S (x) = S (x ) . Por la definición 3.6 S 0 (X) es función de S (X), lo cual, junto con el hecho de que S 0 (X) es suficiente, lleva a la conclusión de que S 0 (X) es suficiente minimal. Este resultado es muy importante debido a que proporciona un método sistemático para encontrar una estadı́stica suficiente minimal. En resumen, lo que debe hacerse es lo siguiente: para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n ) en Sopf , verificar la implicación que tiene la equivalencia en verosimilitud sobre la o las estadı́sticas implicadas en la función de densidad conjunta. Lo anterior equivale a calcular el cociente fX1 ,...,Xn (x; θ) fX1 ,...,Xn (x0 ; θ) y ver bajo qué condición (sobre las estadı́sticas involucradas) este cociente no depende de θ. Si se cumple la hipótesis del teorema 3.6, es decir, “ fX1 ,...,Xn (x; θ) no depende de θ ⇒ S 0 (x) = S 0 (x0 ) ”, fX1 ,...,Xn (x0 ; θ) entonces S 0 es suficiente minimal. Ejemplo 3.11 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Bernoulli(θ), entonces: P Pn Qn 1−xi n− n xi i=1 xi fX1 ,...,Xn (x; θ) θ i=1 xi (1 − θ) i=1 θ (1 − θ) P = = P Qn 0 n 0 1−x0i n− n x0i i=1 xi fX1 ,...,Xn (x0 ; θ) θ i=1 xi (1 − θ) i=1 θ (1 − θ) = θ 1−θ Pni=1 xi −Pni=1 x0i el cual no depende de θ si y sólo si estadı́stica suficiente minimal. , Pn i=1 xi = Pn i=1 x0i . Ası́, Pn i=1 Xi es una 84 3. Estadı́sticas y distribuciones muestrales Ejemplo 3.12 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme en el intervalo (0, θ) . En este caso, fX1 ,...,Xn (x; θ) fX1 ,...,Xn (x0 ; θ) = (xi ) i=1 I(0,θ) Qn (x0i ) 1 i=1 I(0,θ) θn 1 θn Qn (y ) = n I(0,θ) (y 0 ) (θ) = I(yn ,∞) (θ) , I(y0 ,∞) n I(0,θ) n cociente que no depende de θ si y sólo si yn = yn0 , concluyendo que Yn es una estadı́stica suficiente minimal. Suficiencia minimal y la familia exponencial Se sabe que f (x; θ) pertenece a la familia exponencial si se cumple que: f (x; θ) = a(θ)b(x)ec(θ)d(x) Tomando X = (X1 , . . . , Xn ) y X 0 = (X10 , . . . , Xn0 ) y usando el teorema 3.6, se tiene que: f (x;θ) f (x0 ;θ) = Qn i=1 a(θ)b(xi ) exp{c(θ)d(xi )} Qn 0 0 i=1 a(θ)b(xi ) exp{c(θ)d(xi )} = Qn Pn i=1 b(xi ) exp{c(θ) i=1 d(xi )} Q P n 0 0 (a(θ))n n i=1 b(xi ) exp{c(θ) i=1 d(xi )} = Qn b(xi ) Qi=1 n 0 i=1 b(xi ) (a(θ))n Pn Pn exp {c(θ) [ i=1 d(xi ) − i=1 d(x0i )]} . Este cociente no depende de θ si sólo si Pn i=1 ∴ Pn d(xi ) = i=1 Pn d(x0i ). d(Xi ) es suficiente minimal. Es decir, si f (x; θ) pertenece a la familia exponencial, estadı́stica suficiente minimal. 3.5. i=1 Pn i=1 d(Xi ) es una Completez El concepto de estadı́stica completa se utilizará en uno de los resultados más importantes que servirán para encontrar estimadores insesgados de varianza mı́nima. 85 3.5. Completez Definición 3.8 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) , θ ∈ Θ. Se dice que la estadı́stica T (X) es completa si y sólo si, para cualquier función g de T, se tiene que si E(g(T )) = 0 ∀θ ∈ Θ, entonces P(g(T ) = 0) = 1, ∀θ ∈ Θ. También se dice que la familia de densidades de T es completa. Se puede pensar entonces que T es completa si una estadı́stica, función de T, cuya esperanza es 0, vale 0 con probabilidad 1. Ejemplo 3.13 Sea X1 , X2 , . . . , Xn una muestra aleatoria Pn de una población con distribución Bernoulli (θ) , 0 < θ < 1, y T (X) = i=1 Xi . Para ver si T es completa, se considera E(g(T )) = 0, que es equivalente a: n X n t n−t E(g(T )) = g(t) θ (1 − θ) = 0, t t=0 de donde ó n X t n θ g(t) (1 − θ) = 0, t 1−θ t=0 n n X t n θ = 0, g(t) 1−θ t t=0 θ el cual es un polinomio en 1−θ , que vale cero si cada uno de los coeficientes t θ vale cero, es decir, si de 1−θ n g(t) = 0, t para toda t = 0, 1, 2, . . . , n, pero nt 6= 0, ası́ queP g(t) = 0, ∀t ∈ {0, 1, 2, . . . , n}, lo que lleva a la conclun sión de que T (X) = t=1 Xi es una estadı́stica completa. Observe que si en esta distribución se toma T (X) = X1 −X2 y g (T ) = T, se tiene que E(X1 − X2 ) = E (X1 ) − E (X2 ) = 0, pero X1 − X2 no vale cero con probabilidad 1, ası́ que X1 − X2 no es completa. Ejemplo 3.14 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme continua en el intervalo (0, θ) . Para ver si T (X) = Yn = máx {X1 , . . . , Xn } 86 3. Estadı́sticas y distribuciones muestrales es completa, se hace Z E(g(T )) = g(t)fT (t)dt = 0. En el caso de la máxima estadı́stica de orden, fT (t) = n tn−1 (t) I , θn (0,θ) t = yn . Ası́ θ Z E(g(T )) = g(t) 0 n θn = entonces Z n n−1 t dt θn θ g(t)tn−1 dt = 0, ∀θ > 0, 0 θ Z g(t)tn−1 dt = 0, ∀θ > 0. 0 Lo cual implica que g(θ)θn−1 = 0 ∀θ > 0, y por lo tanto, g(θ) = 0, ∀θ > 0, lo que lleva a concluir que la máxima estadı́stica de orden es una estadı́stica completa. Observación 3.7 En general, puede decirse que una familia paramétrica de distribuciones f (x; θ) es completa si E [g (X)] = 0 implica que g (x) = 0 casi seguramente (c.s.). En este contexto, si f (x; θ) pertenece a la familia exponencial, entonces f (x; θ) es completa. Para verificarlo, se considerará el caso particular en el que c (θ) = θ y d (x) = x, es decir: f (x; θ) = a (θ) b (x) eθx . Ahora, si para toda θ, se cumple que: Z ∞ g (x) f (x; θ) dx = 0, −∞ se tiene que Z ∞ g (x) a (θ) b (x) eθx dx = 0, −∞ o Z ∞ [g (x) b (x)] eθx dx = 0, −∞ la cual corresponde a la transformada de Laplace de la función g (x) b (x) . Por la propiedad de unicidad de la transformada, la única función que tiene 87 3.5. Completez una transformada igual a cero es la función que vale cero c.s., es decir, g (x) b (x) = 0 c.s., de donde se obtiene que g (x) = 0 c.s., considerando b (x) 6= 0. Ası́ que f (x; θ) es completa. Observación 3.8 Si f (x; θ) pertenece a la familia exponencial, entonces n P d (Xi ) es completa. i=1 En sı́ntesis, una de las ventajas que se tiene al identificar a un miembro de la familia exponencial está explicada en el siguiente resultado. Teorema 3.7 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ) con θ ∈ Θ ⊆ R, donde f (x; θ) pertenece a la familia exponencial, es decir, f (x; θ) = a(θ)b(x) exp{c(θ)d(x)}. Entonces, n P la estadı́stica d(Xi ) es suficiente minimal y completa. i=1 Aunque este resultado es un resumen de lo que ya se justificó en la sección 3.4.4 (suficiencia minimal y la familia exponencial) y de las observaciones anteriores, la parte correspondiente a la completez puede consultarse con mayor detalle en Zacks (1971), página 69, o Schervish (1995), páginas 108110. De esta manera, es posible encontrar estadı́sticas suficientes y completas fácilmente cuando la muestra proviene de un miembro de la familia exponencial. Por ejemplo, sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Geométrica (θ), con θ ∈ [0, 1]; para encontrar una estadı́stica suficiente y completa, observe que f (x; θ) pertenece a la familia exponencial, ya que como se vio antes, f (x; θ) = θ(1 − θ)x I{0,1,...} (x) = θ exp{x ln(1 − θ)}I{0,1,...} (x), con a(θ) = θ, b(x) = I{0,1,...} (x), c(θ) = ln(1 − θ), d(x) = x. De donde, puede concluirse que S (X) = n P i=1i (minimal) y completa. Xi es una estadı́stica suficiente 88 3.6. 3. Estadı́sticas y distribuciones muestrales Algunas generalizaciones La primera generalización de los resultados vistos previamente se refiere al teorema de factorización para un conjunto de estadı́sticas suficientes. Teorema 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ) , donde θ es un vector de parámetros. Las estadı́sticas S1 (X) , S2 (X) , . . . , Sr (X) , r ≥ k, son conjuntamente suficientes si y sólo si existen dos funciones: g(S1 , . . . , Sr ; θ) que depende de X1 , X2 , . . . , Xn sólo a través de S1 , . . . , Sr y de θ; y h(X) cualquier función no negativa que sólo depende de la muestra, para las cuales la densidad conjunta fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ1 , θ2 , . . . , θk ) puede factorizarse como: fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,θ) = g(S1 , . . . , Sr ; θ) h(x). Ejemplo 3.15 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución N (µ, σ 2 ). Encontrar estadı́sticas suficientes para θ =(µ, σ 2 ). La densidad conjunta de X1 , X2 , . . . , Xn puede escribirse como fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,µ, σ 2 ) = n Y i=1 1 2πσ 2 2 1 e− 2σ2 (xi −µ) 1 2πσ 2 n/2 1 2πσ 2 n2 = = √ 1 e− 2σ2 2 i=1 (xi −µ) Pn e− 2σ2 ( 1 Pn i=1 x2i −2µ Pn i=1 xi +nµ2 ) n n P P la densidad conjunta depende de x1 , x2 , . . . , xn sólo a través de x2i y xi , i=1 i=1 n n P P por lo que las estadı́sticas Xi , Xi2 son conjuntamente suficientes. i=1 i=1 n n P P 2 2 Note que (X, S ) es una función uno a uno de Xi , Xi , por lo que i=1 i=1 también son suficientes para la distribución Normal. Familias exponenciales k-paramétricas Cuando la familia paramétrica tiene más de un parámetro, es decir, su función de densidad es de la forma f (x; θ) con θ∈ Θ ⊆ Rk , se dice que pertenece , 89 3.6. Algunas generalizaciones a la familia exponencial k-paramétrica si y sólo si puede expresarse de la forma k X cj (θ)dj (x) f (x; θ) = a(θ)b(x) exp j=1 Ejemplo 3.16 Sea X ∼ Gama(r, λ), ¿pertenece a la familia exponencial k-paramétrica?. En este caso, f (x; r, λ) λr r−1 −λx x e I(0,∞) (x) Γ(r) λr −λx+(r−1) ln(x) e I(0,∞) (x), Γ(r) = = por lo que: r λ a(θ) = Γ(r) , b(x) = I(0,∞) (x), c1 (θ) = −λ, d1 (x) = x, c2 (θ) = r − 1, d2 (x) = ln x, por lo tanto, se concluye que la densidad Gama pertenece a la familia exponencial. Ejemplo 3.17 La distribución Normal µ, σ 2 pertenece a la familia exponencial. Para comprobarlo, la densidad puede escribirse como: f x; µ, σ 2 de donde: a µ, σ 2 = d2 = x. = √ = √ = √ µ2 √ 1 e− 2σ2 2πσ 2 1 2πσ 2 1 2πσ 2 1 2πσ 2 1 e− 2σ2 (x−µ) e− 2σ2 (x 1 µ2 2 2 −2xµ+µ2 ) 1 e− 2σ2 e− 2σ2 x 2 + σµ2 x , , b (x) = 1, c1 = − 2σ1 2 , d1 = x2 , c2 = µ σ2 y Ejemplo 3.18 La distribución Beta (θ1 , θ2 ) pertenece a la familia exponencial, pues la densidad se puede escribir como: f (x; θ1 , θ2 ) = = 1 θ −1 xθ1 −1 (1 − x) 2 I(0,1) (x) B (θ1 , θ2 ) 1 I(0,1) (x) e(θ1 −1) ln x+(θ2 −1) ln(1−x) . B (θ1 , θ2 ) 90 3. Estadı́sticas y distribuciones muestrales Por último, se enuncia una extensión del resultado que relaciona a la familia exponencial con la suficiencia. Teorema 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ) , con θ ∈ Θ ⊆ Rk , que pertenece a la familia exponencial k-paramétrica, es decir: k X cj (θ)dj (x) . f (x; θ) = a(θ)b(x) exp j=1 Entonces, el conjunto de estadı́sticas n X d1 (Xi ), i=1 n X d2 (Xi ), . . . , i=1 n X ! dk (Xi ) i=1 son suficientes y completas. Con este resultado y considerando 3.16, n el ejemplo se puede afirmar que n P P si X ∼ Gama(r, λ), entonces Xi , ln(Xi ) son suficientes y comi=1 i=1 Pn Pn 2 pletas. También puede concluirse en la i=1 Xi , i=1 Xi Pn lo mismo Pn para distribución Normal y para ( i=1 ln Xi , i=1 ln (1 − Xi )) en la distribución Beta. 3.7. Estadı́sticas auxiliares En esta sección se estudiará un tipo especial de estadı́sticas llamadas auxiliares. Como se verá, una estadı́stica auxiliar no contiene información acerca de θ, es una variable aleatoria cuya distribución es fija y conocida, sin relación con θ. Sin embargo, cuando se usa en conjunto con otras estadı́sticas, puede contener información valiosa para hacer inferencias acerca del parámetro. Definición 3.9 A una estadı́stica T (X) cuya distribución no depende del parámetro θ, se le llama estadı́stica auxiliar. Ejemplo 3.19 Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Uniforme continua sobre el intervalo (θ, θ + 1), −∞ < θ < ∞. Sean Y1 = X(1) , . . . , Yn = X(n) las estadı́sticas de orden de la muestra. La estadı́stica Rango R = Yn − Y1 , es una estadı́stica auxiliar. Para verificarlo, se mostrará que la densidad de R no depende de θ. 91 3.7. Estadı́sticas auxiliares La función de distribución de cada 0, F (x; θ) = x − θ, 1, Xi es si x ≤ θ, si θ < x < θ + 1, si x ≥ θ + 1, mientras que la función de densidad está dada por (x) f (x; θ) = I(θ,θ+1) . Por lo tanto, usando la expresión (3.8) deducida en la sección 3.3.2 la función de densidad conjunta de Y1 y Yn es fY1 ,Yn (y1 , yn ) n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ) ( n(n − 1)(yn − y1 )n−2 si θ < y1 < yn < θ + 1, = 0 en otro caso. = Haciendo la transformación R = Yn − Y1 y T = (Y1 + Yn ) /2, la cual tiene la transformación inversa Y1 = (2T − R)/2 y Yn = (2T + R)/2 con Jacobiano igual a −1 (ver sección 3.3.2), y usando la expresión (3.9), la función de densidad conjunta de R y T está dada por ( n(n − 1)rn−2 si 0 < r < 1; θ + (r/2) < t < θ + 1 − (r/2), fR,T (r, t) = 0 en otro caso. Por lo tanto, la función de densidad de probabilidad para R es Z θ+1−(r/2) fR (r) = n(n − 1)rn−2 dt θ+(r/2) = n(n − 1)rn−2 (1 − r), 0 < r < 1. Esta es la función de densidad de una variable aleatoria con distribución Beta con α = n − 1 y β = 2. Y ası́, la función de densidad es la misma para toda θ; por lo tanto, la distribución de R no depende de θ, concluyéndose que R = Yn − Y1 es una estadı́stica auxiliar. El siguiente resultado, conocido como el teorema de Basu, permite verificar la independencia de dos estadı́sticas sin necesidad de encontrar su distribución conjunta. Teorema 3.10 (teorema de Basu). Si S(X) es una estadı́stica suficiente y completa y T (X) es una estadı́stica auxiliar, entonces S(X) y T (X) son independientes. 92 3. Estadı́sticas y distribuciones muestrales Demostración. Se hará para el caso discreto. Como T (X) es una estadı́stica auxiliar, entonces P(T (X) = t) no depende de θ. También la probabilidad condicional P(T (X) = t|S(X) = s) = P(X ∈ {x : T (x) = t}|S(X) = s), no depende de θ porque S(X) es una estadı́stica suficiente. Por lo tanto, para demostrar que S(X) y T (X) son independientes, basta comprobar que P(T (X) = t|S(X) = s) = P(T (X) = t), para todos los posibles valores de s ∈ S. Observe que X P(T (X) = t) = P(T (X) = t|S(X) = s)P(S(X) = s). (3.16) s∈S Por otro lado, dado que X P(S(X) = s) = 1, se puede escribir s∈S P(T (X) = t) = P(T (X) = t) X P(S(X) = s) s∈S = X P(T (X) = t)P(S(X) = s). (3.17) s∈S Sea g (S) definida como g(s) = P(T (X) = t|S(X) = s) − P(T (X) = t), la cual no depende de θ, pues como se habı́a señalado, ni P(T (X) = t|S(X) = s) (por la suficiencia de S), ni P(T (X) = t) (por ser T una estadı́stica auxiliar) dependen de θ; ası́ que g (S) es una estadı́stica. Por (3.16) y (3.17), se deduce que X E [g(S)] = g(s)P(S(X) = s) s∈S = X [P(T (X) = t|S(X) = s) − P(T (X) = t)] P(S(X) = s) s∈S = X P(T (X) = t|S(X) = s)P(S(X) = s) s∈S − X P(T (X) = t)P(S(X) = s) s∈S = P(T (X) = t) − P(T (X) = t) = 0, para toda θ, 3.8. Ejercicios 93 y como S(X) es una estadı́stica completa, se tiene que g(s) = 0, para s ∈ S; por lo que P(T (X) = t|S(X) = s) = P(T (X) = t), concluyéndose que S(X) y T (X) son independientes. En el teorema de Basu se hace el supuesto de que S (X) es suficiente y completa, esto implica que S (X) también es suficiente minimal (ver Schervish (1995), sección 2.1). Ejemplo 3.20 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme en el intervalo (0, θ) y sean Y1 y Yn las estadı́sticas de orden mı́nima y máxima, respectivamente. Entonces las estadı́sticas T (X) = Y1 Yn y S (X) = Yn , son variables aleatorias independientes. Para verificarlo, recuerde que Yn es una estadı́stica suficiente y completa para θ (ver ejemplos 3.7 y 3.14). De acuerdo con el teorema de Basu basta mostrar que T (X) es una estadı́stica auxiliar, por lo que se calculará la función de distribución de T (X) usando la expresión general para la función de densidad conjunta de Y1 y Yn dada por (3.8) e integrando sobre la región adecuada: Y1 FT (t) = P ≤t , 0<t<1 Yn = P [Y1 ≤ tYn ] Z θ Z tyn y1 n−2 n(n − 1) yn − dy1 dyn = 2 θ θ θ 0 0 = 1 − (1 − t)n−1 I(0,1) (t) + I[1,∞) (t). Por lo tanto, la función de densidad de T (X) no depende de θ. Ası́, T (X) y S (X) son estadı́sticas (variables aleatorias) independientes. 3.8. Ejercicios 1. Suponga que X es una variable aleatoria discreta con función de densidad dada por 0.2 si x = 0, 0.3 si x = 3, fX (x) = 0.5 si x = 12. Sea X1 , X2 y X3 una muestra aleatoria de esta distribución. Obtenga: 94 3. Estadı́sticas y distribuciones muestrales (a) La distribución de la muestra (es decir, haga la lista de todos los posibles valores de la muestra aleatoria y sus respectivas probabilidades). (b) La distribución muestral de la media muestral X. (c) La distribución muestral de la mediana muestral. 2. Sea X una variable aleatoria discreta que toma los valores 1, 2 y 3 con probabilidades 16 , 21 y 13 , respectivamente. Considere las posibles muestras aleatorias simples de tamaño dos. (a) Determine la distribución de la media muestral (es decir, fX̄ (·)). (b) Compruebe que la esperanza de la media muestral es igual a la media poblacional. (c) Compruebe que la varianza de la media muestral es igual a la varianza poblacional dividida entre el tamaño de muestra. 3. En un dado están marcados los resultados 1, 2 y X. Para hacer inferencias acerca de las probabilidades p1 , p2 y pX de cada resultado, se lanza tres veces el dado. (a) Construya el espacio muestral y la distribución de la muestra (de tamaño 3). (b) Obtenga la distribución de T1 , T2 y TX , siendo Ti la frecuencia de resultados iguales a i. (c) Determine la distribución de TX , su media y su varianza. (d) Calcule la covarianza entre T1 y T2 . 4. De una población con distribución Poisson(θ), se obtiene una muestra aleatoria de tamaño n. Determine la distribución de la media muestral. 5. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad n o f (x; θ) = e−(x−θ) exp −e−(x−θ) , donde θ es un número real. (a) Obtenga la distribución de T = Pn i=1 e−Xi . (b) Calcule E[ln(T )] y Var[ln(T )]. 6. Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función de densidad es θ , x > 0, f (x; θ) = 1+θ (1 + x) 95 3.8. Ejercicios siendo θ un parámetro Pn mayor que cero. Determine la distribución de la estadı́stica T = i=1 ln (1 + Xi ). 7. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Rayleigh, cuya función de densidad es f (x; θ) = 2 −x2 /θ xe , θ I(0,∞) (x), con θ > 0. (a) Obtenga la distribución de T = Pn i=1 Xi2 . (b) Obtenga E(T ) y Var(T ). (c) Demuestre que T es una estadı́stica suficiente para θ. 8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (µ, σ 2 ). Encuentre la media y la varianza de sP S= n i=1 (Xi − X̄)2 . n−1 9. Sea X una variable aleatoria con distribución χ2(1) . Defina Z1 = √ y Z2 = − X. Obtenga las distribuciones de Z1 y Z2 . √ + X 10. Sea X una variable aleatoria con distibución F (m, n). Demuestre que (a) Z = 1 X (b) Z = mX/n 1+mX/n ∼ F (n, m). ∼ Beta(m/2, n/2). 11. Sea X una variable aleatoria con distibución t(k) . Demuestre que (a) La distribución de X se aproxima a una distribución N (0, 1) cuando k crece. (b) Y = X 2 ∼ F (1, k). 12. Demuestre el teorema 3.4. Es decir, si Z y U son variables aleatorias independientes con distribución N (0, 1) y χ2(k) , respectivamente, demuestre que Z p ∼ t(k) . U/k 96 3. Estadı́sticas y distribuciones muestrales 13. Sea Xi , i = 1, 2, 3, una muestra aleatoria de la población con distribución N (i, i2 ), respectivamente. En cada una de las siguientes situaciones utilice las Xi ’s para construir una estadı́stica con la distribución indicada. (a) χ2 con 3 grados de libertad. (b) t de Student con 2 grados de libertad. (c) F con 1 y 2 grados de libertad. 14. Sea X1 , X2 una muestra aleatoria de la población con distribución N (0, 1). Para cada uno de los siguientes incisos obtenga las distribuciones de las estadı́sticas T (X). √ (a) T (X) = (X2 − X1 )/ 2. (b) T (X) = (X1 + X2 )2 /(X2 − X1 )2 . (c) T (X) = X12 /X22 . (d) T (X) = (X2 + X1 )/ p (X1 − X2 )2 . 15. Sea Z1 , Z2 una muestra aleatoria de la población con distribución N (0, 1), y sea X1 , X2 una muestra aleatoria de la población con distribución N (1, 1). Suponga que las Z’s son independientes de las X’s. Para cada uno de los siguientes incisos obtenga las distribuciones de las estadı́sticas T = T (X, Z). (a) T = X̄ + Z̄. p (b) T = (Z1 + Z2 )/ [(X2 − X1 )2 + (Z2 − Z1 )2 ]/2. (c) T = (X1 − X2 )2 + (Z1 − Z2 )2 + (Z1 + Z2 )2 /2. (d) T = (X2 + X1 − 2)2 /(X2 − X1 )2 . 16. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (0, 1). Sean Xk = k 1X Xi , k i=1 X n−k = n X 1 Xi . n−k i=k+1 Para cada uno de los siguientes incisos obtenga las distribuciones de las estadı́sticas T (X). (a) T (X) = 21 (X k + X n−k ). 2 2 (b) T (X) = kX k + (n − k)X n−k . 97 3.8. Ejercicios (d) T (X) = X1 /Xn . 17. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (µ, σ 2 ). Sean Xk = X n−k = k 1X Xi , k i=1 n X 1 Xi , n−k X= i=k+1 n X 1 n Xi , k 1 X (Xi − X k )2 , k − 1 i=1 Sk2 = 2 Sn−k = n X 1 (Xi − X n−k )2 , n−k−1 i=k+1 1 n−1 S2 = i=1 n X (Xi − X)2 . i=1 Para cada uno de los siguientes incisos obtenga las distribuciones de las estadı́sticas T (X). 2 2 (a) T (X) = (k − 1)Sk2 + (n − k − 1)Sn−k /σ . (b) T (X) = 21 (X k + X n−k ). √ (c) T (X) = (X̄ − µ)/(S/ n). 2 (d) T (X) = Sk2 /Sn−k . 18. Sean X1 , . . . , Xn y Z1 , . . . , Zn muestras aleatorias independientes entre sı́ de la distribución Normal tales que E(Xi ) = E(Zi ) = µ, Var(Xi ) = σ 2 y Var(Zi ) = 2σ 2 para cualquier i ∈ {1, 2, . . . , n}. Defina U= n X (Xi − X̄)2 , V = i=1 Determine la distribución de n X (Zi − Z̄)2 . i=1 2U +V 2σ 2 . 19. Un inversionista bursátil compra o vende acciones de CEMEX, S. A. mediante el siguiente procedimiento: selecciona al azar una muestra de dı́as para los que determina el ı́ndice medio, X de la empresa Edificaciones, S. A.; selecciona también al azar otra muestra de dı́as, para los que determina el ı́ndice medio, Z, de CEMEX, S. A. Compra acciones de CEMEX, S. A. cuando Z ≤ X, vendiendo en caso contrario. El inversionista supone que ambos ı́ndices bursátiles se distribuyen normal e independientemente con una diferencia de medias de 1.432 unidades en favor de la primera y que los ı́ndices bursátiles de ambas empresas se comportan de forma independiente todos los dı́as. 98 3. Estadı́sticas y distribuciones muestrales Calcular la probabilidad de que el inversionista compre bajo el supuesto de que seleccionó 60 dı́as para calcular el primer ı́ndice y obtuvo una varianza muestral de 23 y 50 dı́as para el segundo con una varianza de 7. 20. Sea X1 , X2 una muestra aleatoria de la población con distribución N (0, 1). Defina Y = mı́n(X1 , X2 ). Demuestre que Y 2 ∼ χ2(1) . 21. Sea X1 , X2 una muestra aleatoria de la población con distribución Pareto, cuya función de densidad es f (x; α) = α I[1,∞] (x), α > 0. xα+1 Sean Y1 y Y2 las correspondiente estadı́sticas de orden. ¿Qué puede decir de la distribución de las variables aleatorias presentadas en los siguientes incisos? (a) Y2 . (b) Y2 − Y1 . (c) Y2 /Y1 . 22. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución U (0, 1). (a) Obtenga la distribución conjunta de Y1 , Y2 , Y3 (las correspondientes estadı́sticas de orden). (b) Obtenga la función de densidad de la mediana, es decir, de Y2 . (c) Obtenga la función de densidad del rango R = Y3 − Y1 . 23. Sean Y1 , Y2 , Y3 , Y4 las estadı́sticas de orden de una muestra aleatoria de tamaño 4 de la población con función de densidad fX (x) = exp (−x) I(0,∞) (x) . Obtenga lo siguiente: (a) P (3 ≤ Y4 ). (b) E (Y1 ). (c) La función de densidad conjunta de Y1 y Y4 . 24. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Exponencial de parámetro θ = 1, es decir Xi ∼ exp(1). Y sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre que nYn y n(Y2 − Y1 ) son independientes. 99 3.8. Ejercicios 25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Uniforme U (θ − 1/2, θ + 1/2). (a) Obtenga la distribución de la mı́nima estadı́stica de orden Y1 , ası́ como de la máxima Yn . (b) Obtenga las esperanzas de Y1 y Yn . 26. Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con distribución Uniforme U (0, θ). Demuestre que Y1 /Yn y Yn son variables aleatorias independientes, donde Y1 y Yn son las estadı́sticas de orden mı́nima y máxima respectivamente. 27. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad a fX (x; a, θ) = a xa−1 , si 0 < x < θ. θ Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre que Y1 /Y2 , Y2 /Y3 , . . . , Yn−1 /Yn son variables aleatorias mutuamente independientes y obtenga la distribución de cada una de ellas. 28. Sea Ui , i = 1, 2, . . . , una muestra aleatoria de la población con distribución U (0, 1), y sea X una variable aleatoria con función de densidad P(X = x) = c , x! x = 1, 2, 3, . . . , donde c = 1/(e − 1). Obtenga la distribución de Y = mı́n(U1 , . . . , UX ). [Nota: La distribución condicional de Y dada X = x, Y |X = x, es la distribución de la mı́nima estadı́stica de orden de una muestra de tamaño x]. 29. Sea X1 , X2 una muestra aleatoria de la población con distribución N (0, 1). Obtenga la distribución del rango, R = Y2 − Y1 . 30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U (0, 1). Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden. (a) Obtenga la media y varianza de Yn − Y1 . (b) Obtenga la media y varianza de (Y1 + Yn )/2. (c) Obtenga la media y varianza de Yk+1 (mediana) considerando que n = 2k + 1, con k = 0, 1, . . . . (d) Compare las medias y las varianzas de X, Yk+1 , (Y1 + Yn )/2. 100 3. Estadı́sticas y distribuciones muestrales 31. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (µ, σ 2 ). Demuestre que: Pn 2 2 (a) S(X) = i=1 Xi es una estadı́stica suficiente para σ cuando µ = 0. 2 Pn (b) S(X) = i=1 (xi −µ) es una estadı́stica suficiente para σ 2 cuando n µ es conocida. Pn (xi −x̄)2 (c) S(X) = no es una estadı́stica suficiente para σ 2 i=1 n cuando µ es desconocida. 32. Sea X una variable aleatoria con distribución N (0, θ) . (a) ¿Es S(X) = X una estadı́stica suficiente para θ?. (b) ¿Es S(X) =| X | una estadı́stica suficiente para θ?. 33. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Gama(α, β) cuya función de densidad es f (x; α, θ) = 1 xα−1 e−x/β , Γ(α)β α con α > 0, β > 0 y 0 < x < ∞. (a) Demuestre que si α = 1, S(X) = suficiente para β. Pn i=1 (b) Demuestre que si β es conocido, S(X) = ca suficiente para α. Xi es una estadı́stica Qn i=1 Xi es una estadı́sti- (c) Si α y β son desconocidos, obtenga una estadı́stica suficiente (bidimensional) para los parámetros (α, β). 34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Beta (α, 2) , α > 0, β = 2, cuya función de densidad es f (x; α) = Γ (α + 2) α−1 1 x (1 − x) , 0 < x < ∞, Γ (α) Γ (2) cero en cualquier otro caso. Demuestre que S(X) = X1 X2 · · · Xn = Πni=1 Xi (el producto) es una estadı́stica suficiente para α. 35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución W eibull(α, β), cuya función de densidad es β 1 β−1 x fX (x; α) = βx exp − I(0,∞) (x), α α 101 3.8. Ejercicios donde α > 0 es un parámetro desconocido, pero β > 0 es un parámetro conocido. Encuentre una estadı́stica suficiente para θ. 36. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Cauchy(θ) cuya función de densidad es f (x; θ) = 1 2 π 1 + (x − θ) , -∞ < x < ∞, − ∞ < θ < ∞. (a) ¿Puede escribirse la función de densidad conjunta de X1 , X2 , . . . , Xn como en el teorema de factorización? (b) ¿Existe una estadı́stica suficiente para el parámetro θ? Sugerencia: al hacer la integral (para calcular la esperanza) considere el cambio de variable x − θ = tan η. 37. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución W eibull(α, β), donde α > 0 es desconocida, pero β > 0 se supone conocido, con función de densidad β 1 β−1 x f (x; α) = βx exp − I(0,∞) (x). α α Esta función de densidad se usa frecuentemente como un modelo para las longitudes de vida de sistemas fı́sicos. Demuestra que S(X) = Pn β i=1 Xi es una estadı́stica suficiente para α. 38. *Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función de densidad es 1 (x − µ) fX (x; µ, σ) = exp − I(µ,∞) (x), σ σ con µ ∈ R y σ ∈ R+ . Pn (a) Demuestre que S(X) = Y1 , n1 i=1 (Xi − Y1 ) es una estadı́stica suficiente para (µ, σ) si ambos parámetros son desconocidos. Pn (b) Demuestre que si µ es conocido entonces S(X) = n1 i=1 (Xi − µ) es una estadı́stica suficiente para σ. (c) Demuestre que si σ es conocido entonces S(X) = Y1 es una estadı́stica suficiente para µ. 102 3. Estadı́sticas y distribuciones muestrales 39. *Considere la siguiente función de densidad dependiente de tres parámetros α, p y σ, p−1 x−α x−α 1 exp − , f (x; α, p, σ) = σΓ(p) σ σ con p > 0, σ > 0 y α ≤ x < ∞. Demuestre que: (a) Existe una estadı́stica suficiente para p cuando α y σ son conocidos. (b) Existe una estadı́stica suficiente para σ cuando α y p son conocidos. (c) De forma conjunta existe un par de estadı́sticas suficientes para (p, σ) cuando α es conocida. (d) Si σ es conocida y p = 1, existe una estadı́stica suficiente para α. 40. Sea X1 , . . . , Xn una muestra aleatoria de las distribuciones f (x; θ) especificadas a continuación. Encuentre una estadı́stica suficiente minimal y completa para θ. (a) f (x; θ) = θxθ−1 I(0,1) (x), θ > 0. (b) f (x; θ) = 1 3 6θ 4 x exp(−x/θ)I(0,∞) (x), θ > 0. (c) Binomial(k, θ) (k fijo). (d) Binomialnegativa(k, θ) (k fijo). 41. Sea X1 , . . . , Xn una muestra aleatoria de la población cuya función de densidad es f (x; θ) = θ2 (x + 1)e−θx I(0,∞) (x), θ > 0. θ+1 (a) Demuestre que la función de densidad de X pertenece a la familia exponencial. (b) Obtenga una estadı́stica suficiente minimal y completa. 42. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Pareto, con función de densidad f (x; x0 , θ) = θxθ0 x−θ−1 , x0 ≤ x, θ > 1. donde x0 > 0. Obtenga una estadı́stica suficiente para θ: (a) Usando el teorema de factorización. 103 3.8. Ejercicios (b) Usando la propiedad de la familia exponencial. ¿Las estadı́sticas suficientes son las mismas? 43. *Sea X1 , . . . , Xn una muestra de aleatoria de la población con distribución Gaussiana Inversa, IG(µ, λ), cuya función de densidad es 1/2 λ λ(x − µ)2 I(0,∞) (x). exp − 2πx3 2µ2 x Demuestre que S(X) = X̄, Pn n1 −X̄ −1 es una estadı́stica suficien f (x; µ, λ) = i=1 Xi te y completa. 44. Sea X1 , X2 , X3 una muestra de la población con distribución Paleatoria 3 Bernoulli(θ). Defina T = i=1 Xi , T1 = X1 y T2 = (T, T1 ). (a) Obtenga las particiones inducidas sobre el espacio muestral a partir de T , T1 y T2 , respectivamente. (b) Muestre que T es una estadı́stica suficiente minimal para θ, pero T2 no lo es. [Nota: primero muestre que T conduce a la partición suficiente minimal sobre el espacio muestral, pero que T2 no conduce a tal partición]. 45. Sea X una variable aleatoria con distribución Uniforme U (−θ, θ). (a) ¿S(X) = X es una estadı́stica suficiente minimal para θ? (b) ¿S(X) = X es una estadı́stica completa? 46. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Uniforme U (θ, θ+1). Demuestre que S(X) = (Y1 , Yn ) es una estadı́stica suficiente minimal y que no es completa. 47. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Uniforme U (θ1 , θ2 ), con θ1 < θ2 . (a) Demuestra que si θ1 es conocido, entonces S(X) = Yn es una estadı́stica suficiente minimal y completa para θ2 . (b) Demuestra que si θ2 es conocido, entonces S(X) = Y1 es una estadı́stica suficiente minimal y completa para θ1 . (c) Si θ1 y θ2 son desconocidos, obtenga una estadı́stica suficiente (bidimensional) minimal y completa para los parámetros (θ1 , θ2 ). 104 3. Estadı́sticas y distribuciones muestrales 48. Para cada una de las siguientes distribuciones, sea X1 , . . . , Xn una muestra aleatoria. Obtenga una estadı́stica suficiente y completa para θ, o en su caso muestre que no existe alguna. (a) f (x; θ) = (b) f (x; θ) = 2x θ 2 , 0 < x < θ, θ > 0. ln(θ)θ x θ−1 , 0 < x < 1, θ > 1. θ , (1+x)1+θ 0 < x < ∞, θ > 0. (d) f (x; θ) = e−(x−θ) exp −e−(x−θ) , −∞ < x, θ < ∞. (c) f (x; θ) = 49. Sea T una estadı́stica auxiliar para θ con función de densidad fT (t). Sea g(·) una función diferenciable uno-a-uno que no depende de θ. Demuestre que T ∗ = g(T ) también es una estadı́stica auxiliar para θ. 50. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (µ, σ 2 ), donde σ 2 es conocido. (a) Demuestre que S(X) = X es una estadı́stica suficiente y completa para µ, y que T (X) = S 2 es una estadı́stica auxiliar. (b) Demuestre que X y S 2 son estadı́sticas independientes. Capı́tulo 4 Estimación puntual En este capı́tulo se abordarán los tópicos relacionados con estimación puntual. Se inicia con la exposición de los métodos de estimación más importantes, tales como el de máxima verosimilitud, el de momentos y otros como el de medianas y percentiles. Ası́mismo, se da una introducción al método Bayesiano y más adelante al de mı́nimos cuadrados. Posteriormente se revisan las propiedades deseables de un estimador puntual como una forma de analizar su bondad. Se habla del error cuadrático medio, estimadores insesgados y la propiedad de consistencia, para dar lugar al ulterior desarrollo de la teorı́a para encontrar a los mejores estimadores insesgados. 4.1. Introducción Suponga que se dispone de una población en la que se estudia una variable aleatoria X con distribución conocida y parámetro (o parámetros) desconocido(s) y se tiene interés en disminuir el grado de desconocimiento de θ en f (x; θ) . De la población se extrae una muestra aleatoria simple de tamaño n: X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores muestrales, una función de los mismos que proporcione una estadı́stica θb = T (X1 , X2 , ..., Xn ) que le asigne un valor al parámetro desconocido de la población, de forma que sean lo más cercanos en algún sentido. A θb se le llama estimador. El objetivo de la estimación puntual es entonces encontrar un valor para b que sea función de la muestra aleatoria y que permita θ, denotado como θ, modelar o describir de manera adecuada el fenómeno aleatorio. 105 106 4. Estimación puntual Definición 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de densidad f (x; θ). Un estimador es una estadı́stica T (X) cuyos valores t(x) sirven para aproximar o estimar los valores de θ. La notación θ̂ = T (X) expresa que el estimador de θ es la estadı́stica T (X). Los valores del estimador, o sea t(x), son realizaciones de la variable aleatoria T (X). Si por ejemplo, se tiene una población N (µ, σ 2 ), un posible estimador para µ es µ̂ = X̄, es decir, en este caso el estimador de µ serı́a la estadı́stica X (la media muestral). En los siguientes párrafos se presentarán los métodos más conocidos para encontrar estimadores. En ocasiones, en lugar del parámetro θ, se desea estimar una función de dicho parámetro. En general, se denotará como τ (θ) a cualquier función de θ. 4.2. Métodos de estimación El primero de los métodos que se abordará fue aportación de Karl Pearson (1857-1936) y se conoce como el método de momentos para la estimación de parámetros. Karl Pearson “fue historiador, escribió sobre folklore, fue socialista convencido, abogado, matemático aplicado, biómetra, estadı́stico, maestro y biógrafo. Sin duda, su contribución más importante es el nacimiento de la estadı́stica aplicada. Es por lo que se le debe mayor crédito, en frase de él mismo: Hasta que los fenómenos de cualquier rama del conocimiento no hayan sido sometidos a medida y número, no se puede decir que se trate de una ciencia. Además del método de momentos para la obtención de estimadores, introdujo el sistema de curvas de frecuencias para disponer de distribuciones que pudieran aplicarse a los distintos fenómenos aleatorios, desarrolló la correlación lineal para aplicarla a la teorı́a de la herencia y de la evolución. Introdujo el método de la Ji-cuadrada para dar una medida del ajuste entre datos y distribuciones, para contrastar la homogeneidad entre varias muestras y la independencia entre variables. Fundó los Anales de la Eugenesia y en 1900, junto con Galton y Weldon, fundó la revista Biometrika de la que fue editor hasta su muerte. En una descripción autobiográfica decı́a: una explicación para mi vida, se debe a una combinación de dos caracterı́sticas que he heredado: capacidad para trabajar mucho y capacidad para relacionar las observaciones de los demás”1 . 1 Gómez Villegas, M.A. (2009). Karl Pearson, el creador de la estadı́stica matemática. Historia de la probabilidad y la estadı́stica IV, J. Basulto y J.J. Garcı́a (eds.). Congreso internacional de historia de la estadı́stica y la probabilidad, 351-356. 4.2. Métodos de estimación 107 También se introducirá el {indexmétodo! de máxima verosimilitud propuesto por Ronald A. Fisher en 1922, y que intuitivamente pretende obtener el estimador de un parámetro seleccionando el que maximiza la probabilidad de obtener los datos que realmente fueron observados. Hablar de Fisher2 equivale a referirse al desarrollo de la estadı́stica durante el siglo XX. Basta decir que la mayor parte de los términos que se usan en Inferencia estadı́stica los introdujo él, por ejemplo, parámetro, estadı́stica (función de la muestra aleatoria), verosimilitud, score o puntaje, estadı́stica auxiliar, información, hipótesis nula y errores tipo I y II, sólo por mencionar algunos. Figura 4.1: Karl Pearson con Francis Galton. Ambos fundaron la revista Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public domain). 2 La imagen anterior fue tomada de commons.wikipedia.org (public domain). By AnemoneProjectors (talk) (Flickr) (Sir Ronald Aylmer Fisher plaque) [CC BY-SA 2.0 (https://creativecommons.org/licenses/by-sa/2.0)], via Wikimedia Commons. 108 4. Estimación puntual Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sustenta la estadı́stica como ciencia. Egon Pearson (1974), hijo de Karl Pearson, habla de las diferencias conceptuales entre su padre y Fisher3 : Galton y K. Pearson trabajaron con muestras grandes por su interés en la reproducción libre de las especies en su medio natural, esto ocurre con humanos, animales y plantas. Por su parte, Fisher trabajó con muestras pequeñas relacionadas con datos experimentales, por lo que era necesario analizar con cuidado las bases de la inferencia estadı́stica para una adecuada interpretación. Fisher estudió resultados exactos en muestras pequeñas, pero también obtuvo propiedades asintónticas óptimas de los estimadores máximo verosı́miles. Figura 4.2: Placa English Heritage dedicada a Fisher en la casa Inverforth. En esta parte se hablará además del enfoque Bayesiano en la teorı́a de la estimación puntual, el cual se basa en el teorema de Bayes. 4.2.1. Método de momentos Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de densidad f (x; θ). A E(Xir ) se le conoce como el r-ésimo momento poblacional Pn r i=1 Xi y se denota por µr , mientras que es el r-ésimo momento muestral n y se denota por Mr . 3 Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int. Stat. Rev. 42 (1). 109 4.2. Métodos de estimación El método de estimación por momentos consiste en igualar los momentos muestrales con los momentos poblacionales y resolver para θ (o θ1 , ..., θk , si la distribución tiene k parámetros). Esto es, µr = Mr , donde r = 1, ..., k y k representa el número de parámetros a estimar. De manera general, si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de densidad f (x; θ1 , θ2 , ..., θk ), en la estimación por momentos se resuelve el siguiente sistema de ecuaciones µ = M 1 , µ 2 = M2 , . . . , µ k = Mk {z } |1 k ecuaciones con k incógnitas La solución a este sistema θ̂ = (θˆ1 , . . . , θˆk ) se conoce como el estimador por el método de momentos. Ejemplo 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución P oisson(θ). Como E(X) = θ, entonces Pn θ̂ = i=1 Xi n . Ejemplo 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución exp(θ). Como 1 E(X) = , θ entonces 1 X̄ = . θ Por lo tanto, θ̂ = 1/X̄. Ejemplo 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N (µ, σ 2 ). Como E(X) = µ y V ar(X) = σ 2 , entonces E(X 2 ) = µ2 + σ 2 . Por lo tanto, n X̄ = µ̂ y X̄ 2 + σ̂ 2 = 1X 2 X . n i=1 i 110 4. Estimación puntual Es decir, n 1X 2 σ̂ = X − X̄ 2 . n i=1 i 2 Pero note que n X (Xi − X̄)2 n X = i=1 (Xi2 − 2X̄Xi + X̄ 2 ) i=1 n X = Xi2 − 2X̄ i=1 n X = n X Xi + nX̄ 2 i=1 Xi2 2 2 − 2nX̄ + nX̄ = i=1 Xi2 − nX̄ 2 . i=1 n ∴ n X n 1X 1X 2 (Xi − X̄)2 = X − X̄ 2 . n i=1 n i=1 i Entonces los estimadores por momentos para µ y σ 2 son n µ̂ = X̄ y σ̂ 2 = 1X (Xi − X̄)2 . n i=1 Ejemplo 4.4 Suponga que se tiene la siguiente muestra de tamaño 10 : 1, 1, 1, 2, 2, 3, 5, 7, 8, 10. Estimar los parámetros µ y σ 2 usando el método de momentos si la distribución normal se ajusta a través de los datos de la muestra. En este caso, las estadı́sticas muestrales están dadas por 10 X xi = 40 y i=1 10 X x2i = 258. i=1 Usando el método de momentos y el ejemplo anterior: µ b= 40 =4 10 y 258 2 + 42 = σc . 10 De donde 2 = 9.8. σc 111 4.2. Métodos de estimación Ejemplo 4.5 Hallar los estimadores por el método de momentos de la distribución Gama y usar los datos del ejemplo anterior para dar valores numéricos b Igualando los primeros momentos muestrales y poblacionales, se de rb y λ. obtiene: 40 r = 4. (4.1) E (X) = = λ 10 y r (r + 1) 258 = = 25.8. E X2 = λ2 10 Se tiene un sistema de dos ecuaciones. Para encontrar la solución, se considera el cociente: E X2 rb + 1 25.8 = 2 = 1.6125. 2 = rb 4 [E (X)] y resolviendo para r : rb = 1.6327. Sustituyendo este valor en (4.1) y despejando λ, se obtiene: b = 1.6327 = 0.408 2. λ 4 El rango del estimador no necesariamente coincide con el espacio del parámetro a estimar. Considere en el siguiente ejemplo una distribución Binomial con k y p desconocidos. Ejemplo 4.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con esta distribución es que se busque estimar las tasas de ocurrencia de un crimen, conociendo que existe un número importante de casos que no se denuncian o reportan, es decir, no se sabe cuál es exactamente el valor de k. Utilizando el método de momentos, se consideran los dos primeros momentos poblacionales de la distribución binomial, ası́ como los correspondientes momentos muestrales: X¯n = kp (4.2) y n 1X 2 X = kp(1 − p) + k 2 p2 . n i=1 i (4.3) De (4.2) se obtiene p̂ = X¯n , k (4.4) 112 4. Estimación puntual sustituyendo este resultado en lugar de p en (4.3): n 1X 2 X¯n 2 Xi = X¯n (1 − ) + X¯n n i=1 k (4.5) y como n n 2 1X 2 1X 2 Xi − X¯n = X + X¯n , n i=1 n i=1 i (4.5) es equivalente a n X¯n = X¯n (1 − ) k 1X (Xi − X¯n )2 n i=1 2 X¯n ¯ , = Xn − k ası́ que despejando el valor de k, se obtiene 2 X¯n k n 1X = X¯n − (Xi − X¯n )2 , n i=1 1 k 2 ¯ Xn = X¯n − k̂ = X¯n − Pn 1 n i=1 (Xi 2 X¯n P n 1 i=1 (Xi n , − X¯n )2 . − X¯n )2 Por lo tanto, el valor estimado de p es p̂ = X¯n . b k Observe que no se puede garantizar que k será un número entero positivo y que p ∈ [0, 1]. Sin embargo, en general el método permite obtener una propuesta para estimar rápidamente los parámetros desconocidos. 4.2.2. Estimadores basados en verosimilitud Para introducir este método se presenta primero el siguiente ejemplo (Mood, Graybill y Boes, 1973), el cual considera que se tiene una urna en donde se sabe que hay bolas negras y blancas, de las cuales se desconoce el número de cada una de ellas, pero se tiene el dato de que la razón es de 3 a 1, aunque también se ignora si hay más bolas blancas que negras o viceversa. Se desea 113 4.2. Métodos de estimación estimar la proporción de bolas negras en la urna y para ello, se toma una muestra de tamaño 3 con reemplazo de esta población, X1 , X2 , X3 . Note que Xi tiene distribución Bernoulli(θ), i = 1, 2, 3. Observe que: θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1). θ sólo puede tomar los valores 14 y 34 , debido a que la razón establecida es de 3 a 1. P3 X := i=1 Xi es el número de bolas negras en la muestra. Y por lo tanto, X puede tomar los valores x = 0, 1, 2, 3. X ∼ Bin(n = 3, θ). En el cuadro 4.1 se presentan las probabilidades de obtener 0, 1, 2 y 3 bolas negras, con ambos valores del parámetro. Si en la muestra se obtienen Valor de θ θ = 1/4 θ = 3/4 P (X = 0) 27/64 1/64 P (X = 1) 27/64 9/64 P (X = 2) 9/64 27/64 P (X = 3) 1/64 27/64 Cuadro 4.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ = θ = 43 . 1 4 y 0 bolas negras, es decir (x1 = 0, x2 = 0, x3 = 0) , entonces θ̂ = 1/4 porque es más probable obtener (con este valor de θ) 0 bolas negras que con θ̂ = 3/4. Ahora, si en la muestra se obtienen 2 bolas negras entonces θ̂ = 3/4, ya que es más probable obtener 2 bolas negras con θ̂ = 3/4 que con θ̂ = 1/4. Es decir, se escoge el valor de θ que maximiza la probabilidad de obtener una muestra especı́fica (x1 , x2 , x3 ). Esta es la idea subyacente en el método de máxima verosimilitud para estimar parámetros. De manera general, es necesario definir una función que represente la ”probabilidad” de obtener una cierta muestra de entre todas las posibles en X (el espacio muestral o de las muestras). Dicha función, para un valor muestral fijo, depende únicamente de los parámetros de la distribución en cuestión y el problema es encontrar aquel valor del parámetro o de los parámetros que maximicen esta función para una realización fija de la muestra. En el ejemplo anterior, el parámetro sólo puede tomar dos valores, pero en general se estará resolviendo un problema de optimización 114 4. Estimación puntual sobre el espacio paramétrico correspondiente a la distribución con la que se esté trabajando (una vez que se ha observado una muestra). Para abordar este tema, se iniciará con la definición de la función de verosimilitud. Definición 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ). Se define la función de verosimilitud como la función de densidad conjunta de la muestra y se denota como L(θ) o L(θ | x). Es decir: L(θ) = fX1 ,...,Xn (x1 , ..., xn ; θ) = n Y fXi (xi ; θ). i=1 Definición 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ) y L(θ) la correspondiente función de verosimilitud. A θ̂ = T (X) se le llama el estimador máximo verosı́mil de θ, si satisface que para cualquier θ ∈ Θ, se tiene que L(θ̂) ≥ L(θ). Método general Sea f (x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk ) satisface el sistema ∂L(θ1 , θ2 , ..., θk ) = 0 i = 1, 2, ..., k; ∂θi entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosı́mil de θ. Note que 1 ∂ ∂ ln(L(θ1 , θ2 , . . . , θk )) = · L(θ1 , θ2 , . . . , θk ). ∂θi L(θ1 , θ2 , . . . , θk ) ∂θi Por lo tanto, ∂ ∂ ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔ L(θ1 , θ2 , . . . , θk ) = 0. ∂θi ∂θi Es decir, ln(L(θ1 , θ2 , . . . , θk )) alcanza su máximo en el mismo punto que L(θ1 , θ2 , . . . , θk ). En virtud de la observación anterior se define la log-verosimilitud de f (x; θ1 , θ2 , . . . , θk ) como l (θ1 , θ2 , . . . , θk ) = ln(L(θ1 , θ2 , . . . , θk )). Frecuentemente, por practicidad, se calcula el máximo de l (θ) en vez del de L(θ). 115 4.2. Métodos de estimación Ejemplo 4.7 [Distribución Bernoulli]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Bernoulli(θ). Obtener el estimador máximo verosı́mil de θ. n n Y Y Pn Pn θxi (1 − θ)1−xi = θ i=1 xi (1 − θ)n− i=1 xi . f (xi , θ) = L(θ) = i=1 i=1 Entonces, l (θ) Pn Pn ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi ! n n X X ln(θ) xi + ln(1 − θ) n − xi . = = i=1 Luego, ∂ l (θ) = ∂θ i=1 Pn i=1 xi θ Pn n − i=1 xi − . 1−θ Por lo tanto, ∂ l (θ) = 0 ⇔ ∂θ Pn i=1 θb xi = n− Pn i=1 xi 1 − θb ⇔ 1 n 1 1 − 1 = Pn −1⇔ = , θb θb x̄ i=1 xi de donde se concluye que θb = X. Ahora se verificará que es un máximo Pn Pn n − i=1 xi ∂ 2 l(θ) i=1 xi − | b= − =− b2 ∂θ2 θ θb2 (1 − θ) Pn i=1 θb2 xi + n− (1 Pn i=1 xi b2 − θ) ! < 0. ∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄. Ejemplo 4.8 [Distribución Exp(θ)]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Exp(θ). Obtener el estimador máximo verosı́mil de θ. n n n Y Y Y Pn L(θ) = f (xi , θ) = θe−θxi I(0,∞) (xi ) = θn e−θ i=1 xi I(0,∞) (xi ). i=1 i=1 i=1 Entonces, l (θ) = ln(L(θ)) = ln θn e−θ Pn i=1 xi n Y ! I(0,∞) (xi ) i=1 = n ln(θ) − θ n X i=1 xi + n X i=1 ln(I(0,∞) (xi )). 116 4. Estimación puntual Luego, n ∂ n X l (θ) = − xi . ∂θ θ i=1 Por lo tanto, n Pn n X 1 ∂ l (θ) = 0 ⇔ = xi ⇔ = b ∂θ θ θb i=1 i=1 xi n ⇔ 1 = x̄, θb y ası́ 1 θb = . X̄ Ahora se verificará que es un máximo ∂ 2 l(θ) n | b= − < 0. ∂θ2 θ θb2 ∴ El estimador máximo verosı́mil de θ es θ̂M V = 1 . X̄ Ejemplo 4.9 [Distribución P oisson(θ)]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución P oisson(θ). Obtener el estimador máximo verosı́mil de θ. L(θ) = n Y f (xi , θ) = n Y e−θ θxi i=1 i=1 xi ! I{0,1,2,...} (xi ) = e −nθ n P θ xi i=1 n Y I{0,1,2,...} (xi ) xi ! i=1 Entonces, l (θ) = ln(L(θ)) = ln e −nθ θ Pn i=1 xi n Y I{0,1,2,...} (xi ) xi ! i=1 = −nθ + ln(θ) n X xi + n X i=1 ln i=1 Luego, ∂ l (θ) = −n + ∂θ Pn i=1 θ I{0,1,2,...} (xi ) xi ! xi . Por lo tanto, ∂ l (θ) = 0 ⇔ n = ∂θ Pn i=1 θb xi Pn ⇔ θb = i=1 n xi . . ! . 117 4.2. Métodos de estimación De esta manera, θb = X. Ahora se verificará que es un máximo ∂ 2 l(θ) | b= − ∂θ2 θ Pn i=1 θb2 xi < 0. ∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄. Ejemplo 4.10 [Distribución Normal]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N (µ, σ 2 ). Obtener los estimadores máximo-verosı́miles de µ y σ 2 . Primero se obtiene la función de verosimilitud: L µ, σ 2 = n Y √ 1 e− (xi −µ)2 2πσ 2 n2 1 1 e− 2σ2 2πσ 2 2σ 2 i=1 = Pn 2 i=1 (xi −µ) . La log-verosimilitud está dada por n n 1 X 2 l µ, σ 2 = − ln 2πσ 2 − 2 (xi − µ) . 2 2σ i=1 Obteniendo las derivadas con respecto a los parámetros ∂l ∂µ ∂l ∂σ 2 = n 1 X (xi − µ) , σ 2 i=1 = − n n 1 X 2 + (xi − µ) . 2σ 2 2σ 4 i=1 Igualando a cero se obtiene n X xi − nb µ=0 i=1 y − n 1 X n 2 + (xi − µ b) = 0, 2b σ2 2b σ 4 i=1 de donde µ b=X (4.6) 118 4. Estimación puntual y Pn Xi − X σ b = n Las segundas derivadas están dadas por 2 ∂2l ∂µ2 ∂2l 2 ∂ (σ 2 ) ∂2l ∂µ∂σ 2 = − = = Sea H= 2 i=1 . (4.7) n , σ2 Pn 2 (xi − µ) , σ6 Pn ∂2l i=1 (xi − µ) = − . ∂σ 2 ∂µ σ4 n − 2σ 4 ∂2l ∂µ2 ∂2l ∂µ∂σ 2 i=1 ∂2l ∂σ 2 ∂µ ∂2l ∂(σ 2 )2 ! la matriz de segundas derivadas. Observe que ∂2l ∂µ2 =− (b µ,b σ2 ) n σ2 σ b2 < 0, (4.8) mientras que det H|(bµ,bσ2 ) = = det det − − bn2 P σ − n i=1 (xi −x) σ b4 − σbn2 n 2b σ4 − ! ! 0 2 i=1 (xi −x) σ b6 2 − x) n2 + 6 2b σ n2 n2 σ b2 = − 6+ 8 2b σ σ b n2 n2 n2 = − 6+ 6 = > 0. 2b σ σ b 2b σ6 = − i=1 (xi −x) b4 Pnσ 2 i=1 (xi −x) σ b6 Pn n 2b σ4 − P n 2 n i=1 (xi nb σ8 0 Pn (4.9) Por (4.8) y (4.9), se ve que H es definida negativa y por lo tanto, el óptimo µ b, σ b2 es un máximo, concluyéndose que (4.6) y (4.7) son los estimadores máximo verosı́miles de µ y σ 2 . Ejemplo 4.11 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme en el intervalo [θ− 12 , θ+ 12 ], es decir, f (x; θ) = I[θ− 12 ,θ+ 21 ] (x). 4.2. Métodos de estimación 119 Obtener el estimador máximo verosı́mil de θ. La función de verosimilitud está dada por n Y 1 si para toda i, xi ∈ [θ − 21 , θ + 12 ] L (θ) = I[θ− 12 ,θ+ 12 ] (xi ) = 0 si para alguna i, xi ∈ / [θ − 12 , θ + 21 ]. i=1 Es decir, el máximo valor de L (θ) es 1 cuando xi ∈ [θ − 12 , θ + 12 ] para toda i, lo cual ocurre si 1 1 y1 ≥ θ − y yn ≤ θ + , 2 2 es decir, si 1 1 yn − ≤ θ ≤ y1 + . 2 2 Por lo tanto, 1 si θ ∈ yn − 12 , y1 + 21 L (θ) = 0 en otro caso. Cualquier valor θb de θ en Yn − 12 , Y1 + 12 es un estimador máximo verosı́mil, n por ejemplo, T (X) = Y1 +Y . 2 Ejemplo 4.12 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme en el intervalo [0, θ]. Hallar el estimador máximo verosı́mil de θ. La función de densidad está dada por 1 0 ≤ x ≤ θ, θ, f (x; θ) = 0 en otro caso. La función de verosimilitud es L (θ) = n Y f (xi ; θ) i=1 = 0 = 1 θn 0 = 1 θn 1 θn 0 si xi ≤ θ, para toda i si al menos una de las xi > θ si máx {x1 , x2 , ..., xn } ≤ θ en otro caso si θ ≥ yn si θ < yn , donde yn = máx {x1 , x2 , ..., xn } . Note que dL (θ) n = − n+1 < 0. dθ θ 120 4. Estimación puntual Ası́, la función de verosimilitud vale cero si θ < yn y θ1n si θ ≥ yn , siendo en este caso una función decreciente, como se muestra en la figura 4.3. L(θ) Yn θ Figura 4.3: Gráfica de la función de verosimilitud para una muestra de tamaño n de la distribución Uniforme continua en el intervalo [0, θ]. Ası́, el estimador máximo verosı́mil de θ es θb = Yn = máx {X1 , . . . , Xn } . Propiedad de invarianza de los estimadores máximo-verosimiles En algunas ocasiones, el objetivo no es estimar un parámetro de la distribución sino una función de éste, τ (θ). Por ejemplo, el interés podrı́a ser estimar la desviación estándar de una distribución normal, σ, en lugar de la varianza σ 2 ; o estimar la trasformación del momio en una distribución Bernoulli, θ/(1 − θ), en lugar de la probabilidad de éxito θ. Por lo tanto, se busca un estimador de la función τ (θ), es decir, τd (θ). Una propiedad de los estimadores máximo verosı́miles es la propiedad de invarianza. Esto significa que si buscamos un estimador máximo verosı́mil para una función de θ, denotada por τ (θ), y si sabemos que el estimador máximo verosı́mil de θ es θ̂, entonces el estimador máximo verosı́mil de τ (θ), denotado por τd (θ), es τ (θ̂). Por lo tanto, la propiedad de invarianza de los estimadores máximo verosı́miles enuncia que b τd (θ) = τ (θ), es decir, que para encontrar el estimador máximo verosı́mil de una función 121 4.2. Métodos de estimación del parámetro basta simplemente evaluar la función en el estimador máximo verosı́mil. Para esto es necesario tomar en cuenta las caracterı́sticas de la función τ (θ), por ejemplo, si la función de τ (θ) es biyectiva, entonces la propiedad de invarianza se cumple y existe un sólo máximo, dado que podemos invertir la función. Esto se puede ver fácilmente considerando que si η = τ (θ), entonces la función inversa de τ (θ) es τ −1 (η) = θ, la cual está bien definida por ser una función biyectiva, y la función de verosimilitud de τ (θ), escrita como una función de η, está dada por L∗ (η) = n Y f (xi ; τ −1 (η)) = L(τ −1 (η)), i=1 y para encontrar el estimador máximo verosı́mil, basta obtener lo siguiente sup L∗ (η) = sup L(τ −1 (η)) = sup L(θ). η η θ Por tanto, el máximo de L∗ (η) se alcanza en η = τ (θ) = τ (θ̂), mostrando ası́ que el estimador máximo verosı́mil de τ (θ) es τ (θ̂). En algunos casos, no es posible usar la propiedad de invarianza de los estimadores máximo verosı́miles debido a que muchas funciones de interés no son funciones biyectivas. Por ejemplo, para estimar µ2 , donde µ es la media de una distribución normal, la función τ (µ) = µ2 no es una función biyectiva. Si τ (θ) no es una función biyectiva, entonces para algún valor η puede haber más de un valor de θ que satisfaga que τ (θ) = η. En estos casos, la correspondencia entre la maximización sobre η y la correspondiente maximización sobre θ deben analizarse. Por ejemplo, si θ̂ es el estimador máximo verosı́mil de θ, podrı́a existir otro valor de θ, digamos θ0 , para el cual también se cumple que τ (θ̂) = τ (θ0 ). Ası́, en el caso de que τ (θ) no sea una función biyectiva, no necesariamente existirá una única solución. En estos casos será necesario usar una definición más general de la función máximo verosı́mil de τ (θ). Una definición de verosimilitud más general para τ (θ) es la siguiente. Definición 4.4 La función de verosimilitud inducida por τ (θ), denotada por L∗ , está dada por L∗ (η) = sup L(θ). {θ:τ (θ)=η} En este caso, el valor η̂ que maximiza a la función L∗ (η) es el estimador máximo verosı́mil de η = τ (θ). Además, puede verse a partir de las igualdades anteriores que el máximo de L∗ y el máximo de L coinciden. 122 4. Estimación puntual Teorema 4.1 Si θ̂ es el estimador máximo verosı́mil de θ, entonces para cualquier función τ (θ), el estimador máximo verosı́mil de τ (θ) es τ (θ̂) 4 . Demostración. Sea η̂ el valor que maximiza L∗ (η). Es necesario mostrar que L∗ (η̂) = L∗ (τ (θ̂)). Además, como se mencionó anteriormente, el máximo de L y el máximo de L∗ coinciden, ası́ que se tiene lo siguiente, L∗ (η̂) = = sup sup η {θ:τ (θ)=η} L(θ) sup L(θ) θ = L(θ̂), donde la primera igualdad se cumple por definición de L∗ (η) ya que L∗ (η) = sup{θ:τ (θ)=η} L(θ), la segunda igualdad se obtiene debido a que la maximización iterada es igual a la maximización no condicional sobre θ, y la última igualdad se cumple por definición de θ̂, ya que θ̂ es el estimador máximo verosı́mil de L(θ). Además, L(θ̂) = sup L(θ) {θ:τ (θ)=τ (θ̂)} = L∗ (τ (θ̂)), donde la primera igualdad se obtiene debido a que θ̂ es el estimador máximo verosı́mil de θ, y la segunda igualdad se obtiene por la definición de L∗ (η). Por lo tanto, se muestra que L∗ (η̂) = L∗ (τ (θ̂)) y que τ (θ̂) es el estimador máximo verosı́mil de τ (θ). Con este teorema es posible encontrar estimadores máximo verosı́miles de funciones de parámetros que no son biyectivas, por ejemplo, se puede ver que el estimador máximo verosı́mil de µ2 , donde µ es la media de una distribución normal, es X̄ 2 . Observación 4.1 La propiedad de invarianza de los estimadores máximo verosı́miles también se cumple en el caso multivariado. La demostración del teorema anterior es válida aun si θ es un vector de parámetros. Si el estimador máximo verosı́mil de θ = (θ1 , . . . , θk ) es θ̂ = (θ̂1 , . . . , θ̂k ), y si τ (θ) = τ (θ1 , . . . , θk ) es alguna función de los parámetros, entonces el estimador máximo verosı́mil de τ (θ1 , . . . , θk ) es τ (θ̂1 , . . . , θ̂k ). 4 Esta propiedad fue demostrada por Zehna (1966) en el artı́culo Invariance of Maximum Likelihood Estimators en la revista Annals of Mathematical Statistics. 123 4.2. Métodos de estimación Ejemplo 4.13 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N (µ, 1), con µ desconocido. Se busca el estimador máximo verosı́mil de τ (µ) = log(µ). Como µ̂ = X̄ es el estimador máximo verosı́mil de µ, entonces por la propiedad de invarianza log(X̄) es el estimador máximo verosı́mil de log(µ). Ejemplo 4.14 Sea X1 , . . . , Xn una muestra aleatoria de la distribución normal N (µ, σ 2 ). Se sabe que el estimador máximo verosı́mil de µ es X̄. Para encontrar el estimador máximo verosı́mil de τ (µ) = sen (µ) τd (µ) = τ (µ̂) = sen(µ̂) = sen(X̄). Ejemplo 4.15 Sea X1 , . . . , Xn una muestra aleatoria de la distribución Bernoulli(θ). Se desea encontrar el estimador máximo verosı́mil de τ (θ) = θ(1 − θ). Se sabe que el estimador máximo verosı́mil de θ es θ̂M V = X̄. Entonces τd (θ) = τ (θ̂M V ) = τ (X̄) = X̄(1 − X̄). MV Ejemplo 4.16 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Bernoulli(θ), con θ desconocido. Se busca el estimador máximo θ . Como θ̂ = X̄ es el estimador máximo verosı́mil del momio τ (θ) = (1−θ) verosı́mil de θ, entonces por la propiedad de invarianza máximo verosı́mil de X̄ (1−X̄) es el estimador θ (1−θ) . Estimación máximo verosı́mil usando métodos numéricos En la práctica lo más común es que las derivadas de la función de logverosimilitud con respecto a los parámetros involucrados, no se puedan resolver de forma analı́tica, por lo que es necesario recurrir a métodos numéricos como el de Newton Raphson. En R existen diferentes funciones que sirven para abordar este tipo de problemas. Lo anterior se ilustrará con un ejemplo. Para ahondar en este tema, se recomienda consultar Dixit (2016). Ejemplo 4.17 Considere a la familia de distribuciones Gama, con su espacio paramétrico multidimensional Θ = {(α, λ) : α > 0, λ > 0}. Para obtener el estimador máximo verosı́mil para el vector de parámetros θ = (α, λ) a partir de una muestra aleatoria de tamaño n, X1 , X2 , . . . , Xn , la función de verosimilitud es: 124 4. Estimación puntual L(θ) = L(α, λ) = n Y f (xi ; α, λ) i=1 n Y λα α−1 −λxi x e Γ(α) i i=1 α n n Y Pn λ = xiα−1 . e−λ i=1 xi Γ(α) i=1 = La función de log-verosimilitud es entonces: ln L(θ) = l(α, λ) = n (α ln λ − ln Γ(α)) − λ n X xi + (α − 1) i=1 n X ln xi . i=1 Para encontrar los estimadores que maximizan esta función, se debe encontrar el punto crı́tico, lo que implica resolver el sistema de ecuaciones: X n ∂ d l(α, λ) = n ln λ − ln Γ(α) + ln xi = 0, ∂α dα i=1 ∂ l(α, λ) ∂λ n = n α X − xi = 0. λ i=1 De la segunda ecuación se obtiene que α̂λ̂ = x̄, o equivalentemente λ̂ = α̂x̄ , y sustituyendo esta relación en la primera: X n d n ln(α̂) − ln(x̄) − ln Γ(α̂) + ln xi = 0. (4.10) dα i=1 Esta última no tiene solución exacta analı́ticamente, pero se puede resolver numéricamente. La derivada del logaritmo de la función Gama se conoce como la función digama, y en R se obtiene con la función digamma: ψ(α) = d ln Γ(α̂). dα Se utilizan datos simulados para mostrar esta aproximación numérica. Se generó una Pnmuestra de tamaño 250, con α = 0.2 y λ = 5, tal que x̄ = 0.051762 y i=1 log xi = −1555.084. En la figura 4.4 se puede observar que para el valor α̂ = 0.2221 la derivada (4.10) cruza el cero, y se obtiene λ̂ = 4.2908. 125 40 0 20 derivada 60 80 4.2. Métodos de estimación 0.00 0.10 0.20 0.30 alpha Figura 4.4: Estimación máximo verosı́mil para la familia Gama. 4.2.3. Verosimilitud en el enfoque Bayesiano Considere una muestra aleatoria X1 , . . . , Xn de una población con distribución Gama(µ, s), con media µ. En esta sección se denotará a la función de densidad como fX (x|θ) y a la verosimilitud como L (θ|x1 , . . . , xn ) , la razón de este cambio se comprenderá más adelante. Ası́, para el caso de la distribución Gama(µ, s), su función de densidad está dada por fX (x|µ, s) = ss xs−1 exp{−sx/µ}, Γ(s)µs mientras que la correspondiente función de verosimilitud es L(µ, s|x1 , . . . , xn ) n Y = ss xs−1 exp{−sxi /µ} s i Γ(s)µ i=1 = sns T s−1 exp{−sT2 /µ}, Γn (s)µns 1 126 4. Estimación puntual Qn Pn donde T1 = i=1 xi y T2 = i=1 xi . Observe que la verosimilitud depende de la muestra sólo a través de estas estadı́sticas suficientes T1 y T2 . Suponga que se desea estimar el parámetro µ. Al otro parámetro que no es el que se está estimando, en este caso s, se le suele llamar un parámetro de ruido. Utilizando exclusivamente la verosimilitud para proponer un estimador para el parámetro de interés µ y teniendo en cuenta la posibilidad de un muestreo repetido, el estimador máximo verosı́mil para µ es el valor del parámetro µ b ∈ Θ que maximiza la función de verosimilitud; es decir, el valor del parámetro para el cual la muestra observada es más probable. Por construcción, el rango del estimador coincide con el espacio paramétrico, aunque hereda las dificultades de cualquier problema de optimización, a saber: Encontrar el máximo global y verificar que lo sea. Que sea sensible a cambios numéricos. Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes para el caso de la distribución Gama, estarı́a dado por: L(µ1 , s|x1 , . . . , xn ) L(µ2 , s|x1 , . . . , xn ) = = sns T1s−1 Γn (s)µns 1 sns T1s−1 Γn (s)µns 2 ns µ1 µ2 exp{−sT2 /µ1 } exp{−sT2 /µ2 } , exp{−sT2 [1/µ1 − 1/µ2 ]}, el cual depende del valor del parámetro s. En general no es claro cómo tratar el parámetro de ruido, pero desde el enfoque clásico de maximizar la función de verosimilitud como se vio en la sección 4.2.2, simplemente se toma el valor del estimador sb. Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se condiciona completamente en los datos observados y se concluye sobre la población en estudio basándose en: 1. La verosimilitud L(θ|x), que representa la información que hay en los datos x= (x1 , . . . , xn ); y 2. π(µ) una distribución de probabilidad que se conoce como distribución inicial o a priori y que describe las ideas subjetivas que se tienen sobre el valor de µ. Estas ideas se conciben como externas a los datos y pueden ser deducidas de experiencias previas o bien de conocimiento experto. 127 4.2. Métodos de estimación La inferencia se expresa a través de una distribución posterior, final o a posteriori de los párametros que se denotará como π(θ|x) y que se obtiene a través del teorema de Bayes: π(θ|x) = R L(θ|x)π(θ) . L(θ|x)π(θ)dθ (4.11) La estadı́stica Bayesiana (por Thomas Bayes (1702-1761), matemático del siglo XVIII), representa un enfoque diferente a la inferencia estadı́stica clásica o frecuentista. En el enfoque Bayesiano también se supone que los datos se obtienen de una distribución perteneciente a una familia paramétrica conocida; sin embargo, a diferencia de la estadı́stica clásica, que considera que los parámetros son fijos pero desconocidos, aquı́ se hace el supuesto de que son variables aleatorias. En resumen, el enfoque denominado frecuentista no supone que hay conocimiento previo de θ. El enfoque Bayesiano, por el contrario, se basa en el supuesto de que se tiene alguna información previa acerca de θ. Esta información se expresa por medio de una distribución sobre θ, llamada distribución inicial o a priori. Aquı́ se supondrá que esta distribución a priori tiene una densidad π(θ) y puede tener distintas interpretaciones según el problema que se esté abordando, por ejemplo, que dicha distribución está sustentada en experiencias previas similares o que expresa una creencia subjetiva. En ambos casos, la verosimilitud provee la información que hay en las observaciones y que permite evaluar y elegir un valor del parámetro sobre otros, pues en el proceso de inferencia se busca obtener estimadores que concilien de la mejor manera el modelo con los datos observados. Será entonces de interés examinar la incertidumbre que hay en este proceso para elegir un buen estimador. En el contexto Bayesiano se debe considerar la evaluación de la dependencia de las conclusiones con respecto a las distribuciones iniciales, las cuales se han dado de manera subjetiva. En muchos casos, la selección de la distribución inicial también contempla la posibilidad de calcular de forma cerrada el denominador en (4.11). Un caso particular de esta selección se da con las familias conjugadas. Definición 4.5 Una distribución inicial π(θ) es conjugada si para π(θ) ∈ P y L(θ|x) ∈ F, se tiene que π(θ|x) ∈ P, donde P y F son familias de distribuciones. A continuación se da un primer ejemplo para ilustrar algunas de las funciones que se han mencionado en el enfoque Bayesiano. 128 4. Estimación puntual Figura 4.5: Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de alta calidad). Ejemplo 4.18 Los paquetes de los llamados dulces Smarties vienen con k colores diferentes, los cuales se repiten con la misma frecuencia. Suponga que no se conoce k y secuencialmente se examinan 3 dulces, resultando un rojo, un verde y un rojo. La densidad para X = el segundo dulce es de diferente color que el primero, pero el tercero es del mismo color que el primero, está dada por: f (x | k) = P (el segundo es de diferente color que el primero) × ×P (el tercero es del mismo color que el primero) k−1 1 k−1 = . = k k k2 A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f (x|k) = (k − 1)/k 2 . Si en lugar de 3 se examinan 4 y resulta que ese cuarto es de color naranja (con los tres primeros rojo, verde, rojo), se tiene que f (x | k) = (k − 1) (k − 2) . k3 Ahora suponga que se tiene información a priori o se cree que el número 3 3 3 1 , 10 , 10 y 10 , respectide colores es 5,6,7 u 8, con probabilidades iniciales 10 vamente. Para el caso de tres dulces, si k = 5, entonces f (x|k) = (5 − 1)/52 = 4 = 0.16, 25 129 4.2. Métodos de estimación f (x|k)π (k) = (0.16) 1 10 = 0.016 y 1 (0.16) 10 = 0.13. π (k | x) = 8 P f (x|k)π (k) k=5 A continuación se resumen los valores de estas funciones para los distintos valores de k y para ambos escenarios, es decir, cuando se tiene rojo, verde y rojo (cuadro 4.2) k 5 6 7 8 π(k) .1 .3 .3 .3 f (x|k) .160 .139 .122 .109 π(k)f (x|k) .016 .042 .037 .033 π(k|x) .13 .33 .29 .26 Cuadro 4.2: Cálculo de la distribución a posteriori cuando los dulces examinados son rojo, verde y rojo. Y para cuando el cuarto dulce es naranja (cuadro 4.3). k 5 6 7 8 π(k) .1 .3 .3 .3 f (x|k) .096 .093 .087 .082 π(k)f (x|k) .010 .028 .026 .025 π(k|x) .11 .31 .30 .28 Cuadro 4.3: Cálculo de la distribución a posteriori cuando los dulces examinados son rojo, verde, rojo y naranja. Observe que la distribución a posteriori para k es una pequeña modificación de la a priori. La estadı́stica Bayesiana se basa en el cálculo de distribuciones condicionales. Los siguientes ejemplos ilustran el uso de la definición de densidades condicionales en términos de las densidades conjuntas y marginales. Ejemplo 4.19 Una moneda cargada se lanza n veces. Suponga que xi vale 1 si se obtiene sol y 0 si no, en el i-ésimo lanzamiento. No se tiene idea de qué tan cargada está la moneda, entonces se considera una distribución a priori Uniforme para θ, de tal manera que la densidad a priori está dada por: π(θ) = 1, 0 ≤ θ ≤ 1. 130 4. Estimación puntual Sea t el número de soles. Entonces la distribución a posteriori de θ es: π(θ|x1 , . . . , xn ) = R 1 0 θt (1 − θ)n−t × 1 φt (1 − φ)n−t × 1dφ π(θ|x) ∝ θt (1 − θ)n−t , de donde se puede ver que si se inserta una constante de proporcionalidad apropiada, entonces se tiene una densidad Beta(t + 1, n − t + 1), que serı́a la distribución a posteriori de θ dada x. En el ejemplo anterior se utiliza ∝ para denotar que π(θ|x) es proporcional a θt (1 − θ)n−t . En general, ∝ se lee como “es proporcional a”. Ejemplo 4.20 Suponga que X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, 1) y que π(µ) ∼ N (0, τ −2 ) para τ −2 conocida. Entonces ( !) n 1 X 2 2 2 π(µ|x1 , . . . , xn ) ∝ exp − (xi − µ) + µ τ 2 i=1 ( Pn 2 ) 1 2 i=1 xi ∝ exp − (n + τ ) µ − . 2 n + τ2 Ası́, Pn xi 1 , 2 n+τ n + τ2 i=1 µ|x1 , . . . , xn ∼ N . Ejemplo 4.21 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Exponencial(λ) y la distribución a priori para el parámetro λ es una Exponencial(µ), donde µ es fija y conocida. Entonces: π(λ|x1 , . . . , xn ) ∝ µe−λµ n Y Pn λe−λxi = λn e−λ(µ+ i=1 xi ) , i=1 es decir, λ ∼ Gama(n + 1, µ + Pn i=1 xi ). Ejemplo 4.22 Suponga que se examina una máquina que hace partes de automóviles y se denota a θ como la proporción de marcas defectuosas. Un dı́a se examinan 10 piezas denotadas por X1 , . . . , X10 , donde Xi = 1 indica que la pieza i es defectuosa y Xi = 0 que no tiene defecto. Esto puede verse como una muestra aleatoria con distribución Bernoulli de parámetro θ, cuya función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que 131 4.2. Métodos de estimación indica que la probabilidad de que una parte sea defectuosa es θ. Ası́ que la densidad conjunta de las 10 observaciones es fX (x; θ) = θ P10 i=1 xi (1 − θ)10− P10 i=1 10 Y xi I{0,1} (xi ) i=1 = L (θ | x) . Con el método de máxima verosimilitud el estimador de θ es θ̂ = X̄. Suponga que el experto tiene información adicional acerca de θ y que él ha observado que a lo largo de los dı́as la proporción de partes defectuosas cambia, es decir, el valor de θ cambia y que este cambio puede representarse como una variable aleatoria con función de densidad π(θ) = 6θ(1−θ)I[0,1] (θ), esto es, θ tiene una distribución Beta con parámetros 2 y 2, denotada como Beta(2, 2). ¿Cómo se puede usar esta información adicional para estimar θ? Como ya se ha señalado, en el método Bayesiano se considera que θ es una cantidad cuya variación puede describirse por medio de una distribución de probabilidad (llamada distribución a priori). La distribución a priori es una distribución subjetiva, basada en las creencias del experto y se formula antes de obtener los datos. Se selecciona una muestra a partir de una población sujeta al parámetro θ, entonces la distribución a priori se actualiza utilizando la información de la muestra y se obtiene la disribución a posteriori. Esta actualización se hace usando la regla de Bayes. La distribución a posteriori es una distribución condicional, y es condicional dada la muestra. La distribución a posteriori se usa para hacer inferencia acerca de θ (obtener el estimador puntual, intervalos de credibilidad y pruebas de hipótesis). La distribución conjunta de X1 , . . . , X10 y θ es g(x, θ) = × fX (x; θ) | {z } distribución a priori distribución conjunta = θ P10 i=1 y xi (1 − θ)10− = θ (1 − θ) = 6θ y+1 10−y P10 i=1 xi × 6θ(1 − θ) × 6θ(1 − θ) 10−y+1 (1 − θ) π(θ) |{z} , 132 donde y = 4. Estimación puntual P10 xi . Calculando la distribución marginal de la muestra, m(x), Z Z fX (x; θ)π(θ)dθ = g(x, θ)dθ m(x) = Z = 6θy+1 (1 − θ)10−y+1 dθ i=1 = = Γ(y + 2)Γ(10 − y + 2) Γ(10 + 2 + 2) Γ(y + 2)Γ(12 − y) 6 . Γ(14) 6 Ası́, la distribución a posteriori de θ dada la muestra x es π(θ|x) = = = g(x, θ) m(x) 6θy+1 (1 − θ)10−y+1 6 Γ(y+2)Γ(12−y) Γ(14) Γ(14) θy+1 (1 − θ)11−y , Γ(y + 2)Γ(12 − y) que es una distribución Beta(y + 2, 12 − y). Un estimador para θ es la media de la distribución a posteriori (ver Sección 4.3.3), la cual darı́a el estimador de Bayes de θ, y+2 . 14 En el cuadro 4.4 se resumen los valores de los estimadores máximo verosı́mil y de Bayes para distintos valores de la muestra. θ̂ = Muestra y θ̂ EMV θ̂ Bayes 0 1 2 3 4 5 6 7 8 9 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86 Cuadro 4.4: Valores de los estimadores máximo verosı́mil y de Bayes para distintos valores de la muestra. Las gráficas de la figura 4.6 muestran el comportamiento de la distribución a posteriori ante la evidencia de los datos y el conocimiento previo del parámetro. En el caso de no utilizar familias conjugadas, la obtención de la constante de normalización para las distribuciones posteriores no se puede hacer de manera analı́tica y es necesario recurrir a métodos de simulación. 133 4.2. Métodos de estimación 5 Y=2 5 Y=0 4 3 1 0 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 θ θ Y=5 Y=10 0.8 1.0 0.8 1.0 5 0.2 5 0.0 3 4 Prior Verosimilitud Posterior 0 0 1 2 Densidad 2 3 4 Prior Verosimilitud Posterior 1 Densidad Prior Verosimilitud Posterior 2 Densidad 3 2 0 1 Densidad 4 Prior Verosimilitud Posterior 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 θ 0.6 θ Figura 4.6: Comportamiento de las funciones a priori, a posteriori y de verosimilitud para la proporción de marcas defectuosas y distintos valores de la muestra en el ejemplo 4.22. 4.2.4. Otros métodos de estimación Además de los métodos de momentos y los basados en verosimilitud, existen alternativas para encontrar el estimador de un parámetro, por ejemplo, el método de medianas, su extensión, el método de percentiles, y el método de mı́nimos cuadrados. Los primeros dos se revisan en esta sección, mientras que el último se abordará en la sección 4.3.1. El método de medianas únicamente se puede aplicar a modelos dependientes de un sólo parámetro y consiste en lo siguiente: suponga que x e0.5 representa a la mediana de la muestra mientras que x0.5 denota a la mediana de la distribución. Recuerde que x0.5 es el valor de x para el cual FX (x0.5 ) = 21 , donde FX (x) es la función de distribución de la variable aleatoria continua X, o alternativamente, Z x0.5 Z −∞ f (x; θ) dx = −∞ f (x; θ) dx = x0.5 1 . 2 134 4. Estimación puntual El método consiste en igualar las medianas y resolver para el parámetro desconocido, el cual está involucrado en la expresión resultante para x0.5 . La extensión de este método para el caso de dos o más parámetros puede hacerse a través del método de percentiles que se describe a continuación. Método de porcentiles o percentiles Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el p-ésimo(×100) percentil de la distribución. Para usar este método se calculan los correspondientes percentiles de la muestra y se igualan con los de la distribución (los cuales se encuentran en términos de los parámetros desconocidos) y se resuelve para cada parámetro. Observe que si p = 21 , entonces xp es la mediana, ası́ que el método de las medianas se puede ver como un caso particular. Ejemplo 4.23 Suponiendo que se tiene una muestra aleatoria de tamaño n de una población con distribución Exponencial, se desea estimar el parámetro θ en f (x; θ) = θ exp (−θx) . Primero se resuelve FX (x0.5 ) = 21 o x0.5 Z θe−θx dx = 0 de donde 1 − e−θx0.5 = o e−θx0.5 = 1 , 2 1 2 1 , 2 resultando: x0.5 = − ln 12 . θ (4.12) Igualando (4.12) con x e0.5 , es decir con la mediana muestral, se obtiene que 1 ln θb = − 2 . x e0.5 Ejemplo 4.24 Usando el método de percentiles, estimar los parámetros en una distribución Weibull con función de densidad f (x; θ) = γλxγ−1 exp {−λxγ } . Dados los percentiles muestrales x e0.5 = 10000 y x e0.9 = 100000, ¿cuál es el estimador para el parámetro γ? 135 4.2. Métodos de estimación La función de distribución correspondiente es Z x γλuγ−1 exp {−λuγ } du FX (x) = 0 Z ∞ = 1− γλuγ−1 exp {−λuγ } du x y Z ∞ γ−1 γλu −γλuγ−1 −λuγ e −γλuγ−1 γ exp {−λu } du = x ∞ x γ = e−λx . Por lo tanto: FX (x) = 1 − exp {−λxγ } , la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el 100p-ésimo percentil de la distribución, que para este caso darı́a las ecuaciones: FX (x0.5 ) = 1 − exp {−λxγ0.5 } = 0.50 y FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90, de donde: exp {−λxγ0.5 } = 0.50 y exp {−λxγ0.9 } = 0.10, que es equivalente a λxγ0.5 = − ln (0.50) = 0.69315 y λxγ0.9 = − ln (0.10) = 2.30259. Es decir: x0.5 = 0.69315 λ γ1 y x0.9 = 2.30259 λ γ1 . 136 4. Estimación puntual Igualando con los respectivos percentiles muestrales, se obtiene: 0.69315 λ γ1 = 10000 (4.13) = 100000. (4.14) y 2.30259 λ γ1 Dividiendo (4.14) entre (4.13): 2.30259 0.69315 γ1 = 10 o sea, 10γ = 2.30259 = 3.32192. 0.69315 De donde se obtiene que γ b= ln 3.32192 = 0.521. ln 10 Usando (4.13), se puede obtener el estimador de λ : 0.69315 0.521 = (10000) = 121.34. λ Ası́, b = 0.69315 = 457 . λ 121.34 80 000 Si los percentiles muestrales no están dados explı́citamente, se puede usar el siguiente método para calcularlos: para una muestra de tamaño n, sean x1 , x2 , ..., xn los valores muestrales en orden ascendente. Sea k = (n + 1) p, donde p es el orden del percentil que se busca. Sea l la parte entera de k (l = 1, 2, ..., n − 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Se define x ep = (1 − m) xl + mxl+1 (4.15) como el p-ésimo percentil (×100) de la muestra. Observe que xl y xl+1 representan los elementos l-ésimo y (l + 1)-ésimo de la muestra, respectivamente. Ejemplo 4.25 En una muestra de ratas de laboratorio se obtienen los tiempos de muerte dados a continuación: x = 3, 4, 5.7, 7, 8, 10, 10 y 12, donde el tiempo se mide en dı́as. Usando el método de percentiles, estimar los 4.2. Métodos de estimación 137 parámetros B y c del modelo de supervivencia Gompertz, cuya función de distribución está dada por: B (1 − cx ) , FX (x) = 1 − exp ln c con los percentiles 0.25 y 0.65. Los percentiles 0.25 y 0.65 son tales que B 1 − exp (1 − cx0.25 ) = 0.25 ln c y 1 − exp ⇔ B (1 − cx0.65 ) = 0.65 ln c B (1 − cx0.25 ) = ln 0.75 ln c B (1 − cx0.65 ) = ln 0.35 ln c ⇔ ln c B ln c . = 1 − ln 0.35 B cx0.25 = 1 − ln 0.75 cx0.65 Ası́, ln 1 − ln 0.75 lnBc x0.25 = (4.16) ln c y ln 1 − ln 0.35 lnBc . (4.17) x0.65 = ln c Usando (4.15), se tiene que para el percentil 0.25, k = (9+1)(0.25) = 2.5, de donde se obtiene x e0.25 = (0.5) (x2 ) + (0.5)(x3 ) = (0.5) (4) + (0.5)(5) = 4.5. Para el cuantil 0.65, k = (9 + 1)(0.65) = 6. 5, por lo tanto x e0.65 = (0.5)x6 + (0.5)x7 = (0.5)8 + (0.5)10 = 9. Igualando los percentiles obtenidos en (4.16) y (4.17) con los percentiles muestrales, resultan las siguientes ecuaciones: ln 1 − ln 0.75 lnBc = 4.5 (4.18) ln c y ln 1 − ln 0.35 lnBc = 9. ln c 138 4. Estimación puntual Dividiendo la segunda entre la primera, resulta ln 1 − ln 0.35 lnBc =2 ln 1 − ln 0.75 lnBc ⇒ 1 − ln 0.35 ⇒ 2 ln c ln c = 1 − ln 0.75 B B 2 ln c ln c = 1 − 1 − ln 0.75 ln 0.35 B B 2 ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75) z 2 , ⇒ donde z = ln c B . Simplificando la última expresión se obtiene: 2 (ln 0.75) z 2 − z [2 ln 0.75 − ln 0.35] = 0, o 0.83z 2 − (0.4744) z = 0, de donde z= 0.4744 = 5.7163. 0.083 Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustituyendo este último valor en (4.18), se tiene: ln 1 − ln 0.75 5.7163B B = 4.5 5.7163B b = 0.03780. Finalmente, b y despejando B, se llega al resultado B c = 1.2412. Existen diferentes propuestas para obtener estimadores, entonces es necesario establecer criterios para evaluarlos y compararlos. En las siguiente secciones se abordará este tema. 4.3. Evaluación de estimadores Dado que hay varios métodos para encontrar estimadores, una pregunta natural es, si se pueden tener estimadores distintos para una parámetro, ¿cuál es mejor o cuál se debe elegir? Es necesario contar con criterios para responder a esta pregunta y poder decidir cuál estimador es mejor en algún sentido. 4.3. Evaluación de estimadores 4.3.1. 139 Error cuadrático medio y estimadores insesgados El primer criterio que se analizará es el del error cuadrático medio, concepto que se introduce a continuación. Definición 4.6 Sea T (X1 , . . . , Xn ) un estimador de τ (θ). Se define el error cuadrático medio (ECM) de T como ECMT (θ) = E[(T (X) − τ (θ))2 ]. Es decir, el error cuadrático medio mide el error cometido al estimar τ (θ) con T (X). Esta medida es un error promedio al considerar los valores que puede tomar la variable aleatoria T (X) y se calcula como la esperanza de los errores al cuadrado, tomando los errores como la diferencia entre los valores de la variable aleatoria y el valor del parámetro. La idea es que si se tienen dos estimadores T1 (X) y T2 (X) para τ (θ) y ECMT1 (θ) < ECMT2 (θ), entonces se elige a T1 como estimador para τ (θ). Si se desarrolla la expresión E[(T (X) − τ (θ))2 ], se obtiene que ECMT (θ) = E[T 2 − 2τ (θ)T + (τ (θ))2 ] = E(T 2 ) − 2τ (θ)E(T ) + τ 2 (θ) = E(T 2 ) − E2 (T ) + E2 (T ) − 2τ (θ)E(T ) + τ 2 (θ) = V ar(T ) + [E(T ) − τ (θ)]2 {z } | sesgo de T A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar que si el sesgo de T es cero, entonces ECMT (θ) = V ar(T ). Definición 4.7 Un estimador T (X) de τ (θ) es insesgado si E [T (X)] = τ (θ) (es decir, en promedio, el estimador es igual al parámetro). Nota: si T es insesgado, entonces ECMT (θ) = V ar(T ). Observación 4.2 1. En el caso continuo, el error cuadrático medio E[(T − τ (θ))2 ] puede calcularse como Z Z ... (t(x1 , x2 , . . . , xn ) − τ (θ))2 fX1 (x1 ; θ) . . . fXn (xn ; θ)dx1 . . . dxn . 2. El ECM puede pensarse también como una medida de la dispersión de T alrededor de τ (θ). 140 4. Estimación puntual 3. ECMT1 (θ) y ECMT2 (θ) pueden cruzarse, es decir, en general no se cumple que para todo θ ∈ Θ, ECMT1 (θ) < ECMT2 (θ) (ó ECMT1 (θ) > ECMT2 (θ) ). Ejemplo 4.26 Sea X1 , . . . , Xn una muestra aleatoria de la distribución N (µ, σ 2 ). Considere T1 (X) = X̄ un estimador para µ. Sean n T2 (X) = S 2 = 1 X (Xi − X̄)2 n − 1 i=1 y n 2 T3 (X) = σ̂M V = 1X n−1 2 (Xi − X̄)2 = S , n i=1 n estimadores para σ 2 . Para revisar si son insesgados: Note que E(T1 (X)) = E(X̄) = µ. Por lo tanto, T1 sı́ es insesgado. También note que E [T2 (X)] = E(S 2 ) = σ 2 . Por lo tanto, T2 sı́ es insesgado. Sin embargo, n−1 2 n − 1 2 n − 1 2 E(T3 (x)) = E S = E S = σ . n n n Por lo tanto, T3 no es insesgado. Para encontrar el error cuadrático medio de T1 , T2 y T3 : Como T1 es insesgado, entonces ECMT1 (µ, σ 2 ) = V ar(X̄) = σ2 . n Como T2 es insesgado, entonces ECMT2 (µ, σ 2 ) = V ar(S 2 ) = 2σ 4 . n−1 141 4.3. Evaluación de estimadores Sin embargo, como T3 no es insesgado, entonces ECMT3 (µ, σ 2 ) = V ar(T3 ) + (sesgo2 ). Pero V ar(T3 ) = V ar n−1 2 S n = (n − 1)2 2σ 4 2(n − 1) 4 = σ . 2 n n−1 n2 Y (sesgo) 2 = 2 2 (E(T3 ) − σ ) = = n−1−n n 2 n−1 2 σ − σ2 n σ4 = 2 σ4 . n2 Por lo tanto, ECMT3 (µ, σ 2 ) = 2n − 1 4 2(n − 1) 4 σ 4 σ + 2 = σ . 2 n n n2 Pero note que 2 n < ⇒ 2 2 1 2 2n − 1 2 ⇒ − 2 < ⇒ < n−1 n n n−1 n2 n−1 (2n − 1)σ 4 2σ 4 < ⇒ ECMT3 < ECMT2 . 2 n n−1 Con esto se puede observar que aunque T2 es insesgado, T3 tiene un menor ECM, lo cual exhibe que no siempre un estimador insesgado tiene el menor ECM. Ilustración mediante simulación Se simula un conjunto de M = 1000 muestras de tamaño n = 3 cada una. Los estimadores T1 (X), T2 (X) y T3 (X) del ejemplo 4.26, se grafican en las figuras 4.7 y 4.8. 142 4. Estimación puntual 2 T1 insesgado ● ● ● ● 1 ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ●●● ● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ●●●● ● ●● ●● ●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ●● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ●●●● ● ● ● ● ●● ● ●● ●● ● ●●● ●● ● ●● ● ●● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ●● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ●● ●● ● ● µ −1 0 ● ● ● ● ● ● ● ● ● ● Estimación ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 200 400 600 800 1000 Muestras Figura 4.7: El estimador T1 = X es insesgado para µ en el ejemplo 4.26. 8 T3 sesgado 8 T2 insesgado ● 6 6 ● ● ● ● ● ●● ● ● ● ● ● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ●● ●●●● ●● ● ●● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ●● ●● ●● ● ●● ● ● ●● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ●● ●●● ●● ● ●● ● ● ● ● ● ● ●●●● ●● ● ●● ●● ● ● ●● ● ●● ●● ● ●● ● ● ● ● ●● ●● ●●● ● ●●● ●● ● ● ● ●● ● ● ● ●● ● ●●● ● ●● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ●●● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ● ● ●●● ●● ●● ● ● ● ●● ●●●●●●●● ● ●● ● ● ● ● ● ● ● ●● ● ● ●●● ● ●● ● ● ●● ●● ● ● ● ●● ●● ●● ● ● ●●●● ● ● ● ●●●●● ●●● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●● ●● ● ●● ● ●● ●● ●●●● ● ●● ● ● ●● ● ●● ●●● ● ●● ●● ●● ● ● ●● ●● ●● ● ●●● ● ● ●●● ●● ● ● ●●●● ●● ●● ● ● ● ● ●●● ● ●●●●● ●●●● ●● ● ●●● ●● ● ●●● ● ● ●●● ● ● ●● ●● ● ● ●● ● ●●● ●● ● ●●● ●●● ●●●●●●● ●●● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ●● ● ●● ●● ●● ● ●● ●●● ● ● ●● ●● ●●●● ●● ● ● ● ●●●●● ● ●● ●● ●● ●● ●●● ● ●● ●●● ● ●●● ● ● ●● ● ● ●● ●● ●●●●● ● ● ●● ● ●● ●● ●● ●●● ● ●●● ● ● ●● ●● ●●● ● ● ● ● ●●● ● ●● ● ● ● ●●●● ● ●● ●● ●●● ● ●● ● ● ●● ● ●● ●● ●● ● ●● ● ●● ● ● ● ●● ●●● ●● ●●● ● ●●● ●● ● ● ● ●● ●● ● ● ●● ● ●● ●●●● ● ●● ● ● ●●● ● ●●● ●● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ●● ● ●● ●● ● ● 4 ● Estimación ● ● ● ● ● 200 400 600 800 ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ●● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ● ●●●● ●●●● ● ●● ● ●● ● ● ●●● ●● ● ● ● ●●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●●● ● ● ● ● ●●●●● ● ● ●● ●● ● ●● ●●● ● ● ● ● ●● ● ●● ● ●●● ●● ● ● ● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●●● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ●● ● ● ●●● ●●●● ● ●● ● ●● ●● ● ● ●● ● ●●●● ● ●● ● ● ● ●● ●●● ● ●● ●● ● ● ● ● ●●● ● ●● ●● ● ●● ● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ●●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ●● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ●● ● ●●●●● ●● ● ● ●● ● ●● ●●● ● ●● ● ● ● ●●● ● ● ●● ●●● ●● ● ●● ●● ● ● ●●● ●● ● ● ● ● ●● ● ● ● ●●●●●● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●●●●● ●● ● ● ●●● ● ● ●● ● ●● ● ●●● ●● ● ● ● ●●● ● ●● ● ●● ●●● ● ●● ●●● ●● ●● ●● ●● ● ● ●●● ● ●●● ●● ●● ●● ● ● ●●● ●●● ●● ●● ● ●●● ● ●● ● ●●● ●●● ●● ●●●●● ● ●● ● ●● ●● ●●● ● ● ● ●● ●● ● ● ●●● ● ●●●●● ●● ● ●● ● ●● ● ● ●●● ●●●● ● ● ● ●●● ●● ● ● ● ●● ● ● ● ●●●● ● ●● ● ●● ● ●●● ● ● ●● ●● ● ● ●●● ● ●●● ● ●● ● ● ●● ● ● ●●●●● ●●● ●● ●●● ● ●● ● ● ●● ●● ● ●●● ●●● ●● ● ● ●●●● ● ● ● ●●● ● ●●●●●● ● ●● ●● ● ● ●● ● ●● ●●● ●● ● ● ● ● ●●● ●● ● ●●● ● ● ●● ●● ● ●● ● ● ●●● ●● ●●● ●● ● ●● ● ●● ● ● ●●●● ● ● ● ● ●●● ●● ●● ● ● ●●● ●● ●● ● ●● ● ●● ● ●● ●● ● ●● ● ●● ●● ●● ● ●● ●● ●● σ 0 0 Muestras ● ● ● σ 0 ● ● 2 ● ● 4 Estimación ● ● ● ● 0 200 400 600 800 Muestras Figura 4.8: El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado para σ 2 , pero tiene un error cuadrático medio menor que T2 (ejemplo 4.26). 143 4.3. Evaluación de estimadores Método de mı́nimos cuadrados para estimación de parámetros Existe otro procedimiento de estimación conocido como el método de mı́nimos cuadrados, el cual se usa en distintas aplicaciones para encontrar los estimadores de los parámetros relacionados con modelos de diversa ı́ndole. Se ilustrará con un ejemplo en el marco del criterio del error cuadrático medio. Ejemplo 4.27 Considere un conjunto de n puntos en el plano (x1 , y1 ), . . . , (xn , yn ) y el siguiente experimento: se escoge X con P {X = xi } = 1/n, para i = 1, . . . , n; si X = xi se asigna Y = yi . Suponga que Y tiene la forma aX + b y se desea encontrar un estimador para Y , de tal manera que se minimice el error cuadrático medio, el cual es: n E[(Y − (aX + b))2 ] = Para la función S(a, b) = la expresión satisfacen: 1X [yi − (axi + b)]2 . n i=1 Pn 2 i=1 [yi − (axi + b)] , los valores que minimizan n n n X X X ∂S(a, b) = −2 yi xi + 2 ax2i + 2b xi = 0, ∂a i=1 i=1 i=1 n n X X ∂S(a, b) = −2 yi + 2 axi + 2nb = 0, ∂b i=1 i=1 de donde, las soluciones que minimizan el ECM están dadas por n n X 1X bb = 1 yi − b a xi n i=1 n i=1 y b a n X n n 1X X x2i − xi xi n i=1 i=1 i=1 ! = n X i=1 yi xi − n n 1X X yi xi . n i=1 i=1 A estos estimadores se les conoce como el estimador de mı́nimos cuadrados para a y b. A Yb = b aX + bb se le llama el estimador de mı́nimos cuadrados de Y . 144 4.3.2. 4. Estimación puntual Consistencia La consistencia es otra propiedad deseable en un estimador y tiene que ver con tamaños de muestra grandes, es decir, es una propiedad asintótica. Esencialmente, un estimador es consistente, si para n (el tamaño de muestra) grande, el error cometido al estimar τ (θ) con Tn (X) , es pequeño (tiende a cero). Definición 4.8 (consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesión de estimadores de τ (θ), donde Tn está basado en una muestra de tamaño n. Esta sucesión de estimadores de τ (θ) es consistente en error cuadrático medio (ECM) si: lı́m E[(Tn (X) − τ (θ))2 ] = 0. (4.19) n→∞ Note que (4.19) es una convergencia en media cuadrática, de la sucesión {Tn } a τ (θ). Ejemplo 4.28 Sea X1 , . . . , Xn una muestra aleatoria de la distribución Pn N (µ,P σ 2 ). Considere los estimadores X¯n = n1 i=1 Xi para µ y Sn2 = n 1 2 2 i=1 (Xi − X̄) para σ . Note que n−1 E[(X¯n − µ)2 ] = V ar(X¯n ) = σ 2 n→∞ −→ 0. n Por lo tanto X¯n es consistente para µ. También note que E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) = 2σ 4 n→∞ −→ 0. n−1 Por lo tanto Sn2 es consistente para σ 2 . El error cuadrático medio, ECM, es el criterio para medir la bondad de un estimador. Una propiedad desable de un estimador es que proporcione, para muestras grandes, un error (ECM) pequeño en la estimación, es decir, que sea consistente. Ilustración del concepto de consistencia mediante simulación Se simula un conjunto de n = 1000 muestras de tamaño i, para i = 2, . . . , n. Los estimadores X n y Sn2 son consistentes, y se pueden observar las gráficas correspondientes en las figuras 4.9 y 4.10. Definición 4.9 Se dice que una sucesión de estimadores {Tn }n∈N es consistente simple si y sólo si ∀ > 0 lı́m P(|Tn − τ (θ)| < ) = 1. n→∞ (4.20) 145 4.3. Evaluación de estimadores La consistencia en ECM implica la consistencia simple. Esto se puede analizar desde dos perspectivas: la primera, notando que (4.20) es una convergencia en probabilidad y usando el hecho de que la convergencia en r-ésima media implica la convergencia en probabilidad; la segunda, utilizando la desigualdad de Chebyshev: 2 P(|Tn − τ (θ)| ≥ ) = P([Tn − τ (θ)] ≥ 2 ) ≤ E[(Tn − τ (θ))2 ] 2 y la definición de consistencia en ECM. 0.6 Xbar consistente ● 0.2 µ ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ●●● ●● ● ● ●● ● ●● ● ● ● ● ●●●● ● ●● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ●●● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ●●● ●● ●● ● ● ●● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ●● ● ● ●● ● ● ●● ●●●● ●● ● ●●●● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ●●● ● ● ● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ●●● ●●● ●● ●● ● ●●● ● ● ● ● ● ● ● ●●● ● ● ● ●● ●●●●● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ●●●● ●● ●● ● ● ● ● ●● ●● ●● ●●● ● ● ●●●● ● ● ● ●●● ●●●● ●● ●● ● ● ●● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ● ● ●●●●●●● ● ● ●● ●●● ●●● ●● ●● ● ●● ● ●● ●●●●● ● ● ●● ●● ● ● ●● ● ●●●● ● ●● ● ●● ●● ● ● ● ●●●● ● ●●● ● ● ● ● ●● ● ● ● ● ●● ● ●●● ●● ●●● ● ● ●● ● ● ●● ● ●●● ●● ●● ● ● ●●● ● ●●● ● ● ● ●●● ● ● ●●● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●●● ● ●●●●● ●●●● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ●● ● ● ●●● ●●● ●●● ● ● ● ●● ● ● ● ●● ● ●●●●●●●●● ● ● ● ● ●● ● ●●● ● ●● ● ● ● ●● ● ● ●●●● ● ● ● ● ● ●●●●● ●● ● ●● ● ●● ● ●● ●●●● ● ● ● ●●●● ●●● ● ● ● ●●●● ● ● ●● ●● ● ●● ● ● ●● ●●●●● ● ●● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ●●● ● ● ●● ● ● ● ●● ● ●● ●● ● ●●● ● ●●● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●●● ●● ●● ●● ●● ●● ●●● ●● ● ●● ●● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● 0.0 ● −0.2 Estimación 0.4 ● ● ● ● ● ●● ● −0.4 ● ● ● ● ● ● 0 200 400 600 800 1000 Tamaño de muestra Figura 4.9: Ilustración de la consistencia de X en el contexto del ejemplo 4.28. 146 4. Estimación puntual 2.0 S2 consistente ● ●● ● ● ● ● ● ● ● σ ● 1.0 Estimación 1.5 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ●● ●● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●●●●● ● ●●● ● ● ● ● ● ● ●● ●●● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ●●● ●● ●● ●●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●● ● ●●●● ●●● ●●●● ●●●● ● ● ●● ● ● ● ●● ● ●● ●●●● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ●●●●● ●●● ● ●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ●● ● ●● ●● ●● ●●●● ● ● ● ●● ●● ● ● ●● ● ● ● ●●●● ●● ●●● ●●● ● ● ●●● ● ●● ● ● ●● ● ●● ● ●● ● ●● ●● ●● ● ●● ●●●● ●● ● ●●● ● ● ● ●●●●● ●● ●● ● ●● ● ●●●●●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ●● ●● ● ● ● ● ● ●●● ● ●● ● ●●● ●● ● ● ● ● ●● ●● ●● ● ● ●●●● ● ●● ●● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ●●●●● ● ● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ●● ● ●●●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ●●● ● ●●●● ● ●● ● ● ● ● ● ●● ● ●● ● ●●●●● ●● ● ●● ● ●● ●● ● ● ● ●● ● ●●● ●● ● ●● ●● ● ●● ● ● ● ●●●● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●●● ● ●●● ● ● ● ● ●●● ● ● ● ● ●●● ●●● ● ● ● ● ● ●● ●● ● ●●● ●● ●● ● ●● ● ● ● ● ●● ● ●● ●● ● ●● ● ● ● ●● ●●● ● ● ● ● ●● ● ● ●● ● ●● ●●● ●●●● ● ●● ●●● ● ● ●●● ●●● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ●● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ●●● ●● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● 0.5 ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 0 200 400 600 800 1000 Tamaño de muestra Figura 4.10: Ilustración de la consistencia de S 2 en el contexto del ejemplo 4.28. 4.3.3. Funciones de pérdida y estimación El enfoque Bayesiano al problema de estimación de parámetros es a través de una función de pérdida L(θ, a), la cual mide la pérdida en que se incurre cuando se estima el valor de un parámetro mediante a, siendo que el verdadero valor es θ. Entonces θ̂ se selecciona de tal manera que minimice E[L(θ, θ̂)], donde esta esperanza se toma con respecto a θ usando la distribución a posteriori π(θ|x). Definición 4.10 A L(θ, a) = (a − θ)2 se le llama la función de pérdida del error cuadrático. Observe que: Z Z E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ. Diferenciando esta expresión con respecto a a, se obtiene: 147 4.3. Evaluación de estimadores Z Z (a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a = 2 θπ(θ|x1 , . . . , xn )dθ Por lo tanto, la pérdida del error cuadrático se minimiza en θ̂, la media o esperanza a posteriori de θ. Definición 4.11 A L(θ, a) = |a − θ| se le llama la función de pérdida del error absoluto. En este caso, Z E[L(θ, a)] = Z L(θ, a)π(θ|x1 , . . . , xn )dθ a Z ∞ (a − θ)π(θ|x1 , . . . , xn )dθ + = −∞ (θ − a)π(θ|x1 , . . . , xn )dθ. a Diferenciando con respecto a a, se llega a que el mı́nimo debe cumplir que: Z a Z ∞ π(θ|x1 , . . . , xn )dθ − π(θ|x1 , . . . , xn )dθ = 0 θ=−∞ a Ası́, ambas integrales deberı́an ser iguales a riori. 1 2 y θ̂ es la mediana a poste- Ejemplo 4.29 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución P oisson(λ), Suponga que λ ∼ Exponencial(1), de modo que π(λ) = e−λ , λ > 0. La distribución a posteriori es π(λ|x1 , . . . , xn ) = e−λ n Y e−λ λxi i=1 xi ! Pn ∝ e−λ(n+1) λ i=1 xi , Pn es decir, Gama( i=1 xi + 1, n + 1). Entonces, usando la función de pérdida del error cuadrático medio: Pn xi + 1 θ̂ = media a posteriori = i=1 . n+1 Y bajo la función de pérdida del error absoluto, θ̂ es la solución a: Z 0 θ̂ e−λ(n+1) λ Pn xi (n + 1) Pn ( i=1 xi )! i=1 Pn i=1 xi +1 dλ = 1 . 2 148 4.4. 4. Estimación puntual Estimación insesgada En esta sección se hará una restricción considerando únicamente a los estimadores insesgados, es decir, a los estimadores T (X) que pertenecen a la clase: Cτ (θ) = {T (X) | E [T (X)] = τ (θ)} , la clase de estimadores insesgados para τ (θ) . El siguiente ejemplo muestra la idea subyacente en esta sección en cuanto a la estimación basada en minimizar la varianza de estimadores insesgados. Ejemplo 4.30 Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución P oisson(λ). Primero note que E(Xi ) = λ, V ar(Xi ) = λ y E(Xi2 ) = V ar(Xi ) + E2 (Xi ) = λ + λ2 . Pn Considerando ahora la estadı́stica G(X1 , . . . , Xn ) = i=1 Xi , note que G(X) tiene distribución P oisson(nλ); por lo que E(G) = nλ y V ar(G) = nλ. Sean a ∈ (0, 1) una constante y Ta (X1 , . . . , Xn ) = aX̄ + (1 − a)S 2 . Entonces, 1 E(G) = λ; n λ 1 V ar(G) = ; n2 n E(X̄) = V ar(X̄) = E(X̄ 2 ) = V ar(X̄) + E2 (X̄) = E(S 2 ) = n X 1 E( X 2 − nX̄ 2 ) n − 1 i=1 i λ + λ2 ; n λ 1 (n(λ + λ2 ) − n( + λ2 )) n−1 n 1 = (nλ − λ) = λ, y n−1 E(Ta (X1 , . . . , Xn )) = E(aX̄ + (1 − a)S 2 ) = aE(X̄) + (1 − a)E(S 2 ) = λ. = Ası́, se tiene una familia infinita de estimadores insesgados para λ; entonces se puede optar por utilizar el estimador que tenga el menor ECM. Definición 4.12 Un estimador T ∗ (X) insesgado de varianza mı́nima uniformemente (UMVUE5 ) para τ (θ) satisface: 5 Por Uniformly Minimum Variance Unbiased Estimator. 4.4. Estimación insesgada 149 (a) T ∗ (X) ∈ Cτ (θ) , es decir, E [T ∗ (X)] = τ (θ) . (b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cualquier otro estimador en Cτ (θ) . El UMVUE se refiere entonces al mejor estimador insesgado para τ (θ) en el sentido de que tiene el menor error cuadrático medio para toda θ ∈ Θ. El objetivo de esta sección es encontrar el UMVUE para τ (θ) , para ello se discutirán tres resultados en donde se utilizan los conceptos analizados previamente. En primer lugar se analizará el planteamiento que Cramèr y Rao hicieron con base en el cálculo de una cota inferior para la varianza de un estimador insesgado. Esta propuesta tiene ciertas restricciones, como el hecho de que requiere el cumplimiento de ciertas condiciones de regularidad para la densidad, entre otras. Posteriormente se enunciará el teorema de Rao-Blackwell, el cual utiliza la suficiencia de una estadı́stica para la construcción de UMVUEs bajo la idea de que un estimador que se basa en una estadı́stica suficiente será mejor que otro que no lo hace. Finalmente se enuncia el teorema de Lehmann-Scheffé, el cual, además de la suficiencia, utiliza el concepto de completez y permite encontrar un UMVUE construyendo un estimador insesgado a partir de una estadı́stica suficiente y completa, la que a su vez puede hallarse usando los resultados antes vistos o, en su caso, identificando a un miembro de la familia exponencial. 4.4.1. La propuesta de Cramèr y Rao En esta sección se estudia un resultado propuesto por Cramèr y Rao, el cual se basa en el hecho de que, para ver qué tan bueno es un estimador insesgado con respecto a otro, es necesario analizar la varianza de dicho estimador. Ası́, si la varianza o el error estándar de un estimador es una cantidad de interés para hablar de su bondad, serı́a deseable contar con una expresión con la cual pueda compararse esta varianza. Esta expresión será una cota inferior para la varianza, de tal manera que si la varianza de un estimador insesgado es igual a esa cota, se puede afirmar que el estimador es el UMVUE. Antes de presentar el teorema de Cramèr y Rao, en donde se da la cota mencionada, es necesario enunciar algunas definiciones y resultados que servirán para la demostración de dicho teorema. Definición 4.13 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea T(X) un estimador insesgado de τ (θ). Las siguientes se conocen como condiciones de regularidad: El soporte de f (x; θ) se define como sop(f ) = {x : f (x) > 0} y este es el mismo para toda θ. 150 4. Estimación puntual ∂ ln f (x; θ) existe. Para todo x ∈ sop(f ), ∂θ R R R RR R ∂ ∂ ... T (x)f (x; θ)dx1 ...dxn = ... ∂θ T (x)f (x; θ)dx1 ...dxn . ∂θ R R R R R R ∂ ∂ ... ∂θ ... f (x; θ)dx1 ...dxn = f (x; θ)dx1 ...dxn . ∂θ 2 f (x;θ) 0 < E ∂ ln∂θ < ∞. Observe que esta definición establece principalmente la condición que debe cumplir una función para que se puedan intercambiar derivadas e integrales, lo cual no siempre se cumple. En general, los miembros de la familia exponencial cumplen las condiciones de regularidad, pero densidades como la Uniforme Continua no. Para ver este caso especı́fico de la Uniforme considere su función de densidad f (x; θ) = 1 I(0,θ) (x) . θ A continuación se obtiene la derivada con respecto a θ de la integral, de la siguiente manera: Z θ Z θ ∂ ∂ 1 t (x) f (x; θ)dx = t (x) dx. ∂θ 0 ∂θ 0 θ Utilizando la regla de Leibnitz, la cual es una aplicación del teorema Fundamental del Cálculo y de la regla de la cadena, y que establece que si h(x; θ), a (θ) y b (θ) son diferenciables con respecto a θ, entonces Z b(θ) ∂ ∂ ∂ h(x; θ)dx = h (b (θ) , θ) b (θ) − h (a (θ) , θ) a (θ) ∂θ a(θ) ∂θ ∂θ Z b(θ) ∂ h(x; θ)dx. + a(θ) ∂θ En el caso que se está analizando, a (θ) = 0, b (θ) = θ y h (x; θ) = t (x) θ1 . Z θ Z θ ∂ 1 t (θ) ∂ 1 t (x) dx = + t (x) dx ∂θ 0 θ θ ∂θ θ 0 Z θ ∂ 1 6= t (x) dx, ∂θ θ 0 al menos que t(θ) θ = 0. Ahora se definirán algunas funciones que están involucradas en la cota inferior para la varianza propuesta por Cramèr y Rao. 151 4.4. Estimación insesgada Definición 4.14 La función score o función de puntaje se define como: ∂ ln f (x; θ). ∂θ Definición 4.15 La información esperada de Fisher se define como: " 2 # ∂ = E (Sc)2 . ln f (X; θ) IX (θ) = E ∂θ Sc(x; θ) = Observación 4.3 La función score también puede escribirse como: Sc(x; θ) = ∂ f 0 (x; θ) ln f (x; θ) = ∂θ f (x; θ) n n X Y ∂ ∂ f (xi ; θ) = = ln ln f (xi ; θ). ∂θ i=1 ∂θ i=1 (4.21) Lema 4.1 Si se satisfacen las condiciones de regularidad, entonces: (a) E(Sc) = 0. (b) V ar(Sc) = IX (θ). Demostración. (a) Z ∂ ln f (x; θ) f (x; θ)dx1 ...dxn dθ Z Z Z 0 f (x; θ) = ... f (x; θ)dx1 ...dxn f (x; θ) Z Z Z ∂ f (x; θ)dx1 ...dxn = ... ∂θ Z Z Z ∂ = ... f (x; θ)dx1 ...dxn ∂θ ∂ = (1) = 0 ∂θ Z Z E [Sc(x; θ)] = ··· ∴ E(Sc) = 0. (b) V ar(Sc) = E(Sc2 ) − E2 (Sc) = IX (θ) − 0 = IX (θ). ∴ V ar(Sc) = IX (θ). 152 4. Estimación puntual Definición 4.16 Si X es una variable aleatoria, entonces a " 2 # ∂ IX (θ) = E ln f (X; θ) ∂θ se le conoce como información esperada de Fisher por unidad muestral. Es más sencillo calcular la información esperada de Fisher por unidad muestral y el siguiente resultado la relaciona con la información esperada de Fisher para la muestra, ası́ como con otras expresiones. Lema 4.2 Si se cumplen las condiciones de regularidad, entonces: (a) IX (θ) = nIX (θ). h 2 i ∂ (b) IX (θ) = −E ∂θ ln f (X; θ) . 2 (c) IX (θ) = −nE h ∂2 ∂θ 2 ln i f (X; θ) . Demostración. P 2 (θ) = E(Sc2 ) y usando (4.21), ası́ como el hecho de que ( ai ) = (a) Como P 2 IX P ai + i6=j ai aj , !2 n X ∂ IX (θ) = E ln f (Xi ; θ) ∂θ i=1 " 2 # n X ∂ = E ln f (Xi ; θ) ∂θ i=1 X ∂ ∂ + E ln f (Xi ; θ) ln f (Xj ; θ) . ∂θ ∂θ i6=j Como las variables X1 , ..., Xn son independientes, se tiene que ∂ ln f (Xi ; θ) ∂θ y ∂ ln f (Xj ; θ) , ∂θ 153 4.4. Estimación insesgada también lo son y E ∂ ∂ ln f (Xi ; θ) ln f (Xj ; θ) ∂θ ∂θ es igual a E ∂ ∂ ln f (Xi ; θ) E ln f (Xj ; θ) , ∂θ ∂θ donde, para el caso continuo, y bajo el supuesto de que se cumplen las condiciones de regularidad: Z ∞ ∂ ∂ ∂θ f (xi ; θ) E ln f (Xi ; θ) = f (xi ; θ)dxi ∂θ −∞ f (xi ; θ) Z ∞ ∂ f (xi ; θ)dx = ∂θ −∞ Z ∞ ∂ ∂ = f (xi ; θ)dx = (1) = 0. ∂θ −∞ ∂θ Ası́, " 2 # ∂ IX (θ) = E ln f (Xi ; θ) ∂θ i=1 " 2 # ∂ ln f (X; θ) , = nE ∂θ n X debido a que las Xi ’s son idénticamente distribuidas. (b) Observe que ∂2 ln f (x; θ) ∂θ2 = = = ∂ f 0 (x; θ) ∂θ f (x; θ) f (x; θ) f 00 (x; θ) − f 0 (x; θ) f 0 (x; θ) 2 [f (x; θ)] 0 2 00 f (x; θ) f (x; θ) − . f (x; θ) f (x; θ) Ası́, ( 0 2 ) ∂2 f 00 (X; θ) f (X; θ) −E ln f (X; θ) = −E − , ∂θ2 f (X; θ) f (X; θ) 154 4. Estimación puntual y como E f 00 (X; θ) f (X; θ) Z = = Z ··· 2 Z ∂ ∂θ2 ∂2 ln f (X; θ) −E ∂θ2 f 00 (x; θ) f (x; θ) dx1 · · · dxn f (x; θ) Z · · · f (x; θ) dx1 · · · dxn = 0, " f 0 (X; θ) f (X; θ) " 2 # ∂ ln f (X; θ) ∂θ = E = E 2 # = IX (θ). (c) Se deduce de los dos resultados anteriores. Teorema 4.2 (de Cramèr y Rao). Sean X1 , . . . , Xn una muestra aleatoria de f (x; θ) y T (X) un estimador insesgado de τ (θ). Si se satisfacen las condiciones de regularidad, entonces V ar(T ) ≥ (τ 0 (θ))2 . IX (θ) | {z } (4.22) CICR(τ (θ)) Esta desigualdad se conoce como la desigualdad de Cramèr-Rao o de2 [τ 0 (θ)] sigualdad de la información y a la cantidad IX(θ) como la cota inferior de Cramèr y Rao (CICR). En (4.22) la igualdad se da si y sólo si: n X ∂ ln f (xi ; θ) = k(θ; n)[T (x) − τ (θ)], ∂θ i=1 donde k puede depender de θ y de n. Demostración. Este resultado se deduce de la conocida desigualdad de Cauchy-Schwarz, la cual establece que si X y Y son variables aleatorias, entonces: 2 {Cov (X, Y )} ≤ V ar (X) V ar (Y ) , 155 4.4. Estimación insesgada dándose la igualdad si y sólo si Y − E (Y ) = k [X − E (X)] (4.23) Aplicando esta desigualdad a las variables T (X) y Sc(X; θ), se obtiene: 2 {Cov (T, SC )} ≤ V ar (T ) V ar (SC ) . (4.24) Usando el lema 4.1, se tiene que V ar(Sc) = IX (θ), por lo que (4.24) se puede escribir como: 2 {Cov (T, SC )} V ar(T ) ≥ . IX (θ) Por otro lado, Cov (T, SC ) = E (T SC ) − E (T ) E (SC ) y nuevamente por el lema 4.1, E (SC ) = 0, mientras que: Z E (T SC ) = = = ∂ f (x; θ) t (x) ∂θ f (x; θ) dx1 · · · dxn f (x; θ) Z · · · t (x) f (x; θ) dx1 · · · dxn Z ··· Z ∂ ∂θ ∂ ∂ E (T (X)) = τ (θ) = τ 0 (θ) , ∂θ ∂θ los pasos anteriores se justifican por la definición de SC , las condiciones de regularidad y el hecho de que T es insesgado para τ (θ) . Ası́, 2 V ar(T ) ≥ {τ 0 (θ)} . IX (θ) Para ver la condición en la que se alcanza la cota, es decir, en la que se da la igualdad, se usa (4.23), obteniendo: SC − E (SC ) = k [T − E (T )] Pn y como E (SC ) = 0, SC = i=1 la segunda parte del teorema. ∂ ∂θ ln f (xi ; θ) y E (T ) = τ (θ) , se comprueba Ejemplo 4.31 Sea X1 , . . . , Xn una muestra aleatoria de la distribución N (0, σ 2 ). Para encontrar IX (σ 2 ): 156 4. Estimación puntual ln f (x; θ) = ln √ 1 2πσ 2 e − 2σ12 x2 1 1 1 = − ln(2π) − ln(σ 2 ) − 2 x2 , 2 2 2σ ∂ 1 x2 2 ln f (x; σ ) = − + , ∂σ 2 2σ 2 2(σ 2 )2 ∂2 1 x2 2 ln f (x; σ ) = − . ∂(σ 2 )2 2(σ 2 )2 (σ 2 )3 Entonces, IX (σ 2 ) = = ∂2 E(X 2 ) 1 2 ln f (X; σ ) = n − −nE ∂(σ 2 )2 σ6 2σ 4 2 σ 1 1 1 n n 6 − 4 =n 4 − 4 = . σ 2σ σ 2σ 2σ 4 Entonces, la CICR para estimadores insesgados de σ 2 es 2σ 4 n . Ejemplo 4.32 Sea X1 , . . . , Xn una muestra aleatoria de la distribución exp(θ). Para encontrar IX (θ): ln f (x; θ) = ln θe−θx = ln(θ) − θx, de donde ∂ 1 ln f (x; θ) = − x. ∂θ θ Entonces, " IX (θ) = nE " 2 # 2 # 1 n ∂ ln f (X; θ) = nE −X = n V ar(X) = 2 . ∂θ θ θ Para encontrar la CICR para estimadores insesgados de θ: τ1 (θ) = θ ⇒ τ10 (θ) = 1. Entonces, CICR(θ) = θ2 1 = . IX (θ) n Para encontrar la CICR para estimadores insesgados de τ2 (θ) = θ1 : τ2 (θ) = 1 1 ⇒ τ20 (θ) = − 2 . θ θ 157 4.4. Estimación insesgada Entonces, CICR(τ2 (θ)) = 1 1/θ4 1/θ4 = 2. = IX (θ) n/θ2 nθ Observación 4.4 Para responder a la pregunta: ¿existe alguna función de θ, τ (θ) , para la cual hay un estimador insesgado cuya varianza coincide con la CICR?, se usa la segunda parte del teorema, es decir, la condición para la alcanzabilidad de la cota. Ejemplo 4.33 Para la distribución Exponencial, ¿existe alguna función de θ, τ (θ) , para la cual hay un estimador cuya varianza coincide con la CICR? Usando la segunda parte del teorema de Cramèr y Rao, se tiene que n X ∂ ln f (xi ; θ) ∂θ i=1 = = = n n X X ∂ ∂ ln θe−θxi = [ln θ − θxi ] ∂θ ∂θ i=1 i=1 n n X 1 n X xi − xi = − θ θ i=1 i=1 Pn 1 1 i=1 xi −n − = −n x − . n θ θ Ası́, se puede afirmar que τ (θ) = θ1 es una función de θ para la cual existe un estimador insesgado T (X) = X, cuya varianza coincide con la CICR. En otras palabras, X es el UMVUE de τ (θ) = θ1 . Aunque en general no es ne cesario probarlo, es claro que en este caso: V ar X = θ21n = CICR (τ (θ)) . Observación 4.5 1. Si la varianza de un estimador insesgado coincide con la CICR, entonces el estimador es un UMVUE. Pero el UMVUE puede existir sin que su varianza coincida con la CICR. 2. Si la muestra aleatoria es de algún miembro de la familia exponencial, siempre existe una función de θ para la cual hay un estimador insesgado cuya varianza coincide con la CICR (basta factorizar n X ∂ ln a(θ)b(x) exp{c(θ)d(xi )} ∂θ i=1 en la forma indicada en la segunda parte del teorema de Cramèr y Rao). 158 4. Estimación puntual 3. Aun cuando la varianza de un estimador insesgado alcance la CICR, esta situación se da para una función especı́fica de θ, que puede no ser la que se esté analizando. En el caso de la distribución Exponencial, en el ejemplo 4.33 se obtuvo que X es el UMVUE de θ1 usando la segunda parte del teorema de Cramèr y Rao; sin embargo, si el objetivo es encontrar el UMVUE de θ, este resultado no da información adicional (salvo la expresión correspondiente para la CICR que sirve para compararla con la varianza de algún estimador que se proponga). 4. La teorı́a desarrollada por Cramèr y Rao sólo es para densidades que satisfacen las condiciones de regularidad. 5. Cuando la varianza de un estimador alcanza la CICR también se dice que es eficiente y la eficiencia de un estimador insesgado se mide como CICR V ar(T ) , cantidad que es menor o igual a 1. Por lo que un estimador es eficiente si y sólo si el cociente anterior es 1. Dadas estas restricciones se analizarán otros resultados que incorporan los conceptos de suficiencia y completez, lo cual se hará en las secciones 4.4.2 y 4.4.3. Generalización Aquı́ se considerarán brevemente la generalización de la teorı́a de Cramèr y Rao para cuando se tienen distribuciones de dos o más parámetros. En el caso de dos parámetros, la información esperada de Fisher (para una muestra de tamaño n), llamada la matriz de información de Fisher, se define como: h 2 i h 2 i ∂ ∂ E ∂θ ln f (X; ln f (X; θ) θ) E ∂θ 2 i h 1 ∂θ i , IX (θ) = − h 21 ∂2 E ∂θ ln f (X; θ) E ∂θ∂2 ∂θ1 ln f (X; θ) 2 y para el caso de k parámetros IX (θ) toma la forma: h 2 i h 2 i h 2 i ∂ E ∂θ E ∂θ∂1 ∂θ2 ln f (X; θ) · · · E ∂θ∂1 ∂θk ln f (X; θ) 2 ln f (X; θ) h 21 i h 2 i h 2 i ∂ E ∂θ · · · E ∂θ∂2 ∂θk ln f (X; θ) E ∂θ∂2 ∂θ1 ln f (X; θ) 2 ln f (X; θ) 2 .. .. .. .. . h 2 . i h 2 . i h 2 . i ∂ E ∂θ E ∂θ∂k ∂θ1 ln f (X; θ) E ∂θ∂k ∂θ2 ln f (X; θ) · · · 2 ln f (X; θ) k Y la cota inferior de Cramèr y Rao es la inversa de la matriz de información, −1 (θ). es decir, IX 159 4.4. Estimación insesgada 4.4.2. El teorema de Rao-Blackwell Como se ha visto, una estadı́stica suficiente conserva toda la información relevante contenida en la muestra acerca del parámetro de interés. Ası́, los estimadores basados en estadı́sticas suficientes son mejores (que los que no están basados en estadı́sticas suficientes) como establece el siguiente resultado. Teorema 4.3 (Rao-Blackwell). Sean T (X) un estimador insesgado para τ (θ) y S una estadı́stica suficiente. Sea T ∗ (X) := E(T |S). Entonces, (a) T ∗ es una estadistica función de S. (b) T ∗ es insesgado para τ (θ), es decir, E (T ∗ ) = τ (θ). (c) V ar(T ∗ ) ≤ V ar(T ) para toda θ ∈ Θ. Demostración. (a) Usando la definición de la esperanza condicional en el caso continuo, T∗ = Z ∞ tfT /S (t/s) dt −∞ es una función de S, además fT /S no depende de θ por ser S una estadı́stica suficiente, por lo que T ∗ es una estadı́stica. (b) Por las propiedades de la esperanza condicional, E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ). (c) Usando las propiedades de la varianza condicional, V ar(T ) = V ar (E (T /S)) + E (V ar (T /S)) , lo cual implica que V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) , y como V ar (T /S) ≥ 0, se obtiene el resultado. 160 4. Estimación puntual Ejemplo 4.34 Sea X1P , . . . , Xn una muestra aleatoria de la distribución n Bernoulli(θ). S(X) = i=1 Xi es una estadı́stica suficiente para θ, lo cual se ha verificado (basta ver que la distribución Bernoulli pertenece a la familia exponencial). T (X) = X1 es un estimador insesgado de θ (pues E(X1 ) = θ). Entonces ! n X ∗ Xi = s T (X) = E(T |S = s) =E X1 | i=1 =0 · P X1 = 0| n X ! Xi = s i=1 + 1 · P X1 = 1| n X ! Xi = s i=1 =P X1 = 1 | n X ! Xi = s i=1 Pn P (X1 = 1, i=1 Xi = s) Pn = . P ( i=1 Xi = s) Donde Pn Xi ∼ Bin(n, θ). Pero Pn Pn P(X1 = 1)P ( i=2 Xi = s − 1) P(X1 = 1; i=1 Xi = s) Pn = n s n−s P( i=1 Xi = s) s θ (1 − θ) i=1 = θ n−1 s−1 θs−1 (1 − θ)n−1−s+1 = n s n−s s θ (1 − θ) Por lo tanto, T ∗ (X) = Pn i=1 n−1 s−1 n s = (n−1)! (s−1)!(n−s)! n! s!(n−s)! = s . n Xi = X. n El estimador resultante es insesgado, pues E(X̄) = θ y tiene varianza menor que X1 , ya que V ar(X̄) = θ(1 − θ) ≤ θ(1 − θ) = V ar(X1 ), n las cuales son iguales sólo en el caso n = 1. 4.4.3. El teorema de Lehmann-Scheffé El siguiente resultado muestra que un estimador insesgado función de la estadı́stica suficiente y completa será el UMVUE. 161 4.4. Estimación insesgada Teorema 4.4 (Lehmann-Scheffé). Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea S una estadı́stica suficiente y completa. Sea T ∗ (X) una función de S tal que E(T ∗ ) = τ (θ) (T ∗ es insesgado para τ (θ)), entonces T ∗ es el UMVUE de τ (θ). Demostración. Sea T 0 (X) , función de S, tal que E(T 0 ) = τ (θ). Sea g(S) = T ∗ − T 0 . Note que E[g(S)] = E(T ∗ − T 0 ) = E[T ∗ ] − E[T 0 ] = τ (θ) − τ (θ) = 0 ∴ E[g(S)] = 0 Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda θ ∈ Θ. De esta manera, P[T ∗ = T 0 ] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗ es único (c.s.). Es decir, T ∗ es el único estimador insesgado de τ (θ) que es función de S. Por otro lado, sea T tal que E[T ] = τ (θ). Por el teorema de Rao-Blackwell, E[T |S] es estimador insesgado de τ (θ) y es función de S, lo que implica que T ∗ = E[T |S]. Ası́, por el teorema de Rao-Blackwell, V ar(T ∗ ) ≤ V ar(T ), para toda θ ∈ Θ. Ejemplo 4.35 Sea X1 , . . . , Xn una muestra aleatoria de la distribución Exp(θ), donde θ > 0. Como f (x; θ) = θe−θx , entonces Pn f (x; θ) es de la familia exponencial con d(x) = x. Entonces, S(X) = i=1 Xi es suficiente y completa. Para encontrar el UMVUE de θ y de τ (θ) = θ1 , se obtiene E(S) = E n X i=1 ! Xi = nE(Xi ) = n 1 n = θ θ y como E[X̄] = θ1 , entonces X es el UMVUE de θ1 , pues es función de la estadı́stica suficiente y completa y además es insesgado para θ (note que este resultado coincide con el obtenido mediante la teorı́a Cramèr y Rao, ejemplo 4.33). Para encontrar el UMVUE de θ, éste será de la forma Pn k Xi , donde i=1 Pn S = i=1 Xi tiene distribución Gama (n, θ) . Entonces, observe que: 162 4. Estimación puntual k E Pn i=1 Xi k 1 = kE S S Z ∞ 1 θn n−1 −θs s e ds =k s Γ(n) 0 Z ∞ n θ =k sn−2 e−θs ds Γ(n) 0 Z θn Γ(n − 1) ∞ θn−1 (n−1)−1 −θs =k s e ds Γ(n) θn−1 Γ(n − 1) 0 | {z } =E 1 θn Γ(n − 1) Γ(n − 1) kθ =k n−1 =k = . θ Γ(n) (n − 1)Γ(n − 1)θ−1 n−1 Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo tanto, n−1 T ∗ (X) = Pn i=1 Xi es el UMVUE de θ. Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo 4.32): " 2 # ∂ IX (θ) =nE ln f (X; θ) ∂θ " 2 # ∂ −θX =nE ln θe ∂θ " 2 # ∂ =nE (ln θ − θX) ∂θ " 2 # 1 =nE −X θ n =nV ar(X) = 2 . θ Entonces, la CICR para estimadores insesgados de θ es: CICR(θ) = 1 θ2 = . IX (θ) n 163 4.4. Estimación insesgada El segundo momento de T ∗ (X) = (n − 1)2 E S2 Pn−1 n i=1 Xi está dado por: 1 = (n − 1) E 2 S Z ∞ 1 θn n−1 −θs s e ds = (n − 1)2 s2 Γ(n) 0 Z ∞ θn = (n − 1)2 sn−3 e−θs ds Γ(n) 0 Z θn Γ(n − 2) ∞ θn−2 (n−2)−1 −θs = (n − 1)2 s e ds Γ(n) θn−2 Γ(n − 2) 0 {z } | 2 1 θn Γ(n − 2) = (n − 1)2 n−2 θ Γ(n) Γ(n − 2) = (n − 1)2 (n − 1)(n − 2)Γ(n − 2)θ−2 (n − 1)θ2 = . n−2 Entonces, V ar(T ∗ (X)) = (n − 1)θ2 θ2 − θ2 = n−2 n−2 es la varianza del UMVUE de θ. Note que V ar(T ∗ (X)) = θ2 θ2 > = CICR(θ). n−2 n Ejemplo 4.36 Sea X1 , . . . , Xn una muestra aleatoria de la distribución P oisson(θ). Sea τ (θ) = P(X = 0) = e−θ . (a) Encontrar el estimador máximo verosı́mil de θ y τ (θ). (b) Encontrar el estimador por momentos de θ. (c) ¿Pertenece f (x; θ) a la familia exponencial? (d) Encontrar una estadı́stica suficiente minimal y completa. (e) Encontrar la CICR para estimadores insesgados de θ y τ (θ). (f) ¿Existirá una función de θ, para la cual hay un estimador insesgado cuya varianza coincide con la CICR? Si es ası́, encontrarlo. 164 4. Estimación puntual (g) Encontrar un estimador insesgado de τ (θ) y usar el teorema de RaoBlackwell para hallar un estimador insesgado función de la estadı́stica suficiente. (h) Decir cuáles son los UMVUEs de θ y τ (θ), respectivamente. Solución: (a) L(θ) = n Y i=1 f (xi ; θ) = n Y e−θ θxi i=1 xi ! (x ) i I{0,1,...} = e−nθ θ Pn i=1 xi n I(xi ) Y {0,1,...} i=1 xi ! y el logaritmo de la verosimilitud es l(θ) = −nθ + ( n X xi ) ln θ + ln i=1 n I(xi ) Y {0,1,...} i=1 xi ! , de donde, Pn xi ∂ l(θ) = −n + i=1 . ∂θ θ ∂ Entonces, ∂θ l(θ) = 0 si y sólo si Pn Pn Pn xi xi xi −n + i=1 = 0 ⇔ n = i=1 ⇔ θb = i=1 . n θb θb Pn Por lo tanto θ̂M.V. = n1 i=1 Xi = X̄. Para τ (θ), aplicando la propiedad de invarianza de los estimadores máximo verosı́miles τ (θ̂M.V. ) es estimador máximo versı́mil de τ (θ). Por lo tanto e−X̄ es estimador máximo verosı́mil de τ (θ) = e−θ . (b) Recuerde que E(X) = θ, entonces el estimador por momentos está dado por n 1X Xi = X̄. θ̂ = n i=1 (c) Como f (x; θ) = e−θ θx (x) I x! {0,1,...} si a(θ) = e−θ , b(x) = 1 (x) I , x! {0,1,...} c(θ) = ln(θ), d(x) = x. 165 4.4. Estimación insesgada Entonces, f (x; θ) = a(θ)b(x)ec(θ)d(x) . Por lo tanto pertenece a la familia exponencial. (d) P Como f (x; θ) pertenece a la familia exponencial entonces T (x) = Pn n d(X ) = X es una estadı́stica suficiente minimal y comi i=1 i=1 i pleta. (e) La información esperada de Fisher está dada por " 2 # ∂ ln f (X; θ) IX (θ) =nE ∂θ " −θ X 2 # ∂ e θ =nE ln ∂θ X! " 2 # ∂ =nE (−θ + X ln θ − ln X!) ∂θ " 2 # X =nE −1 + θ " 2 # 1 (X − θ) =nE θ i n h n nθ n 2 = 2 E (X − θ) = 2 V ar(X) = 2 = . θ θ θ θ Para θ se tiene que CICR(θ) = θ . n Para τ (θ) = e−θ se tiene que CICR(τ (θ)) = (τ 0 (θ))2 n θ = θe−2θ . n 166 4. Estimación puntual (f) Utilizando la segunda parte del teorema de Cramèr-Rao n n X X e−θ θxi ∂ ∂ ln f (xi ; θ) = ln ∂θ ∂θ xi ! i=1 i=1 = = n X ∂ (−θ + xi ln(θ) − ln(xi !)) ∂θ i=1 n X −1 + i=1 xi θ n =−n+ 1X n n xi = −n + x̄ = (x̄ − θ). θ i=1 θ θ Por lo tanto, para θ hay un estimador insesgado, T ∗ (X) = X̄, cuya varianza coincide con la Cota de Cramèr-Rao, es decir, X̄ es el UMVUE de θ. (g) Considere T (X) = I{0} (X1 ). Note que E(T (X)) = E(I{0} (X1 )) = P(X1 = 0) = e−θ . Por lo tanto,PT (X) es un estimador insesgado de n τ (θ) y ya se vio que S(X) = i=1 Xi es una estadı́stica suficiente minimal y completa. Entonces, E(T |S = = s) = E(I{0} (X1 )|S = s) ! n X P X1 = 0| Xi = s i=1 = Pn P(X1 = 0)P( i=2 Xi = s) Pn P( i=1 Xi = s) −(n−1)θ = = ((n−1)θ)s s! e−nθ (nθ)s s! −θ −(n−1)θ e−θ e e e−nθ (nθ)s = ((n − 1)θ)s e n−1 n = e−θ e−nθ eθ (n − 1)s θs e−nθ ns θs s . Entonces, por el teorema de Rao-Blackwell T ∗ (X) = n−1 n Pni=1 Xi . (h) X̄ es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien, notando queP X̄ es insesgado para θ y función de la estadı́stica suficiente n y completa, i=1 Xi , por lo que usando el teorema de Lehmann-Scheffé 4.5. Propiedades asintóticas de los estimadores 167 Pni=1 Xi se llega a la misma conclusión. Además, n−1 es el UMVUE de n τ (θ) por el inciso (g) y el teorema de Lehmann-Scheffé. 4.5. Propiedades asintóticas de los estimadores Hasta ahora se han estudiado distintas propiedades de los estimadores, pero la mayorı́a, a excepción de la consistencia vista en el apartado 4.3.2, se refiere a tamaños de muestra pequeños. En esta sección se abordarán propiedades que describen el comportamiento de un estimador cuando el tamaño de muestra es grande, es decir, las propiedades asintóticas de los estimadores. Como ya se señaló, la consistencia tiene que ver con la precisión asintótica de un estimador, esto es, que el error cometido al estimar τ (θ) con Tn (X) es pequeño cuando el tamaño de muestra es grande. Existe otra propiedad que tiene que ver con la varianza asintóntica de un estimador, la cual se conoce como eficiencia. Ya se ha reiterado que la varianza (de los estimadores) juega un papel importante en la elección del mejor estimador. De hecho en las observaciones 4.5, se menciona la propiedad de eficiencia. A continuación se da una definición formal de eficiencia asintótica. Definición 4.17 Una sucesión de estimadores {Tn } es asintóticamente eficiente para un parámetro τ (θ) si √ n[Tn − τ (θ)] −→ N [0, CICR(θ)] en distribución, donde CICR(θ) = [τ 0(θ)]2 ∂ ; E ( ∂θ ln f (X; θ))2 esto es, la varianza asintótica de Tn alcanza la cota inferior de Cramér-Rao. Bajo las condiciones de regularidad (definición 4.13), se puede demostrar que los estimadores máximo verosı́miles cumplen las propiedades de consistencia y eficiencia. Es decir, si la muestra aleatoria proviene de una población con función de densidad que satisface las condiciones de regularidad, entonces el estimador máximo verosı́mil del parámetro θ (o de una función τ (θ)) tiene estas propiedades asintóticas. Para el caso de la consistencia simple, puede consultarse Stuart, Ord y Arnold (1999). En cuanto a la eficiencia, se utilizará el siguiente resultado conocido como el método delta: 168 4. Estimación puntual Lema √ 4.3 Si {Xn } es una sucesión de variables aleatorias que satisfacen que n (Xn − θ) → N 0, σ 2 en distribución, entonces para una función τ y un valor especı́fico de θ, se tiene que √ 2 n [τ (Xn ) − τ (θ)] → N 0, σ 2 τ 0 (θ) en distribución. Demostración. El resultado es consecuencia del teorema de Slutsky, el cual establece que para dos sucesiones de variables aleatorias {Xn }n≥1 y {Yn }n≥1 , tales que Xn → X en distribución y Yn → c en probabilidad , donde X es una variable aleatoria y c es una constante, se tiene que: (i) Xn + Yn → X + c, en distribución, (ii) Xn Yn → cX, en distribución, (iii) Si c 6= 0 entonces, Xn X → , Yn c en distribución. El siguiente resultado se refiere a la eficiencia asintótica de los estimadores máximo verosı́miles. Teorema 4.5 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con función de densidad f (x; θ), sea θb el estimador máximo verosı́mil de θ, y sea τ (θ) una función continua y diferenciable de θ. Bajo las condiciones de regularidad sobre f (x; θ) y, por lo tanto de la función de verosimilitud L(θ), se tiene que √ b − τ (θ)] −→ N [0, CICR(τ (θ))], n[τ (θ) donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores inb es sesgados de τ (θ). Esto es, el estimador máximo verosı́mil de τ (θ) , τ (θ), un estimador eficiente de τ (θ). Demostración. Se demostrará el caso τ (θ) = θ, es decir, que θb es asintóticamente eficiente. Para ello, recuerde que l(θ) = n X i=1 ln f (xi ; θ) 4.5. Propiedades asintóticas de los estimadores 169 es la función de log-verosimilitud. Sean l0 , l00 , .. las derivadas (con respecto a θ) . Expandiendo la primera derivada de la log-verosimilitud alrededor del valor verdadero del parámetro, el cual se denotará por θ0 , l0 (θ) = l0 (θ0 ) + (θ − θ0 )l00 (θ0 ) + . . . , donde se ignoran los términos de orden superior. Sustituyendo el estimador máximo verosı́mil θb en lugar de θ, se tiene que b = l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + . . . , l0 (θ) pero el estimador máximo verosı́mil es el cero de la función de verosimilitud, por lo que l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + · · · = 0. √ Ası́ que reacomodando los términos y multiplicando por n, se obtiene que: √ n(θb − θ0 ) = = √ −l0 (θ0 ) n 00 l (θ0 ) 1 0 √ − n l (θ0 ) 1 00 n l (θ0 ) . En 4.4.1 , se vio que " IX (θ) = E Como 2 # ∂ . ln f (X; θ) ∂θ n X ∂ ln f (xi ; θ), l (θ) = ∂θ i=1 0 por (4.21) IX (θ0 ) = E [l0 (θ0 )]2 = 1 CICR(θ) denota la información esperada de Fisher. Ahora observe que " # ∂ √ f (xi ; θ) 1 0 1 X ∂θ √ l (θ0 ) = n , n i f (xi ; θ) n 0 (x;θ) donde Sc(x; θ) = ff (x;θ) es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] = IX (θ), lo cual se probó en el lema 4.1. Ası́, por el teorema del lı́mite central, 1 √ l0 (θ0 ) −→ N [0, I(θ0 )] n 170 4. Estimación puntual en distribución y 1 − √ l0 (θ0 ) −→ N [0, I(θ0 )] n en distribución. Por otro lado, " #2 ∂ f (xi ; θ) 1 00 1 X ∂θ 1X l (θ0 ) = − n n i f (xi ; θ) n i ∂2 ∂θ 2 f (xi ; θ) f (xi ; θ) . Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del segundo es cero (ver la demostración del lema 4.2). Entonces por la Ley Débil de los Grandes Números: 1 00 l (θ0 ) −→ I(θ0 ), n en probabilidad. En consecuencia, si W es una variable aleatoria tal que W ∼ N [0, I(θ0 )], entonces √ n(θb − θ0 ) = − √1n l0 (θ0 ) 1 00 n l (θ0 ) converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ0 )], es decir, a una variable aleatoria normal con media cero y varianza igual a la cota Inferior de Cramèr y Rao, lo que demuestra el resultado. El caso general es consecuencia del método delta, el cual se describe brevemente a continuación. Una forma alternativa para calcular la varianza del estimador máximo verosı́mil de τ (θ) es considerando que, debido a la propiedad de invarianza que tiene el método de máxima verosimilitud, τd (θ) = τ θb . Si se aproxima τ θb mediante una expansión en series de Taylor alrededor de θ, considerando solamente la primera derivada, se obtiene: τ θb ≈ τ (θ) + θb − θ τ 0 (θ) . Tomando la varianza de ambos lados, se llega a h i 2 V ar τ θb ≈ (τ 0 (θ)) V ar θb , debido a que θ es una constante. Como ya se habı́a visto, V ar θb está dada −1 por IX (θ), ası́ que h i (τ 0 (θ))2 V ar τ θb ≈ , IX (θ) 4.5. Propiedades asintóticas de los estimadores 171 expresión que corresponde a la cota inferior de Cramèr-Rao para estimadores insesgados de τ (θ) , con lo que puede observarse que la varianza del estimador máximo verosı́mil alcanza dicha cota (al igual que en el caso τ (θ) = θ). En conclusión: √ b − τ (θ)] −→ N [0, CICR(τ (θ))]. n[τ (θ) Ejemplo 4.37 Considere una muestra aleatoria, X1 , . . . , Xn , de la población con distribución Bernoulli(p); se desea obtener un estimador puntual p para el momio, τ (p) = (1−p) , ası́ como la varianza de dicho estimador. El estimador máximo verosı́mil para p̂ es X̄. Por la propiedad de invarianza de los estimadores máximo verosı́miles, se tiene que el estimador X̄n . La varianza de este estimador puede máximo verosı́mil para τ (p) es (1− X̄n ) aproximarse de la siguiente manera: h i2 p d p̂ dp ( (1−p) ) V̂ = (1 − p̂) IX (p) p=p̂ i2 1 (1−p)2 ) = n h p(1−p) p=p̂ = p̂ X̄n = . 3 n(1 − p̂) n(1 − X̄n )3 Ejemplo 4.38 Considere una sucesión de variables aleatorias, X1 , . . . , Xn , independientes e idénticamente distribuidas de una población con distribución F (·) que es diferenciable. Suponga que se satisface que P (Xi ≤ ψ) = 1/2, es decir, ψ es la mediana poblacional. Sea Mn la mediana muestral y también suponga que n es impar para simplificar el argumento. Se desea obtener la distribución asintótica de la mediana muestral. Se calculará p lı́m P ( (n)(Mn − ψ) ≤ a), n→∞ para alguna a. Sean las variables aleatorias Yi0 s definidas como ( p 1 si Xi ≤ ψ + a/ (n) Yi = 0 en otro caso, 172 4. Estimación puntual se tiene que las Yi0 s son variables aleatorias Bernoulli con probabilidad de éxito p pn = F (ψ + a/ (n)). p P Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥ (n + 1)/2}. Dado que pn → p = F (ψ) = 1/2, P se puede utilizar el teorema del lı́mite central, de donde √ i Yi −npn (npn (1−pn )) con- verge a una variable aleatoria Z con distribución normal estándar. Ahora, √ (n + 1)/2 − npn (n + 1)F (ψ) − nF (ψ + a/ n) p lı́m p = lı́m n→∞ n→∞ (npn (1 − pn ) npn (1 − pn ) √ n(F (ψ) − F (ψ + a/ n)) p = lı́m n→∞ npn (1 − pn ) √ 1 n(F (ψ) − F (ψ + a/ n) √ = lı́m a n→∞ pn (1 − pn ) a/ n = −2af (ψ). Por lo que p P ( (n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ). p Ası́ (n)(Mn − ψ) tiene una distribución normal con media 0 y varianza 1/[2f (ψ)]2 . 4.6. Ejercicios 1. Sea X una variable aleatoria con distribución Gama(α + 1, β), cuya función de densidad es f (x; α, β) = β α+1 xα e−βx , Γ(α + 1) con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros α y β por el método de momentos, para una muestra aleatoria de tamaño n. 2. Una urna contiene bolas negras y blancas. Se toma una muestra aleatoria de tamaño n con reemplazo. ¿Cuál es el estimador máximo verosı́mil de la razón, R, de blancas a negras en la urna? Para esto suponga que la bola se obtiene una por una con reemplazo hasta que la bola negra aparezca. Sea X el número de bolas requeridas no contando la última obtenida; este procedimiento se repite n veces para una muestra aleatoria X1 , . . . , Xn . 173 4.6. Ejercicios 3. Se toma una observación de una variable aleatoria discreta X con función de densidad f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}. x 0 1 2 3 4 f (x; 1) 1/3 1/3 0 1/6 1/6 f (x; 2) 1/4 1/4 1/4 1/4 0 f (x; 3) 0 0 1/4 1/2 1/4 Encuentre el estimador máximo verosı́mil de θ. 4. Sea X una variable aleatoria discreta con función de densidad f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}. Se toma una muestra aleatoria de tamaño dos, (X1 , X2 ). Determine el estimador máximo verosı́mil de θ. x f (x; 1) f (x; 2) f (x; 3) 0 1/3 1/4 0 1 1/3 1/4 0 2 0 1/4 1/4 3 1/6 1/4 1/2 4 1/6 0 1/4 5. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ) = θx−2 I[θ,∞) (x). Encuentre el estimador máximo verosı́mil de θ. También encuentre el estimador por momentos para θ. 6. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución U (θ, 2θ), con θ > 0. (a) Encuentre el estimador de θ por el método de momentos. (b) Encuentre el estimador máximo verosı́mil de θ, θ̂M V , y encuentre una constante k tal que E(k θ̂M V ) = θ. 7. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad 1 (x − µ) f (x; µ, σ) = exp − I(µ,∞) (x), σ σ donde µ ∈ R y σ ∈ R+ son desconocidos. 174 4. Estimación puntual (a) Demuestre que el estimador máximo verosı́mil de µ es X(1) (la mı́nimaPestadı́stica de orden) y el estimador máximo verosı́mil de n σ es n1 i=1 (Xi − X(1) ). (b) ¿Cuáles son los estimadores máximo verosı́miles de µ + σ? µ µ σ , σ2 y de 8. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad f (x; θ) = θ2 (x + 1)e−θx I(0,∞) (x), θ > 0. θ+1 (a) Demuestre que la densidad de X pertenece a la familia exponencial. (b) Encuentre una estadı́stica suficiente minimal y completa. (c) Encuentre el estimador por momentos. (d) Encuentre el estimador máximo verosı́mil. 9. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad f (x; θ) = θxθ−1 I[0,1] (x), θ > 0. (a) Encuentre el estimador por momentos de θ. (b) Encuentre el estimador máximo verosı́mil de θ. (c) Suponga que el verdadero valor de θ es 2. Utilice simulación en R para comparar el error cuadrático medio (numéricamente) de los estimadores en los apartados anteriores en muestras de tamaño n = 30. ¿Qué conclusiones puede extraer? 10. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad 1 f (x; θ) = e−|x−θ| , −∞ < θ < ∞. 2 (a) Analice la suficiencia en esta densidad. (b) ¿Pertenece f (x; θ) a la familia exponencial? (c) Halle el estimador por el método de momentos para θ. (d) Halle el estimador máximo verosı́mil para θ. 11. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P oisson(λ), con función de densidad f (x|λ). Considere que la función de distribución a priori de λ es una distribución Gama(α, β), con función de densidad π(λ). 4.6. Ejercicios 175 (a) Encuentre la distribución a posteriori de λ. (b) Encuentre el estimador Bayesiano de λ usando la función de pérdida del error cuadrático. 12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Geométrica(θ). Considere que la función de distribución a priori de θ es una distribución Beta(α, β). (a) Encuentre la distribución a posteriori de θ. (b) Encuentre el estimador Bayesiano de θ usando la función de pérdida del error cuadrático. 13. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N ormal(µ, σ 2 ), donde σ 2 es conocida. Considere que la función de distribución a priori de µ es una distribución N ormal(η, λ2 ). (a) Encuentre la distribución a posteriori de µ. (b) Encuentre el estimador Bayesiano de µ usando la función de pérdida del error cuadrático. 14. Suponga que ciertas pérdidas siguen una distribución W eibull con parámetros θ y τ . Se tiene la siguiente muestra de 16 pérdidas: 54, 70, 75, 81, 84, 88, 97, 105, 109, 114, 122, 125, 128, 139, 146, 153. Estime los parámetros utilizando el método de percentiles, usando los percentiles 20th y 70th . 15. Se practican n mediciones del radio de un cı́rculo. Si las mediciones son independientes entre sı́ y los errores se distribuyen N (0, σ 2 ) con σ 2 desconocida, proponer un estimador insesgado para el perı́metro del cı́rculo y otro para el área. 16. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño cuatro de una población con distribución N (0, σ 2 ), donde σ es desconocida. Considere los siguientes estimadores T1 = X12 − X2 + X4 , T2 = 31 (X12 + X22 + X42 ), P4 P4 T3 = 41 i=1 Xi2 , T4 = 13 i=1 (Xi − X̄)2 y T5 = 21 |X1 − X2 |. (a) ¿T1 , T2 , T3 , T4 son insesgados? (b) De entre T1 , T2 , T3 , T4 , ¿cuál tiene el menor error cuadrático medio? (c) ¿T5 es un estimador insesgado para σ? Si no lo es, encuentre un múltiplo de T5 que lo sea. Calcule el error cuadrático medio de T5 . 176 4. Estimación puntual 17. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad con media µ y varianza σ 2 . Pn (a) Pruebe que i=1 ai Xi es un estimador insesgado para µ para cualquier valor de las constantes a1 , a2 , . . . , an que satisfagan que Pn a = 1. i=1 i Pn Pn (b) Si i=1 ai = 1, prueba que V ar [ i=1 ai Xi ] se minimiza cuando ai = 1/n, para i = 1, . . . , n. 18. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad 2x f (x; θ) = 2 I(0,θ) (x), θ > 0. θ (a) Estime θ por el método de momentos. Llame a este estimador T1 . Encuentre su media y su ECM. (b) Encuentre el estimador máximo verosı́mil de θ. Llame a este estimador T2 . Encuentre su media y su ECM. (c) De entre todos los estimadores de la forma aYn , donde a es un valor constante que depende de n y Yn = máx{X1 , . . . , Xn }, encuentre un estimador para θ con error cuadrático medio uniformemente más pequeño. Llame a este estimador T3 . Encuentre su media y su ECM de T3 . (d) Encuentre un UMVUE de θ. Nombre a este estimador T4 . Encuentre su media y su ECM. (e) Define T5 = (Y1 + Yn )/2, donde Y1 = mı́n{X1 , . . . , Xn } y Yn = máx{X1 , . . . , Xn }. Encuentre su media y su ECM. ¿Qué estimador de θ preferirı́a y por qué? 19. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución W eibull(α, β), cuya función de densidad es β 1 −x fX (x; α) = βxβ−1 exp I(0,∞) (x), α α donde α > 0 es un parámetro desconocido, pero β > 0 se supone conocido. Encuentre los estimadores máximo verosı́miles de α, α2 y α1 y demuestre que son consistentes en ECM. 20. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución tal que E (Xi ) = θ + b, V ar (Xi ) = σ 2 , 177 4.6. Ejercicios donde b 6= 0, es una constante conocida. Pruebe que X no es un estimador consistente en error cuadrático medio para θ. Construya un estimador insesgado para θ que sea consistente. 21. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P areto(α, θ), cuya función de densidad es f (x; θ) = αθα , x > θ, θ > 0, xα+1 con α conocida. (a) Encuentre el estimador máximo verosı́mil para θ. ¿Es este un estimador insesgado para θ? Si la respuesta es negativa, encontrar el estimador insesgado. (b) Encuentre el estimador por el método de momentos para θ. Nuevamente verifique si el estimador es insesgado; en caso contrario, obtenga el estimador insesgado. (c) ¿Son consistentes los estimadores obtenidos en los incisos anteriores? 22. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Bernoulli(θ), donde x ∈ {0, 1} y 0 ≤ θ ≤ 21 . Note que el espacio paramétrico es Θ = {θ : 0 ≤ θ ≤ 12 }. (a) Encuentre el estimador de θ por medio del método de momentos. Calcule su media y su ECM. (b) Encuentre el estimador máximo verosı́mil de θ. Calcule su media y su ECM. (c) ¿Los estimadores son consistentes en ECM? (d) ¿Qué estimador es más eficiente en ECM? 23. Sea X1 , . . . , Xn una muestra aleatoria discreta de la población con distribución P oisson(λ), donde x ∈ {0, 1, 2, . . .} y 0 < λ ≤ 2. Note que el espacio paramétrico es Θ = {λ : 0 < λ ≤ 2}. (a) Encuentre el estimador de λ por el método de momentos. Calcule su media y su ECM. (b) Encuentre el estimador máximo verosı́mil de λ. Calcule su media y su ECM. (c) ¿Los estimadores son consistentes en ECM? 178 4. Estimación puntual 24. Considere las siguientes funciones de densidad: f1 (x; p) = px (1 − p)1−x I{0,1} (x) donde 0 < p < 1, log(θ) I(0,1) (x) donde θ > 1. θ−1 En cada caso, para una muestra aleatoria de tamaño n, ¿existirán estadı́sticas T1 (X) y T2 (X) para ciertas funciones τ1 (p) y τ2 (θ), para las cuales la varianza de Ti (X), i = 1, 2, coincidan con la CICR? f2 (x; θ) = θx 25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (θ, 1). (a) Encuentre la CICR para la varianza de los estimadores insesgados de τ1 (θ) = θ, τ2 (θ) = θ2 y τ3 (θ) = P(X > 0). (b) ¿Existe un estimador insesgado para τ2 (θ) = θ2 ?. Si es ası́, encuéntrelo. (c) ¿Existe un estimador insesgado para τ3 (θ) = P(X > 0)? Si es ası́, encuéntrelo. (d) Encuentre el UMVUE para τ2 (θ) = θ2 . 26. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Beta(θ, 1), donde θ > 0, es decir, con función de densidad f (x; θ) = θxθ−1 I(0,1) (x). (a) Encuentre el estimador máximo verosı́mil de τ (θ) = θ/(1 + θ). (b) Encuentre una estadı́stica suficiente, y compruebe si es completa. Pn Pn (c) ¿Es S = i=1 Xi una estadı́stica suficiente?. ¿Es S = i=1 Xi una estadı́stica completa? (d) ¿Existe una función de θ, τ (θ), para el cual exista una estimador insesgado cuya varianza coincida con la CICR? Justifique. (e) Encuentre un UMVUE para las siguientes funciones de θ: (i) τ (θ) = θ (ii) τ (θ) = 1/θ (iii) τ (θ) = θ/(1 + θ) 27. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Bernoulli(p), con p ∈ (0, 1) con n ≥ 3. Pn (a) Sea U = i=1 Xi . Calcule E(X1 |U = u) y obtenga E(X1 |U ). 179 4.6. Ejercicios (b) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X) de τ1 (p) = p2 , dado por T1 (X) = X1 X2 . (c) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X) de τ2 (p) = p2 (1 − p) , dado por T2 (X) = X1 X2 (1 − X3 ). 28. Sea X1 , . . . , Xn una muestra aleatoria de distribución P oisson(λ), con λ > 0 y n ≥ 2. (a) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X) de τ1 (λ) = λ, dado por T1 (X) = 1 (X1 + X2 ). 2 (b) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X) de τ2 (λ) = e−λ , dado por T2 (X) = I{0} (X1 ), (llegará a 1 − 1 n Pn i=1 Xi ). (c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X) de τ3 (λ) = λe−λ , dado por T3 (X) = I{1} (X1 ). 29. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad 1 f (x; θ) = I(−θ,θ) (x), θ > 0. 2θ Encuentre, si existe, el UMVUE para θ. 30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U (0, θ). Sean Y1 y Yn la mı́nima y máxima estadı́sticas de orden, respectivamente. (a) Encuentre el estimador por momentos para θ. Llame T1 a dicho estimador y encuentre su media y error cuadrático medio. (b) Encuentre el estimador máximo verosı́mil de θ. Llame T2 a dicho estimador y encuentre su media y error cuadrático medio. 180 4. Estimación puntual (c) De entre todos los estimadores de la forma aYn , donde a es una constante que podrı́a depender de n. Encuentre un estimador para θ que tenga el error cuadrático medio uniformente más pequeño. Llame T3 a dicho estimador y encuentre su media y error cuadrático medio. (d) Encuentre el UMVUE de θ. Llame T4 a dicho estimador y encuentre su media y error cuadrático medio. (e) Sea T5 = Y1 + Yn . Encuentre su media y error cuadrático medio. (f) Diga ventajas y desventajas de los estimadores T1 , . . . , T5 . 31. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad θ I(0,∞) (x), θ > 0 f (x; θ) = (1 + x)1+θ (a) Encuentre el estimador por momentos para θ suponiendo que θ > 1. (b) Encuentre el estimador máximo verosı́mil de τ (θ) = 1/θ. (c) Encuentre una estadı́stica suficiente y completa (si es que existe). (d) Encuentre la CICR para los estimadores insesgado de τ (θ) = 1/θ. (e) ¿Existe el UMVUE de τ (θ)? Si es ası́, encuéntrelo. (f) ¿Existe el UMVUE de θ? Si es ası́, encuéntrelo. 32. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad f (x; µ) = e−(x−µ) I(µ,∞) (x), µ ∈ R. (a) Demuestre que T (X) = X(1) = mı́n {X1 , . . . , Xn } es una estadı́stica suficiente y completa. (b) Encuentre la única función de X(1) que sea el UMVUE de µ. 33. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P oisson(λ). Sea τ (λ) = (1 + λ)e−λ . (a) Obtenga el estimador máximo verosı́mil para τ (λ). (b) Obtenga un estimador insesgado para τ (λ). (c) Obtenga un UMVUE para τ (λ). Sugerencia: encuentre un estimador insesgado de τ (λ) y utilice el teorema de Rao-Blackwell para mejorarlo. 4.6. Ejercicios 181 34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Geométrica(θ) con función de densidad P(X = x) = θ(1 − θ)x , x = 0, 1, 2, . . . , 0 < θ < 1. (a) Obtenga el estimador por el método de momentos para θ. (b) Obtenga el estimador máximo verosı́mil para θ. (c) Calcule la CICR para la varianza de los estimadores insesgados de θ. (d) Encuentre un UMVUE para θ. 35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (θ, θ2 ), θ ∈ R. (a) ¿Existe una estadı́stica suficiente unidimensional para θ? (b) Encuentra una estadı́stica suficiente bidimensional para θ. (c) ¿Es X̄ un UMVUE para θ? (d) ¿θ es un parámetro de localización o escala? 36. Sea T una variable aleatoria que toma valores en {0, 1, 2, ..., 6} y sean g1 (t) y g2 (t) dos densidades que corresponden a: La primera, g1 (t) es la probabilidad de que, de 5 monedas lanzadas al aire, el número de águilas observadas, T sea igual a t. La segunda, g2 (t) es la probabilidad de que al lanzar un dado numerado del 1 al 6, T, la cara que quedó hacia arriba, sea igual a t. Como una convención se denotará por f (t; θ1 ) = g1 (t) y de manera similar f (t; θ2 ) = g2 (t), ası́, sin ni siquiera especificar la naturaleza de θ1 y de θ2 . El espacio paramétrico será Θ = {θ1 , θ2 } con sólo dos elementos. a) Se observó t = 1. Exhiba la estimación máximo verosı́mil de θ ∈ Θ. b) Repita el inciso anterior si lo que se observó fue t = 2. c) Observe que sucede algo que es muy raro en planteamientos estadı́sticos: hay dos valores de t para los cuales al hacer la estimación máximo verosı́mil de θ, parece que se puede tener la certeza de que en esos dos casos, ahora sı́, la estimación se convierte en identificación (del verdadero valor de θ). Diga cuáles son esos dos valores y explique porqué hay identificación. Capı́tulo 5 Estimación por intervalos Es usual iniciar el estudio de la inferencia estadı́stica con el planteamiento de estimación puntual para el parámetro (o los parámetros) de una distribución. La perspectiva que se analizó en el capı́tulo anterior no precisa qué tan cerca del parámetro se encuentra la estimación, sin embargo, es posible medir el error en términos de la variación muestral o error estándar de dicho estimador; en este caso se habla de un margen de variación para el valor que el parámetro puede tomar. En esta parte se abordará otro enfoque: el planteamiento de estimación por intervalos. Para inferir respecto a una caracterı́stica de la población, se prefiere ahora proponer un rango de valores que tenga la posibilidad de contener al parámetro. Esto se logra generalmente mediante un intervalo que es entendido como un conjunto de valores (calculado a partir de los datos de una muestra) en el cual puede encontrarse el verdadero valor del parámetro con un determinado nivel de certeza o confianza. Se comenzará introduciendo el concepto de intervalo de confianza. 5.1. Intervalos de confianza Es común que en los medios de comunicación como radio, televisión, revistas o periódicos, ası́ como en redes sociales, se presenten resultados de estudios estadı́sticos de los temas más diversos. Las conclusiones suelen presentarse con frases como la siguiente: “El estudio muestra que en el 75 % de los casos se experimenta una mejorı́a (de cierta enfermedad), siendo el margen de error del 6 % y el nivel de confianza del 95 %”. El cálculo de intervalos de confianza para la estimación de parámetros permite hacer declaraciones 183 184 5. Estimación por intervalos sobre qué valores se pueden esperar para una caracterı́stica que se esté estudiando; aunque, a diferencia de la estimación puntual, se habla de un nivel de confianza que tendrá una influencia en el intervalo calculado: intuitivamente la confianza se refiere a la certeza con la que el método dará una respuesta correcta, y por lo tanto se pedirá que ese nivel de confianza sea alto. Replanteando el problema de encontrar un rango de valores para θ, se tiene lo siguiente: si θ ∈ Θ ⊆ R (el espacio paramétrico) y se quiere disminuir el grado de desconocimiento de θ en f (x; θ), se debe seleccionar un subconjunto Θ1 de Θ en el cual pueda afirmarse, con un margen de error pequeño, que se encuentra el valor de θ que caracteriza la distribución de la población. Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una población con distribución N (µ, σ 2 ), con σ 2 conocida y µ desconocida y se desea estimar el parámetro µ. La estadı́stica T (X) = X̄ tiene distribución N (µ, σ 2 /n), entonces, Z := X̄ − µ √ ∼ N (0, 1). σ/ n Note que P[−1.96 < = Z < 1.96] = φ(1.96) − φ(−1.96) = φ(1.96) − (1 − φ(1.96)) 2φ(1.96) − 1 = 2(0.9725) − 1 = 0.95. A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo siguiente: X̄ − µ √ < 1.96, −1.96 < σ/ n si y sólo si si y sólo si σ σ −1.96 √ < X̄ − µ < 1.96 √ , n n σ σ X̄ − 1.96 √ < µ < X̄ + 1.96 √ , n n de donde σ σ √ √ P X̄ − 1.96 < µ < X̄ + 1.96 = 0.95. n n Lo que indica la expresión σ σ P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95, n n 5.1. Intervalos de confianza 185 es que hay una probabilidad de 0.95 de obtener una muestra tal que el intervalo σ σ √ √ , X̄ + 1.96 , X̄ − 1.96 n n incluya al valor de µ. Esto motiva la definición 5.1 de intervalo aleatorio que se verá posteriormente, aunque en este momento, y haciendo referencia al ejemplo anterior, se puede adelantar que un intervalo en el que al menos uno de los extremos es una variable aleatoria se llama intervalo aleatorio. Una vez usada la distribución de X̄ para establecer la conclusión anterior, se obtiene un valor particular de x̄, con base en una muestra, y se determina el intervalo numérico σ σ x̄ − 1.96 √ , x̄ + 1.96 √ . (5.1) n n En este caso no tiene sentido hablar de la probabilidad de que el intervalo contenga al parámetro, ya que no hay ninguna variable aleatoria. Ahora, el 0.95 expresa el margen de confianza con el que se puede afirmar que el valor desconocido de µ está entre los extremos del intervalo que ya está fijo, en el sentido de que repitiendo el muestreo un gran número de veces, se obtendrı́an intervalos distintos, entre los cuales aproximadamente el 95 % de estos intervalos contienen el valor correcto de µ. Por lo tanto, el intervalo numérico x̄ − 1.96 √σn , x̄ + 1.96 √σn se llama intervalo de confianza para µ con un nivel del 95 %. Observación 5.1 Un ejercicio para analizar el concepto de intervalo de confianza consiste en simular algunas muestras de una determinada población normal, calcular los intervalos correspondientes a un cierto nivel de confianza y observar la proporción de estos intervalos que contienen al verdadero valor de la media. El resultado de un ejercicio de simulación se muestra resumido en las gráficas de la figura 5.1, en donde se ha utilizado la expresión (5.1) para el cálculo de los intervalos. Cada una de las gráficas representa intervalos correspondientes a 100 muestras para diferentes tamaños de muestra, todas con µ = 100. El ejercicio se hizo utilizando el software estadı́stico R. Las lı́neas en negro representan los intervalos que no contienen al verdadero valor de la media µ en cada uno de los casos considerados. Se usó un nivel de confianza del 95 %. 186 5. Estimación por intervalos 85 90 95 100 110 100 0 20 40 60 80 100 80 60 40 20 0 0 20 40 60 80 100 Ası́, la primera gráfica representa los intervalos correspondientes a 100 muestras de tamaño 10 de una distribución normal con media igual a 100 y σ = 10. 85 90 95 100 110 85 90 95 100 110 Figura 5.1: Intervalos correspondientes a 100 muestras para tamaños de muestra 10, 30 y 50, respectivamente y desviación estándar de 10. Si se desea un intervalo del 99 % de confianza en este caso de la distribución normal, primero se debe observar que: P[−2.576 < Z < 2.576] = 0.99. Entonces, a partir de la expresión anterior, se obtiene que σ σ x̄ − 2.576 √ , x̄ + 2.576 √ n n es un intervalo del 99 % de confianza para µ. Note que a mayor nivel de confianza, mayor es la longitud del intervalo. Usualmente se fija un nivel de confianza y entonces se genera el intervalo. 187 5.1. Intervalos de confianza Observe también que en el primer ejemplo x̄ − 1.96 √σn , x̄ + 1.96 √σn no es el único intervalo del 95 % de confianza para µ, pues por ejemplo, también P[−1.74 < Z < 2.37)] = φ(2.37) − φ(−1.74) = φ(2.37) − 1 + φ(1.74) = 0.95. Sin embargo, el de longitud mı́nima es el originado por P[−1.96 < Z < 1.96] = 0.95. En general, si para este caso de la distribución N µ, σ 2 , se tiene que: X̄ − µ √ < b = γ, P a< σ/ n entonces, a< X̄ − µ σ σ σ σ √ < b ⇔ a √ < X̄ − µ < b √ ⇔ X̄ − b √ < µ < X̄ − a √ . σ/ n n n n n Suponga que se desea minimizar la longitud del intervalo dada por (b−a) √σn , con la restricción de que P[a < Z < b] = 0.95, es decir, FZ (b)−FZ (a) = 0.95, donde FZ (z) es la función de distribución de una población N (0, 1) . Para este problema de optimización, se define la función L = b − a − λ(FZ (b) − FZ (a) − 0.95). Entonces, ∂L = 0 ⇔ −1 + λfZ (a) = 0 ⇔ λfZ (a) = 1 ∂a y también ∂L = 0 ⇔ 1 − λfZ (b) = 0 ⇔ λfZ (b) = 1. ∂b De donde, fZ (a) = fZ (b); por lo tanto, a = −b debido a la simetrı́a (en el cero) de fZ . Es decir, la distancia b − a será minimizada (para un área fija) cuando fZ (a) = fZ (b). Definición 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ) y τ (θ) una función de θ. Sean T1 (X) y T2 (X) de forma que T1 ≤ T2 y P(T1 < τ (θ) < T2 ) = γ (γ no depende de θ). Entonces a (T1 , T2 ) se le llama un intervalo aleatorio y a un valor del intervalo aleatorio (t1 , t2 ), se le llama intervalo de confianza o un intervalo del γ(100 %) de confianza para τ (θ). 188 5. Estimación por intervalos Como ilustración, considere a X1 , . . . , Xn una muestra aleatoria de la población con distribución N (θ, 9). Suponga que T1 (X) = X̄ − √6n y T2 (X) = X̄ + √6n y que (T1 , T2 ) forma un intervalo para τ (θ) = θ. En este caso, 6 6 P X̄ − √ < θ < X̄ + √ n n X̄ − θ = P −2 < √ < 2 3/ n = φ(2) − φ(−2) = 2φ(2) − 1 = 2(0.9972) − 1 = 0.9544, siendo 0.9544 el nivel de confianza. Por ejemplo, si se tiene una muestra aleatoria de 25 observaciones, con una media muestral de 17.5, entonces se dice que 17.5 − √625 , 17.5 + √625 es un intervalo del 95.44 % de confianza para θ. Note que alguna de las dos estadı́sticas (pero no ambas) T1 (X) o T2 (X) puede ser constante; es decir, alguno de los dos extremos del intervalo aleatorio (T1 , T2 ) puede ser constante. Definición 5.2 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ). Sean T1 (X) una estadı́stica para la cual P(T1 < τ (θ)) = γ; entonces T1 induce el intervalo de confianza unilateral inferior (t1 (x), ∞) con un nivel de confianza γ. De manera análoga, si T2 (X) es una estadı́stica para la cual P(τ (θ) < T2 ) = γ; entonces T2 induce el intervalo de confianza unilateral superior (−∞, t2 (x)) con un nivel de confianza γ (γ no depende de θ). Observación 5.2 Si ya se ha determinado un intervalo de confianza para θ, entonces, se puede determinar una familia de intervalos de confianza. De manera más especı́fica, para un nivel de confianza del γ(100 %) dado; si se tiene un intervalo de confianza para θ al γ(100 %) de confianza, entonces se puede obtener un intervalo con el mismo nivel de confianza para τ (θ) donde τ es una función creciente (estricta). Por ejemplo, si τ es una función creciente y (T1 , T2 ) es un intervalo de confianza para θ, entonces (τ (T1 ), τ (T2 )) será un intervalo de confianza para τ (θ) pues γ = P[T1 (X) < θ < T2 (X)] = P[τ (T1 (X)) < τ (θ) < τ (T2 (X))]. No obstante, el que el intervalo inicial para θ fuera el más corto, esto no implica que el intervalo para τ (θ) sea el más corto. A continuación se describe un método para encontrar intervalos de confianza, el cual se conoce como el método de la cantidad pivotal o simplemente método pivotal. 5.1. Intervalos de confianza 5.1.1. 189 Método pivotal para encontrar intervalos de confianza Definición 5.3 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ). Sea Q = q(X1 , X2 , ..., Xn ; θ), es decir Q es una función de la muestra aleatoria y de θ. Si la distribución de Q no depende de θ, entonces a Q se le llama cantidad pivotal. Observación 5.3 A veces la cantidad pivotal Q tiene sólo una distribución asintótica que no depende de θ, en ese caso, se obtendrá una solución aproximada. Ejemplo 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (θ, 1) y sea τ (θ) = θ. En este caso, X̄ ∼ N (θ, n1 ), entonces Q1 := (X̄−θ) √ 1/ n ∼ N (0, 1) por lo que Q1 es una cantidad pivotal. También Q2 := X̄ − θ es una cantidad pivotal pues Q2 ∼ N (0, n1 ) (su distribución no depende de θ). Pero Q3 := X̄ θ no es una cantidad pivotal, pues Q3 ∼ N (1, θ21n ). Definición 5.4 (método pivotal para intervalos de confianza) . Sea Q = q(x1 , . . . , xn ; θ) una cantidad pivotal. Entonces, para cualquier γ ∈ (0, 1), existirán q1 y q2 que dependen de γ tal que P [q1 < Q < q2 ] = γ. Si para cada posible muestra (x1 , . . . , xn ) se cumple que q1 < q(x1 , . . . , xn ; θ) < q2 , si y sólo si t1 (x1 , . . . , xn ) < τ (θ) < t2 (x1 , . . . , xn ) , para funciones t1 y t2 que no dependen de θ, entonces (t1 , t2 ) es un intervalo del γ(100) % de confianza para τ (θ). La longitud esperada serı́a E [t2 (X1 , . . . , Xn ) − t1 (X1 , . . . , Xn )] . En este método, la desigualdad q1 < Q < q2 se reescribe, invierte o pivotea como t1 (x) < τ (θ) < t2 (x). Como se vio antes en el ejemplo de la distribución normal, puede haber distintos intervalos que proporcionen el mismo nivel de confianza, por lo que se busca el que tenga longitud mı́nima. Desde una perspectiva más general, el siguiente resultado será de utilidad para encontrar el intervalo de confianza más corto cuando la cantidad pivotal tenga una distribución con una densidad unimodal. 190 5. Estimación por intervalos Proposición 5.1 Sea f (x) una densidad unimodal y F (x) su función de distribución asociada. Sea [a, b] un intervalo que satisface que F (b) − F (a) = 1 − α, (5.2) para α tal que 0 < α < 1. Entonces de entre todos los intervalos que cumplen (5.2), [a0 , b0 ] tiene la longitud mı́nima si f (a0 ) = f (b0 ) > 0 y a0 ≤ x∗ ≤ b0 , donde x∗ es la moda de f (x) . Si además f (x) es simétrica, entonces a0 = F −1 α2 y b0 = F −1 1 − α2 . Demostración. Se trata de minimizar la longitud b − a sujeta a F (b) − F (a) = 1 − α. Usando multiplicadores de Lagrange, se define: L (a, b, λ) = b − a + λ(1 − α − F (b) + F (a)), de donde: ∂L = 1 − λf (a) = 0, ∂a ∂L = 1 − λf (b) = 0 ∂b y 1 − α − F (b) + F (a) = 0. De las primeras dos ecuaciones se obtiene que f (a) = f (b) > 0. Si x∗ ∈ / [a, b] y f (a) = f (b), entonces b − a > b0 − a0 , pues f (x) es unimodal y F (b) − F (a) = F (b0 ) − F (a0 ) . Ası́, por ejemplo, si la cantidad pivotal tiene una distribución Ji-cuadrada, los cuantiles de orden α/2 y 1 − α/2 de esta distribución contendrán a la moda de la distribución para α pequeño. Por facilidad de cálculos suele usarse α/2 y 1 − α/2, pero si se desea obtener el intervalo más corto se tendrı́an que buscar a y b tales que f (a) = f (b). Algunos ejemplos Ejemplo 5.2 Suponga que se tiene una variable aleatoria con una distribución Exponencial con parámetro λ = θ1 . Obtenga un intervalo del 90 % de confianza para θ. Como X ∼ Exponencial(1/θ), sus funciones de densidad y de distribución son, respectivamente, f (x; θ) = FX (x) = 1 −x/θ e , θ 1 − e−x/θ , 191 5.1. Intervalos de confianza con x > 0 y θ > 0. Sea Y = X θ , entonces FY (y) P [Y ≤ y] X = P ≤y θ = P [X ≤ θy] = = FX (θy), que implica que Y ∼ Exponencial(1). Por lo tanto Y = X θ puede ser una cantidad pivotal ya que es una función de la muestra X y del parámetro θ, y su distribución no depende de θ. Ası́ que el intervalo del 90 % de confianza para θ puede determinarse a partir de X < b = 0.90, P a< θ donde P X <a = θ P [X < aθ] 1 − e−a = 0.05 = lo que implica que e−a = 0.95 a = − log(0.95) = 0.051, y por otro lado, P X >b = θ P [X > bθ] = e−b = 0.05 lo que implica que b = − log(0.05) = 2.996, entonces X < 2.996 , 0.051 < θ X X <θ< . 2.996 0.051 Por lo tanto, X X 2.996 , 0.051 es el intervalo del 90 % de confianza para θ. 192 5. Estimación por intervalos Ejemplo 5.3 Sea X una variable aleatoria con distribución Uniforme en el intervalo (0, θ). Obtener un intervalo del 95 % de confianza para θ. Se sabe que fX (x) FX (x) 1 (x) I(0,θ) , Zθ x 1 x = dt = . θ 0 θ = Sea Y una variable aleatoria definida como Y = FY (y) X θ , entonces P (Y ≤ y) X ≤y = P θ = P (X ≤ θy) = = FX (θy) θy = θ = y. Por lo tanto, la variable aleatoria Y = X θ tiene una distribución Uniforme X en el intervalo (0, 1). Ası́, Q = θ es una cantidad pivotal ya que Q es una función de la muestra X y del parámetro θ y la distribución de Q no depende de θ porque Q ∼ U nif orme (0, 1). Para obtener un intervalo del 95 % de confianza para θ puede usarse la cantidad pivotal de la siguiente manera: P [a < Q < b] = 0.95. Como Q ∼ U nif orme (0, 1), se pueden tomar cualesquiera cantidades a y b pertenecientes al intervalo (0, 1) tal que b − a = 0.95. Esto implica que se podrı́a tomar a ∈ (0, 0.05) y b = 0.95 + a. Entonces, el intervalo del 95 % confianza para θ estarı́a determinado por lo siguiente: X <b = 0.95 P a< θ X X P <θ< = 0.95. b a Por lo tanto, Xb , X del 95 % de confianza para θ. O de a es un intervalo X X manera equivalente, 0.95+a , a es un intervalo del 95 % de confianza para θ. 5.1. Intervalos de confianza 193 La longitud del intervalo es L= X X − , a 0.95 + a y la longitud esperada del intervalo es 1 1 − E [X] . E [L] = a 0.95 + a Si se buscara un intervalo de confianza con menor longitud esperada, se buscarı́a minimizar E [L], lo que equivale a encontrar el valor de a tal que E [L] alcance su mı́nimo, y este valor es cuando a = 0.05, lo que implica que b = 1. Por lo tanto, el intervalo del 95 % para θ con longitud esperada 1 mı́nima es X, 0.05 X . Ejemplo 5.4 Suponga que X1 , X2 , . . . , Xn P es una muestra aleatoria de una n población con distribución Exponencial(θ). i=1 P Xi es una estadı́stica sufi2 n i=1 Xi ∼ χ2(2n) . Entonces ciente y tiene distribución Gama(n, θ), además θ 2 Pn X i i=1 puede ser la cantidad pivotal para obtener un la variable Q = θ intervalo del 100(1 − α) % de confianza para θ. Ası́ que Pn 2 i=1 Xi < q1−α/2 = 1 − α, P qα/2 < θ donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución χ2(2n) . El intervalo para θ que se deduce de esta última expresión es Pn Pn 2 i=1 Xi 2 i=1 Xi , . q1−α/2 qα/2 5.1.2. El método de la cantidad pivotal para funciones de distribución continuas Cuando se tiene una muestra aleatoria de una población cuya función de distribución es continua en x, es posible construir una cantidad pivotal como lo muestra el siguiente resultado. Proposición 5.2 Sea X1 , ..., Xn una muestra aleatoria de la población con función de densidad f (x; θ) , tal que la función Pn de distribución correspondiente F (x; θ) es continua en x. Entonces − i=1 ln F (Xi ; θ) o alternativan Q mente F (Xi ; θ), es una cantidad pivotal para estimar θ. i=1 194 5. Estimación por intervalos Demostración. F (Xi ; θ) tiene distribución Uniforme en el intervalo (0, 1) , pues si U = F (X; θ) , se tiene que P (U ≤ u) = P [F (X; θ) ≤ u] P X ≤ F −1 (u) F F −1 (u) = u, = = para 0 < u < 1. Por lo tanto, − ln F (Xi ; θ) tiene distribución Exponencial con parámetro 1, debido a lo siguiente: P [− ln F (Xi ; θ) ≥ u] = P [ln F (Xi ; θ) ≤ −u] P F (Xi ; θ) ≤ e−u = e−u , = para u > 0, es decir, P [− ln F (Xi ; θ) ≤ u] = 1 − e−u , expresión que corresponde a la función de distribución de una variable aleatoria Exponencial (1). Ası́ que puede concluirse que − n X ln F (Xi ; θ) , (5.3) i=1 tiene distribución Gama con parámetros n y 1, al ser la suma de variables aleatorias independientes con distribución Exponencial (1). Ahora (5.3) puede usarse como una cantidad pivotal de la siguiente manera: " # " # n n X X P q1 < − ln F (Xi ; θ) < q2 = P −q2 < ln F (Xi ; θ) < −q1 i=1 i=1 " = P −q2 < ln " = P e −q2 < n Y # F (Xi ; θ) < −q1 i=1 n Y # −q1 F (Xi ; θ) < e i=1 " = P a< n Y i=1 # F (Xi ; θ) < b , 195 5.1. Intervalos de confianza donde q1 y q2 son los cuantiles de la distribución Gama (n, 1) que corresponderán al nivel de confianza deseado y con 0 < a < b < 1. La expresión anterior es equivalente a # " n X ln F (Xi ; θ) < − ln a . P − ln b < − i=1 Por ejemplo, si se tiene una muestra aleatoria de tamaño n de la población con densidad f (x; θ) = θxθ−1 , 0 < x < 1, cuya función de distribución está dada por Z x F (x; θ) = θuθ−1 du 0 = θ uθ θ x = xθ , u=0 para 0 < x < 1. Si se seleccionan a y b tales que: " # n Y P a< F (Xi ; θ) < b = 1 − α i=1 o " P q1 < − n X # ln F (Xi ; θ) < q2 = 1 − α, i=1 donde q1 = − ln b y q2 = − ln a son los cuantiles de una distribución Gama (n, 1) seleccionados de tal manera que la probabilidad sea de 1 − α. Para n n Q Q este caso particular, F (Xi ; θ) = Xiθ , por lo que i=1 i=1 " 1−α = P a< " = P a< n Y i=1 n Y # F (Xi ; θ) < b # Xiθ <b i=1 " = P ln a < ln n Y # Xiθ < ln b i=1 " = P ln a < n X i=1 # ln Xiθ < ln b 196 5. Estimación por intervalos " = P ln a < θ n X # ln Xi < ln b i=1 " = P ln a < θ ln n Y # Xi < ln b i=1 = P ln a ln b , <θ< n n Q Q ln Xi ln Xi i=1 i=1 donde la última desigualdad se sigue del hecho de que ln n Q Xi es negativo. i=1 Entonces puede concluirse que ln ln b n Q i=1 , xi ln ln a n Q xi i=1 es un intervalo del 100(1 − α) % de confianza para θ. 5.1.3. Método basado en estadı́sticas suficientes En algunas ocasiones es difı́cil obtener una cantidad pivotal exacta, ası́ que se usan otras técnicas para obtener intervalos de confianza. El método presentado a continuación se basa en estadı́sticas suficientes o estimadores que son funciones de ellas, como los obtenidos por máxima verosimilitud. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ), donde θ ∈ R es el valor verdadero, y Θ ⊆ R es el espacio paramétrico. Sea T (X) una estadı́stica, que puede ser una estadı́stica suficiente o el estimador máximo verosı́mil (EMV) del parámetro de interés. En general, la elección de T (X) podrı́a depender de la facilidad de las operaciones necesarias para obtener los intervalos de confianza. Una de esas operaciones se refiere al cálculo de la función de distribución de T . Sea fT (t; θ) la función de densidad de T . Se hará el procedimiento para cuando T es una variable aleatoria continua, pero éste es análogo al caso discreto. 197 5.1. Intervalos de confianza Defina dos funciones h1 (θ) y h2 (θ) como Z h1 (θ) fT (t; θ)dt = p1 , fT (t; θ)dt = p2 , (5.4) −∞ Z ∞ h2 (θ) donde p1 y p2 son números fijos tales que p1 > 0, p2 > 0 y p1 +p2 < 1. Suponga que h1 (θ) y h2 (θ) son funciones monótonas crecientes, y que h1 (θ) < h2 (θ) (de manera análoga se podrı́an considerar funciones monótonas decrecientes). Sea t0 el valor observado de T , obtenido de la muestra observada x = (x1 , x2 , . . . , xn ), es decir, T (x) = t0 . Para cualquier valor de t0 , pueden obtenerse v1 = v1 (t0 ) y v2 = v2 (t0 ) tales que (v1 , v2 ) será el intervalo del (1 − p1 − p2 )100 % de confianza para θ. Note que h1 (θ) < t0 < h2 (θ) si y sólo si v1 < θ < v2 para cualquier muestra observada x. Por definición de h1 (θ) y h2 (θ) se tiene que P [h1 (θ) < T (X) < h2 (θ)] 1 − p1 − p2 , = que es equivalente a P [v1 (x) < θ < v2 (x)] = 1 − p1 − p2 , lo cual establece que (v1 , v2 ) es el intervalo del (1−p1 −p2 )100 % de confianza para θ. Para clarificar esta forma de obtener intervalos de confianza, a continuación se muestran algunos ejemplos. Ejemplo 5.5 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución U nif orme(0, θ), cuya función de densidad es f (x; θ) = 1 I(0,θ) (x). θ Determinar un intervalo de confianza para θ usando estadı́sticas suficientes. Se sabe que Yn = máx{X1 , . . . , Xn } es una estadı́stica suficiente y es el estimador máximo verosı́mil de θ, además la función de densidad de Yn es: n y n−1 fYn (y; θ) = I(0,θ) (y). θ θ Dados p1 y p2 , es necesario encontrar h1 (θ) y h2 (θ), las cuales son soluciones de las ecuaciones (5.4). Entonces, se tienen que encontrar los valores h1 (θ) 198 5. Estimación por intervalos y h2 (θ) tales que h1 (θ) Z p1 = nθ−n y n−1 dy, 0 θ Z p2 nθ−n y n−1 dy. = h2 (θ) Se tiene que n θ p1 h1 (θ) Z ny n−1 dy, = 0 n θ p2 Z θ ny n−1 dy, = h2 (θ) resolviendo las integrales, n θn p1 = [h1 (θ)] , θn p2 = θn − [h2 (θ)] , n de donde, 1/n h1 (θ) = θp1 , h2 (θ) = θ(1 − p2 )1/n . Por definición de h1 (θ) y h2 (θ) se tiene que P [h1 (θ) < T (X) < h2 (θ)] = 1 − p1 − p2 , es decir, h i 1/n = 1 − p1 − p2 , P θp1 < Yn < θ(1 − p2 )1/n despejando θ, se obtiene P [v1 (x) < θ < v2 (x)] = 1 − p1 − p2 , es decir, i h −1/n P Yn (1 − p2 )−1/n < θ < Yn p1 = 1 − p1 − p2 . −1/n es un intervalo del (1 − p1 − p2 )100 % de Ası́ que Yn (1 − p2 )−1/n , Yn p1 −1/n confianza para θ. La longitud del intervalo es L = Yn p1 − (1 − p2 )−1/n −1/n y su longitud esperada es E[L] = E [Yn ] p1 − (1 − p2 )−1/n . Para hacer −1/n la longitud más corta se necesita minimizar p1 − (1 − p2 )−1/n sujeto a que 1 − p1 − p2 = 1 − α y 0 < p1 + p2 < 1, lo que se obtiene eligiendo p2 = 0 y p1 = α. 5.1. Intervalos de confianza 199 Ejemplo 5.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Bernoulli con parámetro θ ∈ (0, 1). Se desea encontrar un intervalo de confianza para θ. En este ejemplo se usará una estadı́stica suficiente para encontrar un Pn intervalo de confianza para θ. Se sabe que S(X) = i=1 Xi es una estadı́stica suficiente para θ, y además S(X) ∼ Binomial(n, θ) donde S(X) toma los valores enteros s = 0, . . . , n. Suponga que se observa una muestra X = x y se obtiene el valor de la estadı́stica suficiente S(x) = s0 . Para obtener un intervalo de confianza del (1 − p1 − p2 )100 % de confianza para θ se necesita resolver (para θ) las siguientes ecuaciones: p1 = p2 = s0 X n θs (1 − θ)n−s , s s=0 n X n s θ (1 − θ)n−s . s s=s 0 Esto dará las soluciones θ1 y θ2 , respectivamente, tal que el intervalo (mı́n{θ1 , θ2 }, máx{θ1 , θ2 }) será un intervalo de confianza para θ al (1 − p1 − p2 )100 %. Para clarificar el ejemplo, suponga que se observa una muestra de tamaño n = 20 en donde el valor que toma la estadı́stica suficiente es S = 4. Considere p1 = 0.0509 y p2 = 0.0159, y se necesita obtener un intervalo del (1 − p1 − p2 )100 % = 93.32 % de confianza. Para obtener los lı́mites del intervalo de confianza es necesario obtener los valores de θ para los cuales se cumplen las ecuaciones anteriores, es decir, 0.0509 = 0.0159 = 4 X 20 s θ (1 − θ)20−s , s s=0 20 X 20 s θ (1 − θ)20−s . s s=4 Note que en estas ecuaciones el único valor desconocido es θ. Las soluciones de estas ecuaciones son, aproximadamente, θ1 = 0.40 y θ2 = 0.05, respectivamente, por lo tanto (0.05, 0.40) es el intervalo del 93.32 % de confianza para θ. Los valores p1 y p2 se eligen tal que (1 − p1 − p2 )100 % sea el nivel de confianza requerido, usando la notación igual a (1 − α)100 % como en las demás secciones de este capı́tulo. En la práctica es usual elegir p1 y p2 de manera simétrica, es decir, p1 = p2 , sin embargo, dado que muchas veces este 200 5. Estimación por intervalos método se aplica en el caso de variables aleatorias discretas, en ocasiones será difı́cil obtener valores exactos y se usarán cantidades aproximadas. 5.2. Intervalos para muestras de la distribución normal Primero se recordarán algunos resultados técnicos para facilitar la construcción de dichos intervalos. La demostración de estos resultados se omitirá en virtud de que ya se han estudiado con detalle en este texto en el Capı́tulo 3. (a) Si X ∼ N (0, 1), entonces X 2 ∼ χ2(1) . (b) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ {1, . . . , n} Xj ∼ χ2(mj ) , entonces X1 + X2 , · · · + Xn ∼ χ2(m1 +···+mn ) . (c) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ {1, . . . , n}, Xj ∼ N (µ, σ 2 ); entonces n X (Xj − µ)2 ∼ χ2(n) . 2 σ j=1 (d) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ {1, . . . , n}, Xj ∼ N (µ, σ 2 ); entonces n−1 2 S ∼ χ2(n−1) . σ2 (e) Si X y Y son variables aleatorias independientes tales que X ∼ N (0, 1) y Y ∼ χ2(k) , entonces X p ∼ t(k) . Y /k (f) Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ), entonces X̄ − µ √ ∼ t(n−1) . S/ n (g) Si U y V son variables aleatorias independientes tales que U ∼ χ2(n) y V ∼ χ2(m) , entonces U/n ∼ F(n,m) . V /m 5.2. Intervalos para muestras de la distribución normal 201 Ahora, se encontrarán intervalos de confianza para algunas cantidades relacionadas con poblaciones Gaussianas. 5.2.1. Intervalos para la media Caso 1: σ 2 conocida. Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ), con σ 2 conocida. X̄−µ √ ∼ N (0, 1). Se sabe que X̄ ∼ N (µ, σ 2 /n), entonces σ/ n X̄−µ √ . De aquı́ que Q ∼ N (0, 1). La cantidad pivotal es Q = σ/ n Sean zα/2 , z1−α/2 ∈ R tales que P(Q ≤ zα/2 ) = α/2 y P(Q ≤ z1−α/2 ) = 1 − α/2. Note que P(zα/2 < Q < z1−α/2 ) = P(Q ≤ z1−α/2 ) − P(Q ≤ zα/2 ) = (1 − α/2) − α/2 = 1 − α. También observe que por simetrı́a de la densidad normal estándar zα/2 = −z1−α/2 . Por ejemplo, si 1 − α = 0.95, entonces α = 0.05, 1 − α/2 = 0.975 y z0.975 = 1.96. Ası́, P(−z1−α/2 < Q < z1−α/2 ) = 1 − α, si y sólo si P −z1−α/2 X̄ − µ √ < z1−α/2 < σ/ n = 1 − α, si y sólo si σ σ P −z1−α/2 √ < X̄ − µ < z1−α/2 √ n n = 1 − α, si y sólo si σ σ P −z1−α/2 √ − X̄ < −µ < z1−α/2 √ − X̄ n n = 1 − α, si y sólo si σ σ P X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √ = 1 − α. n n 202 5. Estimación por intervalos Por lo tanto, un intervalo del 100(1 − α) % de confianza para µ cuando σ 2 es conocida está dado por σ σ . X̄ − z1−α/2 √ , X̄ + z1−α/2 √ n n Caso 2: σ 2 desconocida. Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ) donde µ y σ 2 son desconocidos. (n−1)S 2 X̄−µ √ ∼ N (0, 1) y Se sabe que σ/ ∼ χ2(n−1) . Entonces, σ2 n X̄−µ √ σ/ n r (n−1)S 2 σ2 ∼ t(n−1) . n−1 Pero, X̄−µ √ σ/ n r = q (n−1)S 2 σ2 n−1 donde S := √ √ X̄−µ √ σ/ n = S2 σ2 n(X̄−µ) σ S σ √ = n(X̄ − µ) X̄ − µ √ , = S S/ n S2. ∴ X̄ − µ √ ∼ t(n−1) . S/ n X̄−µ √ . Es decir, la cantidad pivotal es Q = S/ n 1−α/2 1−α/2 = 1 − α/2, donde Y ∼ t(n−1) . Sea tn−1 ∈ R, tal que P Y ≤ tn−1 Entonces, 1−α/2 1−α/2 = 1 − α, P −tn−1 < Q < tn−1 si y sólo si P 1−α/2 −tn−1 X̄ − µ √ < t1−α/2 < n−1 S/ n = 1 − α, si y sólo si 1−α/2 S 1−α/2 S P −tn−1 √ < X̄ − µ < tn−1 √ = 1 − α, n n si y sólo si P −X̄ − 1−α/2 S tn−1 √ n < −µ < −X̄ + 1−α/2 S tn−1 √ n = 1 − α, 5.2. Intervalos para muestras de la distribución normal 203 si y sólo si 1−α/2 S 1−α/2 S P X̄ − tn−1 √ < µ < X̄ + tn−1 √ = 1 − α. n n ∴ un intervalo del 100(1−α) % de confianza para µ cuando σ 2 es desconocida está dado por S S 1−α/2 1−α/2 X̄ − tn−1 · √ , X̄ + tn−1 · √ . n n 5.2.2. Intervalo para la varianza Sea X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ) con µ y σ 2 desconocidos. 2 ∼ χ2 (n − 1). Se sabe que (n−1)S σ2 2 . Por tanto, la cantidad pivotal es Q = (n−1)S σ2 α/2 1−α/2 Se necesitan determinar los cuantiles χn−1 , χn−1 ∈ R tales que α/2 1−α/2 P(χn−1 < Q < χn−1 ) = 1 − α. 1−α/2 α/2 Es decir, P(Q ≤ χn−1 ) − P(Q ≤ χn−1 ) = (1 − α/2) − (α/2) = 1 − α. Ahora, α/2 1−α/2 P(χn−1 < Q < χn−1 ) = 1 − α, si y sólo si α/2 P(χn−1 < (n − 1)S 2 1−α/2 < χn−1 ) = 1 − α, σ2 si y sólo si P 1 α/2 χn−1 σ2 1 > > 1−α/2 (n − 1)S 2 χn−1 ! = 1 − α, si y sólo si P (n − 1)S 2 1−α/2 χn−1 2 <σ < (n − 1)S 2 α/2 ! = 1 − α. χn−1 ∴ Un intervalo del 100(1 − α) % de confianza para σ 2 está dado por ! (n − 1)S 2 (n − 1)S 2 , . 1−α/2 α/2 χn−1 χn−1 Por ejemplo, si n = 12 y 1 − α = 0.99, entonces α = 0.01. Por lo tanto α/2 = 0.005 y 1 − α/2 = 0.995. Ası́, χ0.995 = 26.8 y χ0.005 = 2.60. 11 11 204 5. Estimación por intervalos Región de confianza para (µ, σ 2 ) 5.2.3. Sea X1 , X2 , . . . , Xn una muestra aleatoria de la distribución N (µ, σ 2 ). En este caso, al estimar los dos parámetros simultánemente, ya no se hablará de un intervalo de confianza, ahora se busca construir una región de confianza en R2 para (µ, σ 2 ). Se consideran las estadı́sticas √ n(X̄ − µ) (n − 1)S 2 Q1 = y Q2 = , σ σ2 que son independientes y tienen una distribución normal estándar y χ2 , respectivamente. Se definen las constantes c > 0, a y b tales que 0 < a < b, y √ √ P [−c ≤ Q1 ≤ c] = 1 − α y P [a ≤ Q2 ≤ b] = 1 − α. Se sigue que √ (n − 1)S 2 n(X̄ − µ) ≤ c, a ≤ ≤ b Pµ,σ −c ≤ σ σ2 √ n(X̄ − µ) (n − 1)S 2 = Pµ,σ −c ≤ × Pµ,σ a ≤ ≤ b σ σ2 = 1 − α, de donde la región del (1 − α) × 100 % de confianza para (µ, σ 2 ) satisface (n − 1)S 2 c2 σ 2 (n − 1)S 2 2 2 , ≤σ ≤ Pµ,σ (µ − X̄n ) ≤ = 1 − α. n b a 5.2.4. Intervalo para la diferencia de medias de poblaciones normales independientes Sean X1 , . . . , Xn una muestra aleatoria de la distribución N (µx , σx2 ) y Y1 , . . . , Ym una muestra aleatoria de la distribución N (µy , σy2 ) donde Yj y Xi son independientes. Caso 1: σx2 y σy2 conocidas. Se sabe que X̄ ∼ N (µx , σx2 /n) y Ȳ ∼ N (µy , σy2 /m), entonces ! σy2 σx2 + . X̄ − Ȳ ∼ N µx − µy , n m Por tanto, X̄ − Ȳ − (µx − µy ) q ∼ N (0, 1). 2 σy2 σx + n m 5.2. Intervalos para muestras de la distribución normal 205 Entonces, la cantidad pivotal está dada por Q= X̄ − Ȳ − (µx − µy ) q . 2 σy2 σx + n m De aquı́ que P −z1−α/2 < Q < z1−α/2 = 1 − α, si y sólo si P −z1−α/2 X̄ − Ȳ − (µx − µy ) q < < z1−α/2 = 1 − α, 2 σy2 σx n + m si y sólo si r P −z1−α/2 σy2 σx2 + < X̄ − Ȳ − (µx − µy ) < z1−α/2 n m r σy2 σx2 + n m ! = 1−α, si y sólo si " r P −(X̄ − Ȳ ) − z1−α/2 σy2 σx2 + < −(µx − µy ) < n m r < −(X̄ − Ȳ ) + z1−α/2 σy2 σx2 + n m # σy2 σx2 + n m # = 1 − α, si y sólo si " P (X̄ − Ȳ ) − z1−α/2 r σy2 σx2 + < µx − µy n m r < (X̄ − Ȳ ) + z1−α/2 = 1 − α. ∴ Un intervalo del 100(1 − α) % de confianza para µx − µy , cuando σx2 y σy2 son conocidas, está dado por ! r r σy2 σy2 σx2 σx2 (X̄ − Ȳ ) − z1−α/2 + , (X̄ − Ȳ ) + z1−α/2 + . n m n m 206 5. Estimación por intervalos Caso 2: σx2 y σy2 desconocidas pero σx2 = σy2 = σ 2 . Se sabe que 2 (n−1)Sx σ2 ∼ χ2(n−1) y (m−1)Sy2 σ2 ∼ χ2(m−1) , entonces (m − 1)Sy2 (n − 1)Sx2 + ∼ χ2(n+m−2) . 2 σ σ2 1 ((n − 1)Sx2 + (m − 1)Sy2 ) ∼ χ2(n+m−2) . σ2 Y también se sabe que ∴ X̄ − Ȳ − (µx − µy ) q ∼ N (0, 1). 1 σ 2 n1 + m (5.5) (5.6) Como se hace el supuesto de que las muestras son independientes, se tiene que (5.5) y (5.6) son independientes, por lo que X̄−Ȳ −(µx −µy ) q 1 1 σ2 ( n +m ) q 2 +(m−1)S 2 (n−1)Sx y σ 2 (n+m−2) ∼ t(m+n−2) . Pero, X̄−Ȳ −(µx −µy ) q 1 1 +m σ2 ( n ) q 2 +(m−1)S 2 (n−1)Sx y σ 2 (n+m−2) X̄ − Ȳ − (µx − µy ) 2 2 1 1 (n−1)Sx +(m−1)Sy n + m n+m−2 = q = X̄ − Ȳ − (µx − µy ) q , 1 1 2 n + m Sp 2 (n−1)Sx +(m−1)Sy2 . n+m−2 donde Sp2 = Entonces, X̄ − Ȳ − (µx − µy ) q ∼ t(m+n−2) . 1 1 2 + S p n m De aquı́ que Q = X̄−Ȳ −(µx −µy ) q ( n1 + m1 )Sp2 sea una cantidad pivotal tal que Q ∼ t(m+n−2) . 1−α/2 Ahora, si tn+m−2 representa el cuantil 1 − α/2 de una distribución t de student con n + m − 2 grados de libertad, 1−α/2 1−α/2 P −tn+m−2 < Q < tn+m−2 = 1 − α, 5.2. Intervalos para muestras de la distribución normal 207 si y sólo si 1−α/2 P −tn+m−2 X̄ − Ȳ − (µx − µy ) 1−α/2 q < tn+m−2 = 1 − α, < 1 1 2 n + m Sp si y sólo si " P −(X̄ − Ȳ ) − 1−α/2 tn+m−2 s 1 1 + n m Sp2 < −(µx − µy ) < −(X̄ − Ȳ ) + si y sólo si " P (X̄ − Ȳ ) − 1−α/2 tn+m−2 s 1 1 + n m 1−α/2 tn+m−2 s 1 1 + n m # Sp2 = 1 − α, Sp2 < µx − µy < (X̄ − Ȳ ) + 1−α/2 tn+m−2 s 1 1 + n m # Sp2 = 1 − α. ∴ Un intervalo del 100(1 − α) % de confianza para µx − µy , cuando σx2 y σy2 son desconocidas pero σx2 = σy2 = σ 2 , está dado por s s ! 1 1 1 1 1−α/2 1−α/2 (X̄ − Ȳ ) − tn+m−2 + Sp2 , (X̄ − Ȳ ) + tn+m−2 + Sp2 . n m n m Observación 5.4 El tercer caso: σx2 y σy2 desconocidas y tales que σx2 6= σy2 , es decir, la estimación de la diferencia de medias de dos poblaciones normales con varianzas diferentes, se conoce como el problema de Behrens-Fisher, el cual no es sencillo abordar, ver, por ejemplo, Kendall y Stuart (1979). Es un problema que no está resuelto completamente, hay propuestas de solución diversas y para tamaños de muestras razonablemente grandes, las diferencias encontradas son en general mucho menores que las observadas con tamaños de muestras pequeños. Welch (1938) desarrolló una aproximación usando un número fraccional para los grados de libertad de una distribución t, donde X̄ − Ȳ T =q 2 , 2 SX SY + n m 208 5. Estimación por intervalos tiene una distribución asintótica t-Student con f grados de libertad, donde f= 2 SX n + 4 SX n2 (n−1) + ( 2 SY 2 m ) . Sy4 2 m (m−1) Esta estadı́stica se recomienda cuando la diferencia de medias es notable y cuando los tamaños de las muestras son grandes, estudios de simulación sugieren mayores a 80, ver Paul, Wang y Ullah (2019). Ejemplo 5.7 Una operación de ensamble en una planta manufacturadora requiere aproximadamente de un mes de periodo de entrenamiento para que un empleado nuevo alcance su eficiencia máxima. Se sugirió un nuevo método de entrenamiento y se hizo una prueba para comparar el método nuevo con el procedimiento estándar. Se entrenaron dos grupos de nueve empleados nuevos por un periodo de tres semanas, un grupo usando el nuevo método (Y ) y el otro siguiendo el procedimiento de entrenamiento estándar (X). Se registró la duración de tiempo (en minutos) requerido por cada empleado para ensamblar el aparato al final del periodo de tres semanas. Suponiendo que los tiempos de ensamblado se distribuyen aproximadamente normal y que las varianzas de los tiempos de ensamblado son aproximadamente iguales para los dos métodos, obtener un intervalo del 95 % de confianza para µx − µy . Procedimiento Estándar X Nuevo Y 32 35 37 31 35 29 Medidas 28 41 44 25 34 40 35 27 31 32 34 31 A partir de los datos se obtienen los siguientes valores: x = 35.22, 9 X y = 31.56, 9 X (yi − y)2 = 160.22, (xi − x)2 = 195.56, i=1 i=1 " Sp2 # 9 9 X X 1 2 2 (yi − y) = 22.24. = (xi − x) + n + m − 2 i=1 i=1 El cuantil 0.975 de una distribución t con n + m − 2 = 16 grados de libertad es t0.975 (16) = 2.120. El intervalo del 100(1 − α) % de confianza para µx − µy es (X̄ − Ȳ ) − 1−α/2 tn+m−2 s 1 1 + n m Sp2 , (X̄ − Ȳ ) + 1−α/2 tn+m−2 s 1 1 + n m ! Sp2 . 5.2. Intervalos para muestras de la distribución normal 209 Por lo tanto, el intervalo del 95 % de confianza para µx − µy es r (35.22 − 31.56) − (2.120) 18 (22.24), (35.22 − 31.56) 81 r +(2.120) ! 18 (22.24) , 81 que aproximadamente es (−1.05, 8.37). Observe que el intevalo para µx − µy contiene al 0 con un nivel de confianza del 95 %. 5.2.5. Intervalo para el cociente de varianzas de poblaciones normales independientes Sean X1 , . . . , Xn una muestra aleatoria de la distribución N (µx , σx2 ) y Y1 , . . . , Ym una muestra aleatoria de la distribución N (µy , σy2 ) donde Yj y Xi son independientes. Se sabe que 2 (n−1)Sx 2 σx ∼ χ2(n−1) y 2 (n−1)Sx 2 (n−1) σx (m−1)Sy2 σy2 (m−1) Pero 2 Sx 2 σx Sy2 σy2 De aquı́ que Q = 2 σ2 Sx y 2 Sy2 σx (m−1)Sy2 σy2 ∼ χ2(m−1) , entonces ∼ F(n−1,m−1) . = Sx2 σy2 . Sy2 σx2 sea una cantidad pivotal tal que Q ∼ F(n−1,m−1) . 1−α/2 α/2 Es necesario determinar los cuantiles fn−1,m−1 fn−1,m−1 , tales que: α/2 1−α/2 P fn−1,m−1 < Q < fn−1,m−1 = 1 − α, si y sólo si P α/2 fn−1,m−1 S 2 σy2 1−α/2 < x2 2 < fn−1,m−1 Sy σx ! = 1 − α, si y sólo si P Sy2 α/2 fn−1,m−1 2 Sx σy2 Sy2 1−α/2 < 2 < fn−1,m−1 2 σx Sx ! = 1 − α, 210 5. Estimación por intervalos o P σ2 1 Sx2 Sx2 < x2 < α/2 2 2 1−α/2 σy fn−1,m−1 Sy fn−1,m−1 Sy 1 ∴ Un intervalo del 100(1 − α) % de confianza para 1 1−α/2 fn−1,m−1 Sx2 1 , α/2 2 Sy f n−1,m−1 Sx2 Sy2 ! = 1 − α. 2 σx σy2 está dado por ! . (5.7) Observación 5.5 Los valores de la distribución F(n,m) están tabulados para valores altos de 1 − α (o equivalentemente valores bajos de α). Debido a que h i α α/2 P Q < fn,m = , 2 con Q ∼ F(n,m) , y " P Q< # 1 1−α/2 fm,n 1 1−α/2 = P > fm,n Q 1 1−α/2 < fm,n = 1−P Q α α = , = 1− 1− 2 2 (5.8) se tiene que α/2 fn,m = 1 1−α/2 fm,n . (Note que en (5.8) se ha utilizado el hecho de que si Q ∼ F(n,m) , entonces 1 Q ∼ F(m,n) ). Por lo anterior, el intervalo (5.7) puede reescribirse de la siguiente manera: ! Sx2 1 Sx2 1−α/2 , fm−1,n−1 2 . 1−α/2 Sy2 Sy f n−1,m−1 En general, para obtener intervalos para los parámetros de un población Normal, se pueden usar las expresiones que acaban de deducirse, sustituyendo los correspondientes valores de los datos. A manera de ilustración, suponga que el diámetro de una cisterna en la mayorı́a de los casos es cercano a 3 metros. Se tiene un conjunto de mediciones de 12 cisternas salidas de la fábrica y se desea obtener un intervalo de confianza para la varianza 5.3. Intervalos de confianza para muestras grandes 211 σ 2 , suponiendo que el diámetro es una variable aleatoria normalmente distribuida. Los datos correspondientes a los diámetros de las 12 cisternas a las que se hace referencia son: 3.01, 3.05, 2.99, 2.99, 3.0, 3.02, 2.98, 2.99, 2.97, 2.97, 2.02, 3.01. Se dedujo que: (n − 1)S 2 (n − 1)S 2 , 1−α/2 α/2 χn−1 χn−1 ! es un intervalo del 100(1 − α) % de confianza para σ 2 . En este caso n = 12, 1 − α = 0.99, α = 0.01 y Pn S2 = 2 (xi − x) = 0.0005455. n−1 n=1 Además, χ0.995 = 26.8, χ0.005 = 2.60, 11 11 de esta manera el intervalo final queda como (0.0002246, 0.00230791) . 5.3. Intervalos de confianza para muestras grandes En esta sección se usará la propiedad asintótica de los estimadores máximo verosı́miles, la cual establece que si θbM V es el estimador máximo verosı́mil de θ, en f (x; θ) que cumple las condiciones de regularidad, entonces cuando n → ∞, 1 b θM V ∼ N θ, IX (θ) y, de manera más general, τd (θ)M V = τ θbM V ∼ N (τ (θ) , CICR) , donde CICR representa la Cota Inferior de Cramer y Rao para estimadores insesgados de τ (θ) . A partir de estos resultados, puede construirse una cantidad pivotal para el parámetro de interés. 212 5. Estimación por intervalos Ejemplo 5.8 Sea X1 , ..., Xn una muestra aleatoria de la distribución Exponencial (θ) . Encontrar un intervalo del 100(1 − α) % de confianza para θ. 1 , mienEl estimador máximo verosı́mil de θ está dado por θbM V = X n tras que la información esperada de Fisher es IX (θ) = θ2 . Entonces por la propiedad asintótica de los estimadores máximo verosı́miles, se tiene que θ2 1 ∼ N θ, n X por lo que 1 X −θ q ∼ N (0, 1) , θ2 n que puede reescribirse como Q= √ 1 n X −θ Ası́, P −z1− α2 ≤ θ √ 1 n X −θ θ ∼ N (0, 1) . ≤ z1− α2 = 1 − α, si y sólo si " −z1− α2 √ P ≤ n 1 X −θ θ z1− α ≤ √ 2 n # = 1 − α, si y sólo si P −z1−α/2 z1−α/2 1 √ +1≤ ≤ √ +1 n n θX = 1 − α, o P de donde: −z1−α/2 z1−α/2 1 √ √ +1 X ≤ ≤ + 1 X = 1 − α, θ n n √ ! √ n n , √ , √ x n + z1−α/2 x n − z1−α/2 es un intervalo del (1 − α) % de confianza para θ. 5.3. Intervalos de confianza para muestras grandes 213 Ejemplo 5.9 Sea X la media muestral de una muestra aleatoria de tamaño n = 25 de una distribución Gama(α, λ) con α = 4 y λ = β1 > 0. Use el teorema del lı́mite central para obtener un intervalo de confianza para la media de la distribución Gama con un coeficiente de confianza de 0.954. Por el teorema del lı́mite central se sabe que X −E X q ∼ N (0, 1), Var X donde E X = Var X = 1 nE [X] = αβ = 4β, n 1 1 1 nVar (X) = αβ 2 = 4β 2 , n2 n n entonces se desea encontrar un intervalo del 95.4 % de confianza para 4β. Por el teorema del lı́mite central se sabe que X − 4β q ∼ N (0, 1), 1 2 4β n que implica que X − 4β q = 1 2β n √ √ nX − 2 n ∼ N (0, 1), 2β y además los cuantiles (1 − 0.954)/2 y 1 − (1 − 0.954)/2 de una distribución Normal(0, 1) son −1.995393 y 1.995393, los cuales se aproximarán a −2 y 2, entonces, √ √ nX −2 n<2 0.954 = P −2 < 2β √ √ √ nX = P −2 + 2 n < <2+2 n 2β √ √ nX nX √ < 2β < √ = P 2+2 n −2 + 2 n √ √ 2 nX 2 nX √ √ = P < 4β < 2+2 n −2 + 2 n 2(5)X 2(5)X = P < 4β < 2 + 2(5) −2 + 2(5) 214 5. Estimación por intervalos = P 5X 5X < 4β < . 6 4 Por lo tanto, un intervalo del 95.4 % de confianza para 4β es 5.3.1. 5X 5X 6 , 4 . Intervalo de confianza para el parámetro p de una distribución binomial Sea X1 , . . . , Xm una muestra aleatoria de la distribución Binomial (n, p) , es decir, Xi ∼ Bin(n, p), ∀i = 1, . . . , m. Se procederá a encontrar el estimador máximo verosı́mil de p y la expresión para la cota de Crámer y Rao para estimadores insesgados de p, en este caso: n x n−x f (x; n, p) = p (1 − p) , con x = 0, . . . , n. x La función de verosimilitud para p está dada por: L (p) = = m Y m Y n xi n−xi p (1 − p) x i i=1 i=1 m Y n (xi ) nm−(x1 +···+xm ) x1 +···+xm p (1 − p) I{0,...,n} , x i i=1 | {z } f (xi ; n, p) = α por lo que l (p) = ln L (p) = (x1 +· · ·+xm )ln(p)+(mn−(x1 +· · ·+xm ))ln(1−p)+ln(α) y ∂l ∂p = p̂ nm − (x1 + · · · + xm ) x1 + · · · + xm − = 0. p̂ 1 − p̂ De donde, m P Xi X = . nm n Por otra parte, la información esperada de Fisher está dada por: 2 ∂ IX = −mE ln(f (x; n, p)) , ∂p2 pb = i=1 215 5.3. Intervalos de confianza para muestras grandes ası́: n ln(f (x; n, p)) = x ln(p) + (n − x) ln(1 − p) + ln( ), x tomando la derivada con respecto a p: x n−x ∂ ln(f (x; n, p)) = − , ∂p p 1−p y la segunda derivada es −x n−x ∂2 ln(fX (x)) = 2 − 2. ∂p2 p (1 − p) Tomando esperanza: E −x n−x − 2 p2 (1 − p) ! np =− 2 − p n 2 (1 − p) − ! np (1 − p) 2 , lo cual implica que IX !! np n(1 − p) = −m − 2 − 2 p (1 − p) mn mn mn + = . = p 1−p p(1 − p) De esta manera, se obtiene que la Cota Inferior de Crámer y Rao para estimadores insesgados de p está dada por: CICR = p(1 − p) . mn Sea Q una cantidad pivotal definida por X −p p̂ − p Q= √ = qn = p(1−p) CICR √ mn(X − np) p . p(1 − p)n mn A partir de esta expresión se puede proceder como en el caso de la distribución exponencial expuesto antes, es decir, suponiendo que esta cantidad pivotal tiene una distribución Normal estándar y utilizando el método pivotal para despejar p. Si se toma el caso particular en el que m = 1, la cantidad pivotal anterior se reduce a: X Q = qn −p p(1−p) n , (5.9) 216 5. Estimación por intervalos donde X tiene distribución Binomial (n, p) , lo cual también se puede ver como el resultado de considerar una muestra aleatoria de tamaño n de una distribución Bernoulli(p) , donde X representarı́a la suma de las variables de dicha muestra. Aún en este caso es complicado obtener el intervalo para p a partir de esta expresión, pues el parámetro aparece tanto en el numerador como en el denominador. Un resultado de la teorı́a asintótica establece que la cantidad X −p qn , (5.10) p b(1−b p) n también tiene distribución N (0, 1) . Note que para este caso, pb = que usando (5.10) como cantidad pivotal, se obtiene que X − p P −z1− α2 < q nX < z1− α2 = 1 − α, X n que es equivalente a s X X n (1 − P − z1− α2 n n X n, por lo (1− n ) n s X n) X <p< + z1− α2 n x n (1 − nx ) x , + z1− α2 n n X n (1 − n X n ) = 1 − α, por lo que x − z1− α2 n r r x n (1 − nx ) n ! . es un intervalo del 100 (1 − α) % de confianza para p. 5.4. Enfoque Bayesiano en la estimación por intervalos En el enfoque Bayesiano la estimación por intervalos para el (los) parámetro(s) desconocidos, θ, de un modelo se basa en la distribución posterior de los mismos, π(θ|x). Un intervalo del 100(1−α) % de credibilidad es cualquier intervalo (L, U ) que satisface que Z U π(θ|x)dθ = 1 − α. L 5.4. Enfoque Bayesiano en la estimación por intervalos 217 Estos intervalos de probabilidad no son únicos. Se puede adoptar por ejemplo un intervalo de colas iguales donde Z ∞ Z L π(θ|x)dθ = α/2, π(θ|x)dθ = −∞ U o uno unilateral donde L = −∞ o U = ∞. En los casos donde la distribución posterior del parámetro de interés es unimodal, también es posible adoptar un intervalo de alta densidad posterior, (HPD) por sus siglas en inglés, donde π(L|x) = π(U |x). En este caso, este intervalo es el de menor longitud. Ejemplo 5.10 Sea X una variable aleatoria con distribución Binomial(n, θ), con n fijo, y considere que la distribución apriori o inicial de θ es Beta(a, b), entonces la distribución a posteriori o final es π(θ|x) ∝ f (x|θ)π(θ) ∝ θx (1 − θ)n−x θa−1 (1 − θ)b−1 = θx+a−1 (1 − θ)n−x+b−1 . 2.0 2.5 3.0 De esta expresión se concluye que las constantes de normalización corresponden a aquellas de una distribución Beta(a+x, b+n−x), que es la distribución posterior para θ bajo esta distribución inicial conjugada. Si ahora se considera el escenario con n = 10 y x = 4 éxitos observados en el experimento de interés, es decir, X ∼ Binomial(10, θ) y se observa x = 4, para una distribución inicial θ ∼ Beta(2, 2); se tiene que la distribución posterior π(θ|x) corresponde a una Beta(6, 8). Los intervalos del 99 % de credibilidad se muestran en la figura 5.2. 0.0 0.5 1.0 1.5 Colas Iguales HPD Cola Inferior Cola Superior 0.0 0.2 0.4 0.6 0.8 1.0 Figura 5.2: Intervalos del 99 % de credibilidad para el ejemplo 5.10. 218 5. Estimación por intervalos 5.5. Ejercicios 1. (Construcción del concepto de intervalo de confianza mediante simulación en R). Revise cuidadosamente las siguientes gráficas obtenidas en la figura 5.3, por simulación en R. Ahı́ se presentan 100 intervalos de confianza variando el tamaño de muestra según tres posibilidades (10, 30 y 50) y la desviación estándar según 3 opciones (5, 10 y 15). Ası́, finalmente se tienen 9 combinaciones según varı́a el tamaño de muestra y la desviación estándar, siendo los escenarios posibles: n = 10 y σ = 5 hasta n = 50 y σ = 15. Cuando un intervalo de confianza no contiene el verdadero promedio se ilustra con una lı́nea negra (el punto medio de cada intervalo es de color gris oscuro). Conteste lo siguiente: (a) Determine mediante observación: ¿cuántos intervalos aproximadamente no contienen el verdadero valor de la media en cada una de las simulaciones?, ¿coincide con lo que se espera si la confianza es del 95 %? (b) ¿Se espera que la cantidad de intervalos de confianza que no contiene al verdadero valor poblacional sea el mismo para cada uno de los nueve casos? (c) Si observa únicamente la primera fila de las simulaciones, explique: ¿cuál es el impacto de la desviación estándar sobre los intervalos mostrados en la grafica?, ¿se aplica también para la segunda fila y tercera fila de simulaciones? (d) Si observa únicamente la primera columna de las simulaciones, explique: ¿cuál es el impacto del tamaño de muestra sobre los intervalos hallados?, ¿se aplica también para la segunda y tercera columnas de simulaciones? 2. Genere una muestra aleatoria X1 , . . . , Xn , de tamaño n = 30, de una población con distribución N (µx , σ 2 ) con µx = 5 y σ 2 = 4. Genere otra muestra aleatoria Y1 , . . . , Ym , de tamaño m = 50, de una población con distribución N (µy , σ 2 ) con µy = 2 y σ 2 = 4. Obtenga los intervalos de confianza para µx −µy bajo las condiciones y supuestos de los siguientes incisos, y grafı́quelos. (a) Intervalo del 80 % de confianza para µx − µy , suponiendo que σ 2 es conocida. (b) Intervalo del 80 % de confianza para µx − µy , suponiendo que σ 2 es desconocida común. 219 5.5. Ejercicios 80 90 100 110 120 80 40 80 90 100 110 120 100 110 120 100 110 120 80 90 100 110 120 n= 50 Sigma= 15 0 40 80 n= 50 Sigma= 10 80 110 120 n= 30 Sigma= 15 120 0 100 110 80 90 40 80 40 0 90 100 0 80 n= 50 Sigma= 5 80 90 40 80 40 90 80 n= 30 Sigma= 10 0 0 40 80 n= 30 Sigma= 5 80 n= 10 Sigma= 15 0 40 80 n= 10 Sigma= 10 0 0 40 80 n= 10 Sigma= 5 80 90 100 110 120 80 90 100 110 120 Figura 5.3: Intervalos obtenidos por simulación para diferentes valores de σ y distintos tamaños de muestra. (c) Intervalo del 95 % de confianza para µx − µy , suponiendo que σ 2 es conocida. (d) Intervalo del 95 % de confianza para µx − µy , suponiendo que σ 2 es desconocida común. Repita el proceso generando cada una de estas muestras 100 veces. ¿Cómo son los intervalos? Identifique los intervalos con mayor longitud y con menor longitud. Compare y explique los resultados. 3. Suponga que X es una variable aleatoria de la población con función de densidad dada por fX (x; θ) = 2(θ − x) I(0,θ) (x), θ2 donde θ > 0 es un parámetro desconocido. Sea α ∈ (0, 1). Construya un intervalo del 100(1 − α) % de confianza para θ, utilizando como cantidad pivotal Q = X θ . 220 5. Estimación por intervalos 4. Sea X una variable aleatoria de la población con función de densidad fX (x; θ) = θxθ−1 I(0,1) (x), donde θ > 0 es un parámetro desconocido. (a) Encuentre una cantidad pivotal y utilı́cela para encontrar un intervalo de confianza para θ. (b) Demuestre que Y2 , Y es un intervalo de confianza para θ, donde 1 Y = − ln(X) . Encuentre su nivel de confianza. 5. Sea X una variable aleatoria de una población con función de densidad fX (x; θ) = θe−θx , donde x > 0 y θ > 0. (a) Sea (X, 2X) un intervalo de confianza para 1/θ. ¿Cuál es su nivel de confianza? (b) Encuentre otro intervalo de confianza para 1/θ que tenga el mismo nivel de confianza que el intervalo de (a), pero con menor longitud esperada. 6. Considere una sola observación X de las siguientes distribuciones. Dado α ∈ (0, 1), encuentre un intervalo del 100(1 − α) % de confianza para θ. (a) Laplace-localización fX (x; θ) = 1 −|x−θ| e IR (x) , θ ∈ R. 2 (b) Cauchy fX (x; θ) = 1 1 IR (x) , θ ∈ R. π 1 + (x − θ)2 (c) Laplace-escala fX (x; θ) = 1 −|x|/θ e IR (x) , θ ∈ R+ . 2θ 7. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño 4 de una población con distribución U (0, θ). Sea Y(4) la máxima estadı́stica de orden. Sean 0 < κ1 < κ2 ≤ 1 constantes tales que P(κ1 θ < Y(4) < κ2 θ) = 0.95. √ Verifique que κ1 = 4 0.05 y κ2 = 1 satisfacen estas condiciones. ¿Cuál es entonces un intervalo del 95 % de confianza para θ? 221 5.5. Ejercicios 8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U (0, θ). Sea Y = máxi=1,...,n {Xi }. Pruebe que Y /θ es una cantidad pivotal, y muestre que el intervalo (Y, Y α−1/n ) es el intervalo del (1 − α)100 % de confianza para θ con menor longitud. 9. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad 1 f (x; θ, σ) = e−(x−θ)/σ I(θ,∞) (x), σ donde θ ∈ R y σ ∈ R+ . Sea α ∈ (0, 1). (a) Si θ es conocido, encuentre un intervalo Pn del 100(1 − α) % de confianza para σ. [Sugerencia: considere i=1 (Xi −θ), o una pequeña modificación del mismo.] (b) Si θ es desconocido, encuentre un intervalo Pn del 100(1 − α) % de confianza para σ. [Sugerencia: considere i=1 (Xi − X(n) ), o una pequeña modificación del mismo.] 10. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Exponencial(θ), cuya función de densidad es fXi (x) = θe−θx I(0,∞) (x). (a) Encuentre un intervalo del 100(1−α) % de confianza para la media de la población. (b) Encuentre un intervalo del 100(1 − α) % de confianza para la varianza de la población. (c) Encuentre una cantidad pivotal basada únicamente en Y1 , donde Y1 = mı́n{X1 , . . . , Xn }, y úsela para encontrar un estimador de intervalo para θ. 11. Sea Y1 , . . . , Yn una muestra aleatoria de tamaño n de una población con distribución Uniforme en el intervalo (0, 1/θ). Encuentre un intervalo del 95 % de confianza para θ. 12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Gama(α, β). Si α es una constante conocida, obtenga un intervalo de confianza para la media µ = αβ. 13. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución U (θ − 21 , θ + 12 ), cuya función de densidad es fX (x; θ) = 1 para θ− 21 < x < θ+ 12 . Sean Y1 ≤ · · · ≤ Yn sus correspondientes estadı́sticas de orden. 222 5. Estimación por intervalos (a) Muestre que [Y1 , Yn ] es un intervalo de confianza para θ. (b) Calcule su longitud esperada, es decir, E[Yn − Y1 ]. (c) Encuentre su nivel de confianza. 14. Sean X1 , X2 , . . . , Xn variables aleatorias independientes de una población con función de densidad fXi (xi ; θ) = eiθ−xi , donde xi > iθ. (a) Obtenga una estadı́stica S que sea suficiente para θ. (b) Obtenga una cantidad pivotal Q que sea función de S. (c) Encuentre un intervalo del (1 − α)100 % de confianza para θ de la forma [S + a, S + b] tal que tenga menor longitud. 15. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad kxk−1 I(0,θ) (x) fX (x; θ) = θk donde θ > 0 y k es un entero positivo. Encuentre un intervalo del (1 − α)100 % de confianza para θ. 16. ¿Qué tan grande debe ser una muestra si se desea construir un intervalo de confianza del 99 % para la desviación estándar de una población normal si se desea que la desviación estándar muestral no difiera en más del 2 % de la desviación poblacional? 17. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N (µ, σ 2 ). (a) Si σ 2 es conocida. Encuentre el valor mı́nimo de n que garantice que el intervalo del 95 % de confianza para µ tendrá longitud no mayor que σ/4. (b) Si σ 2 es desconocida. Encuentre el valor mı́nimo de n que garantice que, con probabilidad 0.90, el intervalo del 95 % de confianza para µ tendrá longitud no mayor que σ/4. 18. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (µ, σ 2 ). Sean 0 < a < b. Demuestre que la esperanza de la longitud del intervalo Pn Pn 2 2 i=1 (Xi − µ) i=1 (Xi − µ) , b a 2 es (b − a) nσ ab . 223 5.5. Ejercicios 19. Sean X̄ y Ȳ las medias de dos muestras aleatorias independientes entre sı́, cada una de tamaño n, de las distribuciones N (µx , σ 2 ) y N (µy , σ 2 ), respectivamente, donde la varianza común es conocida. Encuentre n tal que σ σ = 0.9. P X̄ − Ȳ − < µx − µy < X̄ − Ȳ + 5 5 20. Considere X una variable aleatoria tal que X ∼ N (0, σ 2 ), donde σ > 0 es un parámetro desconocido. Considere el siguiente intervalo de confianza (|X|, 10|X|) para σ. (a) Calcule P(|X| ≤ σ ≤ 10|X|). (b) ¿Cuál es la longitud esperada de dicho intervalo? 21. Se desea hacer una comparación entre dos tratamientos para el SIDA. Se mide el tiempo de supervivencvia (en años) de cada uno de estos tratamientos en siete pacientes seleccionados aleatoriamente. La información se detalla en la siguiente tabla. Paciente Tratamiento 1 Tratamiento 2 1 3.1 1.8 2 3.3 2.3 3 1.7 2.2 4 1.2 3.5 5 0.7 1.7 6 2.3 1.6 7 2.9 1.4 Construya un intervalo del 80 % de confianza para la diferencia de medias. ¿Se necesita hacer alguna suposición adicional? 22. Se realizó un estudio para determinar si la variabilidad en la presión arterial de hombres y mujeres es la misma o no. Se seleccionó aleatoriamente a 13 mujeres y a 16 hombres, se les midió la presión arterial (en milı́metros de mercurio) y los resultados fueron los siguientes: Hombres Mujeres 120 124 122 102 120 125 102 122 118 130 118 120 112 100 126 118 120 120 108 130 114 108 130 130 112 104 114 122 116 ¿Se puede concluir con un 95 % de confianza que la variabilidad de la presión arterial de hombres y mujeres es la misma? ¿Se necesitan hacer suposiciones adicionales? 23. Sean X̄ y Ȳ las medias muestrales, y Sx2 y Sy2 los estimadores insesgados de la varianza, obtenidos de dos muestras independientes cada una de tamaño 7 de dos poblaciones normales con varianza común σ 2 y media 224 5. Estimación por intervalos desconocida. Encuentre k ∈ R, tal que ( ) ! Sx2 Sy2 P máx , > κ = 0.05. Sy2 Sx2 24. Se miden los tiempos de compra de 61 compradores seleccionados aleatoriamente. Si estos tiempos tienen una distribución normal, encuentre un intervalo del 95 % de confianza para µ si x̄ = 33 y s2 = 256. 25. Se cuenta con dos grupos similares de pacientes, A y B, que consisten de 50 y 100 individuos, respectivamente. Al grupo A se le administró una nueva pastilla para dormir y a la segunda una pastilla para dormir ya existente. En el grupo A, el número promedio de horas de sueño fue de 7.82 con una desviación estándar de 15 minutos. En el grupo B, el número promedio de horas de sueño fue de 6.75 con una desviación estándar de 18 minutos. Construya intervalos del 95 % y 99 % de confianza para la diferencia de las horas promedio dormidas. 26. Los siguientes datos representan el tiempo de vida útil de un artı́culo, medido en dı́as: 29.1, 207.6, 81.8, 0.8, 76.1, 108.9, 48.4, 108.1, 52.2, 272.8, 150.5, 80.3, 97.4, 11.5, 46.2, 144.1, 62.5, 262.9, 247.6, 4.1. Este tiempo se supone distribuı́do como una Exponencial con media θ, es decir, Exponencial(1/θ). (a) Encuentre un intervalo de confianza exacto al 95 % para la media de esta distribución Exponencial. (b) Encuentre un intervalo de confianza aproximado al 95 % para esta media utilizando teorı́a asintótica. (c) Encuentre un intervalo de confianza aproximado al 95 % para esta media utilizando los resultados de distribución asintótica del estimador máximo verosı́mil. (d) Comente los resultados obtenidos y las diferencias (si las hubo) entre los tres procedimientos. 27. Se lanza una moneda 500 veces, y se obtienen 275 águilas y 225 soles. Obtenga un intervalo de confianza para la probabilidad de obtener águila. Obtenga también un intervalo del 99 % de confianza. ¿Está bien construida la moneda? 28. Una urna contiene una proporción desconocida de canicas rojas y blancas. De una muestra aleatoria con reemplazo de 60 canicas se obtuvo un 70 % de canicas rojas. Encuentre intervalos del 95 % y 99.73 % de confianza para la proporción de canicas rojas en la urna. 225 5.5. Ejercicios 29. Para estimar la proporción de desempleados en Panamá, un economista selecciona aleatoriamente a 400 individuos de la población (clase trabajadora o económicamente activa en algún momento). De los entrevistados 25 no tienen empleo. Encuentre un intervalo del 95 % de confianza para la proporción de desempleados. 30. De una lista electoral de opinión pública se invita a 100 personas de entre 10,000 adultos a expresar su preferencia por los candidatos A y B. Treinta personas prefirieron a A. De esto se concluyó que entre 2100 y 3900 de la población prefieren a A. ¿Qué nivel de confianza se usó en este informe? Note que n = 100 y Y = 30 es el número de éxitos (las personas que prefirieron a A) y que el intervalo está dado para la media np. 31. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución P oisson(λ). Suponga que el tamaño de la muestra es lo suficientemente grande y por lo tanto se cumplen las propiedades del estimador máximo verosı́mil de λ. Construya un intervalo del (1 − α)100 % de confianza para λ. 32. Encuentra una cantidad pivotal basada en una muestra aleatoria de una distribución N (θ, θ) con θ > 0. Usa la cantidad pivotal para encontrar un intervalo del (1 − α) % de confianza para θ. 33. Considere una muestra aleatoria X1 , X2 . . . , Xn de un modelo N ormal(µ, τ ) donde τ = 1/σ 2 . Suponiendo que las distribuciones iniciales corresponden al modelo conjugado, obtenga un intervalo de credibilidad de 95 %, de colas iguales para cada parámetro. Obtenga para µ el intervalo HDP del 90 %. 34. Sea X1 y X2 una muestra aleatoria de tamaño n = 2, de una población con distribución Exponencial(θ), cuya media es igual a 1/θ. Considere que la distribución a priori para θ es una distribución Gama(2, 4). Suponga que dada la muestra x̄ = 0.125. Encuentre la probabilidad posterior del intervalo de credibilidad [3.49, 15.5]. 35. Sea X1 , . . . , Xn una muestra aleatoria de tamaño n de una población con distribución normal con media µ y varianza σ 2 , N (µ, σ 2 ). Obtenga a y b tal que (n − 1)s2 P a≤ ≤b σ2 = 1 − α. 226 5. Estimación por intervalos Ası́, el intervalo del 100(1 − α) % de confianza para σ es ! r r n−1 n−1 s, s . b a Encuentre valores de a y b tal que minimicen la longitud del intervalo de confianza. Esto es, minimice √ 1 1 k = s n−1 √ − √ , a b bajo la restricción de que Z G(b) − G(a) b g(u)du = 1 − α, = a donde G(u) y g(u) son las funciones de distribución y de densidad de una distribución χ2(n−1) , respectivamente. [Sugerencia: Debido a la restricción, b es una función de a. En particular, tomando las derivadas de la ecuación de restricción con respecto db dk dk a a, muestre que da = g(a) g(b) . Determine da . Estableciendo da = 0, muestre que a y b deben satisfacer an/2 e−a/2 − bn/2 e−b/2 = 0. Esta condición, junto con la restricción, son usadas para calcular los valores de los cuantiles.] Capı́tulo 6 Pruebas de hipótesis En los capı́tulos anteriores se ha analizado la inferencia estadı́stica con respecto a la estimación puntual y por intervalos, ahora se estudiarán las pruebas o contrastes de hipótesis estadı́sticas que, como se verá, tienen una fuerte relación con el concepto de estimación. 6.1. Los conceptos fundamentales en las pruebas de hipótesis El lenguaje o argot de una profesión especı́fica se caracteriza por marcar una frontera mediante un vocabulario poco comprensible para quienes no pertenecen al gremio, aunque en muchos casos oculte ideas o conceptos sencillos. La estadı́stica no es la excepción y es precisamente en este tema en donde es más claro el uso de una terminologı́a jergal de los estadı́sticos, como se verá en los siguientes párrafos. Intuitivamente, una hipótesis estadı́stica tiene que ver con una afirmación relacionada con un cierto fenómeno y debe analizarse si dicha afirmación está sustentada por la evidencia. Por ejemplo, en la nueva ley de justicia penal en México se ha hecho énfasis en que un acusado debe ser considerado inocente mientras no se pruebe su culpabilidad, ası́ que la afirmación de que sea culpable debe sustentarse con la evidencia. En este caso pueden suceder varias situaciones, como el hecho de que no haya suficientes pruebas para demostrar que el acusado es culpable, lo cual no significa que sea inocente; o bien, puede suceder que haya un error en la sentencia y se culpe a un inocente 227 228 6. Pruebas de hipótesis o se absuelva a un culpable, es decir, cabe la posibilidad de falsos positivos y falsos negativos. Estos aspectos se analizarán desde la perspectiva de la estadı́stica matemática. Una hipótesis estadı́stica puede plantearse como una aseveración relacionada con la distribución de una variable aleatoria1 , lo cual se traduce en este texto en una afirmación con respecto a alguna caracterı́stica desconocida de una población de interés, expresada en términos de los parámetros del modelo de probabilidad propuesto para describir el fenómeno en estudio o bien, en términos de la comparación de dos modelos. La esencia de probar una hipótesis estadı́stica es el decidir si la aseveración se encuentra apoyada por la evidencia experimental que se obtiene a través de una muestra aleatoria. La decisión acerca de si los datos muestrales respaldan estadı́sticamente la afirmación se toma con base en la probabilidad de que esto ocurra y, si ésta es mı́nima (y por lo tanto el tamaño del error es grande), entonces será rechazada la hipótesis. Para introducir los principales conceptos en pruebas de hipótesis, se utilizarán dos casos. El primero de ellos lo propuso Fisher (1935) en su obra El diseño de experimentos, descrito también en Newman (1956) como las matemáticas de una catadora de té; mientras que el segundo caso es un ejemplo de larga data en la enseñanza de este tema en la Facultad de Ciencias de la UNAM. Caso 1: Fisher y la dama del té El caso conocido como “la dama del té” fue expuesto por Fisher en su obra las matemáticas de una catadora de té, en donde se señala que una dama inglesa aseguraba que podı́a saber si se habı́a vertido en primer lugar la infusión de té o la leche en una taza, con sólo probar la mezcla resultante. Para analizar la afirmación de la señora se procede a un experimento. Se le pide probar y clasificar n pares de tazas de té, conteniendo cada par una taza preparada por cada uno de los dos procedimientos en cuestión, primero el té y después la leche, y viceversa. En el experimento se pone especial cuidado en asegurar la semejanza bajo las condiciones en que se clasifican los pares de tazas de té y se procura la eliminación de cualquier posible diferencia entre las tazas que resulte irrelevante para el problema. A la dama se le presentan aleatoriamente las tazas de cada par. Finalmente, se deja un tiempo razonable entre intentos sucesivos, a fin de asegurar que la clasificación de cada par de tazas de té es independiente de los pares de tazas precedentes. 1O simplemente con una variable aleatoria. 6.1. Conceptos fundamentales en pruebas de hipótesis 229 Se desea probar la hipótesis que consiste en afirmar que la dama es una charlatana, que tendrı́a como contraparte la hipótesis de que ella tiene poderes de discriminación. Caso 2: El juego de azar elegido por un chango Suponga que se coloca a un changuito dentro de una caja (suficientemente grande para que quepa en ella) con una pequeña ventana y en cuyo interior se tienen 5 monedas y un dado honestos, ası́ como papel y lápiz. El experimento consiste en lo siguiente: El monito elige un juego al azar, lanzar las cinco monedas o lanzar el dado. Si se decide por el dado, el juego consiste en lanzarlo y observar el número de la cara que aparece hacia arriba. Si decide usar las monedas, las lanzará una por una y contará el número de águilas. Anotará en un papel el número de águilas o el de la cara del dado que haya salido y lo entregará a través de la ventanita. El problema consiste en averiguar si el changuito usó el dado o las monedas. Es decir, se desea probar la afirmación de que el changuito usó el dado, que tendrı́a como contraparte la hipótesis de que el changuito usó las monedas. 6.1.1. Hipótesis estadı́sticas El experimento asociado con el caso de la dama del té se puede ver como la obtención de una muestra aleatoria de tamaño n de una población con distribución Bernoulli, es decir, se tienen n variables aleatorias X1 , X2 , . . . , Xn , tal que Xi tiene distribución Bernoulli con parámetro p, para i = 1, 2, . . . , n, con ( 1 si la clasificación es correcta, Xi = 0 si la clasificación no es correcta. Se quieren probar las siguientes aseveraciones: La dama es charlatana. vs. La dama tiene “poderes” de discriminación. Si la dama es charlatana, entonces hará la clasificación adivinando, por lo que p = 12 (p es la probabilidad de éxito); si tiene poderes de discriminación, 230 6. Pruebas de hipótesis entonces p > 21 , por lo que la hipótesis de que la dama es charlatana se puede replantear como: Xi ∼ Bernoulli con p = 1 , 2 i = 1, . . . , n. Definición 6.1 Una hipótesis estadı́stica es una aseveración acerca de la distribución de una o más variables aleatorias. A una hipótesis que especifica completamente la distribución se le llama hipótesis simple. A una hipótesis que no es simple se le llama hipótesis compuesta. Note que en el ejemplo de la dama del té se tiene un contraste de una hipótesis simple contra una hipótesis compuesta. En particular a p = 12 se le llama hipótesis nula y a p > 12 hipótesis alternativa, denotadas por H0 y Ha , respectivamente. De hecho, el término hipótesis nula fue introducido por Fisher para representar la hipótesis defendida por él: la nula posibilidad de que la dama pudiera distinguir el orden en que se vertieron el té y la leche. Ası́, H0 : p = 1 2 vs. Ha : p > 1 . 2 Por otra parte, en el ejemplo del changuito (caso 2) los posibles resultados que se pueden obtener (al recibir el papel con el número anotado) son: 0, 1, 2, 3, 4, 5, 6; esto es, el espacio muestral está dado por: Ω = {0, 1, 2, 3, 4, 5, 6} . Este problema se puede plantear de la siguiente forma: H0 : El changuito usó el dado vs. Ha : El changuito usó las monedas, y de estas dos afirmaciones, el interés radica en ver de alguna manera que se confirma una y por lo tanto la otra es falsa. En este caso, las hipótesis se pueden replantear traduciendo el contenido de cada una de ellas a términos probabilı́sticos, es decir, cada hipótesis se puede representar por una aseveración acerca de la distribución de una variable aleatoria, por lo que: 1 , i = 1, . . . , 6, 6 vs. k 5−k 1 1 5 Ha : P (X = k) = 1− , k = 0, 1, . . . , 5, k 2 2 H0 : P (X = i) = donde en H0 , X denota el valor de la cara del dado obtenida y en Ha denota el número de águilas obtenidas (éxitos) de entre los cinco lanzamientos. Lo 6.1. Conceptos fundamentales en pruebas de hipótesis 231 que se afirma en H0 y en Ha es acerca de la distribución de una variable aleatoria, es decir, son hipotésis estadı́sticas (note además que en este ejemplo las dos hipótesis son simples). Tanto en el caso de la dama del té como en el del changuito, se desea discriminar entre las dos hipótesis planteadas; por lo que el problema es encontrar alguna evidencia que lleve a rechazar alguna y, por lo tanto, a aceptar la otra. Definición 6.2 Una prueba de hipótesis es una regla de decisión mediante la cual, y con base en la muestra, se puede determinar si se acepta o se rechaza la hipótesis nula bajo consideración. Sólo como ilustración, suponga que en el caso de la dama del té, n = 5. 5 P Xi cuenta el número de éxitos y T (X) ∼ Bin(5, p). Se Entonces T (X) = i=1 podrı́a decidir, por ejemplo, rechazar H0 si T = 5 ó si T = 4 y no rechazarla si T = 0 ó T = 1; regla que usualmente se expresa como un enunciado precedido por la letra griega γ, es decir: γ : Rechazar H0 si 5 X i=1 Xi = 4 o 5 X Xi = 5. i=1 Esta regla de decisión serı́a entonces una prueba de hipótesis; sin embargo, por el momento no tiene mayor sustento que el intuitivo. Ahora, siguiendo con el caso del changuito, es claro que se rechaza H0 si en el papel aparece el cero (el dado no tiene el número cero) y no se rechaza H0 si en el papel aparece el 6 (sólo hay cinco monedas). De esta manera, el espacio muestral queda dividido en dos partes, una de ellas lleva a rechazar H0 y la otra lleva a no rechazar H0 ; las partes en que queda dividido Ω no pueden traslaparse, ya que un elemento que perteneciera al traslape llevarı́a a rechazar y a no rechazar al mismo tiempo a la hipótesis H0 , lo cual serı́a una contradicción, por lo que se busca una partición del espacio muestral Ω. Una posible partición de Ω es C = {0, 2, 3}, región que llevarı́a a rechazar a H0 ; por lo que C c = {1, 4, 5, 6} y al obtener un resultado de este subconjunto, no se rechazarı́a H0 . Una vez más, hasta este momento, la regla de decisión sólo tiene un sustento intuitivo y también puede expresarse como: γ : Rechazar H0 si el número es 0, 2 o 3. A la región C se le denomina la región crı́tica o de rechazo de H0 y se define de la siguiente manera. Definición 6.3 A la región C que lleva a rechazar la hipótesis nula se le llama región de rechazo o región crı́tica. 232 6. Pruebas de hipótesis Una vez especificada, basta tomar una muestra y verificar si se encuentra en la región crı́tica o no. Se usará la siguiente notación relacionada con algunos de los conceptos expuestos hasta el momento: La letra griega γ denota una prueba de hipótesis. C o Cγ se refiere a la región crı́tica asociada a la prueba γ. Como antes, la letra Θ denota el espacio paramétrico. Θ0 se refiere al espacio paramétrico consistente con la hipótesis nula H0 . Θ1 se refiere al espacio paramétrico consistente con la hipótesis alternativa Ha . Observación 6.1 Note que una prueba de hipótesis γ y una región crı́tica C (o Cγ ) son equivalentes. Considere por ejemplo una muestra aleatoria X1 , X2 , . . . , Xn de una población con distribución N (θ, 100), se desea probar: H0 : θ ≤ 75 vs. Ha : θ > 75. En este caso se tienen dos hipótesis compuestas, donde Θ0 = {θ : θ ≤ 75} y Θ1 = {θ : θ > 75}. La siguiente es una región crı́tica asociada a este problema: C = (x1 , x2 , x3 ) ∈ X | x21 + x22 + x23 ≥ 1 . De esta manera, la prueba está determinada: se consideran tres variables aleatorias X1 , X2 y X3 , si los valores observados son tales que x21 +x22 +x23 ≥ 1, entonces se rechaza la hipótesis nula, en caso contrario, se acepta. Por lo tanto, la prueba asociada serı́a: γ : Rechazar H0 si x21 + x22 + x23 ≥ 1. 6.1.2. Tipos y tamaños de los errores Como en todos los casos de decisión estadı́stica, se puede incurrir en errores y la idea serı́a efectuar una partición del espacio muestral que sirviera como regla de decisión considerando los posibles errores que se pueden cometer y tratando de que su probabilidad de ocurrencia fuera lo más pequeña posible. Es necesario entonces analizar los tipos de errores que se pueden cometer al efectuar una prueba estadı́stica. Esto fue precisamente lo que hizo Fisher en el ejemplo de la dama del té, señalando que podı́a hacer conclusiones equı́vocas, esto es: 6.1. Conceptos fundamentales en pruebas de hipótesis 233 1. Decir que la dama tenı́a poderes cuando en realidad era charlatana, lo cual es equivalente a rechazar H0 cuando H0 es cierta. 2. Decir que la dama era charlatana cuando en realidad tenı́a poderes, lo cual es equivalente a aceptar (no rechazar) H0 cuando H0 es falsa. Fisher llamó a estos errores, error tipo I y error tipo II, respectivamente, quedando este nombre dentro de la literatura estadı́stica para representar de manera general al yerro de rechazar a la hipótesis nula cuando es cierta y no rechazarla cuando es falsa, respectivamente. Se acostumbra representar estos errores en forma tabular como: Rechazar H0 No rechazar H0 H0 cierta Error tipo I Decisión correcta H0 falsa Decisión correcta Error tipo II El objetivo en pruebas de hipótesis es entonces efectuar el contraste entre H0 y Ha minimizando los errores que se puedan cometer y maximizando los aciertos. Para medir los errores que se cometen, lo que se hace es calcular las probabilidades de dichos errores y a estas probabilidades se les conoce como los tamaños de los errores. Definición 6.4 Se define el tamaño de los errores como α = P(error tipo I) = P [rechazar H0 | H0 cierta] y β = P(error tipo II) = P [no rechazar H0 | Ha cierta] = P(error tipo II) = P [no rechazar H0 | H0 falsa] . Rechazar H0 es equivalente a haber obtenido una muestra de la región C de rechazo de H0 y, por lo tanto, de una “buena” partición de Ω en C y C c depende el tamaño de los errores. El objetivo es encontrar un criterio óptimo para particionar a Ω en C y C c , de tal manera que dicho criterio tome en cuenta el tamaño de los errores en algún sentido. En el ejemplo del changuito la partición propuesta: C = {0, 2, 3} y C c = {1, 4, 5, 6} , da lugar a los tamaños de error siguientes: 234 6. Pruebas de hipótesis α = P [error tipo I] = P [rechazar H0 | H0 cierta] = P [X ∈ C | H0 ] = P [X = 0 o X = 2 o X = 3| H0 ] = P [X = 0| H0 ] + P [X = 2| H0 ] + P [X = 3| H0 ] 1 1 = 0+ + 6 6 1 2 = , = 6 3 β = P [error tipo II] = P [no rechazar H0 | Ha cierta] = P [X ∈ C c | Ha ] = P [X = 1 ó X = 4 ó X = 5 ó X = 6| Ha ] = P [X = 1| Ha ] + P [X = 4| Ha ] + P [X = 5| Ha ] + P [X = 6| Ha ] 5 1 5 + + +0 = 32 32 32 11 = . 32 Puede verse que estos tamaños de error en realidad son grandes, pero esto es consecuencia de que se cuenta con una muestra de tamaño uno. Más adelante se dará un criterio general para obtener una mejor partición de Ω y por lo tanto, una buena prueba. Para ello se introduce ahora el concepto de función potencia. 6.1.3. La función potencia La función potencia juega un papel similar al del error cuadrático medio en estimación: será el estándar para medir la bondad de una prueba y se define de la siguiente manera. Definición 6.5 La potencia de una prueba γ está dada por: πγ (θ) = P[Rechazar H0 |θ] = P[(X1 , . . . , Xn ) ∈ C|θ]. La función potencia ideal vale 0 para θ ∈ Θ0 (hipótesis nula) y vale 1 para θ ∈ Θ1 (hipótesis alternativa). Es decir, 0 si θ ∈ Θ0 , P[Rechazar H0 |θ] = 1 si θ ∈ Θ1 . 6.1. Conceptos fundamentales en pruebas de hipótesis 235 Ası́, la idea es no rechazar la hipótesis nula cuando es cierta y rechazarla cuando es falsa. Definición 6.6 Sea γ una prueba de hipótesis de H0 : θ ∈ Θ0 contra Ha : θ ∈ Θ1 . El tamaño de la prueba se define como: máx πγ (θ), θ∈Θ0 es decir, es el máximo valor de la potencia cuando H0 es cierta. Observación 6.2 El tamaño de la prueba también se conoce como el tamaño de la región crı́tica, debido a la equivalencia que ya se ha mencionado entre prueba y región crı́tica. Asimismo, se le puede llamar el nivel de la prueba. Observación 6.3 Lo que dice la definición anterior es que el tamaño de la prueba se entiende como la mayor probabilidad de tomar una decisión incorrecta suponiendo verdadero cualquier valor del parámetro θ asociado con la hipótesis nula. Es deseable que se trate de una probabilidad pequeña, por lo que es usual que α se fije en los valores 0.05 o 0.01. Ejemplo 6.1 Sea X1 , . . . , Xn una muestra aleatoria de la distribución N (θ, 100) con n = 25. Se considera el contraste H0 : θ ≤ 75 vs. Ha : θ > 75 y se propone la siguiente región crı́tica para esta prueba: C = {(x1 , . . . , x25 ) ∈ X : x > 75} , es decir, la prueba está especificada como: γ : rechazar H0 si x > 75. La función potencia está dada por: πγ (θ) = P(X ∈ C|θ) = P(X > 75|θ), y como X ∼ N θ, 100 25 , se tiene que: X −θ 75 − θ πγ (θ) = P > 2 2 75 − θ 75 − θ = P Z> =1−Φ , 2 2 donde Z = X−θ tiene una distribución N (0, 1) y Φ denota la función de 2 distribución acumulada de Z. 236 6. Pruebas de hipótesis A continuación se calcula la función potencia para algunos valores especı́ficos de θ: Si θ = 73, πγ (θ) = P(Z > 1) = 1 − Φ(1) = 0.1587. Si θ = 75, πγ (θ) = P(Z > 0) = 0.5. Si θ = 77, πγ (θ) = P(Z > −1) = 1 − Φ(−1) = 1 − [1 − Φ(1)] = Φ(1) = 0.8413. Si θ = 79, πγ (θ) = P(Z > −2) = Φ(2) = 0.977. El tamaño de la prueba está dado por máx πγ (θ) = 0.5. θ∈Θ0 0.0 0.2 0.4 0.6 0.8 1.0 πγ(θ) La figura 6.1 muestra la gráfica de la función potencia correspondiente a este ejemplo. 60 65 70 75 80 85 90 θ Figura 6.1: Función potencia del ejemplo 6.1. Ejemplo 6.2 Sea X una variable aleatoria con distribución Binomial(5, θ). El problema consiste en contrastar las hipótesis H0 : θ ≤ 1/2 vs. Ha : θ > 1/2. 6.1. Conceptos fundamentales en pruebas de hipótesis 237 Considere dos regiones crı́ticas C1 = {x | x = 5} y C2 = {x | x = 3, 4 o 5}. Bajo la región crı́tica C1 = {x | x = 5}, la función potencia es: π1 (θ) = P(Rechazar H0 |θ) = Pθ (X = 5|θ) = θ5 , entonces 1 − π1 (θ) = 1 − θ5 , ası́ que el tamaño del error tipo I es α, α ≤ (1/2)5 = 0.03125 y el tamaño del error tipo II es β < 1 − (1/2)5 = 0.96875. Usando la región crı́tica C2 = {x | x = 3, 4 o 5}, la función potencia es: π2 (θ) = P(Rechazar H0 |θ) = Pθ (X = 3, 4 ó 5|θ) 5 3 5 4 5 5 2 1 = θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 , 3 4 5 entonces π2 (θ) = 1 − π2 (θ) = 5 3 5 4 5 5 2 1 θ (1 − θ) + θ (1 − θ) + θ (1 − θ)0 , 3 4 5 5 0 5 1 5 2 5 4 θ (1 − θ) + θ (1 − θ) + θ (1 − θ)3 , 0 1 2 ası́ que el tamaño del error tipo I es α ≤ 0.5 y el tamaño del error tipo II es β < 0.5. Las funciones potencia de ambas regiones crı́ticas se muestran en la figura 6.2. Bajo C1 , el tamaño del error tipo I es menor que cuando se considera C2 , mientras que el error tipo II es mayor bajo C1 que bajo C2 . La pregunta ahora serı́a cuál de las dos regiones deberı́a elegirse con base en las respectivas funciones potencia. Es entonces conveniente establecer un criterio para determinar cuál podrı́a ser la mejor región crı́tica. Para ello es necesario definir lo que se considera una buena prueba y este concepto está relacionado con los tamaños de los errores y, por lo tanto, con la función potencia. Esto se hará considerando diferentes tipos de contraste, iniciando con el caso de una hipótesis nula simple contra una hipótesis alternativa también simple. 238 6. Pruebas de hipótesis 0.0 0.2 0.4 0.6 0.8 1.0 π(θ) Funcion potencia C1 C2 0.0 0.2 0.4 0.6 0.8 1.0 θ Figura 6.2: Funciones potencia del ejemplo 6.2. 6.2. Hipótesis simples En esta situación se tienen dos distribuciones completamente especificadas, las cuales se denotarán por f0 = f (x; θ0 ) y f1 = f (x; θ1 ), correspondientes a las hipótesis nula y alternativa, respectivamente. Considere una muestra aleatoria X1 , X2 , . . . , Xn de una población con distribución f0 ó f1 y se desea probar: H0 : Xi ∼ f0 vs. Ha : Xi ∼ f1 . Si se tiene una sola observación x1 y las funciones f0 y f1 son tales que f0 (x1 ) > f1 (x1 ), entonces se puede decidir que la observación viene de f0 . Bajo este criterio, la observación vendrı́a de f1 si f0 (x1 ) ≤ f1 (x1 ) (es más probable que la observación venga de f1 que de f0 y se deberı́a rechazar H0 ). Este simple razonamiento se puede usar en el ejemplo del juego de azar elegido por un chango, especificando la siguiente regla de decisión: rechazar H0 si (6.1) P [X ∈ C | H0 ] ≤ P [X ∈ C | Ha ] o, de manera equivalente, rechazar H0 si P [X ∈ C | H0 ] ≤ 1. P [X ∈ C | Ha ] (6.2) 239 6.2. Hipótesis simples En la subsección 6.1.2 se calcularon los tamaños de los errores para la partición C = {0, 2, 3} y C c = {1, 4, 5, 6} , obteniendo: α = P [error tipo I] = P [X ∈ C | H0 ] 1 = 3 y β = P [error II] = P [X ∈ C c | Ha ] 11 , 32 = 21 por lo que P [X ∈ C | Ha ] = 32 . Siguiendo un desarrollo análogo se pueden encontrar α y β para cada partición de Ω que se proponga, en particular: Si C1 = {0, 2} , C1c = {1, 3, 4, 5, 6} y α1 = 0 + 1 5 10 5 1 21 1 = y β1 = + + + +0= . 6 6 32 32 32 32 32 Si C2 = {0, 3, 4} , C2c = {1, 2, 5, 6} y α2 = 0 + 1 1 1 5 10 1 16 + = y β2 = + + +0= . 6 6 3 32 32 32 32 Si C3 = {0, 1, 4, 5} , C3c = {2, 3, 6} y α3 = 0 + 1 1 1 3 1 10 10 20 + + = = y β3 = + +0= . 6 6 6 6 2 32 32 32 Como puede observarse, para estas tres particiones, cuando α decrece, β crece mucho y viceversa o ambos son grandes. De la misma manera se pueden obtener α y β para cada una de todas las posibles particiones de Ω y comprobar que la pareja que cumple el criterio (6.1), o equivalentemente (6.2), y que tiene los mı́nimos errores es la primera partición propuesta. Esta idea intuitiva se retomará más adelante, es necesario ahora dar una definición de lo que se entenderá por una buena prueba con base en el tamaño de los errores y de la potencia de esa prueba. 240 6. Pruebas de hipótesis 6.2.1. Pruebas más potentes y el lema de NeymanPearson Para considerar el tamaño de los errores en la búsqueda de una prueba adecuada, usualmente lo que se hace es fijar el tamaño del error tipo I y entonces buscar la prueba que tenga tamaño de error tipo II mı́nimo (de entre todas las que tengan el mismo tamaño de error tipo I). En este caso simple contra simple, Θ = {θ0 , θ1 }. Se quiere probar H0 : θ = θ0 vs. Ha : θ = θ1 . Sea γ una prueba asociada a este contraste de hipótesis y sea πγ (θ) la función potencia asociada a dicha prueba. Una buena prueba es tal que πγ (θ0 ) = P(rechazar H0 |H0 ) es pequeña (idealmente cero) y πγ (θ1 ) = P(rechazar H0 |Ha ) es grande (idealmente 1). Observación 6.4 Note que en este caso simple contra simple, la función potencia evaluada en θ0 , es decir, πγ (θ0 ) = P(rechazar H0 |H0 ), coincide con el tamaño del error tipo I y también con el tamaño de la prueba γ, pues el único valor en Θ0 es θ0 : πγ (θ0 ) = tamaño del error tipo I = tamaño de la prueba, y note también que: 1 − πγ (θ1 ) = P(no rechazar H0 |Ha ) = tamaño del error tipo II, relación que establece que minimizar el tamaño del error tipo II es equivalente a maximizar la potencia evaluada en la hipótesis alternativa. El concepto de lo que debe ser una buena prueba queda plasmado en la siguiente definición, la cual se identifica como una prueba más potente y que está vinculada con la observación anterior en el sentido de que se fija el tamaño del error tipo I y se minimiza el tamaño del error tipo II o, equivalentemente, se maximiza la función potencia evaluada en Ha , de ahı́ el nombre que se le da a la prueba resultante. Definición 6.7 Una prueba γ ∗ de H0 : θ = θ0 vs. Ha : θ = θ1 se define como una prueba más potente de tamaño α (0 < α < 1) si y sólo si: (i) πγ ∗ (θ0 ) = α, (ii) πγ ∗ (θ1 ) ≥ πγ (θ1 ), para cualquier otra prueba γ tal que πγ (θ0 ) = α. 241 6.2. Hipótesis simples Observación 6.5 Como se ha mencionado, una prueba de hipótesis es equivalente al conocimiento de una región crı́tica, por lo que la definición anterior puede darse también en términos de la región crı́tica C ∗ asociada a γ ∗ . Una mejor región crı́tica C ∗ de tamaño α para probar H0 : θ = θ0 vs. Ha : θ = θ1 , satisface: (i) P(X ∈ C ∗ |H0 ) = α, (ii) P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ), para cualquier C tal que P(X ∈ C|H0 ) = α. El siguiente resultado, conocido como el lema de Neyman-Pearson2 , proporciona un método para obtener pruebas más potentes (o regiones crı́ticas óptimas). Lema 6.1 (lema de Neyman-Pearson) . Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ), donde θ ∈ Θ = {θ0 , θ1 } y sean 0 < α < 1, k un número positivo y C ∗ tales que: (a) P(X ∈ C ∗ |H0 ) = α, n Q (b) λ = L(θ0 ) L(θ1 ) = i=1 n Q f (xi ;θ0 ) ≤ k si x ∈ C ∗ , f (xi ;θ1 ) i=1 (c) λ > k si x ∈ (C ∗ )c . Entonces la prueba γ ∗ , asociada a C ∗ , es una prueba más potente para probar H0 : θ = θ0 vs. Ha : θ = θ1 (es decir, C ∗ es la mejor región crı́tica). 2 Jerzy Neyman (1894-1981), de nacionalidad polaca, vivió en Estados Unidos desde 1938 (Universidad de California en Berkeley) y Egon Sharpe Pearson (1895-1980), hijo del reconocido estadı́stico inglés Karl Pearson. Colaboraron durante los años 20 y 30 del siglo XX, abordando problemas de inferencia y construyendo herramientas estadı́sticas como el lema que lleva su nombre. Neyman, J. and Pearson, E.S. (1928a, 1928b). On the use and interpretation of certain test criteria for purposes of statistical inference, Part I. Biometrika, 20A, 175-240. Part II. Biometrika, 20A, 263-294. Neyman, J. and Pearson, E.S. (1933a). On the problem of the most efficient tests of statistical hypotheses. Phil. Trans. Roy. Soc., Ser. A, 231, 289-337. Reprinted in Breakthroughs in Statistics Volume I (S. Kotz and N. L. Johnson, eds.), 1992. Springer-Verlag, Inc., New York. Neyman, J. and Pearson, E.S. (1933b). The testing of statistical hypotheses in relation to probabilities a priori. Proc. Camb. Phil. Soc., 24, 492-510 242 6. Pruebas de hipótesis Demostración. Observe primero que la primera hipótesis (a) coincide con (i) de la definición 6.7 de prueba más potente (o equivalentemente de mejor región crı́tica). Por otro lado, la hipótesis (b) se puede reescribir como: 1 L(θ0 ), k y la hipótesis (c) es equivalente a: x ∈ C∗ ∩ Cc ⊆ C∗ L(θ1 ) ≥ 1 L(θ0 ), k L(θ1 ) < c x ∈ (C ∗ ) ∩ C ⊆(C ∗ )c . Observe también que: c C = (C ∩ C ∗ ) ∪ (C ∩ (C ∗ ) ) (6.3) C ∗ = (C ∗ ∩ C) ∪ (C ∗ ∩ C c ) . (6.4) y La demostración se hará para el caso continuo. Por demostrar que P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ), para cualquier C tal que P(X ∈ C|H0 ) = α (ver observación 6.5); que es equivalente a demostrar que: Z Z L(θ1 ) ≥ L(θ1 ), C∗ C o bien que: Z Z L(θ1 ) − L(θ1 ) ≥ 0, C∗ C que por las identidades (6.3) y (6.4), es equivalente a demostrar que: Z Z L(θ1 ) − L(θ1 ) ≥ 0. (6.5) C∩(C ∗ )c C ∗ ∩C c Se procede de la siguiente manera: "Z # Z Z Z 1 L(θ0 ) − L(θ0 ) = L(θ1 ) − L(θ1 ) ≥ k C ∗ ∩C c (C ∗ )c ∩C C ∗ ∩C c C∩(C ∗ )c = = = 1 k 1 k 1 k "Z Z Z L(θ0 ) − L(θ0 ) + C ∗ ∩C c Z C∩C ∗ L(θ0 ) − (C ∗ )c ∩C Z L(θ0 ) − C∗ Z L(θ0 ) C [P [X ∈ C ∗ |H0 ] − P [X ∈ C|H0 ]] = k1 (α − α) = 0. # L(θ0 ) C∩C ∗ 243 6.2. Hipótesis simples Con lo que (6.5) queda demostrado. Note la relación del lema de Neyman-Pearson con el argumento intuitivo que se explicó al inicio de esta sección, proporcionando ası́ un método sistemático para encontrar una prueba más potente. A continuación se presentan algunos ejemplos del uso del lema de NeymanPearson. Ejemplo 6.3 Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad f (x; θ) = θe−θx , θ > 0, Θ = {θ0 , θ1 } (θ0 > θ1 ) H0 : θ = θ 0 . L(θ) = n Y vs. Ha : θ = θ1 , n Y Pn = θn e−θxi = θn e−θ i=1 xi . θe−θxi i=1 i=1 Procediendo de acuerdo al lema de Neyman-Pearson: Pn n Pn Pn L(θ0 ) θ0n e−θ0 i=1 xi θ0 = n −θ Pn x = e−θ0 i=1 xi +θ1 i=1 xi L(θ1 ) θ1 θ1 e 1 i=1 i n Pn θ0 e−(θ0 −θ1 ) i=1 xi ≤ k ⇔ x ∈ C ∗ , = θ1 ⇒ e−(θ0 −θ1 ) ⇒ Pn −(θ0 − θ1 ) i=1 xi n X ≤ k1 , xi ≤ k2 ⇒ (θ0 − θ1 ) i=1 ⇒ n X n X xi ≥ −k2 , i=1 xi ≥ k3 ≡ c ⇔ se rechaza H0 . i=1 (se han usado k1 , k2 y k3 para denotar a las constantes que van resultando en cada paso del despeje de la estadı́stica de prueba, hasta llegar a la forma de la región crı́tica). Entonces, la prueba de hipótesis queda establecida de la siguiente manera: γ ∗ : Se rechaza H0 si n X Xi ≥ c, i=1 o ( ∗ C = (X1 , . . . , Xn ) ∈ X| n X i=1 ) Xi ≥ c , 244 6. Pruebas de hipótesis donde c se determina fijando el tamaño Pn de la prueba y con base en la distribución de la estadı́stica de prueba i=1 Xi . Si el tamaño de la prueba es igual a 0.05, se tiene que: " n # X πγ (θ0 ) = P[rechazar H0 |H0 es cierta] = P Xi ≥ c|θ = θ0 = 0.05. i=1 O equivalentemente: " 1−P n X # Xi ≤ c|θ = θ0 = 0.05. i=1 Es decir, P n X ! Xi ≤ c|θ = θ0 = 0.95. i=1 Bajo H0 , n P Xi ∼ Gama(n, θ0 ), entonces c corresponde al cuantil 0.95 de i=1 una distribución Gama(n, θ0 ). Ejemplo 6.4 Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Normal, N (µ,σ 2 ), con σ 2 conocida. Se considera el contraste de hipótesis H0 : µ = µ0 vs. Ha : µ = µ1 , donde µ0 < µ1 . La función de verosimilitud es n Y 1 1 √ exp − 2 (xi − µ)2 L(µ) = 2σ 2πσ 2 i=1 ( ) n X 1 = (2πσ 2 )−n/2 exp − 2 (xi − µ)2 . 2σ i=1 Procediendo de acuerdo al lema de Neyman-Pearson, se obtiene el cociente de verosimilitudes n o Pn 2 1 2 −n/2 exp − (x − µ ) 2πσ 2 i 0 i=1 2σ L(µ0 ) n o = Pn −n/2 2 1 L(µ1 ) 2 (2πσ ) exp − 2σ2 i=1 (xi − µ1 ) ( ) n n 1 X 1 X 2 2 = exp − 2 (xi − µ0 ) + 2 (xi − µ1 ) 2σ i=1 2σ i=1 1 1 2 2 = exp nx(µ0 − µ1 ) − 2 n µ0 − µ1 , σ2 2σ 245 6.2. Hipótesis simples entonces X ∈ C equivale a que exp L(µ0 ) L(µ1 ) ≤ k, esto implica que 1 1 2 2 nx(µ − µ ) − n(µ − µ ) ≤ 0 1 0 1 σ2 2σ 2 1 1 nx(µ0 − µ1 ) − 2 n(µ20 − µ21 ) ≤ 2 σ 2σ 1 nx(µ0 − µ1 ) ≤ σ2 k k1 = ln k k1 + 1 n(µ20 − µ21 ), 2σ 2 como µ0 y µ1 son valores fijos establecidos en las hipótesis, entonces se puede hacer 1 nx(µ0 − µ1 ) ≤ k2 , σ2 y además, debido a que se supone que µ0 < µ1 , entonces µ0 − µ1 < 0, por lo tanto, σ2 x ≥ k2 , n(µ0 − µ1 ) o x ≥ k3 ; ası́, se rechaza la hipótesis nula si y sólo si x ≥ c. Entonces, la prueba de hipótesis queda establecida de la siguiente manera: γ ∗ : se rechaza H0 si X ≥ c, o equivalentemente C ∗ : (X1 , . . . , Xn ) ∈ X | X ≥ c . El valor de c se determina fijando el tamaño de la prueba y con base en la distribución de la estadı́stica de prueba X. En este caso, dado que Xi ∼ N ormal(µ, σ 2 ) y son variables aleatorias independientes e identica mente distribuidas, entonces X ∼ N ormal µ, σ 2 /n . Bajo la hipótesis nula H0 : µ = µ0 , se tiene que X ∼ N ormal µ0 , σ 2 /n . Note que esta distribución es totalmente conocida ya que los valores de n y σ 2 son conocidos y µ0 es el valor establecido bajo la hipósteis nula. Si el tamaño de la prueba es α, se tiene que πγ (µ0 ) = P[rechazar H0 |H0 es cierta] = P X ≥ c|µ = µ0 = α, o equivalentemente, 1 − P X < c|µ = µ0 = α, 246 6. Pruebas de hipótesis ası́ que c corresponde al cuantil 1−α de una distribución N ormal µ0 , σ 2 /n . Por otro lado, también se puede calcular la función potencia bajo la hipótesis alternativa, es decir, πγ (µ1 ) = P[rechazar H0 |Ha ] = P X ≥ c|µ = µ1 , pero como πγ (µ1 ) = P[rechazar H0 |Ha ] = 1 − P[no rechazar H0 |Ha ], entonces 1 − πγ (µ1 ) = P[no rechazar H0 |Ha ] = tamaño del error tipo II = β. Además se tiene que bajo la hipótesis alternativa Ha : µ = µ1 , se cumple que X ∼ N ormal µ1 , σ 2 /n . La figura 6.3 muestra la relación que existe entre las pruebas de hipótesis y los tamaños de los errores tipo I (α) y tipo II (β), determinados a partir de la estadı́stica de prueba S = X. Note que las áreas delimitadas en color negro y gris, representan a α y β, respectivamente. fS (s|µ) H0 : µ = µ0 N (µ0 , σ 2 /n) Ha : µ = µ1 N (µ1 , σ 2 /n) β µ0 α x µ1 s Figura 6.3: Funciones de densidad de la estadı́stica de prueba S = X bajo ambas hipótesis y tamaños de los errores. 247 6.2. Hipótesis simples Ejemplo 6.5 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Bernoulli(θ), donde θ es igual a θ0 o θ1 . Contrastar las hipótesis H0 : θ = θ0 vs. Ha : θ = θ1 , con θ0 < θ1 . Se sabe que la verosimilitud bajo H0 es Pn L (θ0 ) = θ0 i=1 Pn xi , Pn xi , xi (1 − θ0 )n− xi (1 − θ1 )n− i=1 y la verosimilitud bajo H1 es Pn L (θ1 ) = θ1 i=1 i=1 ası́ que la región crı́tica determinada por λ ≤ k ∗ equivale a Pn x n θ0 (1 − θ1 ) i=1 i 1 − θ0 ≤ k∗ , (1 − θ0 )θ1 1 − θ1 ası́, −n ∗ 1−θ0 ln k 1−θ1 n X h i , xi ≥ 0 (1−θ1 ) ln θ(1−θ i=1 0 )θ1 Pn es decir, i=1 xi ≥ k 0 donde k 0 es una constante. Ası́ que una prueba más potente está determinada por: γ : Rechazar H0 si n X Xi ≥ k 0 . i=1 Suponga que θ0 = 1/4, θ1 = 3/4 y n = 10, entonces k 0 se determina de tal manera que: α = P[Rechazar H0 |H0 cierta] = P[Rechazar H0 |θ = 1/4] " 10 # X 0 P Xi ≥ k |θ = 1/4 = i=1 = 10 y 10−y X 3 10 1 , y 4 4 0 y=k P10 1 donde Y = i=1 Xi tiene una distribución Binomial 10, 4 0 0 α = 0.0197 entonces k = 6, y si α = 0.0781 entonces k = 5. bajo H0 . Si 248 6.3. 6. Pruebas de hipótesis Pruebas uniformemente más potentes El lema de Neyman-Pearson aún puede usarse en algunos casos en donde la hipótesis nula es simple y la alternativa es compuesta, como se exhibe en esta parte. Sin embargo, para casos más generales de hipótesis compuestas, la construcción de una región crı́tica se hará a través del llamado cociente o razón de verosimiltudes generalizadas, lo cual se abordará en la sección 6.4. El objetivo de este apartado es la obtención de regiones crı́ticas o pruebas óptimas en un sentido más general que en el caso de hipótesis simples, a las cuales se les conoce como pruebas uniformemente más potentes. 6.3.1. Hipótesis simple contra compuesta Para ilustrar el tipo de contrastes que involucra una hipótesis compuesta, y en donde aún se utiliza el cociente simple de verosimilitudes, se inicia con el siguiente ejemplo. Ejemplo 6.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con distribución N (0, σ 2 ) y se desea probar H0 : σ 2 = σ02 vs. Ha : σ 2 > σ02 . En este caso, Θ0 = {σ02 } y Θ1 = {σ 2 : σ 2 > σ02 }. Sea σ12 ∈ Θ1 , es decir, σ12 > σ02 (σ12 es un valor representativo de la hipótesis alternativa). Usando el lema de Neyman-Pearson, se probará H0 : σ 2 = σ02 vs. Ha : σ 2 = σ12 , tomando como hipótesis alternativa simple al valor representativo de la hipótesis alternativa original. Se considera entonces el cociente: n/2 Pn 1 exp(− 2σ1 2 i=1 x2i ) 2 L(σ0 ) 2πσ02 0 = ≤k n/2 Pn L(σ12 ) 1 1 2) exp(− x 2 2 i=1 i 2πσ 2σ 1 " # n 1 1 1 X 2 exp − 2 x ≤k 2 σ12 σ0 i=1 i 2 n σ1 n 1 1 1 X 2 ln + − 2 x ≤ k1 = ln(k) 2 σ02 2 σ12 σ0 i=1 i ⇔ ⇔ 1 σ12 σ02 n/2 249 6.3. Pruebas uniformemente más potentes (σ02 − σ12 ) n X 2 σ1 n (σ12 σ02 )2 = k2 x2i ≤ k1 − ln 2 2 σ 0 i=1 Pero como σ02 − σ12 < 0, se obtiene que: n X x2i > c, i=1 y por lo tanto, la región crı́tica es: ( C∗ = (X1 , X2 , . . . , Xn ) ∈ X | n X ) Xi2 > c , i=1 que equivale a la prueba γ ∗ : Rechazar H0 si n X Xi2 > c. i=1 Pn x2i X2 Como Xi ∼ N 0, σ 2 , Xσi ∼ N (0, 1) y σ2i ∼ χ2(1) , de donde i=1 ∼ χ2(n) . σ2 Ası́, el valor de c se puede obtener de la relación: ! Pn n 2 X c 2 i=1 xi α=P xi > c | H0 = P > 2 , σ02 σ0 i=1 conociendo n, σ02 y fijando el tamaño de la prueba α. Note que el procedimiento anterior serı́a el mismo para cualquier valor consistente con la hipótesis alternativa, ası́ que el resultado γ ∗ es una prueba uniformemente más potente, en el sentido de que se cumple para cualquier σ12 tal que σ12 > σ02 . Esto conduce a la siguiente definición. Definición 6.8 Una prueba γ ∗ es una prueba uniformemente más potente para probar H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 si: (i) máx πγ ∗ (θ) = α, θ∈Θ0 (ii) πγ ∗ (θ) ≥ πγ (θ), para todo θ ∈ Θ1 y para cualquier otra prueba γ tal que máx πγ (θ) = α. θ∈Θ0 250 6. Pruebas de hipótesis En palabras, de entre todas las pruebas de tamaño α, la prueba uniformemente más potente es aquella que maximiza la potencia para todo θ ∈ Θ1 . Para hipótesis alternativas del tipo unilateral, es decir, Ha : θ > θ 0 , Ha : θ ≥ θ0 , Ha : θ < θ 0 o Ha : θ ≤ θ0 , en donde H0 : θ = θ0 , se puede usar el lema de Neyman-Pearson para encontrar una prueba uniformemente más potente tomando un valor representativo de la hipótesis alternativa y planteando un contraste de dos hipótesis simples. Suponga ahora que se desea probar H0 : µ = µ0 vs. Ha : µ 6= µ0 , (observe que la hipótesis alternativa no es del tipo unilateral) para una muestra aleatoria de tamaño n de la distribución Normal µ, σ 2 , donde σ 2 = 1. Usando el lema de Neyman-Pearson, se procederı́a como en el caso anterior, es decir, replanteando las hipótesis a través de un valor representativo para la hipótesis alternativa de tal manera que se tengan dos hipótesis simples: H0 : µ = µ0 vs. Ha : µ = µ1 , donde µ1 6= µ0 . Por el de lema de Neyman-Pearson, se tiene entonces que: Pn 2 1 n/2 − 12 i=1 (xi −µ0 ) e L (µ0 ) 2π = Pn 2 1 n/2 − 12 L (µ1 ) i=1 (xi −µ1 ) e 2π n 2 n 2 1 = e− 2 [ i=1 (xi −µ0 ) − i=1 (xi −µ1 ) ] Pn Pn Pn 2 2 2 Pn 2 1 = e− 2 [ i=1 xi −2µ0 i=1 xi +nµ0 − i=1 xi +2µ1 i=1 xi −nµ1 ] P P = e− 2 [2 1 Pn i=1 xi (µ1 −µ0 )+n(µ20 −µ21 )] ≤ k1 , si y sólo si − n X 1 xi (µ1 − µ0 ) − n µ20 − µ21 ≤ k2 , 2 i=1 si y sólo si − n X i=1 xi (µ1 − µ0 ) ≤ k3 , 251 6.3. Pruebas uniformemente más potentes o n X xi (µ1 − µ0 ) ≥ −k3 = c, i=1 obteniéndose que ( ∗ C = (X1 , . . . , Xn ) ∈ X | n X ) Xi ≥ c , si µ1 − µ0 > 0, i=1 y ( ∗ C = (X1 , . . . , Xn ) ∈ X | n X ) Xi ≤ c , si µ1 − µ0 < 0, i=1 concluyendo que la región crı́tica no queda determinada de manera única, por lo que para este tipo de pruebas ya no se usará el lema de Neyman-Pearson. El tema de hipótesis compuestas se abordará desde dos perspectivas: mediante una caracterización que permite detectar la existencia de pruebas uniformemente más potentes (Subsección 6.3.2) y a través del cociente de verosimilitudes generalizadas (Sección 6.4). 6.3.2. La razón monótona de verosimilitudes y el teorema de Karlin-Rubin Ahora se analizará una clase de hipótesis asociada a una gran variedad de problemas, en la cual se puede obtener una prueba uniformemente más potente (ver definición 6.8) si la familia de la cual se obtiene la muestra cumple una condición conocida como la razón o cociente monótono de verosimilitudes, la cual se define a continuación. Definición 6.9 Una familia de densidades {f (x; θ) : θ ∈ Θ}, donde X es una variable aleatoria univariada, tiene un cociente monótono de verosimilitudes en una estadı́stica T (X), si para todo {θ∗ , θ} ⊂ Θ y x ∈ X, se tiene que L(θ∗ ; x1 , ..., xn ) L (θ∗ ) = , L(θ; x1 , ..., xn ) L (θ) es una función monótona no creciente (o no decreciente) de t(x), siempre que θ∗ > θ; con f (x; θ∗ ) > 0 y f (x; θ) > 0. Ejemplo 6.7 La familia de densidades Poisson(θ) , θ > 0, tiene cociente 252 6. Pruebas de hipótesis monótono de verosimilitudes en T (X) = Pn i=1 ∗ e−nθ (θ∗ ) ∗ L(θ ; x) L(θ; x) Xi , pues Pn i=1 xi / n Q i=1 = e−nθ Pn (θ) i=1 xi / n Q i=1 ∗ = e−nθ (θ∗ ) Pn i=1 Pn 1 xi ! 1 xi ! xi x e−nθ (θ) i=1 i ∗ Pni=1 xi ∗ θ e−n(θ −θ) , = θ Pn es una función no decreciente de i=1 xi , con θ∗ > θ. Observación 6.6 Los miembros de la familia exponencial f (x; θ) = a(θ)b(x)ec(θ)d(x) , con θ ∈ Θ, tienen cociente monótono de verosimilitudes. En otras palabras, si c(θ) es una función estrictamente monótona de θ, entonces {f (x; θ) : θ ∈ Θ ⊆ R} tiene cociente de verosimilitudes no creciente (o no decreciente) en T (X) = P n i=1 d (Xi ). Lema 6.2 Si la familia de densidades {f (x; θ) : θ ∈ Θ} tiene cociente monótono de verosimilitudes en S (X), donde S (X) es una estadı́stica suficiente, entonces la función V (s, θ∗ , θ) = fS (s; θ∗ ) , fS (s; θ) es una función monótona en s, donde fS (s; θ) es la función de densidad de la estadı́stica S. Demostración. Cuando se estudió la suficiencia y el teorema de factorización, se analizó la relación entre la función de verosimilitud y la densidad de la estadı́stica suficiente. Para el caso discreto esta relación es X fS (s) = P (S (X) = s) = P (X1 = x1 , X2 = x2 , ..., Xn = xn ) As = X L (θ; x1 , ..., xn ) As = g (s; θ) X As h (x1 , ..., xn ) , 6.3. Pruebas uniformemente más potentes 253 donde As = {(x1 , . . . , xn ) ∈ X | S (X) = s} . Y para el caso continuo, fS (s) = g (s; θ) m (s) , donde m (s) no depende de θ. En ambos casos, se comprueba que: V (s, θ∗ , θ) = fS (s; θ∗ ) g (s; θ∗ ) = . fS (s; θ) g (s; θ) Por otro lado, la hipótesis establece que se cumple la monotonı́a del cociente de verosimilitudes en S, la cual es suficiente, es decir: L(θ∗ ; x) g (S (x) ; θ∗ ) h (x1 , ..., xn ) g (S (x) ; θ∗ ) = = , L(θ; x) g (S (x) ; θ) h (x1 , ..., xn ) g (S (x) ; θ) es una función monótona en S. Lo anterior implica que V (s, θ∗ , θ) es una función monótona en S. El siguiente resultado, conocido como el teorema de Karlin-Rubin proporciona una forma de encontrar una prueba uniformemente más potente para hipótesis compuestas unilaterales. Teorema 6.1 (teorema de Karlin-Rubin). Sea X1 , X2 , ..., Xn una muestra aleatoria de una población con función de densidad f (x; θ) y se desea probar las hipótesis H0 : θ ≤ θ0 vs. Ha : θ > θ0 . (6.6) Si la familia de densidades {f (x; θ)} tiene la propiedad del cociente monótono de verosimilitudes no decreciente en S = S(X), la cual es una estadı́stica suficiente para θ ∈ Θ, entonces la prueba: γ : Rechazar H0 si S > k, definida por la función: Ψ(X) = 1 0 si S(X) > k, si S(X) ≤ k, donde k es tal que: E[Ψ(X)] = P (S(X) > k) = α, es una prueba uniformemente más potente de tamaño α para (6.6). (6.7) 254 6. Pruebas de hipótesis Demostración. Note que por la suficiencia de S, la verosimilitud puede escribirse como el producto h (x) g (s; θ) , ası́ que el cociente de verosimiltudes puede escribirse como L(θ∗ ; x1 , ..., xn ) g (s; θ∗ ) = , L(θ0 ; x1 , ..., xn ) g (s; θ0 ) el cual es no decreciente (θ∗ > θ0 ) en s. Sea πγ (θ) = P (S > k | θ) la función potencia para la prueba γ. Fije θ0 > θ0 (es decir, θ0 es un valor consistente con la hipótesis alternativa) y considere la prueba para las hipótesis simples H00 : θ = θ0 vs. Ha0 : θ = θ0 . (6.8) La función potencia πγ (θ) es no decreciente, esto es, para θ0 < θ0 , se tiene que πγ (θ0 ) ≤ πγ (θ0 ), es decir, FS (k; θ0 ) ≤ FS (k; θ0 ). Para verificarlo, considere d fS (s; θ0 ) [FS (s; θ0 ) − FS (s; θ0 )] = fS (s; θ0 ) − fS (s; θ0 ) = fS (s; θ0 ) −1 , ds fS (s; θ0 ) siendo el cociente que aparece en el último paréntesis una función monótona no decreciente (por el lema 6.2), de tal manera que la derivada sólo puede cambiar de signo de negativo a positivo, con lo que se deduce que cualquier extremo interior es un mı́nimo. Por lo tanto, la función FS (s; θ0 ) − FS (s; θ0 ) se maximiza cuando s tiende a ∞ o a −∞, es decir cuando dicha función vale 0, por lo que FS (s; θ0 ) ≤ FS (s; θ0 ) y, por lo tanto, πγ (θ0 ) ≤ πγ (θ0 ), para θ0 < θ 0 . De esta manera, supθ≤θ0 πγ (θ) = πγ (θ0 ) = α, donde α corresponde al tamaño de la prueba. Si ahora se define g(s; θ0 ) k 0 = ı́nf , s∈T g(s; θ0 ) donde T = {s : s > k, y g(s; θ0 ) > 0 S>k ⇔ o g(s; θ0 ) > 0}, entonces g(s; θ0 ) > k0 g(s; θ0 ) y dado que S es una estadı́stica suficiente, entonces S > k ⇔ g(s; θ0 )h(x) > g(s; θ0 )h(x)k 0 , lo cual es equivalente a L (θ0 ) 1 ≤ 0 = c, 0 L (θ ) k 6.3. Pruebas uniformemente más potentes 255 y por el lema de Neyman-Pearson esta última desigualdad proporciona una prueba más potente de tamaño α, es decir, se cumple que πγ (θ0 ) ≥ πγ∗ (θ0 ), donde πγ∗ es la función potencia de cualquier otra prueba de tamaño α para (6.8). Finalmente, cualquier prueba de tamaño α de H0 satisface que πγ∗ (θ0 ) ≤ máx πγ∗ (θ) ≤ α, θ∈Θ0 por lo que πγ (θ0 ) ≥ πγ∗ (θ0 ) para cualquier prueba de tamaño α. Como θ0 en la hipótesis nula es arbitrario, la prueba resultante es uniformemente más potente de tamaño α para la hipótesis planteada. De manera similar, se puede demostrar que para la prueba H0 : θ ≥ θ0 vs. Ha : θ < θ0 , la prueba uniformemente más potente es de la forma: γ : Rechazar H0 si S < k. (6.9) Por otro lado, si se supone que la razón de verosimilitudes es monótona no creciente en S, las pruebas (6.7) y (6.9) serı́an con las desigualdades invertidas. Ejemplo 6.8 Si X1 , . . . , Xn es una muestra aleatoria de una población con distribución Uniforme(0, θ), para θ > 0. Sea 0 < θ1 < θ2 , el cociente de verosimilitudes es Qn ( θ12 )n i=1 I(0,θ2 ) (xi ) ( 1 )n I(0,θ2 ) (yn ) L(θ2 ; x1 , . . . , xn ) = 1 n Qn = θ12 n , L(θ1 ; x1 , . . . , xn ) ( θ1 ) ( θ1 ) I(0,θ1 ) (yn ) i=1 I(0,θ1 ) (xi ) donde Yn = máxi {X1 , . . . , Xn }. Se puede ver que el cociente de verosimilitudes es una función monótona no decreciente en la n-ésima estadı́stica de orden, pues ( n θ1 L(θ2 ; x1 , . . . , xn ) si 0 < yn < θ1 θ2 = L(θ1 ; x1 , . . . , xn ) 0 si θ1 < yn < θ2 . Si se desea probar H0 : θ ≤ θ0 vs. Ha : θ > θ0 , usando el teorema de Karlin-Rubin, una prueba uniformemente más potente está dada por: γ : Rechazar H0 si Yn > k, 256 6. Pruebas de hipótesis donde k se puede obtener de α = P (Yn > k | H0 ) , usando la distribución de la máxima estadı́stica de orden. Observación 6.7 Por la observación 6.6, cuando se tiene una densidad que pertenece a la familia exponencial, basta verificar si c (θ) es función creciente o decreciente de θ para saber si el cociente de verosimilitudes es monótono (no Pn decreciente o no creciente, respectivamente) en i=1 d (Xi ) y por el teorema de Karlin-Rubin, se puede dar la forma Pnde la prueba (uniformemente más potente), la cual estará en función de i=1 d (Xi ) , pues esta estadı́stica es suficiente. Ejemplo 6.9 Sea X1 , X2 , ..., Xn una muestra aleatoria de tamaño n = 49 de una población con distribución Bernoulli de parámetro θ y suponga que se desea probar: H0 : θ ≤ 0.01 vs. Ha : θ > 0.01. La distribución Bernoulli pertenece a la familia exponencial x θ 1−x f (x; θ) = θx (1 − θ) = (1 − θ) 1−θ θ x ln( 1−θ ) = (1 − θ) e , con c (θ) = ln θ 1−θ , la cual es una función creciente, por lo que esta Pn familia de densidades tiene cociente de verosimilitudes no decreciente en i=1 Xi . De acuerdo al teorema de Karlin-Rubin, una prueba uniformemente más potente está dada por: γ : Rechazar H0 si 49 X Xi > k. i=1 6.4. La razón de verosimilitudes generalizadas Suponga que se tiene una muestra aleatoria de f (x; θ) con θ ∈ Θ y se desea probar H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 , 6.4. La razón de verosimilitudes generalizadas 257 donde Θ0 ⊆ Θ y Θ1 ⊆ Θ; Θ0 y Θ1 son disjuntos. Usualmente Θ1 = Θ − Θ0 . Por ejemplo, si se tiene una muestra aleatoria de una distribución N (µ, 100) y se desea probar H0 : µ ≤ 75 vs. Ha : µ > 75, aquı́ Θ0 = {µ : µ ≤ 75}, Θ = {µ : −∞ < µ < ∞} y Θ − Θ0 = {µ : µ > 75}. La idea utilizada en el caso simple contra simple y resumida en el lema de Neyman-Pearson, sugiere una generalización en algún sentido del cociente o razón de verosimilitudes, en virtud de que subyace la idea intuitiva de que una cantidad ası́ tenderá a ser pequeña cuando H0 es falsa, no obstante, la pregunta es ¿cómo debe hacerse esa generalización? La respuesta se encuentra en esta sección. 6.4.1. La prueba de la razón de verosimilitudes generalizadas Definición 6.10 (razón de verosimilitudes generalizadas). Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) y sea L(θ; x1 , ..., xn ) la función de verosimilitud, donde θ ∈ Θ. La razón de verosimilitudes generalizadas se define como máx L(θ; x1 , ..., xn ) θ∈Θ0 . λ= máx L(θ; x1 , ..., xn ) θ∈Θ Observe que la expresión tomada en el denominador es el valor máximo que puede alcanzar la verosimilitud L (θ) dentro de Θ que es el campo de variación de θ. Es decir, máx L(θ; x1 , ..., xn ) = L θb , donde θb es el estimador θ∈Θ máximo verosı́mil de θ. Como se está considerando el cociente de dos cantidades no negativas, λ ≥ 0. Como el máximo considerado en el denominador es sobre un conjunto de valores de θ mayor al considerado en el denominador, λ ≤ 1. Por lo tanto, se cumple que 0 ≤ λ ≤ 1. Note también que λ es una función de x1 , ..., xn de modo que cuando las observaciones se sustituyen por X1 , X2 , ..., Xn , se puede escribir Λ en vez de λ. Ası́, el denominador de Λ es la función de verosimilitud evaluada en el estimador máximo verosı́mil, mientras que el numerador dependerá de los valores en Θ0 . En ocasiones Θ0 consiste de un sólo valor (cuando se tiene una hipótesis nula simple H0 : θ = θ0 ) y, en ese caso particular, máx L(θ; x1 , ..., xn ) = L (θ0 ). θ∈Θ0 Prueba de la razón de verosimilitudes generalizadas o principio de la razón de verosimilitudes generalizadas. 258 6. Pruebas de hipótesis Esta prueba establece la siguiente como regla de decisión. “Rechazar H0 : θ ∈ Θ0 si y sólo si λ ≤ k, donde k es alguna constante fija tal que 0 ≤ k ≤ 1”. La constante k se especifica fijando el tamaño de la prueba y Λ es la estadı́stica de prueba. Intuitivamente, la prueba de la razón de verosimilitudes generalizadas tiene sentido, ya que λ tenderá a ser más pequeña cuando H0 es falsa, debido a que el denominador de λ será mayor que el numerador. En general, se tendrán buenas pruebas con este método. El problema puede ser encontrar el máx L(θ) o la distribución de Λ, la cual es indispensable para la evaluación de la potencia de la prueba. Ejemplo 6.10 Sea X1 , ..., Xn una muestra aleatoria de tamaño n > 1 de una distribución N (µ, σ 2 ) con σ 2 > 0. Se quiere probar H0 : µ = 0 vs. Ha : µ 6= 0. En este caso Θ = {(µ, σ 2 ) : −∞ < µ < ∞, 0 < σ 2 < ∞} y Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}. Para θ∈ Θ, L(θ) = L(θ; x1 , ..., xn ) = 1 2πσ 2 n/2 n 1 X exp − 2 (Xi − µ)2 2σ i=1 ! . (6.10) Para θ∈ Θ0 , L(θ) = L(θ; x1 , ..., xn ) = 1 2πσ 2 n/2 n 1 X 2 exp − 2 X 2σ i=1 i A continuación se va a obtener el numerador de λ. Tomando logaritmos en (6.11): ln L(θ) = ∂ ln L(θ) ∂σ 2 = n n 1 X 2 ln 2πσ 2 − 2 X , 2 2σ i=1 i Pn 2 n 1 i=1 Xi − + , 2 σ2 2(σ 2 )2 − ! . (6.11) 259 6.4. La razón de verosimilitudes generalizadas igualando a cero, se obtiene que: n 1X 2 X . σ̂ = n i=1 i 2 Entonces, n/2 máx L(θ) θ∈Θ0 1 = 2π = 2π Pn i=1 Xi2 · exp − Pn Xi2 2 i=1 Xi 2 i=1 n n n/2 n Pn i=1 n X 1 Xi2 e−n/2 . Ahora, se obtendrá el denominador de λ. Se sabe que para la distribución 2 Normal(µ, máximo verosı́miles están dados por µ̂ = X̄ y Pnσ ) los estimadores 1 2 σ̂ = n i=1 (Xi − X̄)2 . Sustituyendo en (6.10): " L(θ) = 2π = #n/2 1 Pn i=1 (Xi −X̄) 2 n n Pn 2π i=1 (Xi − X̄)2 Pn i=1 (Xi − X̄) P n 2 i=1 (Xi −X̄) n 1 exp − 2 n/2 2 ! e−n/2 , la cual es la verosimilitud evaluada en los estimadores máximo verosı́miles. h in/2 n Pn n/2 máx L(θ) Pn e−n/2 2 (Xi − X̄)2 2π i=1 Xi θ∈Θ0 i=1 Pn =h ∴λ= = . in/2 2 máx L(θ) i=1 Xi −n/2 Pn n e θ∈Θ 2 2π (Xi −X̄) i=1 Pero, n X (Xi − X̄)2 = i=1 n X i=1 = n X Xi2 − 2X̄ n X Xi + nX̄ 2 i=1 Xi2 − 2X̄nX̄ + nX̄ 2 = i=1 Pn 2 i=1 Xi Pn n X Xi2 − 2nX̄ 2 + nX̄ 2 . i=1 2 2 Entonces, = i=1 (Xi − X̄) + nX̄ . Por lo tanto, Pn n/2 (Xi − X̄)2 λ = Pn i=1 ≤k ⇔ 2 2 i=1 (Xi − X̄) + nX̄ 1 1+ 2 Pn nX̄ 2 i=1 (Xi −X̄) n/2 ≤ k 260 6. Pruebas de hipótesis √ p nX̄ 2 n|X̄| −2/n q ≥ k ≥ ⇔ ⇔ 1 + Pn k −2/n − 1 Pn 2 2 i=1 (Xi − X̄) (X − X̄) i=1 √ ⇔ q Pn n|X̄| i=1 (Xi −X̄) 2 ≥ q i (n − 1)(k −2/n − 1) = k 0 . n−1 Por lo tanto, la prueba de la razón de verosimilitudes generalizadas establece lo siguiente: √ n|X̄| “Rechazar H0 si q Pn ≥ k 0 ”, 2 i=1 (Xi −X̄) n−1 0 donde k puede obtenerse fijando el tamaño de la prueba α y conociendo la distribución de la estadı́stica de prueba. En este caso: √ nX̄ q Pn i=1 (Xi −X̄) 2 = r P n n−1 X̄ √ σ/ n i=1 (Xi −X̄) σ2 2 2 ∼ t(n−1) , /(n − 1) 2 porque X̄ ∼ N (µ, σn ) y, bajo H0 , X̄ ∼ N (0, σn ). Entonces, y Pn 2 (n − 1)S 2 i=1 (Xi − X̄) = ∼ χ2(n−1) . σ2 σ2 X̄ √ σ/ n ∼ N (0, 1) Ejemplo 6.11 (Comparar medias de 2 muestras normales independientes). Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población con distribución N ormal(µy , σy2 ), donde ambas muestras son independientes y además se desconocen todos los parámetros. Se desea probar H0 : µx = µy vs. Ha : µx 6= µy . El espacio paramétrico general Θ está definido como un espacio de dimensión cuatro, Θ = (µx , µy , σx2 , σy2 ); µx ∈ R, µy ∈ R, σx2 > 0, σy2 > 0 . Bajo la hipótesis nula H0 : µx = µy el espacio paramétrico Θ0 está definido como un espacio de dimensión tres, Θ0 = (µ, σx2 , σy2 ); µ ∈ R, σx2 > 0, σy2 > 0 , donde µ denota la media común bajo H0 , es decir µx = µy = µ. 6.4. La razón de verosimilitudes generalizadas 261 La función de verosimilitud se define como L (θ) = L(µx , µy , σx2 , σy2 ; x, y) "m # Y n 2 Y (xi − µx )2 1 (y − µ ) 1 j y p q exp − exp − = 2 2 2 2σ 2σ 2 2πσ x y 2πσ x j=1 i=1 y ) ( m/2 n/2 m 1 1 1 X 2 = (x − µ ) exp − i x 2πσx2 2σx2 i=1 2πσy2 n 1 X (yj − µy )2 . exp − 2 2σy j=1 Bajo Θ los estimadores P máximo verosı́miles son µ bx = x, µ by = y, σ bx2 = P m n 1 2 2 2 by = n j=1 (yj − y) , ası́ que el supremo de la función i=1 (xi − x) y σ de verosimilitud L bajo Θ es 1 m máx L (θ) θ∈Θ m Pm = 2π i=1 (xi − x)2 m/2 n Pn 2π j=1 (yj − y)2 !n/2 n mo n no exp − exp − . 2 2 Si se define µx y µy igual a µ, que es lo que se supone bajo H0 , serı́a difı́cil maximizar L respecto a µ, σx2 y σy2 , ya que esto equivaldrı́a a encontrar el estimador de µ dado como la raı́z de una ecuación cúbica. Por lo tanto, el cociente de verosimilitudes generalizadas λ serı́a una función complicada en el sentido de encontrar su distribución de probabilidad asociada, lo cual complica encontrar la región crı́tica y el tamaño del error tipo I. Para muestras grandes podrı́an usarse las propiedades asintóticas del cociente de verosimilitudes generalizadas, tal que −2 ln Λ ∼ χ2(1) , y se rechazarı́a H0 cuando −2 ln L sea lo suficientemente grande. Este resultado se analizará en la siguiente sección. Otra alternativa es suponer que las dos poblaciones tienen la misma varianza, σx2 = σy2 = σ 2 , el problema se simplifica, y resulta que Θ = (µx , µy , σ 2 ); µx ∈ R, µy ∈ R, σ 2 > 0 , y bajo H0 : µx = µy = µ se tiene que Θ0 = (µ, σ 2 ); µ ∈ R, σ 2 > 0 . 262 6. Pruebas de hipótesis Además, los estimadores máximo verosı́miles bajo Θ son µ bx = x, µ by = y, y m n X 1 X 2 2 σ b = (xi − x) + (yj − y)2 , m + n i=1 j=1 y por lo tanto, máx L (θ)= θ∈Θ (m+n)/2 2π m+n i Pn 2+ 2 (x − x) (y − y) i j i=1 j=1 hP m m+n exp − . 2 Bajo la hipótesis nula H0 los estimadores máximo verosı́miles son: n m X mx + ny 1 X yj = xi + µ b= m + n i=1 m+n j=1 y σ b2 m n X X (xi − µ̂)2 + (yj − µ̂)2 = 1 m+n = m n X X 1 mn (xi − x)2 + (yj − y)2 + (x − y)2 , m + n i=1 m + n j=1 i=1 j=1 ası́ que el supremo de la función de verosimilitud L bajo Θ0 es: máx L (θ) = θ∈Θ0 2π hP m i=1 (xi − x)2 m+n Pn + j=1 (yj − y)2 + mn m+n (m+n)/2 m+n i ×exp − . 2 (x − y)2 Finalmente, el cociente de verosimilitudes generalizadas es: λ = máxθ∈Θ0 L (θ) máxθ∈Θ L (θ) hP m i (m+n)/2 Pn 2 2 (x − x) + (y − y) i=1 i j=1 j i = hP Pn m 2+ 2 + mn (x − y)2 (x − x) (y − y) i=1 i j=1 j m+n ! −(m+n)/2 mn 2 m+n (x − y) Pn = 1 + Pm , 2 2 i=1 (xi − x) + j=1 (yj − y) 6.4. La razón de verosimilitudes generalizadas 263 lo que implica que la regla de decisión es rechazar H0 al nivel α si λ ≤ λ0 . Note que λ puede definirse en términos de T , donde q mn m+n (x − y) r T = h , i Pm Pn 2+ 2 /(m + n − 2) x) y) (x − (y − i j i=1 j=1 ası́ que −(m+n)/2 λ = 1 + T 2 /(m + n − 2) , además se sabe que T es una variable aleatoria con distribución t de Student con m + n − 2 grados de libertad, es decir, T ∼ t(m+n−2) . Desarrollando la desigualdad se puede llegar a que se rechaza H0 al nivel α si 2 λ −(m+n)/2 ≤ λ0 1 + T /(m + n − 2) ≤ λ0 2 2 1 + T /(m + n − 2) > λ− m+n 2 − m+n 2 T > λ0 − 1 × (m + n − 2) T2 > |T | > λ1 λ2 . Por lo tanto, la prueba resulta en: γ : Rechazar H0 al nivel α si |T | > λ2 = q1−α/2 , donde q1−α/2 es el cuantil 1 − α/2 de una distribución t(m+n−2) . Ejemplo 6.12 (Comparar medias de 2 muestras normales apareadas). Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria bivariada de dos poblaciones con distribución N ormal(µx , σx2 ) y N ormal(µy , σy2 ), donde ambas muestras son independientes, y además se desconocen todos los parámetros. Se desea probar H0 : µx = µy vs. Ha : µx 6= µy . Usualmente esta prueba de hipótesis se plantea como H0 : µx − µy = 0 vs. Ha : µx − µy 6= 0. Se puede resolver de manera sencilla definiendo una nueva variable Z = X−Y . Entonces el problema se simplifica a una muestra aleatoria Z1 , . . . , Zn , 264 6. Pruebas de hipótesis donde Zi = Xi − Yi para i = 1, . . . , n, tal que la muestra aleatoria tiene una distribución N ormal(µz , σz2 ), donde µz = µx − µy y σz2 = σx2 + σy2 . Por lo tanto, el problema de prueba de hipótesis se plantea como H0 : µz = 0 vs. Ha : µz 6= 0, para una población normal con varianza σz2 desconocida. Ejemplo 6.13 (Comparar varianzas de 2 muestras normales independientes). Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población con distribución N ormal(µy , σy2 ), donde ambas muestras son independientes, y además se desconocen todos los parámetros. Se desea probar H0 : σx2 = σy2 vs. Ha : σx2 6= σy2 . Si ambas muestras son independientes se sabe que Pm (Xi − X)2 /σx2 (m − 1) F = Pi=1 n 2 2 j=1 (Yj − Y ) /σy (n − 1) tiene una distribución F de Fisher con m − 1 y n − 1 grados de libertad. En particular, bajo H0 : σx2 = σy2 = σ 2 , entonces la estadı́stica F resulta en Pm (Xi − X)2 /(m − 1) F = Pi=1 . n 2 j=1 (Yj − Y ) /(n − 1) La estadı́stica F puede obtenerse también planteando el cociente de verosimilitudes λ. Note que F tenderá a ser grande cuando σy2 > σx2 , y viceversa. Bajo esta idea, si se considera H0 : σx2 = σy2 contra Ha : σx2 6= σy2 , la prueba es una prueba bilateral, ası́ que se rechazarı́a H0 cuando la estadı́stica de prueba F es muy grande o muy pequeña. Por lo tanto, la prueba resulta en: γ : Rechazar H0 al nivel α si F < qα/2 ó F > q1−α/2 , donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución F(m−1,n−1) , respectivamente. 6.4.2. La distribución asintótica de la razón de verosimilitudes Como se mencionó anteriormente, existen muchos casos en los que es muy difı́cil encontrar la distribución de la razón de verosimilitudes generalizadas. 6.4. La razón de verosimilitudes generalizadas 265 En estas circunstancias será de utilidad el siguiente resultado, el cual establece la distribución asintótica de −2 ln λ. únicamente se hará la demostración para el caso más común, el cual se enuncia en el teorema 6.2. Proposición 6.1 Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) donde θ = (θ1 , ..., θk ). Para la prueba de hipótesis H0 : θ1 = θ1◦ , . . . , θr = θr◦ , θr+1 , . . . , θk , donde θ1◦ , θ2◦ , ..., θr◦ son valores fijos conocidos y θr+1 , ..., θk no están especid ficados, se cumple que −2 ln λ → χ2(r) (converge en distribución) cuando H0 es cierta. Demostración. Ver Stuart, A., Ord, J. K., y Arnold, S. (1999). Note que 1 ≤ r ≤ k; por ejemplo, si r = k, todos los parámetros estarı́an especificados. Como θ = (θ1 , ..., θk ), el espacio paramétrico Θ es kdimensional y como H0 especifica a r de las componentes de θ, la dimensión de Θ0 es k − r. Ası́, los grados de libertad de la distribución asintótica de λ pueden interpretarse de dos formas: como el número de parámetros especificados por H0 , o como la diferencia entre las dimensiones de Θ y Θ0 , la cual es k − (k − r). Teorema 6.2 Para probar las hipótesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , donde θ es un parámetro, suponga que X1 , . . . , Xn es una muestra aleatoria de una población con función de densidad f (x; θ), la cual satisface las condiciones de regularidad, y sea θ̂ el estimador máximo verosı́mil de θ. Entonces bajo H0 , d cuando n → ∞, se cumple que −2 ln λ → χ2(1) (converge en distribución). Demostración. Primero se usan las series de Taylor para la expansión de ln L(θ; x) alrededor de θ̂, ln L(θ; x) = ln L(θ̂; x) + (θ − θ̂)(ln L(θ̂; x))0 + (θ − θ̂)2 (ln L(θ̂; x))00 + · · · , 2! 266 6. Pruebas de hipótesis donde 00 ln L(θ̂; x) = = L0 (θ̂; x) !0 L(θ̂; x) L00 (θ̂; x) − (L0 (θ̂; x))2 (L(θ̂; x))2 0 2 L (θ̂; x) − ln L(θ̂; x) L(θ̂; x) L(θ̂; x) 00 = = L00 (θ̂; x) L(θ̂; x) , pues (ln L(θ̂;x))0 = 0. Sustituyendo la expansión de Taylor para ln L(θ0 ; x) en −2 ln λ(x) = − − 2 ln L(θ0 ; x) L(θ̂; x) = −2 ln L(θ0 ; x) + 2 ln L(θ̂; x) h i = −2 ln L(θ0 ; x) − ln L(θ̂; x) , se obtiene que: " −2 ln λ(x) ≈ = (θ0 − θ̂)2 (ln L(θ̂; x))00 −2 (θ0 − θ̂)(ln L(θ̂; x))0 + 2! " # (θ0 − θ̂)2 00 −2 (ln L(θ̂; x)) 2! # ya que (ln L(θ̂;x))0 = 0. Por lo tanto, −2 ln λ(x) ≈ = −(θ0 − θ̂)2 (ln L(θ̂; x))00 (θ̂ − θ0 )2 1 −(ln L(θ̂;x))00 . Como −(ln L(θ̂; x))00 es la información observada de Fisher, Iˆn (θ̂), y se p tiene que n1 Iˆn (θ̂) → I(θ0 ) (en probabilidad), se concluye por la propiedad de eficiencia asintótica de los estimadores máximo verosı́miles y el teorema de d Slutsky3 que −2 ln λ(x) → χ2(1) (en distribución). 3 Si {X } y {Y } son sucesiones de variables aleatorias, tales que X converge a X en n n n distribución y Yn converge a a en probabilidad, entonces Xn Yn → aX en distribución. 6.4. La razón de verosimilitudes generalizadas 267 Ejemplo 6.14 (Comparar proporciones de dos poblaciones independientes). Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución Bernoulli(θx ), y sea Y1 , . . . , Yn una muestra aleatoria de una población con distribución Bernoulli(θy ), donde ambas muestras son independientes, y además se desconocen todos los parámetros. Se desea probar H0 : θx = θy vs. Ha : θx 6= θy . Esta prueba usualmente se conoce como prueba de comparación de proporciones, y también se puede plantear como H0 : θx = 1 vs. θy Ha : θx 6= 1, θy o como H0 : θx − θy = 0 vs. Ha : θx − θy 6= 0. Para realizar esta prueba se usan las propiedades asintóticas de los estimadores máximo verosı́miles. Se tiene que 1 X ∼ N ormal θx , θx (1 − θx ) m y 1 Y ∼ N ormal θy , θy (1 − θy ) . n Además, como las muestras con independientes 1 1 X − Y ∼ N ormal θx − θy , θx (1 − θx ) + θy (1 − θy ) . m n Bajo H0 : θx = θy = θ, X −Y ∼ ⇒ 1 1 N ormal 0, + θ(1 − θ) m n q 1 m X −Y ∼ N ormal (0, 1) . + n1 θ(1 − θ) El estimador máximo verosı́mil de θ es: Pm Pn xi + j=1 yj mx + ny i=1 θb = = , m+n m+n lo que implica que por propiedades asintóticas de los estimadores máximo verosı́miles, X −Y d q → N ormal (0, 1) . 1 1 b b m + n θ(1 − θ) 268 6. Pruebas de hipótesis Finalmente, para probar H0 : θx = θy vs. Ha : θx 6= θy , se utiliza como estadı́stica de prueba Z=q 1 m x−y b − θ) b + 1 θ(1 n y la prueba es: γ : Rechazar H0 al nivel α si |Z| > q1−α/2 , donde q1−α/2 es el cuantil 1 − α/2 de una distribución normal estándar. Ejemplo 6.15 (Distribución asintótica del cociente de verosimilitudes). Contrastar las hipótesis H0 : µ1 = µ2 , σ12 > 0, σ22 > 0 vs. Ha : µ1 6= µ2 , 2 σ1 > 0, σ22 > 0, donde µ1 y σ12 son la media y varianza de una población normal, y µ2 y σ22 son la media y la varianza de otra población normal. El espacio paramétrico es de k = 4 dimensiones, y en la hipótesis nula se especifica r = 1 parámetros (µ1 = µ2 y −∞ < µ2 < ∞). Ası́ que bajo H0 la distribución asintóntica de −2 ln λ es χ2(1) . 6.5. El valor p (p-value) y las pruebas estadı́sticamente significativas Un enfoque complementario para pruebas de hipótesis es el cálculo de una cantidad llamada p-value, en español es frecuentemente llamado nivel de significancia descriptivo o valor p. Un p-value está definido como la probabilidad, cuando se supone que la hipótesis nula H0 es cierta, de obtener un resultado muestral tan extremo como, ó más extremo que (en dirección análoga a la hipótesis alternativa dentro de la región crı́tica), el resultado muestral observado. Esta probabilidad se puede calcular para los valores de la estadı́stica, o de alguna función de ésta, como el estimador muestral del parámetro en la hipótesis nula. Por ejemplo, suponga que se está probando H0 : µ = 50 vs. Ha : µ > 50, y se observa el resultado muestral para X de 52. El p-value se calcula como P(X ≥ 52|µ = 50). La dirección apropiada aquı́ es de acuerdo a los valores de X que son mayores o iguales que 52, ya que la alternativa es µ mayor que 50. 6.5. El valor p (p-value) 269 Definición 6.11 Sea T (X) una estadı́stica de prueba tal que valores grandes de T dan evidencia a favor de la hipótesis alternativa. Para cada posible valor de X, x = (x1 , x2 , ..., xn ) ∈ X, se define el p-value como p (x) = máx P [T (X) ≥ t (x)] , θ∈Θ0 donde t (x) es el valor de la estadı́stica T (X) en x. La desigualdad dentro de la probabilidad serı́a invertida si valores pequeños de T dan evidencia a favor de la hipótesis alternativa. Un p-value o valor p, p(x), cumple que 0 ≤ p(x) ≤ 1 para cada valor de la muestra x. Valores pequeños de p(x) dan evidencia de que la hipótesis alternativa Ha es verdadera. Es fácil construir una prueba de nivel α basada en p(X). La prueba rechaza la hipótesis nula H0 si y sólo si p(x) ≤ α. Una ventaja de reportar el resultado de una prueba de hipótesis usando el p-value es que cada persona puede elegir el nivel α, llamado el nivel de significancia de la prueba, que considere apropiado, entonces puede comparar el p(x) reportado con α y saber si los datos llevan a aceptar o rechazar H0 . Además, entre más pequeño sea el p-value, mayor evidencia habrá para rechazar H0 . Por consiguiente, un p-value reporta el resultado de una prueba sobre una escala más continua, en lugar de sólo tomar la decisión dicotómica de “aceptar H0 ” o “rechazar H0 ”. Si un p-value es pequeño, se dice que la muestra produjo un resultado que no es usual bajo el supuesto de la hipótesis nula. Como el resultado es un hecho, esto quiere decir que la afirmación de la hipótesis nula es inconsistente con el resultado muestral. En otras palabras, se deberı́a rechazar la hipótesis nula. Por otro lado, si un p-value es grande, el resultado muestral es consistente con la hipótesis nula, y por tanto la hipótesis nula no se rechaza. Si se desea utilizar el p-value para tomar una decisión acerca de si H0 será rechazada, se tiene que seleccionar un valor para α, el nivel de significancia. Si el p-value es menor o igual que α, la decisión es rechazar H0 (la prueba es estadı́sticamente significativa); de otra forma, la decisión es no rechazar H0 . El p-value es por lo tanto el más pequeño nivel de significancia para el cual la hipótesis nula serı́a rechazada. El p-value proporciona no solamente un medio de tomar una decisión acerca de la hipótesis nula, sino también alguna idea acerca de qué tan fuerte es la evidencia en contra de la hipótesis nula. Por ejemplo, suponga que un conjunto de datos A, con una estadı́stica de prueba T1 tiene un p-value de 0.012, mientras el conjunto de datos B con 270 6. Pruebas de hipótesis una estadı́stica de prueba T2 (ó T1 ) tiene un p-value de 0.045. La evidencia en contra de la hipótesis nula es mucho más fuerte para el conjunto de datos A que para el conjunto de datos B porque el resultado muestral observado es mucho menos probable en el conjunto de datos A. Si se utiliza la distribución asintótica de una estadı́stica de prueba para encontrar un p-value, a éste se le puede llamar un p-value aproximado o p-value asintótico. Si una prueba tiene una región de rechazo bilateral (de dos colas), no hay una dirección especı́fica para calcular el p-value. Un enfoque es simplemente reportar el más pequeño de los dos p-values de las colas, indicando que es el de una cola. Si la distribución es simétrica, tiene sentido tomar el doble del p-value para una cola y este criterio es el más utilizado en la práctica. Este procedimiento se usa aún si la distribución no es simétrica. Observación 6.8 Los conceptos y resultados desarrollados en el presente capı́tulo proporcionan una prueba o región crı́tica basada en una estadı́stica, de la cual debe conocerse su distribución para el cálculo de un cuantil asociado con dicha distribución y con el tamaño de la prueba α. Sin embargo, la mayorı́a de los programas de cómputo estadı́stico reportan, en lugar de esta forma tradicional de las pruebas, el denominado p-value recién definido. Tratando al valor particular de la estadı́stica (obtenido con los datos) como un cuantil asociado a la distribución de dicha estadı́stica, se puede hacer un análisis desde otra perspectiva, comparando probabilidades. Esto es, la probabilidad asociada al valor particular de la estadı́stica (basado en los datos) tratado como un cuantil y la probabilidad que representa el valor α. Ası́, una prueba de tamaño α: rechazar H0 basándose en la estadı́stica T (X) , puede expresarse de una manera análoga como “Rechazar H0 si el p-value es menor que α”. Esta probabilidad asociada al valor particular de la estadı́stica corresponde a una función de la probabilidad de que la variable aleatoria que sustenta la prueba sea menor que el valor especı́fico obtenido de la información de la muestra particular. En este contexto, α recibe el nombre de nivel de significancia y se debe comparar con el p-value obtenido, de tal manera que se rechaza H0 si es p-value ≤ α, diciendo en este caso que la prueba es estadı́sticamente significativa. Ejemplo 6.16 Suponga que se desea obtener una prueba uniformemente más potente de tamaño α para una muestra aleatoria de tamaño n de una población con distribución Exponencial con parámetro θ, donde: H0 : θ = θ0 vs. Ha : θ > θ0 . 6.5. El valor p (p-value) 271 De acuerdo al lema de Neyman-Pearson, con θ1 > θ0 , se considera Ha : θ = θ1 , obteniendo: Pn θ0n e−θ0 i=1 xi Pn θ1n e−θ1 i=1 xi n Pn θ0 = e−(θ0 −θ1 ) i=1 xi < k, θ1 λ = de donde se obtiene la región crı́tica ( C∗ = (x1 , x2 , ..., xn ) ∈ X | n X ) xi < c i=1 o, equivalentemente, la prueba es γ : Rechazar H0 si n X xi < c, i=1 donde c corresponde al cuantil de una distribución Gama(n, θ0 ) . La prueba resultante es uniformemente más potente debido a que su forma es la misma para cada posible valor Pnconsistente con la hipótesis alternativa. Sea T (X) = 2θ0 i=1 Xi , note que, bajo H0 , T (X) tiene distribución χ2(2n) . Ası́ que la prueba también puede expresarse como γ : Rechazar H0 si t (x) < χ (α) , donde χ (α) corresponde al cuantil α de una variable aleatoria con distribución χ2(2n) . El p-value se calcula como n Z t 1 1 1 xn−1 e− 2 x dx. p = P (T < t) = Γ (n) 2 0 Ası́, la prueba puede reexpresarse como: γ : Rechazar H0 si p < α. Observe que si t (x) < χ (α) , entonces p < α. Ejemplo 6.17 Sea X1 , X2 , ..., Xn una muestra aleatoria de tamaño n = 49 de una población con distribución Bernoulli de parámetro θ y suponga que se desea probar: H0 : θ ≤ 0.01 vs. Ha : θ > 0.01. 272 6. Pruebas de hipótesis Suponga que la prueba está dada de la siguiente manera: γ : Rechazar H0 si 49 X Xi > c, i=1 prueba que se justifica mediante el teorema de Karlin-Rubin que se aborda en la Sección 6.3.2. P49 Bajo H0 , T (X) = i=1 Xi tiene distribución Binomial con n = 49 y θ = 0.01. Si se desea obtener una prueba de tamaño α = 0.05 o inferior, se puede proceder a buscar c como: ! 49 X P Xi > c | H0 = 0.05 (6.12) i=1 o 49 X 49 t 49−t (0.01) (0.99) = 0.05, t t=c+1 (6.13) P49 donde t = i=1 xi y se desea encontrar c tal que la suma anterior sea de 0.05 (o inferior). Una forma alternativa de pensar el problema es, para diferentes valores de t (x) , encontrar el valor p o p-value correspondiente, como se muestra en la siguiente tabla: P 49 t (x1 , x2 , ..., xn ) P | H X > t (x) 0 i i=1 0 1 2 3 4 0.388883 0.086411 0.013084 0.001480 0.000132 P49 Ası́, si la muestra es tal que t (x) = i=1 xi = 1, el p-value correspondiente P49 es 0.086411, pero si t (x) = i=1 xi = 2, el p-value es de 0.013084. Como se ha establecido que el tamaño de la prueba sea de al menos α = 0.05, es claro que la prueba es estadı́sticamente significativa si T (X) es mayor o igual que 2, ya que con t = 1 el p-value es mayor que α. Por lo tanto, la prueba se puede establecer como γ : Rechazar H0 si 49 X Xi ≥ 2, i=1 o γ : Rechazar H0 si p ≤ 0.013084. 6.5. El valor p (p-value) 273 Observe que en el ejemplo anterior, de haber usado (6.12), que es equivalente a (6.13), se tendrı́a que encontrar el valor de c (de hecho, 1 < c < 2, para el valor exacto α = 0.05), mientras que con el enfoque del p-value se pudo deducir el nivel de significancia mı́nimo para el que se rechaza la hipótesis nula, el cual P49corresponde a cuando el valor de la estadı́stica toma el valor 2 o mayor ( i=1 Xi sólo toma valores enteros). Ejemplo 6.18 (De nuevo la dama del té). Ahora se hará una variante del caso 1 expuesto al inicio de este capı́tulo. Suponga que se consideran 20 personas en el experimento, una de ellas la dama que asegura discriminar entre las dos posibles mezclas -té, leche; leche, té-. A cada participante se le da a probar el contenido de dos tazas con las composiciones en cuestión y resulta que 12 de ellas las identificaron correctamente, pero la dama del té hizo la clasificación de manera incorrecta. Bajo las condiciones adecuadas de aleatoriedad, es decir, cada taza tiene la misma probabilidad de contener cualquiera de las mezclas, no hay comunicación entre los participantes, entre otras; se puede suponer que cada individuo tiene probabilidad 0.5 de identificar correctamente las mezclas adivinando, ası́ que el número esperado de personas que podrı́an acertar sin tener habilidades de discriminación serı́a de 10. Ante la evidencia de los datos, es decir, que 12 personas hayan clasificado correctamente las tasas, se puede pensar que este resultado no es inconsistente con el valor esperado de 10, sin embargo, se calculará a continuación el p-value para analizar mejor este resultado. Suponiendo que la hipótesis nula es que la probabilidad de éxito sea de 21 , la probabilidad de que se obtengan 12 éxitos o más en 20 ensayos Bernoulli es: 20 t 20−t X 20 1 1 t 2 2 t=12 = 20 20 20 20 1 + + ... + 12 13 20 2 = 0.34, de acuerdo a la cual, no hay evidencia basada en los datos de que el número correcto de respuestas haya sido consecuencia de algún poder de discriminación, es decir, el resultado es consistente con la hipótesis de que las personas están adivinando. Dicho de otra manera, los datos son congruentes con la hipótesis nula o la prueba es no significativa. Pero, ¿qué pasa con la dama del té?. Ella asegura que sus habilidades de discriminación no se pueden descartar con un sólo error. A continuación se llevan a cabo algunos cálculos para obtener el p-value, para diferentes valores de n, correspondiente a la probabilidad de cometer uno o ningún error. Ası́, si n = 5, esta probabilidad es de: 274 6. Pruebas de hipótesis 5 0 4 1 1 5 1 1 5 1 + 2 2 4 2 2 5 5 5 5 1 + 5 4 2 = 0.1875, = que es equivalente a 5 o 4 éxitos de un total de n = 5 ensayos. En la siguiente tabla se muestran las probabilidades de cometer uno o ningún error para diferentes valores de n: n p-value 5 0.1875 6 0.1094 7 0.0625 8 0.0352 9 0.0195 10 0.0107 11 0.0059 12 0.0032 13 0.0017 14 0.0009 15 0.0002 Note la diferencia entre los distintos valores. Por ejemplo, si n = 5, uno o ningún error serı́a consistente con la hipótesis nula, pero si n = 11, no. Observación 6.9 En el ejemplo anterior, y de manera general, el p-value es una función decreciente del tamaño de la muestra, de tal manera que cuando se tiene un tamaño de muestra grande, es más plausible que una prueba sea estadı́sticamente significativa que cuando se cuenta con un tamaño pequeño de muestra. Esto lleva a la conclusión de que hay que tener cuidado con la interpretación que se le da al p-value, de tal manera que lo recomendable es considerarlo de manera conjunta con otros aspectos del estudio que se esté llevando a cabo o en el contexto cientı́fico del fenómeno analizado. Para una mayor discusión al respecto, se recomienda consultar Berger y Sellke (1987) y Schervish (1996). Observación 6.10 Para calcular el p-value correspondiente a una región de rechazo bilateral, se obtiene como: p(x) = 2 mı́n {P[T (X) ≥ t(x)] , P[T (X) ≤ t(x)]} . 6.6. Algunas pruebas basadas en razón de verosimilitudes 6.6. 275 Algunas pruebas basadas en la razón de verosimilitudes generalizadas Las pruebas basadas en el cociente o razón de verosimilitudes generalizadas, ası́ como aquéllas que usan su distribución asintótica Ji-cuadrada, se utilizan ampliamente en las diferentes ramas de la estadı́stica. Por ejemplo, hay una conexión interesante entre estas pruebas y el llamado criterio de información de Akaike o AIC para comparar modelos con diferente número de parámetros. Esto puede plantearse de manera general como un modelo cuyo vector de parámetros pertenece al espacio paramétrico Θ y otro tal que pertenece a Θ0 ⊂ Θ y donde la diferencia entre las dimensiones de ambos es r. Bajo H0 , máx L(θ; x1 , ..., xn ) −2 ln θ∈Θ0 máx L(θ; x1 , ..., xn ) θ∈Θ máx L(θ; x1 , ..., xn ) = 2 ln θ∈Θ máx L(θ; x1 , ..., xn ) (6.14) θ∈Θ0 tiene una distribución asintótica χ2(r) . A partir de (6.14) y, usando el hecho de que la esperanza de una variable aleatoria con distribución Ji-cuadrada es igual a sus grados de libertad, se obtiene que r E ln máx L(θ; x1 , ..., xn ) − ln máx L(θ; x1 , ..., xn ) = , θ∈Θ θ∈Θ0 2 lo que sugiere que aún cuando H0 es cierta, la verosimilitud del modelo alternativo será en promedio 2r unidades mayor, donde r es la diferencia de dimensión entre ambos espacios paramétricos. La idea es rectificar o penalizar el incremento de verosimilitud que se produce por el hecho de ajustar un mayor número de parámetros. La expresión 2 ln L(θbM V ; x1 , ..., xn ) − 2r, se conoce como el criterio de Akaike y discrimina más a favor de modelos simples al restar 2r a la verosimilitud con más parámetros. Otra aplicación de relevancia de las pruebas basadas en la razón de verosimilitudes generalizadas es en las llamadas pruebas de bondad de ajuste, las cuales pueden entenderse como los métodos que examinan qué tan de acuerdo está una muestra de datos con una distribución dada como su población. Como ilustración, suponga que se tiene información estadı́stica de 200 pólizas de automóviles registradas en el 2017 en el estado de Puebla y se requiere determinar la distribución asociada a la frecuencia de la siniestralidad. Dado que la frecuencia está relacionada a conteos, un actuario planea 276 6. Pruebas de hipótesis probar si la frecuencia de la siniestralidad tiene una distribución Poisson contra la hipótesis de que no tiene dicha distribución. En el caso paramétrico que se ha analizado a lo largo de este texto, la ley de probabilidad usualmente está especificada e involucra solamente un número finito de parámetros. Por el contrario, en el caso no paramétrico, la ley de probabilidad no está especificada y el espacio paramétrico es el espacio de todas las distribuciones (o algún subespacio apropiado de este). De esta forma, en el caso no paramétrico la formulación básica del problema frecuentemente requiere un enfoque diferente. Hay diferentes pruebas no paramétricas, pero a manera de ejemplo y para ilustrar la importancia de la prueba de la razón de verosimilitudes generalizadas y su distribución asintótica, se presenta a continuación el caso de la Ji-cuadrada para bondad de ajuste y el de la independencia en tablas de contingencia. 6.6.1. Prueba Ji-cuadrada para bondad de ajuste Karl Pearson introdujo la familia de distribuciones asimétricas como una alternativa a la distribución normal, siendo una de sus principales contribuciones en el contexto de sus estudios relacionados con la teorı́a de la evolución 4 . En 1900,5 Pearson propuso una medida del ajuste entre una distribución de probabilidad y una muestra, obteniendo la prueba de la Ji-cuadrada. Esta prueba sigue siendo uno de los procedimientos estadı́sticos más conocidos y utilizados en la práctica y se desarrolla como una aplicación de la prueba de la razón de verosimilitudes generalizadas y su distribución asintótica que se revisaron en la sección 6.4. En su forma más simple, se tienen k celdas, en cada una de las cuales debe caer el resultado de un experimento. Sea pi , i = 1, 2, ..., k, la probabilidad de que el experimento produzca un resultado que caiga en la i -ésima celda y sea ni , i = 1, 2, ..., k, elP número de veces que el resultado cae en la i-ésima k celda en un total de n = i=1 ni realizaciones del experimento. En resumen, se tiene el siguiente esquema: Celda i Número de observaciones en la celda i Probabilidad de que el resultado esté en la celda i 1 n1 p1 2 n2 p2 3 n3 p3 ··· ··· ··· k nk pk 4 Contributions to the mathematical theory of evolution (I a IV) en Philosophical Transactions of the Royal Society of London. 5 Pearson, K. (1900). “On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling,” Philosophical Magazine 5 th series, 50, 157-175. 6.6. Algunas pruebas basadas en razón de verosimilitudes 277 Donde se cumple que: k X ni = n y i=1 k X pi = 1. i=1 Considerando cada celda por separado, cada vez que el resultado caiga en dicha celda puede pensarse en un éxito y después de efectuar las n repeticiones del experimento, sólo es relevante el total de veces que el resultado cayó en la celda. Lo anterior, sugiere asociar una distribución binomial para cada celda, siendo pi la probabilidad de éxito en un sólo ensayo del experimento y, como se efectúan n de tales ensayos, el número esperado de éxitos para la i-ésima celda será la esperanza de la correspondiente variable binomial, es decir npi . Ası́, para cada una de las celdas se tendrı́a que: oi ei n1 np1 n2 np2 . . . . . . nk npk , donde oi representa las frecuencias observadas y ei representa las frecuencias esperadas en un total de n realizaciones del experimento. En este contexto, es posible plantear el problema de bondad de ajuste mediante la siguiente pregunta: ¿cómo se puede determinar si un conjunto de resultados experimentales es compatible con los resultados esperados de acuerdo con las probabilidades que fueron postuladas para las celdas? Formalmente, se desea probar la hipótesis: H0 : pi = πi , i = 1, 2, ..., k; donde las πi0 s son los valores postulados de las probabilidades de las celdas. Ésta es una hipótesis simple; sin embargo, y debido a que ordinariamente no se tiene una hipótesis alternativa en mente, se emplea aquı́ una prueba de razón de verosimilitudes generalizadas. La función de verosimilitud (o densidad conjunta de la muestra), para una variable aleatoria discreta es la probabilidad de obtener los valores muestrales observados en el orden en el cual fueron obtenidos, es decir: L (θ) ≡ L (θ | n1 , n2 , ..., nk ) = pn1 1 pn2 2 pn3 3 ...pknk , donde θ = (p1 , p2 , . . . , pk ). Pk Como i=1 pi = 1, solamente k−1 de las pi ’s son parámetros independientes; por lo tanto, para encontrar estimadores máximo verosı́miles de las pi ’s, Plos k−1 se reemplazará pk por 1 − i=1 pi , quedando: L (θ) = nk−1 pn1 1 pn2 2 pn3 3 ...pk−1 1− k−1 X i=1 !nk pi . 278 6. Pruebas de hipótesis La log-verosimilitud está dada por: = ln L (θ) n1 ln p1 + n2 ln p2 + ... + nk−1 ln pk−1 + nk ln 1 − k−1 X ! pi i=1 = k−1 X ni ln pi + nk ln 1 − i=1 k−1 X ! pi . i=1 Derivando con respecto a pi e igualando a cero, se obtiene: ni nk ∂ ln L (θ) = − Pk−1 = 0, i = 1, 2, ..., k − 1 ∂pi pi 1 − i=1 pi nk ni = , i = 1, 2, ..., k pi pk ⇒ ni pk = nk pi , i = 1, 2, ..., k ⇒ Sumando las k igualdades se tiene que: pk k X ni = nk i=1 donde Pk i=1 ni = n y Pk i=1 k X pi , i=1 pi = 1, implicando que: p k n = nk , por lo tanto nk . n Este resultado puede generalizarse a las demás pi ’s como: ni pbi = , i = 1, 2, ..., k. n Bajo la hipótesis nula: L (θ) = π1n1 π2n2 ...πknk , pbk = la cual no tiene parámetros desconocidos, por lo que el cociente de verosimilitudes generalizadas resulta ser: λ máxθ∈Θ0 L (θ) máxθ∈Θ L (θ) π1n1 π2n2 ...πknk n = n1 n1 n2 n2 ... nnk k n n n n n nπ1 1 nπ2 2 nπk k = ... , n1 n2 nk = 6.6. Algunas pruebas basadas en razón de verosimilitudes 279 donde cada ni tiene distribución Binomial(n, pi ) . Encontrar la distribución de λ es complicado, ası́ que se puede utilizar la distribución asintótica de -2 ln λ como una Ji-cuadrada con grados de libertad igual a la diferencia en el número de parámetros independientes no especificados bajo Θ y Θ0 , en este caso, k − 1. Entonces la prueba se reduce a considerar: k X nπi , −2 ln λ = −2 ni ln ni i=1 como una variable aleatoria con distribución Ji-cuadrada con k − 1 grados de libertad y la región crı́tica queda determinada por: λ ≤ λ0 , si y sólo si ln λ ≤ ln λ0 , si y sólo si −2 ln λ ≥ −2 ln λ0 = c, donde −2 ln λ = −2 k X nπi ni πi ni /n ni ln i=1 = −2 k X ni ln i=1 = −2 k X ni . ni ln πi − ln n i=1 (6.15) Por lo tanto, la región crı́tica es: C = {−2 ln λ ≥ c} , o ( C = −2 k X ni i=1 ) ni ln πi − ln ≥c , n donde c es tal que P [−2 ln λ ≥ c | H0 ] = α. Karl Pearson propuso la siguiente expresión como estadı́stica de prueba para el problema de bondad de ajuste: T = k 2 X (ni − ei ) i=1 ei , (6.16) 280 6. Pruebas de hipótesis donde ei representa el valor esperado en la celda i, es decir npi y, bajo Ho, ei = nπi . A continuación se demostrará que la expresión para −2 ln λ dada en (6.15) es asintóticamente equivalente a (6.16). La expansión en series de Taylor para ln pi alrededor de pbi = nni es: 2 1 1 (pi − pbi ) ln pi = ln pbi + (pi − pbi ) + − 2 +ε pbi 2! pbi 2 2 n pi − ni ni n n ni + pi − = ln − + ε, n n ni 2 ni o ni ni n n i 2 n 2 ln pi − ln = pi − + ε, (6.17) − pi − n n ni n 2n2i donde ε representa la suma de términos con signo alternante: ∞ X ni j nj j+1 . (−1) pi − n j!nji j=3 Bajo H0 , pi = πi , ası́ que sustituyendo (6.17) en (6.15), se obtiene que: −2 ln λ = = = k X ni ni ln πi − ln n i=1 k X ni n n i 2 n 2 ni p i − −2 − pi − + ε n ni n 2n2i i=1 −2 −2 k X (nπi − ni ) + i=1 k 2 X (nπi − ni ) ni i=1 + k X ε0 , (6.18) i=1 donde k X (nπi − ni ) = n i=1 k X i=1 πi − k X ni = n − n = 0, i=1 por lo que (6.18) se reduce a −2 ln λ = k 2 X (nπi − ni ) i=1 ni + ε00 , (6.19) y ε00 → 0 cuando n → ∞, con probabilidad 1. (6.19) también puede escribirse como: k 2 X (ni − nπi ) −2 ln λ = , (6.20) ni i=1 6.6. Algunas pruebas basadas en razón de verosimilitudes 281 expresión que, bajo la hipótesis nula pi = πi , es muy similar a (6.16), excepto por el denominador, pues ei = nπi . Por la Ley Débil de los Grandes Números se sabe que la variable aleatoria ni converge en probabilidad a pi , es decir: n h n i i lı́m P − pi > ε = 0, para toda ε > 0, n→∞ n lo cual es equivalente a: 1 lı́m P (|ni − npi | > ε) = 0, para toda ε > 0 n→∞ n o lı́m n→∞ 1 P (|ni − npi | < ε) = 1, para toda ε > 0, n concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que bajo la hipótesis nula, (6.20) se puede escribir como −2 ln λ = k 2 X (ni − nπi ) i=1 nπi , que es igual a la estadı́stica T dada por (6.16). Como la distribución asintótica de −2 ln λ es Ji-cuadrada con k−1 grados de libertad, se concluye que la estadı́stica T tiene esa distribución. Ejemplo 6.19 Se lanza un dado 60 veces, obteniéndose las siguientes frecuencias por cara: oi 1 13 n1 2 19 n2 3 11 n3 4 8 n4 5 5 n5 6 4 n6 n = 60 Se quiere probar si el dado es honesto, esto es, si pi denota la probabilidad de que caiga la cara i (con i puntos), se plantea: H0 : pi = 1 , i = 1, 2, ..., 6. 6 Como la probabilidad asignada a cada cara del dado es la misma, la frecuencia esperada es la misma también para todas las celdas, esto es: ei = nπi = (60) 61 = 10. Entonces: oi ei 1 13 10 2 19 10 3 11 10 4 8 10 5 5 10 6 4 10 282 6. Pruebas de hipótesis Calculando la estadı́stica de prueba: T = k 2 X (oi − ei ) i=1 ei 1 1 1 1 2 2 2 2 (13 − 10) + (19 − 10) + (11 − 10) + (8 − 10) 10 10 10 10 1 1 2 2 + (5 − 10) + (4 − 10) 10 10 = 15.6 = Como k = 6, los grados de libertad de la distribución de la estadı́stica de prueba son k − 1 = 5 . Por lo tanto, si la prueba tiene un nivel de significancia de α = 0.05, se obtiene el cuantil 0.95 de una distribución χ2(5) que es ω0.95 = 11.1. Como T = 15.6 > 11.1 = ω0.95 , se rechaza H0 y por lo tanto el dado no se considera honesto. Nota: en este problema el p − value es 0.008084. Lo anterior se confirma en R bajo los siguientes comandos: > x < -c(13,19,11,8,5,4) > chifit < -chisq.test(x) > chifit que da como resultado: Chi-squared test for given probabilities data: x X-squared = 15.6, df = 5, p-value = 0.008084 lo cual confirma los resultados previos. Ejemplo 6.20 La siguiente es una muestra aleatoria de tamaño n = 20, después de ser ordenadas de menor a mayor las observaciones: 16.7 17.4 18.1 18.2 18.8 19.3 22.4 22.5 24.0 24.7 25.9 27.0 35.1 35.8 36.5 37.6 39.8 42.1 43.2 46.2 Se desea probar: H0 : La muestra representa observaciones de una variable aleatoria distribuı́da normalmente con µ = 30 y σ 2 = 100 vs. Ha : La distribución es otra. 6.6. Algunas pruebas basadas en razón de verosimilitudes 283 Se formarán arbitrariamente cuatro clases con igual probabilidad asignada, por lo que se especificarán cuatro clases de la distribución N (30, 100) a partir de los cuantiles de la distribución N (0, 1) . Sean zp los cuantiles de la distribución N (0, 1), entonces como se desean cuatro clases con la misma probabilidad, lo que se necesitan son los cuartiles, es decir, z0.25 , z0.50 y z0.75 : z0.25 = −0.6745 , z0.50 = 0 , z0.75 = 0.6745. ∼ N (0, 1) y por lo tanto, X = Si X ∼ N (30, 100), entonces Z = X−30 10 10Z + 30. Ası́, los cuartiles de una distribución N (30, 100) son: x0.25 = 10 (−0.6745) + 30 = 23.225, x0.50 = 10 (0) + 30 = 30, x0.75 = 10 (0.6745) + 30 = 36.745. La clase 1 contiene todas las observaciones menores o iguales a 23.26, la clase 2 contiene a todas las observaciones entre 23.26 y 30 inclusive y ası́ sucesivamente. En resumen: oi ei clase 1 (−∞, 23.26] 8 5 clase 2 (23.26, 30] 4 5 clase 3 (30, 36.75] 3 5 clase 4 (36.75, ∞) 5 5 Las frecuencias esperadas son iguales ya que la p0i s arbitrariamente se toman iguales: 1 ei = npi = 20 = 5, i = 1, 2, 3, 4. 4 Como k = 4 , los grados de libertad de la Ji-cuadrada son k − 1 = 3 y el cuantil 1 − α = 0.95 de una distribución χ2(3) es ω0.95 = 7.815. Por su parte, el valor de la estadı́stica de prueba es: T = 4 2 X (oi − ei ) i=1 = ei = 1 2 2 2 2 (8 − 5) + (4 − 5) + (3 − 5) + (5 − 5) 5 2.8. Como 2.8 < 7.815 no se rechaza H0 y se confirma que los datos presentados se distribuyen N (30, 100) . Nota: en este caso el p − value es 0.5765. Ejemplo 6.21 Un manufacturador de elevadores fundamenta sus estándares de seguridad en el principio de que los pesos de los adultos se distribuyen 284 6. Pruebas de hipótesis normalmente con una media de 62 kg. y una desviación estándar de 11 kg., es decir, N (62, 121). Sin embargo, recientemente notó que esta información es de hace 45 años. Naturalmente su departamento R&D desea saber si esta distribución de pesos es todavı́a apropiada; ya que si la distribución ha cambiado, debe hacer una revisión en la recomendación para el máximo número de personas permitidas en sus elevadores. Hipótesis: la preocupación del departamento R&D es si ha habido un cambio en la distribución de los pesos de la población adulta. De esta forma, la hipótesis alternativa relevante para ellos es que la distribución de pesos no es normal con µ = 62 kg y σ ≤ 11 kg. H0 : La muestra proviene de una distribución normal con media 62 y desviación estándar 11. vs. Ha : La muestra no proviene de una distribución normal con media 62 y desviación estándar 11. En el muestreo actual, el equipo R&D muestreó a 500 adultos. Sin embargo, para propósito de ilustrar la prueba de la Ji-cuadrada, se usarán solamente 50 de estos pesos. Los pesos (en kilogramos) fueron: 72.2 85.1 73.1 62.2 68.8 64.0 66.6 39.3 76.0 65.3 53.4 80.4 52.8 70.5 71.9 76.8 76.0 54.2 48.9 72.2 86.3 68.8 65.3 78.0 63.2 58.1 76.8 74.0 66.6 72.2 63.2 58.9 63.2 58.1 70.5 73.1 58.1 64.7 32.5 80.4 78.0 74.9 68.8 63.2 45.4 44.3 72.2 85.1 64.0 59.6 Primero se agrupan estos datos en intervalos (que se eligen arbitrariamente, en este caso serán de 5 kg de amplitud) para hacer la tabla de frecuencias observadas: Intervalo menor que 40 kg 40-49.9 kg 50-54.9 kg 55-59.9 kg 60-64.9 kg 65-69.9 kg 70-74.9 kg 75-79.9 kg 80-89.9 kg 90 kg o más Frecuencia 2 3 3 5 8 7 11 6 5 0 Con base en la suposición de que la hipótesis nula es cierta, es decir, los datos son de la distribución N (62, 121), se calcula la frecuencia esperada por 6.6. Algunas pruebas basadas en razón de verosimilitudes 285 intervalo, para esto primero se obtiene la probabilidad para cada intervalo y luego se multiplica por el tamaño de la muestra 50. Usando la relación 0 = X−62 Z = X−µ σ 11 , se calcularán los pi s de la distribución normal estándar: Intervalo Ext. izq. del intervalo x < 40 40-49.9 50-54.9 55-59.9 60-64.9 65-69.9 70-74.9 75-79.9 80-89.9 ≥ 90 40 50 55 60 65 70 75 80 90 z= x−62 11 -2.00 -1.09 -0.64 -0.18 0.27 0.73 1.18 1.64 2.55 Φ (x) Proporción esperada en el interv. 0.0228 0.1379 0.2611 0.4286 0.6064 0.7673 0.8810 0.9495 0.9946 0.0228 0.1151 0.1232 0.1675 0.1778 0.1609 0.1137 0.0685 0.0451 0.0054 Frecuencia esperada en el interv. 50 × 0.0228 = 1.140 5.755 6.160 8.375 8.890 8.045 5.685 3.425 2.255 0.270 Como puede apreciarse, hay que unir los dos últimos intervalos ya que la frecuencia esperada en el último intervalo es menor que uno: Intervalo menor que 40 kg 40-49.9 kg 50-54.9 kg 55-59.9 kg 60-64.9 kg 65-69.9 kg 70-74.9 kg 75-79.9 kg ≥ 80 Observados 2 3 3 5 8 7 11 6 5 Esperados 1.140 5.755 6.160 8.375 8.890 8.045 5.685 3.425 2.525 Por lo tanto, T = 14.429 es el valor de la estadı́stica de prueba. Por otro lado, como k = 9 celdas, los grados de libertad de la distribución Ji-cuadrada son k − 1 = 8, de donde el cuantil 0.95 de esta distribución es 15.5. Ası́, el valor de la estadı́stica de prueba es menor que dicho cuantil, por lo que, al nivel de significancia α = 0.05, no se rechaza la hipótesis nula. El p− value es 0.07124. Observación 6.11 Si los valores esperados ei = npi son pequeños, la distribución Ji-cuadrada asintótica puede no ser apropiada. ¿Qué tan pequeños pueden ser los valores de ei ? No hay una regla exacta, pero existen varias 286 6. Pruebas de hipótesis sugerencias que se han propuesto en la literatura, una de las más conocidas y utilizadas es la siguiente: Ninguno de los valores esperados ei debe ser menor que 1. No más del 20 % de los valores esperados ei debe ser menor que 5. En este sentido, en caso de que estas condiciones se cumplan, se deben unir celdas adyacentes y recalcular los valores observados y esperados. Observación 6.12 Si la distribución de probabilidad de X está completamente especificada, excepto para un número c de parámetros desconocidos, primero será necesario estimar los parámetros (usando los métodos estudiados en al capı́tulo de estimación puntual, preferentemente máxima verosimilitud), y después se realizará la prueba de bondad de ajuste. En este caso, la distribución de la estadı́stica de prueba T será χ2k−1−c , es decir, los grados de libertad son k −1−c, restando c grados de libertad debido a los c parámetros estimados. 6.6.2. La prueba de independencia en tablas de contingencia Otra aplicación de la prueba de la razón (o cociente) de verosimilitudes generalizadas es la siguiente: considere el problema de probar si dos variables, que han sido clasificadas por medio de un arreglo de dos entradas, son independientes. Por ejemplo, los datos para este arreglo se obtuvieron de una muestra aleatoria de 300 estudiantes, quienes se clasificaron con respecto a: (1) El tamaño de la escuela preparatoria de la cual se graduaron y (2), a su promedio en el primer año de estudios profesionales. El problema es probar si existe alguna relación entre estas dos variables. Preparatoria Promedio ≥5 <5 Pequeña 18 42 Mediana 51 79 Grande 46 64 Este tipo de tabla es conocida como una tabla de contingencia. Las entradas en las celdas para estos datos son frecuencias o conteos en lugar de medidas continuas, aunque los datos continuos frecuentemente se pueden poner en forma discreta usando intervalos sobre una escala discreta. La edad, por ejemplo, es una variable continua, pero si la gente se clasifica en diferentes grupos de edad, los intervalos correspondientes a estos grupos pueden ser tratados como si fueran unidades discretas. 6.6. Algunas pruebas basadas en razón de verosimilitudes 287 Como la tabla anterior involucra solamente dos variables, a este tipo de arreglos se le conoce como una tabla de contingencia de dos dimensiones. Es posible clasificar a los miembros de una población de muchas formas. Por ejemplo, las personas se pueden dividir en hombres y mujeres, casados o solteros, los que son elegibles para votar y los que no, y ası́ sucesivamente. Estos son ejemplos de clasificaciones dicotómicas, no obstante, puede haber más de dos categorı́as. Las tablas en tres dimensiones y más surgen cuando una muestra se clasifica con respecto a más de dos variables cualitativas. Lo que es importante es que las categorı́as en las que se clasifique a los individuos sean exhaustivas y mutuamente excluyentes. Una clasificación es exhaustiva cuando proporciona suficientes categorı́as para acomodar a todos los miembros de la población. Las categorı́as son mutuamente excluyentes cuando están definidas de tal manera que cada miembro de la población puede ser asignado correctamente a una y sólo una categorı́a. Por ejemplo, en la siguiente tabla se presenta una muestra de 5375 muertes por tuberculosis, clasificadas con respecto a dos variables cualitativas: sexo y tipo de tuberculosis que causó la muerte (note que las categorı́as de estas variables como están dadas en la tabla son ambas exhaustivas y mutuamente excluyentes): Tuberculosis del sistema respiratorio Otras formas de tuberculosis Tuberculosis (todas las formas) Hombres 3534 270 Mujeres 1319 252 Total 4853 522 3804 1571 5375 Para una versión general de una una tabla de contingencia de dos dimensiones, suponga que la clasificación usa r renglones y c columnas, y sea Pij la probabilidad de que un individuo elegido al azar de la población bajo consideración, caerá en la celda correspondiente al i− ésimo renglón y j − ésima columna. Además, sea: Pi• = c X Pij la probabilidad de estar en el i − ésimo renglón j=1 y P•j = r X Pij la probabilidad de estar en la j − ésima columna. i=1 Al igual que en la prueba de la Ji-cuadrada para bondad de ajuste, se tiene la condición: 288 6. Pruebas de hipótesis r X c X Pij = 1 ⇔ i=1 j=1 r X c X Pi• = 1 y i=1 P•j = 1. j=1 El siguiente arreglo muestra una tabla de contingencia de r×c con r renglones y c columnas (r y c categorı́as respectivamente para cada una de las variables involucradas). 1 2 . . . r 1 P11 P21 . . . P Pr1r i=1 Pi1 = P•1 2 P12 P22 . . . P Pr2r . . . . . . . . . . . i=1 Pi2 = P•2 . . . . . . . c P1c P2c . . . P Prcr Pc P1j = P1• Pj=1 c j=1 P2j = P2• . . .P c j=1 Prj = Pr• i=1 Pic = P•c Sea nij la frecuencia observada en la celda (i, j), entonces, si se tienen n observaciones en total: r X c X nij = n i=1 j=1 y los totales marginales por renglón o columna se pueden escribir como: r X nij = n•j , i=1 c X nij = ni• . j=1 El problema de probar si las dos variables clasificadas son independientes puede plantearse como: H0 : Pij = Pi• P•j i = 1, 2, ..., r ; j = 1, 2, ..., c. La función de verosimilitud es como la que se vio en la sección anterior para la prueba Ji-cuadrada de bondad de ajuste, pero se debe considerar un doble producto: r Y c Y n L (θ) = Pijij . (6.21) i=1 j=1 Cuando H0 es verdadera: L (θ) = r Y c Y i=1 j=1 nij (Pi• P•j ) . (6.22) 289 6.6. Algunas pruebas basadas en razón de verosimilitudes En las expresiones anteriores todos los parámetros que aparecen son desconocidos: Pij , Pi• y P•j i = 1, 2, ..., r ; j = 1, 2, ..., c; por lo que los valores esperados (o frecuencia esperada) para cada celda (i, j) eij = nPij = nPi• P•j (bajo H0 ) necesarios para la prueba, son desconocidos, por lo que se reemplazarán por sus estimadores máximo verosı́miles correspondientes. Para encontrar el máximo de la función dada en (6.22) de estas dos últimas expresiones, observe que: Pr• = 1 − r−1 X Pi• y P•c = 1 − c−1 X i=1 P•j , (6.23) j=1 entonces (bajo H0 ): L (θ) = c r Y Y nij (Pi• P•j ) = = nij (Pi• ) (P•j ) nij i=1 j=1 i=1 j=1 r Y r Y c Y ! ni• Pi• c Y i=1 n P•j•j . j=1 De esta forma: ln L (θ) = r X ni• ln Pi• + i=1 = r−1 X c X n•j ln P•j j=1 ni• ln Pi• + nr• ln Pr• + i=1 c−1 X n•j ln P•j + n•c ln P•c j=1 Sustituyendo ln Pr• y ln P•c de (6.23), se obtiene: ln L (ω) = r−1 X i=1 ni• ln Pi• +nr• ln 1 − r−1 X ! Pi• + i=1 c−1 X n•j ln P•j +n•c ln 1 − j=1 c−1 X P•j . j=1 Entonces para cada i y cada j fijas, ∂ ln L (ω) 1 (−1) = ni• + nr• =0 Pr−1 ∂Pi• Pi• 1 − i=1 Pi• (6.24) 290 6. Pruebas de hipótesis ∂ ln L (ω) 1 (−1) =0 = n•j + n•c Pc−1 ∂P•j P•j 1 − j=1 P•j de (6.24): ni• nr• = ⇒ ni• Pbr• = nr• Pi• i = 1, 2, ..., r Pi• Pr• entonces Pbr• r X ni• = nr• i=1 donde r P (6.25) ni• = n y i=1 r P r X Pi• , i=1 Pi• = 1. i=1 Por lo tanto: nr• Pbr• = , n y de (6.25), n•j n•c = ⇒ n•j Pb•c = n•c P•j j = 1, 2, ..., c P•j P•c lo cual implica que: Pb•c c X n•j = n•c j=1 c X P•j , j=1 Pc Pc donde j=1 n•j = n y j=1 P•j = 1. Por lo tanto: n•c . Pb•c = n El desarrollo es válido para cualquier i = 1, 2, ..., r y j = 1, 2, ..., c, por lo que: n•j ni• Pbi• = y Pb•j = . n n En consecuencia, la función de verosimiltud maximizada en el espacio paramétrico definido por H0 es: máx L (θ) = θ∈Θ0 r c Y ni• ni• Y n•j n•j . n n i=1 j=1 (6.26) Ahora, la función de verosimilitud en todo el espacio paramétrico es: L (θ) = r Y c Y i=1 j=1 n Pijij 6.6. Algunas pruebas basadas en razón de verosimilitudes y ln L (θ) = r X c X nij ln Pij . i=1 j=1 De la hipótesis inicial, se puede escribir: r X c X Pij = 1 , i=1 j=1 lo que implica que Prc = 1 − c X r−1 X Pij + c−1 X Prj . j=1 j=1 i=1 Por lo tanto: ln L (Θ) = r−1 c X X nij ln Pij + c X r−1 X nrj ln Prj + nrc ln Prc j=1 j=1 i=1 = c−1 X nij ln Pij + j=1 i=1 c−1 X nrj ln Prj + j=1 c X r−1 c−1 X X nrc ln 1 − Pij + Prj . j=1 i=1 j=1 Derivando con respecto a Pij se obtiene que: ∂ ln L (Θ) nij (−1) nrc = 0, P = + Pc−1 Pr−1 c ∂Pij Pij P 1− P + rj ij j=1 i=1 j=1 entonces nij nrc = , Pij Pbrc de donde nij Pbrc = nrc Pij Como: r X c X i=1 j=1 i = 1, 2, ..., r y j = 1, 2, ..., c. Pij = 1 y r X c X i=1 j=1 nij = n, 291 292 6. Pruebas de hipótesis se tiene que: Pbrc r X c X nij = nrc i=1 j=1 r X c X nrc . Pij ⇒ Pbrc = n i=1 j=1 Al igual que antes, el argumento es válido para cualquier i y j, por lo tanto: nij i = 1, 2, ..., r y j = 1, 2, ..., c. Pbij = n Ası́, la función de verosimilitud maximizada en todo el espacio paramétrico queda de la siguiente manera: máx L (θ) = θ∈Θ c r Y Y nij nij i=1 j=1 n . Finalmente, la razón o cociente de verosimilitudes generalizadas es: Qr n•j n•j ni• ni• Qc máxθ∈Θ0 L (θ) i=1 j=1 n n = λ= ≤ λ0 . Qr Qc nij nij máxθ∈Θ L (θ) i=1 j=1 n Donde se debe obtener la distribución de λ, por lo que se usa el criterio asintótico de la razón de verosimilitudes: −2 ln λ ∼ χ2(ν) , donde ν se determina como k−1−s donde k es el número total de parámetros y s es el número de parámetros independientes (o estimados), en este caso como r X c X Pij = 1, i=1 j=1 es equivalente a r X i=1 Pi• = 1 y c X P•j = 1, j=1 de donde por (6.23) hay r + c − 2 parámetros independientes, por lo tanto: ν = k − 1 − s = rc − 1 − (r + c − 2) = (r − 1) (c − 1) . La regla de decisión es, entonces: Rechazar H0 al nivel de significancia α si: −2 ln λ ≥ ω1−α , 6.6. Algunas pruebas basadas en razón de verosimilitudes 293 donde ω1−α es el cuantil 1 − α de una distribución χ2((r−1)(c−1)) . Se puede demostrar que, por el mismo argumento que se usó en la prueba de bondad de ajuste, c r X n n 2 X nij − i•n •j + Rn −2 ln λ = ni• n•j n i=1 j=1 donde Rn → 0 cuando n → ∞ con probabilidad 1 y ni• n•j = eij n ya que ni• n•j . n2 Por lo tanto la estadı́stica de prueba que se va a utilizar es: eij = npij = nPi• P•j = n T = c r X 2 X (nij − eij ) , eij i=1 j=1 cuya distribución también es χ2(r−1)(c−1) . Ejemplo 6.22 Retomando el ejemplo introductorio, en donde se considera una muestra de 300 estudiantes clasificados por el tipo de preparatoria y el promedio escolar. Preparatoria Promedio ≥5 <5 Pequeña 18 42 Mediana 51 79 Grande 46 64 Los valores esperados por celda son los siguientes: e11 = e12 = e13 = e21 = e22 = e23 = n1• n•1 n n1• n•2 n n1• n•3 n n2• n•1 n n2• n•2 n n2• n•3 n = = = = = = (115) (60) 6900 = = 23 300 300 (115) (130) = 49.8 300 (115) (110) = 42.16 300 (185) (60) = 37 300 (185) (130) = 80.16 300 (185) (110) = 67.8 300 294 6. Pruebas de hipótesis El valor de la estadı́stica de prueba es: T = 1.0869 + 0.0289 + 0.3497 + 0.6756 + 0.01678 + 0.2129 = 2.37078. Si se establece el nivel de significancia como α = 0.05, entonces el cuantil 1−α = 0.95 de una distribución Ji-cuadrada con (r − 1) (c − 1) = (1) (2) = 2 grados de libertad es: ω0.95 = 5.99, por lo que no se rechaza H0 , es decir, no se rechaza la hipótesis de independencia, por lo que se puede concluir que el tamaño de la preparatoria de la que provienen los estudiantes y su promedio escolar durante el primer año de facultad son independientes. En R, se puede utilizar chisq.test de la siguiente manera: # > > > > # > Se crea la tabla de contingencia para este ejemplo tabla_contingencia = rbind(c(18, 51, 46), c(42, 79, 64)) colnames(tabla_contingencia)=c("pequena","mediana","grande") rownames(tabla_contingencia) = c("mayor_igual_5", "menor_5") tabla_contingencia = as.table(tabla_contingencia) Usando la función chisq.test chisq.test(tabla_contingencia) El resultado es: Pearson’s Chi-squared test data: tabla_contingencia X-squared = 2.372, df = 2, p-value = 0.3054 Lo que confirma los cálculos previos. La extensión de las tablas de contingencia de doble entrada a tablas de contingencia de orden mayor es inmediata. Para una tabla de r1 × r2 × r3 , para la hipótesis de independencia completa: H0 : Pijk = Pi•• P•j• P••k para todo i = 1, 2, ..., r1 j = 1, 2, ..., r2 y k = 1, 2, ..., r3 Los estimadores de las frecuencias esperadas son: eijk = nPbijk = nPbi•• Pb•j• Pb••k n n n = n i•• •j• ••k n n n ni•• n•j• n••k = , n2 6.6. Algunas pruebas basadas en razón de verosimilitudes 295 y la estadı́stica de prueba es: T = r3 r2 X r1 X 2 X (nijk − eijk ) i=1 j=1 k=1 eijk con r1 r2 r3 − 1 − (r1 − 1 + r2 − 1 + r3 − 1) = r1 r2 r3 − r1 − r2 − r3 + 2 grados de libertad. Otra hipótesis de independencia que se usa muy a menudo es: H0 : Pijk = Pi•• P•jk donde, las frecuencias esperadas estimadas son: eijk = ni•• n•jk n y la estadı́stica de prueba tiene: r1 r2 r3 − 1 − (r1 − 1 + r2 r3 − 1) = (r1 − 1) (r2 r3 − 1) grados de libertad. A continuación se verá cómo medir el grado de asociación entre variables. El coeficiente de contingencia Como una medida del grado de asociación entre variables en una tabla de contingencia en donde se clasifican un total de n unidades experimentales, Karl Pearson propuso el coeficiente de contingencia C, definido como: 1/2 Q , C= Q+n donde Q es la estadı́stica de prueba apropiada para la hipótesis de independencia. Si las variables son completamente independientes, los valores de Q y C son ambos pequeños. Además, valores crecientes de C implican un incremento en el grado de asociación, ya que valores grandes de Q son un resultado de más alejamiento significativo entre las frecuencias observadas y esperadas de celdas. Pero el valor de C no puede ser mayor de uno para cualquier n, una desventaja de C como una medida de asociación es que no puede alcanzar el valor de 1. Puede demostrarse fácilmente que para una tabla de contingencia de doble entrada de r × c, el valor máximo de C es: 1/2 t−1 Cmáx = , donde t = mı́n (r, c) . t 296 6.7. 6. Pruebas de hipótesis Pruebas de hipótesis en el contexto Bayesiano En el contexto Bayesiano también se realizan contrastes de hipótesis y en este caso, es posible hacer pruebas de dos o más de ellas: H1 : θ ∈ Θ1 , H2 : θ ∈ Θ2 , ··· HJ : θ ∈ ΘJ , donde Θ1 , Θ2 , . . . , ΘJ denotan una partición del espacio paramétrico Θ. En esta sección sólo se presentará el caso del contraste de dos hipótesis, sin embargo la extensión a un número mayor será natural. Suponga que X proviene de un modelo f (x|θ) y que se desea evaluar las hipótesis: H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 , donde Θ0 y Θ1 constituyen una partición del espacio paramétrico Θ. Recuerde que para hacer inferencia estadı́stica desde una perspectiva Bayesiana se requiere una distribución inicial del parámetro θ. Si se asigna una distribución inicial propia con densidad6 π(θ), entonces es posible evaluar las dos hipótesis a priori a través del cociente: R π(θ)dθ P(θ ∈ Θ0 ) τ0 = RΘ0 = . τ1 P(θ ∈ Θ1 ) π(θ)dθ Θ1 Una vez que se han observado los datos, X = x, la apreciación inicial acerca del parámetro se actualiza a través de la distribución posterior π(θ|x) ∝ L(θ|x)π(θ), donde L(θ|x) denota la función de verosimilitud. Las dos hipótesis planteadas pueden evaluarse ahora considerando la distribución posterior a través del cociente R π(θ|x)dθ P(θ ∈ Θ0 |x) p0 = = RΘ0 . p1 P(θ ∈ Θ1 |x) π(θ|x)dθ Θ1 En el enfoque Bayesiano el contraste de hipótesis consistirá en comparar las distribuciones de los parámetros y elegir aquella hipótesis con probabilidad mayor. Por ejemplo, si sólo se cuenta con información inicial entonces 6 Esta notación para la densidad inicial en esta sección no tiene relación con la función potencia, la cual también se ha denotado con π a lo largo del presente capı́tulo. En el contexto Bayesiano se hace la especificación de que se trata de las densidades a priori o a posteriori y simplemente es para que haya congruencia con la notación utilizada en el capı́tulo de Estimación Puntual en donde se aborda la estimación Bayesiana. 6.7. Pruebas de hipótesis en el contexto Bayesiano 297 se podrı́an comparar las probabilidades τ0 y τ1 y elegir H0 o Ha de acuerdo a aquella hipótesis con probabilidad mayor; pero si además se observó una muestra X = x entonces se podrı́an comparar las probabilidades p0 y p1 y elegir H0 ó Ha de acuerdo a aquella hipótesis con probabilidad mayor. Con frecuencia se propone a la estadı́stica conocida como factor de Bayes, definida como p0 /p1 FB = , τ0 /τ1 como una medida de la evidencia que proporcionan los datos a favor de la hipótesis nula. Note que el factor de Bayes compara de manera simultánea las probabilidades obtenidas a partir de las distribuciones iniciales τ0 y τ1 y las obtenidas de las distribuciones posteriores p0 y p1 . Cuando ambas hipótesis son igualmente probables de manera inicial, es decir τ0 = τ1 , el factor de Bayes se reduce a sólo comparar las distribuciones finales p0 y p1 . La evaluación de la probabilidad relativa de las hipótesis o los modelos (asociados a esas hipótesis) se puede hacer utilizando la probabilidad posterior del modelo asociado: π(Hj |x) π(x|Hj )π(Hj ) π(x) π(x|Hj )π(Hj ) = PJ k=1 π(x|Hk )π(Hk ) ∝ π(x|Hj )π(Hj ), = donde π(Hj ) es la probabilidad inicial del modelo y j = {0, a}. Es decir, π(H0 ) y π(Ha ) son las probabilidades iniciales bajo las hipótesis H0 y Ha , respectivamente. Además: Z π(x|Hj ) = π(x|θ)π(θ|Hj )dθ es la verosimilitud marginal bajo el modelo Hj , y π(θ|Hj ) es la distribución inicial para θ cuando Hj es cierta. Por lo tanto, si se desea contrastar dos hipótesis H0 y Ha , para evaluar la probabilidad relativa de estas hipótesis, se deberá calcular π(H0 |x) y π(Ha |x), y estas probabilidades se podrı́an comparar usando el factor de Bayes. Sin embargo, estas evaluaciones deben hacerse tomando en cuenta los contextos particulares de cada modelo. Los siguientes ejemplos buscan hacer algunas observaciones en este sentido. 298 6. Pruebas de hipótesis Ejemplo 6.23 Sea X una variable aleatoria de un modelo Normal(µ, 1) , si se plantean las hipótesis H0 : µ = 0 contra la alternativa Ha : µ 6= 0; adoptando una distribución inicial conjugada para µ que sea N ormal(0, S 2 ) con S > 0. Note que en este caso el espacio paramétrico es Θ = {µ; µ ∈ R} = (−∞, ∞), el conjunto de los reales. Bajo la hipótesis nula H0 el espacio paramétrico es Θ0 = {0} y bajo la hipótesis alternativa Ha el espacio paramétrico es Θ1 = {µ; µ 6= 0, µ ∈ R}. Para hacer el contraste de hipótesis en el contexto Bayesiano, se requerirá calcular el factor de Bayes F B = π(H0|x)/π(Ha |x). Note que también puede obternerse que π(H0 |x) = 1/ 1 + F1B . Suponiendo que no se tiene mayor información acerca de cuál de las hipótesis tiene mayor probabilidad inicial, se supondrá que π(H0 ) = π(Ha ). En esto caso el factor de Bayes se reducirı́a a calcular F B = π(x|H0 )/π(x|Ha ). Bajo la hipótesis nula, H0 : µ = 0, π(x|H0 ) = π(x|µ = 0) = N (x|0, 1). Bajo la hipótesis alternativa Ha : µ 6= 0, π(x|Ha ) Z = π(x|µ)π(µ|Ha )dµ Z = N (x|µ, 1)N (µ|0, S 2 )dµ Z 1 1 1 1 2 2 √ √ = exp − (x − µ) exp − 2 µ dµ 2 2S 2π 2πS 2 ( ) 1 1 1 x2 exp − x2 + =p 2 2 1 + S12 2π(1 + S 2 ) q ( #) " Z 1 + S12 1 1 x x2 2 + √ × exp − 1 + 2 µ − 2µ dµ 2 2 S 1 + S12 2π 1 + S12 1 1 =p exp − x2 2 2(1 + S 2 ) 2π(1 + S ) = N (x|0, 1 + S 2 ). Por lo tanto, el factor de Bayes resulta en FB = N (x|0, 1) . N (x|0, 1 + S 2 ) 6.7. Pruebas de hipótesis en el contexto Bayesiano 299 Observe que en este caso el factor de Bayes crece cuando S 2 → ∞ para cualquier x. Ejemplo 6.24 Considere el experimento de lanzar una moneda n veces, donde las variables aleatorias Yi son independientes con distribución Yi ∼ Bernoulli(θ), para i = 1, . . . , n. La hipótesis nula se plantea como H0 : θ = 0.5 contra la alternativa Ha : θ 6= 0.5, con una distribución inicial θ ∼ Beta(a, b). Para hacer el contraste de hipótesis se calculará el factor de Bayes F B = π(H0 |y)/π(Ha |y). Otra vez, no se tiene mayor información acerca de cuál de las hipótesis tiene mayor probabilidad inicial, ası́ que se supondrá que π(H0 ) = π(Ha ), y entonces el factor de Bayes se reducirı́a a calcular F B = π(y|H0 )/π(y|Ha ). Bajo la hipótesis nula, H0 : θ = 0.5, π(y|H0 ) = π(y|θ = 0.5) = 0.5n . Bajo la hipótesis alternativa, Ha : θ 6= 0.5, se tiene que dadas las observaciones, la verosimilitud es L(θ|y) = θ Pn i=1 yi (1 − θ)n− Pn i=1 yi y distribución inicial del parámetro θ es π(θ|Ha ) = θa−1 (1 − θ)b−1 , B(a, b) donde B(a, b) = Γ(a)Γ(b) Γ(a+b) es la función beta. Entonces la probabilidad posterior de Y = y dada Ha es π(y|Ha ) Z = π(y|θ)π(θ|Ha )dθ Z = L(θ|y)π(θ|Ha )dθ Z P Pn n θa−1 (1 − θ)b−1 = θ i=1 yi (1 − θ)n− i=1 yi dθ B(a, b) P Pn Pn Pn Z n B ( i=1 yi + a , n − i=1 yi + b) θ i=1 yi +a−1 (1 − θ)n− i=1 yi +b−1 Pn Pn = dθ B(a, b) B ( i=1 yi + a , n − i=1 yi + b) Pn Pn B ( i=1 yi + a , n − i=1 yi + b) = , B(a, b) 300 6. Pruebas de hipótesis y el factor de Bayes es: FB 0.5n = Pn B( = B( i=1 P yi +a , n− n i=1 yi +b) B(a,b) n 0.5 B(a, b) Pn . y + a , n − i=1 yi + b) i i=1 Pn 0.8 Ahora considere dos casos particulares con el objetivo de comparar los resultados obtenidos en el contraste de hipótesis bajo los contextos de estadı́stica Bayesiana y del cociente de verosimilitudes generalizadas. Sean n = 10 y n = 50 del modelo bajo H0 , con π(θ|H1 ) ∼ Beta(2, 2), la figura 6.4 muestra las probabilidades posteriores π(H0 |y). 0.4 0.0 0.2 p(H0|y) 0.6 n=50 n=10 0.0 0.2 0.4 0.6 0.8 1.0 y Figura 6.4: Probabilidad posterior del modelo por tamaño de muestra. La verosimilitud es L(θ|y) = π(y|θ) y el cociente de verosimilitudes generalizadas para probar las hipótesis planteadas es: λ(y) = máxΘ0 L(θ|y) L(θ̂0 ) = , máxΘ L (θ|y) L(θ̂) donde θ̂0 y θ̂ son los estimadores máximo verosı́miles en los espacios paramétricos correspondientes. Para este caso: 0.5n λ(y) = nȳ . ȳ (1 − ȳ)n−nȳ 6.7. Pruebas de hipótesis en el contexto Bayesiano 301 La región de rechazo es de la forma {y : λ(y) ≤ k}. Se ha visto que, bajo ciertas condiciones, d −2 ln(λ(y)) → χ2(ν) . y si el p-value < α, entonces se rechaza H0 con un nivel de significancia α. Considere ahora que n = 10, 000 y y = 4, 900; el p-valor se aproxima a P(χ21 > (4.000267)) = 0.04549306 y la probabilidad posterior de H0 , π(H0 |y) ≈ 1 = 0.8780995. 1 + 1/7.203413 En este caso particular, bajo el cociente de verosimilitudes generalizadas el p-valor conlleva a rechazar la hipótesis nula, pero usando la probabilidad posterior se elegirı́a la hipótesis nula y, por lo tanto, las conclusiones serı́an opuestas. Estas situaciones que se han ilustrado con los ejemplos pueden observarse ya sea por un efecto del tamaño de muestra, por una hipótesis nula precisa contra una alternativa muy difusa, o por la probabilidad a priori asignada a las hipótesis. En este sentido, el enfoque Bayesiano penaliza las probabilidades iniciales difusas. Existen muchas otras propuestas para evaluar hipótesis o modelos, aquı́ se plantea una a manera de ilustración. Para realizar la comparación de estos modelos es usual que se consideren otras medidas de bondad de ajuste, que como en el caso del factor de Bayes, puedan utilizarse para comparar modelos y que ayuden en la toma de decisiones. Uno de los criterios muy utilizados en estadı́stica Bayesiana es el Criterio de Información Bayesiano (BIC, por su nombre en inglés Bayesian Information Criterion). Definición 6.12 Criterio de Información Bayesiana (BIC). Sea X una muestra aleatoria de tamaño n. Suponga que se tienen dos posibles modelos, f1 (X|θ1 , . . . , θm1 ) y f2 (X|θ1 , . . . , θm2 ), cada uno parametrizado por m1 y m2 parámetros: θ1 , . . . , θm1 y θ1 , . . . , θm2 , respectivamente, los cuales pueden tener elementos en común. El BIC se define como: L1 (θ1 , . . . , θm1 |X) + (m1 − m2 ) ln(n). BIC = −2 ln L2 (θ1 , . . . , θm2 |X) Ejemplo 6.25 Suponga que, dada una muestra aleatoria de tamaño n, se tienen las siguientes hipótesis para un fenómeno de interés: H0 : Xi ∼ Gama(α, β) vs. Ha : Xi ∼ Exp(θ). 302 6. Pruebas de hipótesis Bajo H0 se tienen m1 = 2 parámetros, y la verosimilitud es: L(α, β|X) = = = n Y Gama(xi |α, β) i=1 n Y β α α−1 −xi β x e Γ(α) i i=1 !α−1 n Y P β nα − n i=1 xi β . x e i Γ(α)n i=1 Bajo Ha se tiene m2 = 1 parámetro, y la verosimilitud es: L(θ|X) = = = n Y i=1 n Y Exp(xi |θ) θe−xi θ i=1 P n − n i=1 xi θ θ e . Q100 Considere el caso particular n = 100, x̄ = 0.479, i=1 xi = 2.898146e−44 y las hipótesis: H0 : Xi ∼ Gama(2, 4) vs. Ha : Xi ∼ Exp(0.5). El BIC se calcula como: nα Q α−1 − Pn xi β n β i=1 ( x ) e n i i=1 Γ(α) + (m1 − m2 ) ln(n). Pn BIC = −2 ln θn e− i=1 xi θ 200 4 × (2.898146e − 44) × exp(−191.6568) = −2 ln + ln(100) (0.5100 ) exp(−23.95711) = −152.6433. En algunos contextos se sugiere que si el BIC ≤ 2 la evidencia que favorece al primer modelo es muy débil, mientras que si el BIC > 10 la evidencia de ello es contundente. 6.8. Ejercicios 1. Sea X una variable aleatoria con función de densidad f (x; θ). Considere H0 : θ = θ0 y Ha : θ = θ1 , tal que la función de densidad es la siguiente: 303 6.8. Ejercicios x f (x; θ0 ) f (x; θ1 ) 1 0.01 0.06 2 0.01 0.05 3 0.01 0.04 4 0.01 0.03 5 0.01 0.02 6 0.01 0.01 7 0.94 0.79 Use el lema de Neyman-Pearson para encontrar la prueba estadı́stica más potente para contrastar las hipótesis H0 vs. Ha , con tamaño de prueba α = 0.04. Calcule el tamaño del error tipo II. 2. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de densidad f (x; θ). Considere las hipótesis H0 : f (x; θ) = Ha : f (x; θ) = 1 , θ 1 −x/θ e , θ x ∈ (0, θ) x ∈ (0, ∞) Uniforme(0, θ) 1 Exponencial( ). θ (a) Determine la prueba del cociente de verosimilitudes, junto con su región crı́tica C, asociada a las pruebas H0 vs. Ha . (b) Obtenga la potencia de la prueba πγ (θ) y haga su gráfica. 3. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la población con distribución Normal(µ, 4), donde µ es desconocido. Se desea contrastar las hipótesis H0 : µ = 1 vs. µ = 4 y se consideran las siguientes pruebas: Prueba γ1 : Rechazar H0 si y sólo si X1 > 3.7. Prueba γ2 : Rechazar H0 si y sólo si 31 (X1 + 2X2 ) > 3.5. Prueba γ3 : Rechazar H0 si y sólo si 21 (X1 + X3 ) > 3.2. Prueba γ4 : Rechazar H0 si y sólo si X > 3.1. Encuentre las probabilidades de los errores tipo I y tipo II para cada una de las pruebas y compárelas. 4. Se lanza 1000 veces una moneda y el resultado es 560 “soles” y 440 “águilas”. Sea θ la probabilidad de que caiga un “sol”. (a) ¿Se puede suponer que la moneda está equilibrada o la probabilidad de obtener un “sol” es mayor que la de obtener “águila”? Plantee las hipótesis. (b) Obtenga la prueba uniformemente más potente. (c) Calcule el p-value. 304 6. Pruebas de hipótesis 5. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la población con distribución Exponencial(θ). Se desea contrastar las hipótesis H0 : θ = 2 vs. θ = 6 y se consideran las siguientes pruebas: Prueba Prueba Prueba Prueba γ1 : γ2 : γ3 : γ4 : Rechazar Rechazar Rechazar Rechazar H0 H0 H0 H0 si si si si y y y y sólo sólo sólo sólo si si si si X1 > 4. 1 2 (X1 + X2 ) > 3.5. 1 3 (X1 + X2 + X3 ) > 3.4. X > 2.8. Encuentre las probabilidades de los errores tipo I y tipo II para cada una de las pruebas y compárelas. 6. Suponga que X1 y X2 son variables aleatorias de una población con función de densidad de probabilidad f (x; θ) = θxθ−1 si 0 < x < 1, donde θ > 0 es desconocido. Para contrastar las hipótesis H0 : θ = 1 vs. Ha : θ = 2 se considera la región crı́tica: 3 C = (x1 , x2 ); (x1 , x2 ) ∈ (0, 1) × (0, 1), x1 x2 ≥ . 4 (a) Muestre que el tamaño de la prueba es α = 14 + 34 log 34 . 7 + 98 log 34 . (b) Muestre que la potencia de la prueba en θ = 2 es 16 7. Sea X1 , . . . , X10 una muestra aleatoria de tamaño n = 10 de la población con distribución Bernoulli(p). (a) Encuentre una prueba más potente de tamaño α = 0.0547 para probar las hipótesis H0 : p = 12 vs. Ha : p = 14 . Encuentre la potencia de esta prueba y el tamaño del error tipo II. (b) Para constrastar las hipótesis H0 : p ≤ 12 vs. Ha : p > 12 , se tiene una región crı́tica 10 X xi ≥ 6}. C = {x; i=1 Encuentre el tamaño de la prueba y grafique su función potencia. 8. Suponga que X es una variable aleatoria con función de densidad de probabilidad f (x; θ), donde x ∈ R. Considere las funciones definidas de la siguiente manera: f0 (x) = −1 1 1 + x2 , π f1 (x) = 1 exp {−|x|} . 2 305 6.8. Ejercicios Se contrastan las hipótesis H0 : f (x; θ) = f0 (x) vs. Ha : f (x; θ) = f1 (x). (a) Muestre que la prueba más potente de tamaño α es: rechazar la hipótesis nula si y sólo si |X| < k. (b) Determine k como una función de α. (c) Calcule la potencia de la prueba. 9. Sea X una observación con función de densidad f (x; θ) = (2θx+1−θ), donde x ∈ [0, 1] y θ ∈ [−1, 1]. (a) Encuentre la prueba más potente de tamaño α para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ = 1. (Sugerencia: la prueba debe estar expresada en términos de α). (b) Para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0, la regla de decisión es: Rechazar H0 si x > 21 , es decir, la región crı́tica es C = {x : x > 12 }. Encuentre la potencia π(θ) y el tamaño de la prueba α. (c) ¿Existe una prueba uniformemente más potente (UMP) de tamaño α para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0?. ¿Cuál es? (d) Obtenga la prueba del cociente de verosimilitudes generalizadas para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ 6= 0. (e) Entre todas las posibles pruebas para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ = 1, obtenidas del cociente de verosimilitudes simple (lema de Neyman-Pearson), encuentra la prueba que minimice α + β, donde α y β son los tamaños de los errores tipo I y II, respectivamente. 10. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P oisson(λ). (a) Encuentre la prueba uniformemente más potente para contrastar las hipótesis H0 : λ = λ0 vs. Ha : λ > λ0 . Grafique la función potencia considerando que λ0 = 1, n = 25 y α = 0.05. 306 6. Pruebas de hipótesis (b) Obtenga la región crı́tica usando el cociente de verosimilitudes generalizadas para contrastar las hipótesis H0 : λ = λ0 Ha : λ 6= λ0 . vs. Nota: la región crı́tica deberı́a estar definida en términos de n P Xi . i=1 (c) Una prueba estadı́stica razonable para contrastar las hipótesis H0 : λ = λ0 vs. Ha : λ 6= λ0 podrı́a ser la siguiente: γ: Rechazar H0 si |X̄ − λ0 | ≥ k. Encuentre el valor de k tal que el tamaño del error tipo I sea α = 0.05. Nota: Suponga que n es suficientemente grande tal que puede usarse el teorema del lı́mite central. 11. Se supone que el número de accidentes de automóvil tiene una distribución Poisson. En años anteriores, el número promedio de accidentes por año fue de 15, y este año fue de 10. ¿Se puede concluir que el número de accidentes ha disminuido? Calcule el p-value. 12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución P oisson(λ). (a) Encuentre una prueba uniformemente más potente (UMP) de tamaño α para contrastar las hipótesis H0 : λ ≤ λ0 vs. Ha : λ > λ0 . (b) Considere el caso particular con λ0 = 1, es decir, H0 : λ ≤ 1 vs. Ha : λ > 1. Use el teorema del lı́mite central para determinar el tamaño de la muestra n, tal que la prueba UMP cumpla que P(Rechazar H0 |λ = 1) = 0.05 y P(Rechazar H0 |λ = 2) = 0.9. (c) Use la prueba del cociente de verosimilitudes para encontrar una región crı́tica para probar las hipótesis H0 : λ = λ0 vs. H1 : λ 6= λ0 . Nota: Pn la región crı́tica debe quedar expresada en términos de i=1 Xi . 13. Considere una muestra aleatoria de n observaciones independientes de una misma distribución. Determine la región de rechazo de la prueba de razón de verosimilitudes para probar H0 vs. Ha en los tres casos siguientes. (a1) Ho : θ = θ0 vs Ha : θ 6= θ0 , cuando la muestra aleatoria proviene de una distribución P oisson(θ). 307 6.8. Ejercicios (a2) Si θ0 = 1, n = 4, (x1 , x2 , x3 , x4 ) = (2, 1, 3, 4), α = .05. ¿Qué concluirı́a de la prueba? (b1) Ho : p = p0 vs. Ha : p 6= p0 , cuando la muestra aleatoria proviene de una distribución Bernoulli(p). (b2) Si Ho : p = 1/2 vs. Ha : p 6= 1/2 y las observaciones reportan P40 i=1 xi = 10, n = 40. ¿Qué concluirı́a de la prueba con α = .05? (c1) Ho : σ 2 = σ02 vs. Ha : σ 2 6= σ02 cuando la muestra aleatoria proviene de una distribución N (0, σ 2 ). (c2) Si Ho : σ 2 = 1 vs. Ha : σ 2 6= 1 y las observaciones reportan P40 2 i=1 xi = 80, n = 40. ¿Qué concluirı́a de la prueba con α = .05? 14. Sea X1 y X2 una muestra aleatoria de la población con distribución U nif orme(θ, θ + 1). Para constrastar las hipótesis H0 : θ = 0 vs. Ha : θ > 0, se tienen dos posibles pruebas estadı́sticas (reglas de decisión): γ1 : Rechazar H0 si X1 > 0.95, γ2 : Rechazar H0 si X1 + X2 > k. (a) Encuentre el valor de k tal que γ2 tenga el mismo tamaño que γ1 . (b) Calcula las funciones potencia de cada prueba, πγ1 (θ) y πγ2 (θ). Grafı́quelas. (c) ¿Qué prueba es más potente? Explique. (d) Muestre cómo obtener una prueba estadı́stica tal que tenga el mismo tamaño que γ2 pero que sea más potente. 15. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U nif orme(0, θ), y sean Y1 , . . . , Yn sus estadı́sticas de orden. Para contrastar las hipótesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , con θ0 fijo. La prueba estadı́stica γ (regla de decisión) es: Rechazar H0 si Yn > θ0 ó Yn < θ0 α1/n . (a) Encuentre la función potencia πγ (θ) y grafı́quela. (b) Encuentre otra prueba estadı́stica γ2 , que tenga el mismo tamaño de prueba y muestre que γ es una prueba más potente que γ2 . 16. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U nif orme(θ, θ + 1). Sean Y1 ≤ · · · ≤ Yn las estadı́sticas de orden. Para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ > 0, 308 6. Pruebas de hipótesis se utiliza la siguiente prueba estadı́stica γ: Rechazar H0 Yn ≥ 1 o si Y1 ≥ k, si donde k es una constante. (a) Determine el valor de k para que el tamaño de la prueba sea α. (b) Calcule la función potencia de la prueba y grafı́quela. (c) Calcule los valores de n y k tal que el tamaño de la prueba sea α = 0.1 y la potencia sea al menos de 0.8 para todo θ > 1. 17. Sea X una variable aleatoria con distribución Logı́stica(θ, 1), con función de densidad f (x; θ) = e(x−θ) , [1 + e(x−θ) ]2 x ∈ R, θ ∈ R. Usando una observación (muestra de tamaño n = 1): (a) Encuentre una prueba más potente γ ∗ de tamaño α (con mejor región crı́tica C ∗ ) para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ = 1. (b) Para (a), si α = 0.2, calcule el tamaño del error tipo II. (c) Obtenga la prueba uniformemente más potente γ ∗ de tamaño α para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0. 18. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente independientes, con distribución Exponencial(θ) y Exponencial(η), respectivamente, con función de densidad f (x; θ) = θe−θx y f (y; η) = ηe−ηy . (a) Use la prueba del cociente de verosimilitudes generalizadas para encontrar la región crı́tica C asociada a las hipótesis: H0 : θ = η vs. Ha : θ 6= η. (b) Muestre que C se puede simplificar en términos de la siguiente estadı́stica Pn Xi i=1 P T = Pn . m i=1 Xi + j=1 Yj ¿Cuál es la distribución de T bajo H0 ? [Nota: la distribución de T no depende de θ ni de η cuando H0 es cierta.] 6.8. Ejercicios 309 19. Sea X una observación con función de densidad f (x; θ) = (1 + θ)xθ , donde x ∈ [0, 1] y θ > −1. (a) Encuentre la prueba más potente de tamaño α para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ = 1. (b) ¿Existe una prueba uniformemente más potente de tamaño α para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0? En caso afirmativo, encuéntrela. (c) Dentro de las posibles pruebas del cociente de verosimilitudes para constrastar las hipótesis H0 : θ = 0 vs. Ha : θ = 1, encuentre una prueba que minimice 2α + β, donde α y β son los tamaños de los errores tipo I y tipo II. (d) Realice la prueba del cociente de verosimilitudes generalizadas para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ 6= 0. 20. Sea X una observación de una variable aleatoria con distribución Beta(θ, 1). (a) Sea C = {X; X > 1/2} la región crı́tica para probar las hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1. Encuentre el tamaño de la prueba y grafique su función potencia. (b) Encuentre la prueba más potente de tamaño α para contrastar las hipótesis H0 : θ = 1 vs. Ha : θ = 2. (c) Encuentre una prueba uniformemente más potente (UMP) de tamaño α para constrastar las hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1. 21. Sea X una variable aleatoria con distribución Beta(θ, 1) con función de densidad f (x; θ) = θxθ−1 , donde x ∈ (0, 1) y θ > 0. (a) Se selecciona una muestra de tamaño n = 2. Para contrastar las hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1 se usa la región crı́tica C = {(x1 , x2 ); 43 x1 ≤ x2 }. Encuentre la función potencia y el tamaño de la prueba. Grafique la función potencia. (b) Se selecciona una muestra de tamaño n = 2. Encuentre la prueba más potente de tamaño α = 12 (1 − log(2)) para contrastar las hipótesis H0 : θ = 1 vs. Ha : θ = 2. (c) Para una observación, n = 1, encuentre una prueba uniformemente más potente (UMP) de tamaño α para constrastar las hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1. 310 6. Pruebas de hipótesis 22. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente independientes, con distribución Beta(θ, 1) y Beta(η, 1), respectivamente. (a) Use la prueba del cociente de verosimilitudes generalizadas para encontrar la región crı́tica C asociada a las hipótesis: H0 : θ = η vs. Ha : θ 6= η. (b) Muestre que C se puede simplificar en términos de una función de la siguiente estadı́stica: Pn ) i=1 log(X Pmi T = Pn . i=1 log(Xi ) + j=1 log(Yj ) (c) ¿Cuál es la distribución de T bajo H0 ? (d) Muestre cómo obtener una prueba estadı́stica de tamaño α = 0.1. 23. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población con distribución Rayleigh con función de densidad de probabilidad 2 x 2x exp − , fX (x) = θ θ con x > 0, donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga una prueba uniformemente más potente de tamaño α para contrastar las hipótesis H0 : θ ≥ θ0 vs. Ha : θ < θ0 , donde θ0 > 0 es un valor fijo. 24. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población con con función de densidad f (x; θ) = θ−1 x(1−θ)/θ , con x ∈ (0, 1), donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga una prueba uniformemente más potente de tamaño α para contrastar las hipótesis H0 : θ ≤ θ0 vs. Ha : θ > θ0 donde θ0 > 0 es un valor fijo. 25. Considere una secuencia de n ensayos multinomiales cada uno con k + 1 posibles respuestas O1 , . . . , Ok+1 , sea Yi el número de ensayos que resultaron con respuesta Oi , i = 1, . . . , k + 1. Entonces la función de densidad conjunta de (Y1 , . . . , Yk+1 ) es la distribución multinomial P(Y1 = y1 , . . . , Yk+1 = yk+1 ) = n! yk+1 py1 · · · pk+1 , y1 ! · · · yk+1 ! 1 311 6.8. Ejercicios donde probabilidad de obtener la respuesta Oi en un ensayo, Pk+1 pi es laP k+1 i=1 pi = 1, i=1 yi = n. Considere la prueba de hipótesis H0 : (p1 , . . . , pk+1 ) = (p01 , . . . , p0k+1 ) vs Ha : (p1 , . . . , pk+1 ) 6= (p01 , . . . , p0k+1 ). Demuestre que la estadı́stica −2 log λ esta dada por la expresión siguiente k+1 X Yi −2 log λ = 2 Yi log 0 . np i i=1 26. Considere que (X1 , . . . , Xn ) es una muestra aleatoria de n observaciones independientes de una distribución N (µ, σ 2 ) y la prueba H0 : (µ, σ) = (µ0 , σ0 ) vs. Ha : (µ, σ) 6= (µ0 , σ0 ). Demuestre que la estadı́stica −2 log λ esta dada por la expresión siguiente: −2 log λ = n nσ̂ 2 2 (x̄ − µ ) + − n − n[log σ̂ 2 − log σ02 ]. 0 σ02 σ02 27. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Pareto con función de densidad f (x; θ, ν) = θν θ , xθ+1 x ∈ [ν, ∞), θ > 0, ν > 0. (a) Encuentre los estimadores máximo verosı́miles de θ y ν. (b) Muestre que la prueba del cociente de verosimilitudes para contrastar las hipótesis: H0 : θ = 1, (ν desconocido) vs. Ha : θ 6= 1, (ν desconocido), tiene región crı́tica de la forma C : {x; T (x) ≤ c1 ó T (x) ≥ c2 }, donde 0 < c1 < c2 y Qn i=1 Xi T (x) = log . (mı́ni Xi )n (c) Muestre que bajo H0 , 2T tiene una distribución Ji-cuadrada, y encuentre el número de grados de libertad. 312 6. Pruebas de hipótesis [Sugerencia: obtenga la distribución conjunta de los n−1 términos no triviales Xi /(mı́ni Xi ) condicional a (mı́ni Xi ). Junte los n − 1 términos, y note que la distribución de T dada (mı́ni Xi ) no depende de (mı́ni Xi ), ası́ que la distribución de T resulta ser no condicional]. 28. Considere una muestra aleatoria Y1 , . . . , Yn de una población con distribución N (µ, σ 2 ), con σ 2 conocida. Se desean probar las hipótesis: H0 : µ = µ0 vs. Ha : µ = µ1 , µ0 < µ1 . Las probabilidades iniciales están dadas por ( π0 si µ = µ0 p(µ) = π1 si µ = µ1 ¿Bajo qué condiciones se rechaza H0 ? 29. Sea X una variable aleatoria con distribución N ormal(µ, 1). Cosidere las hipótesis H0 : |µ| ≤ c vs. Ha : |µ| > c cuando la distribución inicial es f (µ) = 1. (a) Grafique la probabilidad de H0 como una función de c. (b) Determine los valores de c para los cuales su máximo es 0.95 y el factor de Bayes es 1. 30. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones independientes de una distribución N (µ, 1), 1 1 (x) f (x; µ) = √ exp − (x − µ)2 I(−∞,∞) . 2 2π I. Considere la prueba de hipótesis H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 < µ0 . (a) Usando el lema de Neyman–Pearson encuentre la región crı́tica C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α. (b) Si las observaciones muestrales reportan x̄ = −1/2, que concluirı́a de la prueba con µ0 = 0, µ1 = −1, α = 0.05, n = 25. Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈ C¯∗ | Ha ]. II. Considere la prueba de hipótesis H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 > µ0 . 313 6.8. Ejercicios (a) Usando el lema de Neyman–Pearson encuentre la región crı́tica C ∗ , tal que P[(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α. (b) Si las observaciones muestrales reportan x̄ = 2/3, que concluirı́a de la prueba con µ0 = 0, µ1 = 1, α = 0.05, n = 25. Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈ C¯∗ | Ha ]. 31. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones independientes de una distribución N (0, σ 2 ), f (x; σ 2 ) = 1 1 √ exp − 2 x2 . 2σ σ 2π Considere la prueba de hipótesis H0 : σ 2 = σ02 vs. Ha : σ 2 = σ12 , σ12 > σ02 (a) Usando el lema de Neyman–Pearson encuentre la región crı́tica C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α. Pn (b) Si las observaciones muestrales reportan i=1 x2i = 37.5, qué concluirı́a de la prueba con σ02 = 1, σ12 = 2, α = 0.05, n = 25? Reporte la potencia de la prueba 1 − P [(x1 , . . . , xn ) ∈ C¯∗ | Ha ]. 32. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N ormal(µ, σ 2 ), donde µ es desconocido pero σ 2 es conocida. Sea α ∈ (0, 1). Para contrastar las hipótesis H0 : µ = µ0 vs. Ha : µ > µ0 la prueba uniformemente más potente de tamaño α es √ γ : Rechazar H0 si y sólo si n(X − µ0 )/σ > z1−α , donde z1−α es el cuantil 1 − α de una distribución normal estándar. La prueba uniformemente más potente garantiza que el tamaño del error tipo II de la prueba γ es el mı́nimo posible en µ = µ1 (> µ0 ) entre todas las pruebas posibles de tamaño α, pero no hay garantı́a que este mı́nimo sea pequeño a menos que n sea determinado adecuadamente. Se requiere una prueba uniformemente más potente con tamaño de error tipo II menor o igual que β, con β ∈ (0, 1) cuando µ = µ1 (> µ0 ). Muestre que el tamaño de la muestra n debe ser el menor valor entero tal que se cumpla la desigualdad n≥ (z1−α + z1−β )σ (µ1 − µ0 ) 2 . 314 6. Pruebas de hipótesis 33. Considere dos distribuciones normales independientes N (µ1 , 400) y N (µ2 , 225). Sea θ = µ2 − µ1 y sea x̄ y ȳ las medias muestrales de dos muestras aleatorias independientes cada una de tamaño n de estas dos distribuciones. Se rechaza Ho : θ = 0 si y sólo si x̄ − ȳ ≥ c. Si π(θ) es la función potencia de esta prueba, encuentre c y n tales que π(0) = 0.5 y π(10) = 0.90. 34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N (µx , σx2 ), y sea Y1 , . . . , Ym una muestra aleatoria de una población con distribucón N (µy , σy2 ), donde las Xi0 s son independientes de las Yj0 s, las varianzas son iguales (σx2 = σy2 = σ 2 ), y los tamaños de muestra pueden ser distintos (n 6= m). Considere las hipótesis: H0 : µx = µy vs. Ha : µx 6= µy . (a) Obtenga la región crı́tica usando la prueba de la razón de verosimilitudes. Nota: la estadı́stica de prueba generalmente se expresa como: T =q Sp2 1 = n+m−2 X̄ − Ȳ Sp2 ( n1 + , 1 m) m n X X (Yi − Ȳ )2 (Xi − X̄)2 + i=1 ! . i=1 (b) Muestre que bajo H0 , T ∼ tn+m−2 . (c) Se obtuvo una muestra a partir de dos poblaciones (A y B). Determine si la media de los grupos es la misma. Calcula el p-value. Grupo A Grupo B 294 251 279 248 274 284 274 272 240 264 232 263 220 264 256 255 254 218 251 210 254 250 242 35. Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria de la población con distribución normal bivariada 2 σx ρ Xi µx ∼ N ormal2 , . ρ σy2 Yi µy con σx2 , σy2 y ρ desconocidos. Se desea contrastar las hipótesis H0 : µx = µy vs. H1 : µx 6= µy . 315 6.8. Ejercicios (a) Obtenga la región crı́tica usando la prueba de la razón de verosimilitudes. Nota: la estadı́stica de prueba puede expresarse como: W , Tw = q 1 2 S n w donde Wi = Xi − Yi , W = W )2 . 1 n Pn i=1 Wi , 2 = Sw 1 n−1 Pn i=1 (Wi − 2 = Var(Wi ) y Cov(Wi , Wj ). (b) Calcule µw = E(Wi ), σw Concluya que W1 , . . . , Wn es una muestra aleatoria de una pobla2 ción con distribución N ormal(µw , σw ). Justifique que bajo H0 , Tw ∼ tn−1 . (c) Se obtuvo una muestra de tamaño n = 10 a partir de dos poblaciones (A y B). Determine si la media de los grupos es la misma (use α = 0.05). Calcule el p-value. Grupo A (Xi ) 13.2 9.9 9.0 10.0 13.0 Grupo B (Yi ) 16.7 11.8 14.4 14.5 9.3 Grupo A (Xi ) 11.6 7.4 14.2 12.6 7.2 Grupo B (Yi ) 10.2 10.6 10.9 11.1 12.2 36. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente independientes, con distribución N ormal(µx , σx2 ) y N ormal(µy , σy2 ), respectivamente, con parámetros desconocidos. (a) Use la prueba de la razón de verosimilitudes generalizadas para encontrar la región crı́tica C asociada a las hipótesis H0 : σx2 = σy2 vs. Ha : σx2 6= σy2 . (b) Se obtuvieron muestras de tamaño n = 10 y m = 12 a partir de dos poblaciones (A y B). Determine si las varianzas de los grupos es la misma (use α = 0.05). Calcule el p-value. 3.6 5.7 Grupo A (Xi ) 3.0 5.3 4.6 2.9 6.9 4.8 2.9 8.1 2.9 6.7 5.5 4.3 Grupo B (Yi ) 4.3 5.8 4.1 5.9 5.0 4.7 3.4 5.2 316 6. Pruebas de hipótesis 37. De acuerdo a cierto modelo genético, las proporciones de los individuos con 4 tipos de sangre deberán relacionarse de la siguiente manera: Tipo Tipo Tipo Tipo O A B AB Probabilidad q2 2 p + 2pq r2 + 2qr 2pr Frecuencias XO XA XB XAB Observaciones 40 263 382 315 Donde p + q + r = 1. Dados los tipos de sangre de n individuos: (a) ¿Cómo probarı́a si el modelo es adecuado? Realice el procedimiento de manera teórica. (b) Realice la prueba con los valores observados (n = 1000), para saber si el modelo es adecuado. 38. Un determinado modelo genético sugiere que las probabilidades para una distribución trinomial (multinomial con 3 categorı́as) son: θ1 = p2 , θ2 = 2p(1 − p), y θ3 = (1 − p)2 , con 0 < p < 1. Suponga que X1 , X2 , X3 representan las frecuencias en una muestra de tamaño n (fijo) de observaciones independientes. Obtenga la prueba de bondad de ajuste Ji-cuadrada para esta distribución considerando que p es desconocida. 39. Un grupo de 4 monedas se lanzó 160 veces, y se obtuvieron los siguientes datos. ¿Las monedas están equilibradas? Número de caras Frecuencia 0 16 1 48 2 55 3 33 4 8 40. Sea Q la estadı́stica de prueba Ji-cuadrada. (a) Demuestre que la siguiente igualdad se cumple: " k # k X (oi − ei )2 X npi (1 − pi ) (npi − ei )2 E[Q] = E = + , ei ei ei i=1 i=1 donde pi es la probabilidad de la i-ésima categorı́a, con i = 1, . . . , k, oi son los valores observados, y ei son los valores esperados. (b) Demuestre que si H0 : pi = πi es verdadera, E[Q] = k − 1. 41. En el control de calidad de un producto se seleccionan 100 muestras, cada una de tamaño 20, a partir de un proceso de producción. Los datos se muestran a continuación, donde se mide el número de productos 317 6.8. Ejercicios defectuosos. Pruebe la hipótesis nula de que el número de defectos tiene una distribución Binomial. Número de defectos Frecuencia 0 11 1 27 2 38 3 13 4 7 5 2 6 1 7 1 8 ó más 0 42. Una máquina produce artı́culos de plástico en grupos de tres artı́culos a la vez. El proceso es poco confiable y se observan algunos artı́culos defectuosos. En un experimento se produjeron 512 grupos de artı́culos y en estos el número de grupos con i defectos, para i = 0, 1, 2, 3, fueron: 213 (i = 0), 228 (i = 1), 57 (i = 2), y 14 (i = 3). Pruebe la hipótesis de que cada artı́culo tiene una constante (pero desconocida) probabilidad θ de estar defectuosa, independientemente de los otros artı́culos. 43. Se seleccionan 6 grupos de 100 semillas para sembrar. En cada uno de los 6 grupos, el número de semillas que no germinaron fueron: 12, 20, 9, 17, 24 y 16. Pruebe la hipótesis de que la proporción de semillas no germinadas fue la misma para todos los grupos. 44. Los siguientes datos muestran los resultados de un ensayo médico para probar dos tratamientos, un tratamiento viejo y un tratamiento nuevo, para una enfermedad. Se eligieron 1100 pacientes para recibir cada tratamiento. Tratamiento Viejo Nuevo Total Sobrevivieron 505 195 700 Murieron 595 905 1500 Total 1100 1100 2200 Pruebe la hipótesis de que los tratamientos tienen la misma tasa de supervivencia. ¿Qué tratamiento preferirı́a? Considere que el ensayo se llevó a cabo en dos hospitales, para los cuales los datos se muestran a continuación. Los médicos del hospital A, un famoso hospital de investigación, diseñaron el ensayo médico. Sus pacientes tienden a estar severamente más enfermos y ellos son a quienes se les aplica con mayor frecuencia el nuevo tratamiento. ¿La efectividad de los dos tratamientos es la misma, considerando los diferentes resultados en ambos hospitales? 318 6. Pruebas de hipótesis Tratamiento Viejo Nuevo Total Hospital A Sobrevivieron Murieron 5 95 100 900 105 995 Total 100 1000 1100 Tratamiento Viejo Nuevo Total Hospital B Sobrevivieron Murieron 500 500 95 5 595 505 Total 1000 100 1100 Apéndice A Algunos conceptos y resultados de probabilidad En este apéndice se enumeran algunos de los resultados y conceptos más importantes de la teorı́a de la probabilidad que se utilizan en la inferencia estadı́stica. El objetivo es que el lector pueda consultarlos en el mismo texto, pero no se profundiza en ellos, por lo que se recomienda consultar libros especializados en el tema para un análisis o estudio más formal de la probabilidad. A.1. Espacios de probabilidad Definición A.1 (espacio de probabilidad). Un espacio de probabilidad es una terna (Ω, F, P) donde: Ω es un conjunto arbitrario, aunque en la teorı́a de la probabilidad se le conoce como espacio muestral, y es el conjunto de posibles resultados de un experimento aleatorio. F es una σ-álgebra de subconjuntos de Ω que satisface: 1. Ω ∈ F. 2. Si A ∈ F, entonces Ac ∈ F. 3. Si A1 , A2 , . . . , An ∈ F, entonces A1 ∪ A2 ∪ · · · ∪ An ∈ F. 319 320 A. Algunos conceptos y resultados de probabilidad P : F → [0, 1] es una función conocida como medida de probabilidad que cumple: 1. P(Ω) = 1. 2. P(A) ≥ 0 ∀A ∈ F. 3. Si S A1 , A2 , . . . , P An ∈ F y Ai ∩ Aj = ∅ para i 6= j, entonces n n P ( i=1 Ai ) = i=1 P(Ai ). Proposición A.1 (algunas propiedades de P). A continuación se mencionan algunas propiedades de la medida de probabilidad. 1. Sean A, B ∈ F, si A ⊆ B entonces P(A) ≤ P(B). 2. P(∅) = 0. 3. Sean A ∈ F, entonces P(Ac ) = 1 − P(A). 4. Sean A, B ∈ F, entonces P(A ∪ B) = P(A) + P(B) − P(A ∩ B). 5. Desigualdad de Boole: Sean A1 , . . . , An ∈ F, entonces ! n n X [ P(Ai ). P Ai ≤ i=1 i=1 6. Fórmula de inclusión-exclusión: Sean A1 , . . . , An ∈ F, entonces ! n n [ X X P Ai = P(Ai ) − P(Ai ∩ Aj ) i=1 i=1 + X i6=j P(Ai1 ∩ Ai2 ∩ Ai3 ) + · · · i1 <i2 <i3 + · · · + (−1) n+1 P n \ ! Ai . i=1 A.2. Probabilidad condicional e independencia Definición A.2 (probabilidad condicional). Sean A y B en F tal que P(B) > 0. Entonces la probabilidad de A condicionada a B, o la probabilidad de A dado B, es P(A ∩ B) . P(A|B) = P(B) 321 A.3. Variables aleatorias Algunas propiedades y teoremas que se obtienen a partir de la probabilidad condicional son los siguientes. Proposición A.2 P(·|B) es una medida de probabilidad. Teorema A.1 (probabilidad total). Sean B1 , B2 , . . . , Bn ∈ F tales que Sn Bi ∩ Bj = ∅ ∀ i 6= j y i=1 Bi = Ω, entonces para A ∈ F: P(A) = n X P(A|Bi )P(Bi ). i=1 Teorema A.2 (teorema Sn de Bayes) . Sean B1 , B2 , . . . , Bn ∈ F tales que Bi ∩ Bj = ∅ ∀ i 6= j y i=1 Bi = Ω, entonces para A ∈ F: P(Bj |A) = P(A|Bj )P(Bj ) P(A ∩ Bj ) = Pn . P(A) i=1 P(A|Bi )P(Bi ) Definición A.3 (independencia). Se dice que A ∈ F y B ∈ F son independientes si y sólo si P(A ∩ B) = P(A)P(B). Definición A.4 Se dice que A1 , A2 , . . . , An ∈ F son independientes si y sólo si P(Ai ∩ Aj ) = P(Ai )P(Aj ) para todo i 6= j. P(Ai ∩ Aj ∩ Ak ) = P(Ai )P(Aj )P(Ak ) para todo i 6= j 6= k. .. . P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 ) · · · P(An ). Teorema A.3 Si A y B son independientes entonces: A y B c son independientes. Ac y B son independientes. Ac y B c son independientes. A.3. Variables aleatorias Definición A.5 (variable aleatoria). Sea (Ω, F, P) un espacio de probabilidad. Una variable aleatoria es una función X : Ω → R que es F-medible, es decir, que ∀x ∈ R, X −1 (−∞, x] = {ω ∈ Ω : X(ω) ≤ x} ∈ F. 322 A. Algunos conceptos y resultados de probabilidad Definición A.6 (función de distribución). Sea (Ω, F, P) un espacio de probabilidad y X : Ω → R una variable aleatoria. La función de distribución de X es una función FX : R → [0, 1] definida como: FX (x) = P ({ω ∈ Ω : X(ω) ≤ x}) := P(X ≤ x). La función de distribución (acumulativa) satisface algunas propiedades: es no decreciente y continua por la derecha, además lı́mx→−∞ FX (x) = 0 y lı́mx→∞ FX (x) = 1. Definición A.7 (función de densidad de probabilidad) . Se dice que fX : R → [0, 1] es una función de densidad de probabilidad (asociada a X) si satisface que: Para el caso de variables aleatorias discretas, fX : N → [0, 1], donde N es un conjunto a lo más numerable, definida como fX (x) = P(X = x) y que cumple: 1. fX (x) ≥ 0 ∀x ∈ R. P 2. x fX (x) = 1. Para el caso de variables aleatorias continuas, fX : R → R+ satisface: 1. fX (x) ≥ 0 ∀x ∈ R. R∞ 2. −∞ fX (x)dx = 1. A.4. Distribuciones conjuntas y condicionales Definición A.8 (función de distribución acumulativa conjunta). Sean X1 , . . . , Xk , k variables aleatorias, todas definidas sobre el mismo espacio de probabilidad (Ω, F, P). La función de distribución acumulativa conjunta de X1 , . . . , Xk , denotada por FX1 ,...,Xk (·, . . . , ·), está definida como FX1 ,...,Xk (x1 , . . . , xk ) = P (X1 ≤ x1 , . . . , Xk ≤ xk ) , para todo (x1 , . . . , xk ) . Por lo tanto, la función de distribución acumulativa conjunta es una función con dominio en Rk (espacio k-Euclidiano) y contradominio el intervalo cerrado [0, 1]. 323 A.4. Distribuciones conjuntas y condicionales Anteriormente se comentó que la función de distribución acumulativa de una variable aleatoria unidimensional tiene ciertas propiedades; lo mismo sucede para la distribución acumulativa conjunta, se verán a continuación dichas propiedades para la función de dos variables. Proposición A.3 (propiedades de la función de distribución bivariada). Si FX,Y (·, ·) es la función de distribución acumulativa conjunta de X y Y , se cumple lo siguiente: 1. FX,Y (−∞, y) = FX,Y (x, −∞) = FX,Y (∞, ∞) = lı́m FX,Y (x, y) = 0 ∀y, lı́m FX,Y (x, y) = 0 ∀x, x→−∞ y→−∞ lı́m F x→∞ X,Y y→∞ (x, y) = 1. 2. Si x1 < x2 y y1 < y2 , entonces P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = FX,Y (x2 , y2 ) − FX,Y (x2 , y1 ) − FX,Y (x1 , y2 ) + FX,Y (x1 , y1 ) . 3. FX,Y (x, y) es continua en cada argumento, esto es lı́m FX,Y (x + h, y) = lı́m+ F (x, y + h) = FX,Y (x, y) . h→0+ h→0 Cualquier función que satisface las propiedades (1) a (3) se conoce como una función de distribución acumulativa bivariada. Definición A.9 (función de distribución acumulativa marginal). Si FX,Y (·, ·) es la función de distribución acumulativa conjunta de X y Y , entonces las funciones de distribución acumulativa FX (·) y FY (·) se conocen también como funciones de distribución acumulativas marginales de X y Y, respectivamente. Observación A.1 FX (x) = FX,Y (x, ∞) y FY (y) = FX,Y (∞, y) ; esto es, el conocimiento de la función de distribución acumulativa conjunta de X y Y implica el conocimiento de las dos funciones de distribución acumulativa marginal. p FX (x) FY (y) Observación A.2 FX (x) + FY (y) − 1 ≤ FX,Y (x, y) ≤ para todas x y y. 324 A.4.1. A. Algunos conceptos y resultados de probabilidad Variables aleatorias discretas Si X1 , . . . , Xk son variables aleatorias definidas sobre el mismo espacio de probabilidad, entonces (X1 , . . . , Xk ) se conoce como una variable aleatoria k-dimensional, o vector aleatorio de dimensión k. Definición A.10 (variables aleatorias discretas conjuntas). La variable aleatoria k-dimensional (X1 , . . . , Xk ) se define como una variable aleatoria discreta k-dimensional si puede tomar valores sólo sobre un número contable de puntos (x1 , . . . , xk ) en el espacio real k-dimensional. También se suele decir que las variables aleatorias X1 , . . . , Xk son variables aleatorias discretas conjuntas. Definición A.11 (función de densidad discreta conjunta). Si (X1 , . . . , Xk ) es una variable aleatoria discreta k-dimensional, entonces la función de densidad discreta conjunta de (X1 , . . . , Xk ), denotada por fX1 ,...,Xk (·, . . . , ·) se define como fX1 ,...,Xk (x1 , . . . , xk ) = P (X1 = x1 , . . . , Xk = xk ) , para (x1 , . . . , xk ), un valor de (X1 , . . . , Xk ) , y es igual a cero en otro caso. P Observación A.3 fX1 ,...,Xk (x1 , . . . , xk ) = 1, donde la suma es sobre todos los valores posibles de (X1 , . . . , Xk ). Teorema A.4 Si X y Y son variables aleatorias discretas conjuntas, entonces el conocimiento de FX,Y (·, ·) es equivalente al conocimiento de fX,Y (·, ·) . Este teorema se generaliza a variables aleatorias discretas k-dimensionales. Demostración. Sea (x1 , y1 ) , . . . , (xk , yk ) el conjunto de puntos de posiP bles valores de (X, Y ). Si fX,Y (·, ·) está dada, entonces FX,Y (x, y) = fX,Y (xi , yi ) , donde la suma es sobre todas las i’s para las cuales xi ≤ x y yi ≤ y. Recı́procamente, si FX,Y (·, ·) está dada, entonces para (xi , yi ) , un valor posible de (X, Y ), fX,Y (xi , yi ) = FX,Y (xi , yi ) − lı́m FX,Y (xi − h, yi ) 0<h→0 − lı́m FX,Y (xi , yi − h) + lı́m FX,Y (xi − h, yi − h) . 0<h→0 0<h→0 Definición A.12 (densidad discreta marginal). Si X y Y son variables aleatorias discretas, entonces a las funciones de densidad de X y Y, fX (·) y A.4. Distribuciones conjuntas y condicionales 325 fY (·) , se les conoce también como funciones de densidad marginales. Más generalmente, sea X1 , . . . , Xkn cualquier subconjunto de las variables aleatorias discretas X1 , . . . , Xk ; entonces fX1 ,...,Xkn (x1 , . . . , xkn ) es también llamada una densidad marginal. Observación A.4 Si X1 , . . . , Xk son variables aleatorias discretas conjuntamente distribuidas, entonces cualquier densidad discreta marginal puede encontrarse de la densidad conjunta, lo recı́proco no es cierto. Por ejemplo, si X y Y son variables aleatorias conjuntamente distribuidas con valores (x1 , y1 ) , (x2 , y2 ) , . . ., entonces X fX (xk ) = fX,Y (xk , yi ) , yi fY (yk ) = X fX,Y (xi , yk ) . xi A.4.2. Variables aleatorias continuas Definición A.13 (variables aleatorias continuas conjuntas y función de densidad). La variable aleatoria k-dimensional (X1 , . . . , Xk ) se define como una variable aleatoria continua k-dimensional si y sólo si existe una función fX1 ,...,Xk (·, . . . , ·) ≥ 0 tal que Z xk Z x1 ··· FX1 ,...,Xk (x1 , . . . , xk ) = −∞ fX1 ,...,Xk (u1 , . . . , uk ) du1 · · · duk , −∞ para toda (x1 , . . . , xk ). La función fX1 ,...,Xk (·, . . . , ·) se define como la función de densidad de probabilidad conjunta. Al igual que en el caso univariado, la función de densidad de probabilidad conjunta tiene dos propiedades: 1. fX1 ,...,Xk (x1 , . . . , xk ) ≥ 0. R∞ R∞ 2. −∞ · · · −∞ fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk = 1. En el caso de las funciones de densidad de probabilidad univariadas, estas funciones son utilizadas para encontrar la probabilidad P [a < X ≤ b] como Rb R f (x) dx o, de forma general, P [X ∈ B] = B fX (x) dx. a X En el caso bivariado, el volumen da las probabilidades. Por ejemplo, sea fX1 ,X2 (x1 , x2 ) una función de densidad de probabilidad conjunta para las 326 A. Algunos conceptos y resultados de probabilidad variables aleatorias continuas conjuntas (X1 , X2 ) y sea R alguna región en el plano cartesiano, entonces Z Z P [(X1 , X2 ) ∈ R] = fX1 ,X2 (x1 , x2 ) dx1 dx2 . R Si en particular, R = {(x1 , x2 ) : a1 < x1 ≤ b1 , a2 < x2 ≤ b2 } , entonces Z b2 Z b1 P (a1 < x1 ≤ b1 , a2 < x2 ≤ b2 ) = fX1 ,X2 (x1 , x2 ) dx1 dx2 . a2 a1 Teorema A.5 Si X y Y son variables aleatorias continuas conjuntamente distribuidas, entonces el conocimiento de FX,Y (·, ·) es equivalente al conocimiento de fX,Y (·, ·) y viceversa. Lo anterior se generaliza para variables aleatorias continuas k-dimensionales. Para una fX,Y (·, ·) dada, FX,Y (·, ·) puede obtenerse para cualquier (x, y) como: Z y Z x FX,Y (x, y) = fX,Y (u, v) dudv. −∞ −∞ Ası́mismo, para una FX,Y (·, ·) dada, entonces fX,Y (·, ·) puede obtenerse como: ∂ 2 FX,Y (x, y) , fX,Y (x, y) = ∂x∂y para los valores x, y, donde FX,Y (·, ·) es diferenciable. Definición A.14 (función de densidad de probabilidad marginal) . Si X y Y son variables aleatorias continuas conjuntamente distribuidas, entonces fX (·) y fY (·) se llaman funciones de densidad de probabilidad marginal. Generalizando, sea Xi1 , . . . , Xim cualquier subconjunto de las variables aleatorias continuas conjuntamente distribuidas X1 , . . . , Xk , entonces fXi1 ,...,Xim (xi1 , . . . , xim ) , se llama la densidad marginal de la variable aleatoria m-dimensional (Xi1 , . . . , Xim ). Si X y Y son variables aleatorias continuas, entonces Z ∞ fX (x) = fX,Y (x, y) dy, −∞ Z ∞ fY (y) = fX,Y (x, y) dx. −∞ A.4. Distribuciones conjuntas y condicionales A.4.3. 327 Distribución condicional e independencia estocástica Definición A.15 (función de densidad discreta condicional). Sean X y Y variables aleatorias discretas con función de densidad discreta conjunta fX,Y (·, ·) . La función de densidad discreta condicional de Y dada X = x denotada por fY |X (·|x) se define como fY |X (y|x) = fX,Y (x, y) , fX (x) si fX (x) > 0, donde fX (x) es la densidad marginal de X. Similarmente, fX|Y (x|y) = fX,Y (x, y) , fY (y) si fY (y) > 0. De la definición anterior se tiene que fX|Y (·|y) o fY |X (·|x) deben cumplir con las propiedades de una función de densidad de probabilidad. Definición A.16 (función de densidad continua condicional). Si X y Y son variables aleatorias continuas conjuntamente distribuidas, entonces la distribución acumulativa condicional de Y dado X = x está definida como Z y FY |X (y|x) = fY |X (v|x) dv, −∞ para toda x tal que fX (x) > 0. Ya se revisó el concepto de probabilidad condicional entre variables aleatorias, por lo que corresponde revisar ahora el concepto de independencia entre variables aleatorias. Definición A.17 (independencia estocástica) . Sea (X1 , . . . , Xk ) una variable aleatoria k-dimensional. X1 , . . . , Xk son definidas como estocásticamente independientes si y sólo si FX1 ,...,Xk (x1 , . . . , xk ) = k Y i=1 para toda x1 , . . . , xk . FXi (xi ) , 328 A. Algunos conceptos y resultados de probabilidad Definición A.18 (independencia estocástica) . Sea (X1 , . . . , Xk ) una variable aleatoria discreta k-dimensional con función de densidad discreta conjunta fX1 ,...,Xk (·, . . . , ·) , X1 , . . . , Xk son estocásticamente independientes si y sólo si fX1 ,...,Xk (x1 , . . . , xk ) = k Y fXi (xi ) , i=1 para todos los valores (x1 , . . . , xk ) de (X1 , . . . , Xk ) . Observación A.5 A menudo se suele omitir el término “estocástica”. En el pasado se vio que la independencia de eventos estuvo cercanamente relacionado al concepto de probabilidad condicional, de igual forma la independencia de variables aleatorias está cercanamente relacionada con la idea de distribuciones condicionales de variables aleatorias. Si X y Y son dos variables aleatorias independientes, entonces fX,Y (x, y) = fX (x) fY (y) por definición de independencia; sin embargo fX,Y (x, y) = fY |X (y|x) fX (x) por definición de densidad condicional, lo cual implica que fY |X (y|x) = fY (y) ; esto es, la densidad condicional de Y dado X es la densidad no condicional de Y , por lo que para demostrar que dos variables aleatorias no son independientes, es suficiente demostrar que fY |X (y|x) depende de x. Teorema A.6 Si X1 , . . . , Xk son variables aleatorias independientes y g1 (·) , . . . , gk (·) , son k funciones tales que Yj = gj (Xj ), para j = 1, . . . , k, entonces Y1 , . . . , Yk son independientes. A.5. Momentos de variables aleatorias A.5.1. Esperanza y varianza Definición A.19 (esperanza). La , también conocida como valor esperado o media, se denota como E(X) = µX y se define como: P xP(X = x) E(X) = Rx∞ xfX (x)dx −∞ si X es discreta; si X es continua. A.5. Momentos de variables aleatorias 329 La esperanza de una función de una variable aleatoria Si X es una variable aleatoria y g(x) es una función real, entonces, la esperanza es: P g(x)P(X = x) si X es discreta; E[g(X)] = Rx∞ g(x)fX (x)dx si X es continua. −∞ Definición A.20 (varianza). Si X es una variable aleatoria entonces su varianza está dada por: Var(X) = E (X − E(X))2 = E (X − µX )2 . Con lo que se puede dar una expresión para la varianza, pues resulta ser la esperanza de una función de una variable aleatoria, en donde g (x) = (x − E(X))2 . Ası́, P (x − µX )2 P(X = x) si X es discreta; Var(X) = Rx∞ (x − µX )2 fX (x)dx si X es continua. −∞ Proposición A.4 (algunas propiedades de E(X)). Si X y Y son variables aleatorias, entonces, 1. Si P(X ≥ 0) = 1, entonces E(X) ≥ 0. 2. Si P(X ≥ Y ) = 1, entonces E(X) ≥ E(Y ). 3. Si a y b son constantes reales, entonces E(aX + b) = aE(X) + b. Proposición A.5 (algunas propiedades de Var(X)) . Si X es variable aleatoria, entonces 1. Var(X) ≥ 0. 2. Var(X) = 0 ⇔ P (X = c) = 1 donde c es una constante real. 3. Var(aX + b) = a2 Var(X). A.5.2. Momentos El k-ésimo momento de una variable aleatoria X se define como E X k y se puede calcular de la siguiente manera: P xk P(X = x) si X es discreta; E X k = Rx∞ xk fX (x)dx si X es continua. −∞ 330 A. Algunos conceptos y resultados de probabilidad Se puede dar una relación de la varianza de una variable aleatoria X con su segundo momento de la siguiente manera: Var(X) = E (X − µX )2 = E X 2 − 2µX X + µ2X = E X 2 − 2µX E(X) + µ2X = E X 2 − E2 (X). A.5.3. Función generadora de momentos La función generadora de momentos de una variable aleatoria X, denotada por mX (t), se define como mX (t) = E etX . Ası́, P etx P(X = x) si X es discreta; mX (t) = E etX = Rx∞ etx fX (x)dx si X es continua. −∞ Esta función recibe el nombre de “generadora de momentos” debido a la siguiente observación: (tX)3 (tX)2 tX + + ··· E e = E 1 + tX + 2! 3! t3 t2 = 1 + tE(X) + E X 2 + E X 3 + · · · , 2! 3! entonces, t2 ∂ E(etX ) = E(X) + tE(X 2 ) + E(X 3 ) + · · · , ∂t 2! evaluando en t = 0 se tiene que m0X (0) = E(X). También nótese que, ∂2 E(etX ) = E(X 2 ) + tE(X 3 ) + · · · , ∂t2 de nuevo, evaluando en t = 0 se tiene que m00X (0) = E X 2 . (k) En general mX (0) = E X k , de ahı́ el nombre. Ejemplo A.1 [Función generadora de momentos de la distribución Poisson]. Sea X una variable aleatoria con distribución P oisson(λ), es decir: fX (x) = e−λ λx I(x){0,1,2,...} con λ > 0. x! 331 A.5. Momentos de variables aleatorias Calcular E (X) y E X 2 . mX (t) = E etX = ∞ X etx x=0 = e e−λ λx x! ∞ x X (et λ) −λ x! x=0 = e−λ ee = eλ(e ∴ mX (t) = eλ(e t t t λ −1) −1) . . Diferenciando se llega a que m0x (t) = eλ(e t −1) λet , t −1) λet + eλ(e m00x (t) = eλ(e t −1) 2 2t λ e . Evaluando en t = 0, m0X (0) = eλ(e 0 −1) λe0 = λ = E(X), m00X (0) = eλ(e 0 −1) λe0 + eλ(e 0 −1) 2 2(0) λ e = λ + λ2 = E(X 2 ). Usando los resultados anteriores se puede obtener Var(X): Var(X) = E (X − E(X))2 = E X 2 − E2 (X) = λ + λ2 − λ2 = λ. ∴ E(X) = λ = Var(X). A.5.4. Esperanza de g (X1 , . . . , Xn ) Aquı́, igual que antes se procederá a revisar la definición de esperanza matemática de variables aleatorias k-dimensionales y posteriormente se verá lo relacionado con respecto a la media y a la varianza para finalizar con el concepto de esperanza matemática de una función de una variable aleatoria k-dimensional. Definición A.21 (esperanza matemática) . Sea (X1 , . . . , Xk ) una variable aleatoria k-dimensional con densidad f(X1 ,...,Xk ) (·, . . . , ·) . El valor esperado de una función g (·, . . . , ·) de la variable aleatoria k-dimensional, denotada por E [g (X1 , . . . , Xk )] , está definida como X E [g (X1 , . . . , Xk )] = g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk ) 332 A. Algunos conceptos y resultados de probabilidad si la variable aleatoria (X1 , . . . , Xk ) es discreta, donde la suma es sobre todos los posibles valores de (X1 , . . . , Xk ), y Z ∞ Z ∞ E [g (X1 , . . . , Xk )] = ··· g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk −∞ −∞ si la variable aleatoria (X1 , . . . , Xk ) es continua. Por supuesto, lo anterior es cierto si la suma converge o la integral existe. Observación A.6 En particular, si g (x1 , . . . , xk ) = xi entonces, E [g (X1 , . . . , Xk )] = E [Xi ] . 2 Observación A.7 Si g (x1 , . . . , xn ) = (xi − E (xi )) entonces E [g (X1 , . . . , Xn )] = Var (Xi ) . A continuación se define la covarianza entre dos variables aleatorias. Definición A.22 Sean X y Y variables aleatorias. La covarianza entre X y Y se define como Cov (X, Y ) = E {[X − E (X)] [Y − E (Y )]} . Teorema A.7 Sean X y Y variables aleatorias, entonces Cov (X, Y ) = E (XY ) − E (X) E (Y ) . Sea E (X) = µX y E (Y ) = µY , Cov (X, Y ) A.5.5. = = = = E [(X − µX ) (Y − µY )] = E [XY − XµY − Y µX + µX µY ] E [XY ] − µY E [X] − µX E [Y ] + µX µY E [XY ] − µY µX − µX µY + µX µY E [XY ] − µY µX . Coeficiente de correlación ρxy Si X y Y son variables aleatorias, entonces se define el coeficiente de correlación, denotado por ρx,y , de la siguiente manera: ρxy = p Cov(X, Y ) Var(X)Var(Y ) Se puede probar que −1 ≤ ρxy ≤ 1. . A.5. Momentos de variables aleatorias A.5.6. 333 Esperanza condicional Definición A.23 (esperanza condicional). Sea (X, Y ) una variable aleatoria bidimensional y g (·, ·) una función de dos variables. La esperanza condicional de g (X, Y ) dado que X = x, denotada por E [g (X, Y ) |X = x] , está definida como Z ∞ E [g (X, Y ) |X = x] = g (x, y) fY |X (y|x) dy, −∞ si X y Y son continuas, y E [g (X, Y ) |X = x] = X g (x, y) fY |X (y|x) , y si X y Y son discretas y la suma se realiza sobre todos los posibles valores de Y . Observación A.8 Para el caso continuo, Z ∞ E [g (Y ) |X = x] = g (y) fY |X (y|x) dy, −∞ y para el caso discreto, E [g (Y ) |X = x] = X g (y) fY |X (y|x) . y Teorema A.8 Sea (X, Y ) una variable aleatoria bidimensional entonces E [g (Y )] = E [E [g (Y ) |X]] , y en particular, E [Y ] = E [E [Y |X]] . Definición A.24 (curva de regresión). E [Y |X = x] se llama la curva de regresión de Y sobre x, también denotada por µY |X=x = µY |x . Definición A.25 (varianza condicional). La varianza condicional de Y dado X = x está definida por 2 Var [Y |X = x] = E Y 2 |X = x − (E [Y |X = x]) . Teorema A.9 Var [Y ] = E [Var (Y |X)] + Var [E (Y |X)]. Teorema A.10 Sea (X, Y )una variable aleatoria bidimensional, y sean g1 (·) y g2 (·) funciones de una variable. Entonces, 1. E [(g1 (Y ) + g2 (Y )) |X = x] = E [g1 (Y ) |X = x] + E [g2 (Y ) |X = x]. 2. E [(g1 (Y ) g2 (X)) |X = x] = g2 (x) E [g1 (Y ) |X = x]. 334 A.5.7. A. Algunos conceptos y resultados de probabilidad Función generadora de momentos conjunta y momentos Definición A.26 (momentos conjuntos) . Los momentos conjuntos de X1 , . . . , Xk están definidos por E [X1r1 X2r2 X3r3 · · · Xkrk ] donde las ri0 s son cero o cualquier entero positivo; los momentos conjuntos alrededor de las medias están definidos como: r r r E [(X1 − µX1 ) 1 (X2 − µX2 ) 2 · · · (Xk − µXk ) k ] . Observación A.9 Si ri = rj = 1 y todas las demás rl = 0, entonces este momento particular conjunto de Xi y Xj alrededor de sus medias es E (Xi − µXi ) Xj − µXj , representa la covarianza entre Xi y Xj . Definición A.27 (función generadora de momentos conjunta) . La función generadora de momentos conjunta de (X1 , X2 , . . . , Xk ) está definida por k X mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) = E exp tj Xj , j=1 si la esperanza existe para todos los valores de t1 , t2 , . . . , tk tales que −h < tj < h, para alguna h > 0, j = 1, 2, . . . , k. El r-ésimo momento de Xj podrı́a obtenerse de la función mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) diferenciándola r veces con respecto a tj y entonces el lı́mite cuando todas las t0 s se aproxi r tomando s man a cero. También E Xi Xj se obtiene al diferenciar r veces con respecto a Xi y s veces con respecto a Xj la función mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ). Observación A.10 Las funciones generadoras de momentos marginales pueden ser obtenidas a partir de la función generadora de momentos conjunta: A.5.8. mX (t1 ) = mX,Y (t1 , 0) = lı́m mX,Y (t1 , t2 ) , mY (t2 ) = mX,Y (0, t2 ) = lı́m mX,Y (t1 , t2 ) . t2→0 t1→0 Independencia y esperanza Teorema A.11 Si X y Y son independientes, y g1 (·) y g2 (·) son dos funciones, cada una de un solo argumento, entonces E [g1 (X) g2 (Y )] = E [g1 (X)] E [g2 (Y )] . Corolario A.1 Si X y Y son independientes, entonces Cov (X, Y ) = 0. La afirmación inversa en general no se cumple. 335 A.5. Momentos de variables aleatorias Definición A.28 (variables aleatorias no correlacionadas) . Dos variables aleatorias X y Y se definen como no correlacionadas si y solo si Cov (X, Y ) = 0. Teorema A.12 Si X y Y son independientes, entonces 1. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) = Var(X) + Var(Y ). 2. Var(X − Y ) = Var(X) + Var(Y ) − 2Cov(X, Y ) = Var(X) + Var(Y ). Note que Cov(X, X) = Var(X). Teorema A.13 Dos variables aleatorias conjuntamente distribuidas X y Y son independientes si y sólo si mX,Y (t1 , t2 ) = mX (t1 ) mY (t2 ) para toda t1 , t2 para las cuales −h < ti < h, i = 1, 2, para alguna h > 0. Suma de variables aleatorias independientes Considere a X1 , . . . , Xn como variables aleatorias independientes con función de densidad de probabilidad respectiva fXi (xi ), i = 1, 2, . . . , n. Se desea n P determinar cómo se distribuye Y = X1 + · · · + Xn = Xj . Se utilizará la j=1 función generadora de momentos para esto, mY (t) = E etY = E exp t n X Xj j=1 E etX1 +···+tXn = E etX1 · · · etXn = E etX1 · · · E etXn = = mX1 (t) · · · mXn (t) n Y = mXj (t). j=1 ∴ mY (t) = n Y mXj (t). j=1 Y si además X1 , . . . , Xn son identicamente distribuidas, entonces, n mPnj=1 Xj (t) = (mX1 (t)) . 336 A. Algunos conceptos y resultados de probabilidad A.6. Resumen de familias paramétricas A.6.1. Uniforme Discreta Definición A.29 Se dice que la variable aleatoria discreta X tiene distribución Uniforme Discreta en el conjunto {1, 2, . . . , N }, se denota X ∼ U nif (N ), si su función de densidad de probabilidad está dada por: fX (x) = P(X = x) = 1 I{1,2,...,N } (x). N Proposición A.6 Si X ∼ U nif (N ), entonces: (a) E(X) = N +1 2 . (b) E(X 2 ) = (N +1)(2N +1) . 6 (c) Var(X) = A.6.2. N 2 −1 12 . Bernoulli Definición A.30 Se dice que la variable aleatoria discreta X tiene distribución Bernoulli con parámetro p ∈ (0, 1), se denota X ∼ Bernoulli(p), si su función de densidad de probabilidad está dada por: 1 − p fX (x) = P(X = x) = p 0 si x = 0, si x = 1, en otro caso. De manera equivalente, fX (x) = px (1 − p)1−x I{0,1} (x). Proposición A.7 Si X ∼ Bernoulli(p), entonces: (a) ∀n ∈ N+ , E(X n ) = p. En particular E(X) = E(X 2 ) = p. (b) Var(X) = p(1 − p). (c) mX (t) = et p + (1 − p). A.6. Resumen de familias paramétricas A.6.3. 337 Binomial Suponga que se tienen n ensayos Bernoulli (toman valores 0 o 1, asociados con fracaso o éxito) independientes cada uno con la misma probabilidad de éxito p ∈ (0, 1). Sea X el número de éxitos en n ensayos Bernoulli independientes, entonces n x p (1 − p)n−x . P(X = x) = x Definición A.31 Se dice que la variable aleatoria discreta X tiene distribución Binomial con parámetros n ∈ N+ y p ∈ (0, 1), se denota X ∼ Bin(n, p), si su función de densidad de probabilidad está dada por: n x fX (x) = P(X = x) = p (1 − p)n−x I{0,1,2,...,n} (x). x Proposición A.8 Si X ∼ Bin(n, p), entonces: n (a) mX (t) = (et p + (1 − p)) . (b) E(X) = np. (c) E(X 2 ) = n2 p2 − np2 + np. (d) Var(X) = np(1 − p). Proposición A.9 fX (x) = nx px (1 − p)n−x es creciente si x < (n + 1)p, y es decreciente si x > (n + 1)p. A.6.4. Poisson Definición A.32 Se dice que la variable aleatoria discreta X tiene distribución Poisson con parámetro λ > 0, se denota X ∼ P oisson(λ), si su función de densidad de probabilidad está dada por: fX (x) = P(X = x) = e−λ λx I{0,1,2,...} (x). x! Proposición A.10 Si X ∼ P oisson(λ), entonces: t (a) mX (t) = e−λ(1−e ) . (b) E(X) = λ. (c) E(X 2 ) = λ(λ + 1). 338 A. Algunos conceptos y resultados de probabilidad (d) Var(X) = λ. Proposición A.11 (relación entre la binomial y la Poisson) . Considérese una variable aleatoria X tal que X ∼ Bin(n, p). Sea λ = np. Si n → ∞ y p → 0, entonces X ∼ P oisson(λ). A.6.5. Geométrica Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el número de fracasos antes del primer éxito. Entonces P(X = x) = (1 − p)x p. Definición A.33 Se dice que la variable aleatoria discreta X tiene distribución Geométrica con parámetro p ∈ (0, 1), se denota X ∼ Geo(p), si su función de densidad de probabilidad está dada por: fX (x) = P(X = x) = (1 − p)x pI{0,1,2,...} (x). Proposición A.12 Si X ∼ Geo(p), entonces: (a) mX (t) = (b) E(X) = p 1−(1−p)et . 1−p p . (c) E(X 2 ) = 1−p p (d) Var(X) = A.6.6. + 2(1−p)2 . p2 1−p p2 . Binomial negativa Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el número de fracasos antes del r-ésimo éxito. Entonces r+x−1 r P(X = x) = p (1 − p)x , x = 0, 1, 2, . . . x Definición A.34 Se dice que la variable aleatoria discreta X tiene distribución Binomial Negativa con parámetros r ∈ N y p ∈ (0, 1), se denota X ∼ BinN eg(r, p), si su función de densidad de probabilidad está dada por: r+x−1 r fX (x) = P(X = x) = p (1 − p)x I{0,1,2,...} (x). x A.6. Resumen de familias paramétricas 339 Proposición A.13 Si X ∼ BinN eg(r, p), entonces: r p (a) mX (t) = 1−(1−p)e . t (b) E(X) = r(1−p) . p (c) Var(X) = A.6.7. r(1−p) p2 . Hipergeométrica Definición A.35 Se dice que la variable aleatoria discreta X tiene distribución Hipergeométrica con parámetros n, N, r ∈ N, se denota X ∼ HiperGeo(n, N, r), si su función de densidad de probabilidad está dada por: r x fX (x) = P(X = x) = N −r n−x N n I{0,1,...,mı́n{n,r}} (x). Proposición A.14 Si X ∼ HiperGeo(n, N, r), entonces: (a) E(X) = rn N . (b) E(X 2 ) = rn N (c) Var(X) = A.6.8. h rn N (n−1)(r−1) N −1 h i +1 . (n−1)(r−1) N −1 +1− rn N i . Logarı́tmica Definición A.36 Se dice que la variable aleatoria discreta X tiene distribución Logarı́tmica con parámetro p ∈ (0, 1), se denota X ∼ Lg(p), si su función de densidad de probabilidad está dada por: fX (x) = P(X = x) = − 1 px I{1,2,...} (x). log(1 − p) x Proposición A.15 Si X ∼ Lg(p), entonces: (a) mX (t) = (b) E(X) = log(1−pet ) log(1−p) . ap log(1−p) , (c) Var(X) = 1 donde a := − log(1−p) . ap(1−ap) (1−p)2 =µ 1 1−p − µ , donde µ = E(X). 340 A.6.9. A. Algunos conceptos y resultados de probabilidad Uniforme continua Definición A.37 Se dice que la variable aleatoria continua X tiene distribución Uniforme continua en el intervalo (a, b), se denota X ∼ U nif (a, b), si su función de densidad de probabilidad está dada por: fX (x) = 1 I(a,b) (x). b−a Proposición A.16 Si X ∼ U nif (a, b), entonces: (a) mX (t) = (b) E(X) = 1 bt t(b−a) (e a+b 2 . (c) E2 (X) = a2 +ab+b2 . 3 (d) Var(X) = A.6.10. − eat ). (b−a)2 12 . Exponencial Definición A.38 Se dice que la variable aleatoria continua X tiene distribución Exponencial con parámetro λ ∈ R+ , se denota X ∼ exp(λ), si su función de densidad de probabilidad está dada por: fX (x) = λe−λx I(0,∞) (x). Proposición A.17 Si X ∼ Exp(λ), entonces: (a) mX (t) = λ λ−t , t < λ. (b) E(X) = λ1 . (c) E(X 2 ) = λ+1 λ2 . (d) Var(X) = A.6.11. 1 λ2 . Gama Se define la función Gama, Γ(·), de la siguiente manera: Z ∞ Γ(t) = xt−1 e−x dx. 0 La función Gama satisface algunas propiedades: 341 A.6. Resumen de familias paramétricas (i) Γ(n + 1) = nΓ(n) con n ∈ R+ . En particular si n ∈ Z+ , entonces Γ(n + 1) = n!. π con p ∈ (0, 1). En particular con p = (ii) Γ(p)Γ(1 − p) = sen(pπ) √ 1 1 π Γ( 2 )Γ( 2 ) = sen( π ) = π, es decir (Γ( 12 ))2 = π ⇒ Γ( 21 ) = π. 1 2, 2 (iii) Para n impar, Γ( n2 ) = (iv) R∞ 0 xα−1 e−λx dx = √ π(n−1) . 2n−1 ( n−1 2 )! Γ(α) λx . n→∞ (v) Forma asintótica de Stirling: Γ(n+1) −→ n→∞ √ n! −→ 2πnnn e−n . (vi) Γ(2) = Γ(1) = R∞ 0 √ 2πnnn e−n . En particular e−x dx = 1. Definición A.39 Se dice que la variable aleatoria continua X tiene distribución Gama con parámetros r > 0 y λ > 0, se denota X ∼ Gama(r, λ), si su función de densidad está dada por: fX (x) = λr r−1 −λx x e I(0,∞) (x). Γ(r) Proposición A.18 Si X ∼ Gama(r, λ), entonces: (a) mX (t) = λ λ−t r si t < λ. (b) E(X) = λr . (c) E(X 2 ) = r(r+1) λ2 . (d) Var(X) = r λ2 . Definición A.40 Se dice que la variable aleatoria continua X tiene distribución Gama Generalizada con parámetros a > 0, p > 0 y σ > 0, se denota X ∼ GamaG(a, p, σ), si su función de densidad está dada por: fX (x) = a σ ap Γ(p) a xap−1 e−(x/σ) I(0,∞) (x). 342 A. Algunos conceptos y resultados de probabilidad A.6.12. Ji-cuadrada Definición A.41 Se dice que la variable aleatoria continua X tiene distribución Ji-cuadrada con k grados de libertad si X ∼ Gama(k/2, 1/2), se denota X ∼ χ2(k) , es decir, si su función de densidad está dada por: fX (x) = ( 12 )k/2 k −1 −x/2 x2 e I(0,∞) (x). Γ(k/2) Proposición A.19 Si X ∼ χ2(k) , entonces: k/2 1 (a) mX (t) = 1−2t . (b) E(X) = k. (c) E(X 2 ) = k(k + 2). (d) Var(X) = 2k. A.6.13. Beta Definición A.42 Se dice que la variable aleatoria continua X tiene distribución Beta con parámetros α > 0 y β > 0, se denota X ∼ Beta(α, β), si su función de densidad está dada por: fX (x) = donde B(u, v) = R1 0 1 xα−1 (1 − x)β−1 I(0,1) (x), B(α, β) tu−1 (1 − t)v−1 dt es conocida como la función beta. Existe una relación entre las funciones Beta y Gama: B(α, β) = Γ(α)Γ(β) . Γ(α + β) Proposición A.20 Si X ∼ Beta(α, β), entonces: (a) E(X) = α α+β . (b) E(X 2 ) = α(α+1) (α+β+1)(α+β) . (c) Var(X) = (d) E(X r ) = αβ (α+β)2 (α+β+1) . Γ(α+r)Γ(α+β) Γ(α)Γ(α+β+r) . Nota: no existe forma analı́tica para la función generadora de momentos para una variable aleatoria con distribución Beta. 343 A.6. Resumen de familias paramétricas A.6.14. Normal Definición A.43 Se dice que la variable aleatoria continua X tiene distribución Normal con parámetros µ ∈ R y σ 2 > 0, se denota X ∼ N (µ, σ 2 ), si su función de densidad está dada por: 1 1 exp − 2 (x − µ)2 IR (x). fX (x) = √ 2σ 2πσ 2 Proposición A.21 Si X ∼ N (µ, σ 2 ), entonces: (a) E(X) = µ. (b) E(X 2 ) = σ 2 + µ2 . (c) Var(X) = σ 2 . (d) mX (t) = exp µt + 12 t2 σ 2 . A.6.15. t de Student Definición A.44 Se dice que la variable aleatoria continua X tiene distribución t de Student con k grados de libertad, se denota X ∼ N (µ, σ 2 ), si su función de densidad está dada por: fX (x) = A.6.16. Γ( k+1 1 2 ) 1 √ k+1 IR (x). k Γ( 2 ) kπ 1 + x2 2 k F de Fisher Definición A.45 Se dice que la variable aleatoria continua X tiene distribución F de Fisher con parámetros m, n > 0, se denota X ∼ F (m, n), si su función de densidad está dada por: m−2 fX (x) = A.6.17. m m/2 Γ( m+n x 2 2 ) I(0,∞) (x). m n m+n Γ( 2 )Γ( 2 ) n 2 1 + (m )x n Log-Normal Definición A.46 Se dice que la variable aleatoria continua X tiene distribución Log-Normal con parámetros µ ∈ R y σ 2 ∈ R+ , se denota X ∼ LgN (µ, σ 2 ), si su función de densidad está dada por: ( 2 ) 1 1 log(x) − µ fX (x) = √ exp − I(0,∞) (x). 2 σ x 2πσ 2 344 A. Algunos conceptos y resultados de probabilidad Proposición A.22 Si X ∼ LgN (µ, σ 2 ), entonces: (a) E(X) = exp µ + σ2 2 . (b) E(X 2 ) = exp 2(µ + σ 2 ) . (c) Var(X) = exp(2µ + σ 2 )[exp(σ 2 ) − 1]. (d) E(X r ) = exp(rµ + A.6.18. r2 σ2 2 ). Logı́stica Definición A.47 Se dice que la variable aleatoria continua X tiene distribución Logı́stica con parámetros µ ∈ R y σ ∈ R+ , se denota X ∼ Logistic(µ, σ), si su función de densidad está dada por: fX (x) = e−(x−µ)/σ IR (x). σ(e−(x−µ)/σ )2 Proposición A.23 Si X ∼ Logistic(µ, σ), entonces: (a) E(X) = µ. (b) E(X 2 ) = µ2 + (c) Var(X) = A.6.19. πσ 2 3 . πσ 2 3 . Log-logı́stica Definición A.48 Se dice que la variable aleatoria continua X tiene distribución Log-Logı́stica con parámetros α, λ ∈ R+ , se denota X ∼ log − Logistic(α, λ), si su función de densidad está dada por: fX (x) = λα(λt)α−1 I(0,∞) (x). (1 + (λt)α )2 Proposición A.24 Si X ∼ log − Logistic(α, λ), entonces Ln(X) ∼ Logistic(µ = −Ln(λ), σ = 1/α). 345 A.6. Resumen de familias paramétricas A.6.20. Pareto Definición A.49 Se dice que la variable aleatoria continua X tiene distribución clásica de Pareto con parámetros α, σ ∈ R+ , se denota X ∼ P aI(α, σ), si su función de densidad está dada por: ασ α I[σ,∞) (x). xα+1 Proposición A.25 Si X ∼ P aI(α, σ), entonces: fX (x) = (a) E(X) = ασ α−1 , (b) E(X r ) = si α > 1. ασ r α−r , (c) Var(X) = si α > r. ασ 2 α(α−1)2 (α−2) , si α > 2. Definición A.50 Se dice que la variable aleatoria continua X tiene distribución Pareto tipo II con parámetros α, σ ∈ R+ , se denota X ∼ P aII(α, σ), si su función de densidad está dada por: fX (x) = α 1 I(0,∞) (x). σ (1 + σx )α+1 Proposición A.26 Si X ∼ P aII(α, σ), entonces: (a) E(X) = σ α−1 , (b) E(X r ) = si α > 1. Γ(α−r)Γ(r+1)σ r , Γ(α) (c) Var(X) = ασ 2 α(α−1)2 (α−2) , si α > r. si α > 2. Proposición A.27 Si X ∼ P aII(α, σ), entonces X − σ ∼ P aII(α, σ). Proposición A.28 Si X ∼ Beta(α, 1), entonces 1 X ∼ P aI(α, 1). Definición A.51 Se dice que la variable aleatoria continua X tiene distribución Pareto generalizada con parámetros k, σ ∈ R+ , se denota X ∼ GP a(k, σ), si su función de densidad está dada por: 1 1 kx k−1 fX (x) = 1− I(0,∞) (x). σ σ Proposición A.29 Si X ∼∼ GP a(k, σ), entonces: h r i 1 (a) E 1 − kX = 1+rk . σ (b) E(X) = σ 1+k . (c) Var(X) = σ2 (1+k)2 (1+2k) , si α > 2. 346 A.6.21. A. Algunos conceptos y resultados de probabilidad Gaussiana inversa Definición A.52 Se dice que la variable aleatoria continua X tiene distribución Gaussiana inversa con parámetros µ, λ ∈ R+ , se denota X ∼ IG(µ, λ), si su función de densidad está dada por: r fX (x) = λ λ 2 exp − 2 (x − µ) I(0,∞) (x). 2πx3 2µ x Proposición A.30 Si X ∼ IG(µ, λ), entonces: (a) E(X) = µ. (b) E(X 2 ) = µ2 (1 + µλ ). (c) Var(X) = µ3 λ . (d) mX (t) = exp A.6.22. λ µ 1− q 1− 2µ2 t λ . Gompertz La siguiente distribución la propuso Benjamin Gompertz para ajustar tablas de mortalidad. Definición A.53 Se dice que la variable aleatoria continua X tiene distribución Gompertz con parámetros b, c ∈ R+ , se denota X ∼ Gom(b, c), si su función de densidad está dada por: fX (x) = be A.6.23. cx b cx exp − (e − 1) I(0,∞) (x). c Makeham Definición A.54 Se dice que la variable aleatoria continua X tiene distribución Makeham con parámetros a, b, c ∈ R+ , se denota X ∼ M ak(a, b, c), si su función de densidad está dada por: b cx fX (x) = (a + be ) exp −ax − (e − 1) I(0,∞) (x). c cx 347 A.6. Resumen de familias paramétricas A.6.24. Benktander Las distribuciones de Benktander (Benktander & Segerdahl (1960), Benktander (1960)) surgen con la idea de encontrar una distribución cuya vida residual media se encuentre entre las vidas residuales medias de las distribuciones exponencial y de Pareto. Definición A.55 Se definen las distribuciones de Benktander. (I) Benktander tipo I (con a > 0, b ∈ (0, 1] y σ > 0): ( 1 − ( σx )−(1−b) exp[− ab (xb − σ b )] F (x) = 0 si x ≥ σ, si x < σ. (II) Benktander tipo II (con a > 0, b ≥ 0 y σ > 0): ( a+2b log(x) x −a−1 exp[−b(log2 (x) − log2 (σ))] 1 − a+2b log(σ) ( σ ) F (x) = 0 si x ≥ σ, si x < σ. Proposición A.31 Si X tiene una distribución Benktander tipo I, entonces, (1 + a + 2b log(σ))σ E(X) = . a + 2b log(σ) Proposición A.32 Si X tiene una distribución Benktander tipo II, entonces, 1 E(X) = σ 1 + b . aσ A.6.25. Gumbel Definición A.56 Se dice que la variable aleatoria continua X tiene distribución Gumbel con parámetros µ ∈ R y σ > 0, se denota X ∼ Gum(µ, σ), si su función de densidad está dada por: x−µ x−µ 1 exp − exp − IR (x). fX (x) = exp − σ σ σ Proposición A.33 Si X ∼ Gum(µ, σ), entonces: (a) E(X) = µ − σψ(1). (b) E(X 2 ) = µ2 + (c) Var(X) = π 6σ 2 . π 6σ 2 − 2σψ(1) + (ψ(1))2 . 348 A. Algunos conceptos y resultados de probabilidad A.6.26. Weibull Definición A.57 Se dice que la variable aleatoria continua X tiene distribución Weibull con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼ W ei(σ, α, µ), si su función de densidad está dada por: α x−µ α I(µ,∞) (x). fX (x) = α (x − µ)α−1 exp − σ σ Proposición A.34 Si X ∼ W ei(σ, α, µ), entonces: (a) E(X) = µ + σΓ 1 + α1 . (b) E(X 2 ) = µ2 + 2σµΓ(1 + α1 ) + σ 2 Γ 1 + α2 . (c) Var(X) = σ 2 Γ 1 + α2 − Γ2 1 + α1 . A.6.27. Fréchet Definición A.58 Se dice que la variable aleatoria continua X tiene distribución Fréchet con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼ F rechet(σ, α, µ), si su función de densidad está dada por: α σ α −α−1 fX (x) = ασ (x − µ) exp − I(µ,∞) (x). x−µ Proposición A.35 Si X ∼ F rechet(σ, α, µ), entonces: (a) E(X) = µ + σΓ 1 − α1 . (b) E(X 2 ) = µ2 + 2σµΓ 1 − α1 + σ 2 Γ 1 − α2 . (c) Var(X) = σ 2 Γ 1 − α2 − Γ2 1 − α1 . A.7. Convergencia Sean X1, X2 , ... variables aleatorias en (Ω, F, P) y X una variable aleatoria en el mismo espacio. {Xn }n∈N representa la sucesión de variables aleatorias X1, X2 , .... A.7.1. Convergencia puntual Definición A.59 La sucesión {Xn }n∈N converge a X ó lı́mn→∞ Xn = X en Ω, si para todo ε > 0 y ω ∈ Ω, existe nε,ω ∈ N, tal que: | Xn (ω) − X(ω) |< ε, Notación: Xn → X. para todo n ≥ nε,ω . 349 A.7. Convergencia Convergencia uniforme Definición A.60 La sucesión {Xn }n∈N converge uniformemente a X ó lı́mn→∞ Xn = X en Ω, si para todo ε > 0, existe nε , tal que: | Xn (ω) − X(ω) |< ε, para todo n ≥ nε y ω ∈ Ω. u Notación: Xn − →X . Observación A.11 La convergencia puntual es una propiedad local en el punto ω de la sucesión. En la convergencia uniforme, dado ε ∈ R+ , a partir de cierto ı́ndice N todas las funciones Xn (ω) estarán comprendidas entre X(ω) ± ε, para todos los valores de ω. Ası́, la convergencia uniforme implica la convergencia puntual. A continuación se hace una revisión de los modos de convergencia más importantes en la teorı́a de la probabilidad, los cuales además están relacionados con teoremas lı́mite importantes que se usan en la estadı́stica. Se sugiere consultar textos como Karr (1993), en donde se analizan los resultados asociados a este tema. A.7.2. Convergencia casi segura Definición A.61 Sean {Xn }n∈N y X variables aleatorias en (Ω, F, P). Se dice que Xn converge casi seguramente o con probabilidad 1 a X, si existe A ∈ F nulo, es decir P (A) = 0, tal que Xn (ω) → X(ω), para todo ω ∈ Ac . c.s. Notación: Xn −−→ X. La definición es equivalente a: n o P ω ∈ Ω : lı́m Xn (ω) = X(ω) = 1. n→∞ Que suele escribirse simplemente como: P lı́m Xn = X = 1. n→∞ Observación A.12 Este concepto suaviza el de convergencia usual o puntual, el cuál exige la convergencia de Xn (ω) → X(ω), para todo ω ∈ Ω. En la convergencia casi segura puede haber puntos en los que Xn (ω) no converja a X(ω), pero estos puntos forman un conjunto de probabilidad nula. Si A =i ∅, h P∞ se tiene convergencia puntual. Resultado: Si n=1 P {| Xn − X |< ε} < c.s. ∞. Entonces Xn → X. 350 A. Algunos conceptos y resultados de probabilidad A.7.3. Convergencia en probabilidad p Definición A.62 Se dice que {Xn }n∈N converge en probabilidad a X (Xn − → X) si: lı́m P {ω ∈ Ω :| Xn (ω) − X(ω) |> ε} = 0, para todo ε ∈ R+ . n→∞ p Notación: Xn − → X. A.7.4. Convergencia en r-media (o r-ésima media) Definición A.63 Se dice que {Xn }n∈N converge en r-media a X, si para r > 0, se tiene que: lı́m E[| Xn (ω) − X(ω) |r ] = 0. n→∞ r Se denota por Xn − → X. Si r = 1, se le llama convergencia en media; si r = 2, se le llama convergencia en media cuadrática. A.7.5. Convergencia en distribución Definición A.64 Sean {Fn }n∈N y F las funciones de distribución de {Xn }n∈N y de X, respectivamente. Se dice que {Xn }n∈N converge en distribución a X, si: lı́m Fn (x) = F (x), para todo x punto de continuidad de F. n→∞ d Notación: Xn − → X. Observación A.13 [relación entre los modos de convergencia]. La convergencia casi segura implica la convergencia en probabilidad, la cual a su vez, implica la convergencia en distribución. La convergencia en r-ésima media implica también la convergencia en probabilidad. En general, las implicaciones restantes entre los modos de convergencia no se cumplen. Apéndice B Tablas de distribuciones de probabilidad B.1. Cuantiles para la distribución normal estándar Sea X una variable aleatoria con distribución normal estándar, X ∼ N (0, 1), su función de distribución acumulativa es: Z x 2 1 √ e−u /2 du. Φ(x) = P(X ≤ x) = 2π −∞ Note que sólo se presentan las tablas para x ≥ 0. Para obtener las probabilidades para x < 0 use la propiedad de simetrı́a tal que Φ(−x) = 1 − Φ(x). 351 352 x 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 B. Tablas de distribuciones de probabilidad 0.0000 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.9998 0.0100 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.9998 0.0200 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.9998 0.0300 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.9998 P(X 0.0400 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998 ≤ x) 0.0500 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.0600 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.9998 0.0700 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.9998 0.0800 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.9998 0.0900 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 0.9998 353 B.2. Cuantiles para la distribución Ji-cuadrada B.2. Cuantiles para la distribución Ji-cuadrada Sea X una variable aleatoria con distribución Ji-cuadrada con k grados de libertad, X ∼ χ2(k) , su función de distribución acumulativa es: Z FX (x) = P(X ≤ x) = 0 k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.005 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787 0.010 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 0.025 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 0.050 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 x 1 uk/2−1 e−u/2 du. Γ(k/2)2k/2 P(X 0.100 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 ≤ x) 0.900 2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 0.950 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 0.975 5.024 7.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 0.990 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 0.995 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.559 46.928 48.290 49.645 50.993 52.336 53.672 354 B. Tablas de distribuciones de probabilidad B.3. Cuantiles para la distribución t de Student Sea X una variable aleatoria con distribución t de Student con k grados de libertad, X ∼ t(k) , su función de distribución acumulativa es: Z x FX (x) = P(X ≤ x) = −∞ k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ∞ 0.900 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.282 0.950 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.645 Γ((k + 1)/2) √ (1 + u2 /k)−(k+1)/2 du Γ(k/2) πk P(X ≤ x) 0.975 0.990 12.706 31.821 4.303 6.965 3.182 4.541 2.776 3.747 2.571 3.365 2.447 3.143 2.365 2.998 2.306 2.896 2.262 2.821 2.228 2.764 2.201 2.718 2.179 2.681 2.160 2.650 2.145 2.624 2.131 2.602 2.120 2.583 2.110 2.567 2.101 2.552 2.093 2.539 2.086 2.528 2.080 2.518 2.074 2.508 2.069 2.500 2.064 2.492 2.060 2.485 2.056 2.479 2.052 2.473 2.048 2.467 2.045 2.462 2.042 2.457 1.960 2.326 0.995 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.576 0.999 318.309 22.327 10.215 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.090 B.4. Cuantiles para la distribución F de Fisher B.4. 355 Cuantiles para la distribución F de Fisher Sea X una variable aleatoria con distribución F de Fisher con m y n grados de libertad, X ∼ F (m, n), su función de distribución acumulativa es: Z FX (x) = P(X ≤ x) = 0 P(X ≤ x) 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 n 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 x m−2 m m/2 Γ( m+n u 2 2 ) du m n m+n Γ( 2 )Γ( 2 ) n 2 1+ m u n m 1 2 3 4 5 6 7 8 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 356 P(X ≤ x) 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 0.950 0.975 0.990 B. Tablas de distribuciones de probabilidad n 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 11 11 11 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 m 9 10 11 12 13 14 15 16 240.543 241.882 242.983 243.906 244.690 245.364 245.950 246.464 963.285 968.627 973.025 976.708 979.837 982.528 984.867 986.919 6022.473 6055.847 6083.317 6106.321 6125.865 6142.674 6157.285 6170.101 19.385 19.396 19.405 19.413 19.419 19.424 19.429 19.433 39.387 39.398 39.407 39.415 39.421 39.427 39.431 39.435 99.388 99.399 99.408 99.416 99.422 99.428 99.433 99.437 8.812 8.786 8.763 8.745 8.729 8.715 8.703 8.692 14.473 14.419 14.374 14.337 14.304 14.277 14.253 14.232 27.345 27.229 27.133 27.052 26.983 26.924 26.872 26.827 5.999 5.964 5.936 5.912 5.891 5.873 5.858 5.844 8.905 8.844 8.794 8.751 8.715 8.684 8.657 8.633 14.659 14.546 14.452 14.374 14.307 14.249 14.198 14.154 4.772 4.735 4.704 4.678 4.655 4.636 4.619 4.604 6.681 6.619 6.568 6.525 6.488 6.456 6.428 6.403 10.158 10.051 9.963 9.888 9.825 9.770 9.722 9.680 4.099 4.060 4.027 4.000 3.976 3.956 3.938 3.922 5.523 5.461 5.410 5.366 5.329 5.297 5.269 5.244 7.976 7.874 7.790 7.718 7.657 7.605 7.559 7.519 3.677 3.637 3.603 3.575 3.550 3.529 3.511 3.494 4.823 4.761 4.709 4.666 4.628 4.596 4.568 4.543 6.719 6.620 6.538 6.469 6.410 6.359 6.314 6.275 3.388 3.347 3.313 3.284 3.259 3.237 3.218 3.202 4.357 4.295 4.243 4.200 4.162 4.130 4.101 4.076 5.911 5.814 5.734 5.667 5.609 5.559 5.515 5.477 3.179 3.137 3.102 3.073 3.048 3.025 3.006 2.989 4.026 3.964 3.912 3.868 3.831 3.798 3.769 3.744 5.351 5.257 5.178 5.111 5.055 5.005 4.962 4.924 3.020 2.978 2.943 2.913 2.887 2.865 2.845 2.828 3.779 3.717 3.665 3.621 3.583 3.550 3.522 3.496 4.942 4.849 4.772 4.706 4.650 4.601 4.558 4.520 2.896 2.854 2.818 2.788 2.761 2.739 2.719 2.701 3.588 3.526 3.474 3.430 3.392 3.359 3.330 3.304 4.632 4.539 4.462 4.397 4.342 4.293 4.251 4.213 2.796 2.753 2.717 2.687 2.660 2.637 2.617 2.599 3.436 3.374 3.321 3.277 3.239 3.206 3.177 3.152 4.388 4.296 4.220 4.155 4.100 4.052 4.010 3.972 2.714 2.671 2.635 2.604 2.577 2.554 2.533 2.515 3.312 3.250 3.197 3.153 3.115 3.082 3.053 3.027 4.191 4.100 4.025 3.960 3.905 3.857 3.815 3.778 2.646 2.602 2.565 2.534 2.507 2.484 2.463 2.445 3.209 3.147 3.095 3.050 3.012 2.979 2.949 2.923 4.030 3.939 3.864 3.800 3.745 3.698 3.656 3.619 2.588 2.544 2.507 2.475 2.448 2.424 2.403 2.385 3.123 3.060 3.008 2.963 2.925 2.891 2.862 2.836 3.895 3.805 3.730 3.666 3.612 3.564 3.522 3.485 2.538 2.494 2.456 2.425 2.397 2.373 2.352 2.333 3.049 2.986 2.934 2.889 2.851 2.817 2.788 2.761 3.780 3.691 3.616 3.553 3.498 3.451 3.409 3.372 Bibliografı́a [1] Berger, J. O. and Sellke, T. (1987). Testing a point null hypothesis: The irreconcilability of p values and evidence. Journal of the American Statistical Association, 82(397):112–122. [2] Campbell, N. A. and Mahon, R. J. (1974). A multivariate study of variation in two species of rock crab of genus Leptograpsus. Australian Journal of Zoology, 22:417–425. [3] Canavos, G. C. (2003). Probabilidad y Estadı́stica. Aplicaciones y Métodos. Mc Graw Hill, México. [4] Casella, G. and Berger, R. L. (2002). Statistical Inference. Duxbury Advanced Series in Statistics and Decision Sciences. Thomson Learning, 2nd edition. [5] Conover, W. J. (1999). Practical Nonparametric Statistics. John Wiley & Sons, 3rd edition. [6] Contento R., M.R. (2012). Construcción del concepto de intervalo de confianza mediante simulación en R. Universidad Nacional de Colombia. Tesis para magister en enseñanza de las ciencias exactas y naturales. [7] Dixit, U. J. (2016). Examples in Parametric Inference with R. Springer, Berlin. [8] Efron, B. (1998). R. A. Fisher in the 21st Century. Statistical Science, 13(2):95–114. [9] Everitt, B. S. (1992). The Analysis of Contingency Tables. Chapman and Hall/CRC, New York, 2nd edition. [10] Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd, Edinburgh. 357 358 Bibliografı́a [11] Fisher, S. R. A. (1956). Mathematics of a lady tasting tea. In Newman, J. R., editor, The World of Mathematics, volume 3, pages 1512–1521. Simon & Schuster, New York. [12] Gibbons, J. D. and Chakraborti, S. (2010). Nonparametric Statistical Inference. CRC Press, New York, 5th edition. [13] Gómez V., M. A. (2009). Karl Pearson, el Creador de la Estadı́stica Matemática. In Basulto, J. and Garcı́a, J. J., editors, Historia de la Probabilidad y la Estadı́stica IV, pages 351–356, Huelva. Congreso Internacional de Historia de la Estadı́stica y la Probabilidad, Servicio de Publicaciones de la Universidad de Huelva. [14] Hall, A. R. (2005). Generalized Method of Moments. Advanced Texts in Econometrics. Oxford University Press, Oxford. [15] Hogg, R. V., McKean, J., and Craig, A. T. (2014). Introduction to Mathematical Statistics. Pearson Education International, 7th edition. [16] Johnson, R. A. and Bhattacharyya, G. K. (2010). Statistics: Principles and Methods. John Wiley & Sons, 6th edition. [17] Kapadia, A. S., Chan, W., and Moyé, L. A. (2005). Mathematical Statistics with Applications. Statistics: A Series of Textbooks and Monographs. Chapman & Hall/CRC Press, 1st edition. [18] Karr, A. F. (2012). Probability. Springer Texts in Statistics. Springer Science & Business Media, LLC. [19] Kellison, S. G. and London, R. L. (2011). Risk Models and Their Estimation. ACTEX Academic Series. ACTEX Publications. [20] Kendall, M. and Stuart, A. (1979). The Advanced Theory of Statistics. Volume II, Inference and relationship. MacMillan, New York. [21] Koop, G., Poirier, D. J., and Tobias, J. L. (2007). Bayesian Econometric Methods. Cambridge University Press. [22] Lindgren, B. W. (1993). Statistical Theory. Chapman & Hall/CRC Press, 4th edition. [23] Lock, R. H. (1993). 1993 new car data. Journal of Statistics Education, 1(1). [24] Marin, J.-M. and Robert, C. (2007). Bayesian Core: A Practical Approach to Computational Bayesian Statistics. Springer. 359 [25] Mayorga, J.H. (2004). Inferencia Estadı́stica. Universidad Nacional de Colombia. Unibiblos, 1era. edición. [26] Mood, A. M., Graybill, F. A., and Boes, D. C. (1974). Introduction to the Theory of Statistics. Series in Probability and Statistics. Mc Graw Hill Education, 3rd edition. [27] Moore, D. S. (2005). Estadı́stica Aplicada Básica. Antoni Bosch, 2da edition. [28] Mukhopadhyay, N. (2006). Introductory Statistical Inference. Statistics: A Series of Textbooks and Monographs. Chapman & Hall/CRC Press, 1st edition. [29] Newman, J. R. (1956). The World of Mathematics, Vol. III. Simon and Schuster, New York. [30] Paul, S., Wang, Y. and Ullah, I. (2019). A review of the Behrens-Fisher problem and some of its analogs: does the same size fit all? REVSTAT Statistical Journal volume 17, number 4, 563-597. [31] Pearson, E. S. (1974). Memories of the impact of Fisher’s work in the 1920s. International Statistical Review / Revue Internationale de Statistique, 42(1):5–4. [32] Rao, C. R. (1997). Statistics and Truth: Putting Chance to Work. World Scientific, Singapore, 2nd edition. [33] Reid, N. (2015). Tests of significance. In Wright, J. D., editor, International Encyclopedia of the Social & Behavioral Sciences, volume 21, pages 957–962. Elsevier, Oxford, 2nd edition. [34] Rencher, A. C. and Schaalje, G. B. (2008). Linear Models in Statistics. John Wiley & Sons, 2nd edition. [35] Ross, S. (2010). A First Course in Probability. Pearson, 9th edition. [36] Savage, L. J. (1976). On rereading R. A. Fisher. The Annals of Statistics, 4(3):441–500. [37] Schervish, M. J. (1995). Theory of Statistics. Springer Series in Statistics. Springer. [38] Schervish, M. J. (1996). P values: What they are and what they are not. The American Statistician, 50(3):203–206. 360 Bibliografı́a [39] Snedecor, G. W. (1934). Analysis of Variance and Covariance. Collegiate Press, Ames, Iowa. [40] Snedecor, G. W. (1937). Statistical Methods. Iowa State College Press. [41] Stuart, A., Ord, J. K., and Arnold, S. (1999). Vol. 2a: Classical inference and the linear model. In Kendall’s Advanced Theory of Statistics. Wiley, London, 6th edition. [42] Sudhir, P., Wang, Y.-G., and Ullah, I. (2018). A review of the BehrensFisher problem and some of its analogs: Does the same size fit all? Revstat Statistical Journal. [43] Velez I., R. and Garcı́a P., A. (2012). Principios de Inferencia Estadı́stica. Universidad Nacional de Educación a Distancia (UNED), 2nd edition. [44] Welch, B. L. (1938). The significance of the difference between two means when the population variances are unequal. Biometrika, 29(3/4):350–362. [45] Yañez C., S. (2000). La estadı́stica una ciencia del siglo XX. R. A. Fisher, el genio. Revista Colombiana de Estadı́stica, 23(2):1–14. [46] Zacks, S. (1971). Theory of Statistical Inference. Probability & Mathematical Statistics Series. John Wiley & Sons. [47] Zehna, P. W. (1966). Invariance of maximum likelihood estimators. The Annals of Mathematical Statistics, 37(3):744. [48] Zsohar, P. (2012). Short introduction to the generalized method of moments. Hungarian Statistical Review, 16 (Special Number):150–170. [49] http://www.dm.uba.ar/materias/estadistica M/. [50] http://www.statslab.cam.ac.uk/˜rrw1/. Índice analı́tico AIC, 275 Diagrama de tallo y hojas, 21 Distribución F, 54 t, 57 t de Student, 343 Bernoulli, 77, 336 Beta, 342 Binomial, 337 Binomial negativa, 338 clásica de Pareto, 345 de Benktander, 347 Exponencial, 340 F de Fisher, 343 Fréchet, 348 Gama, 45, 341 Gama generalizada, 341 Gaussiana inversa, 346 Geométrica, 77, 338 Gompertz, 346 Gumbel, 347 Hipergeométrica, 339 inicial, 126 Ji-cuadrada, 46, 342 Log-Logı́stica, 344 Log-Normal, 343 Logarı́tmica, 339 Logı́stica, 344 Makeham, 346 Normal, 343 Pareto generalizada, 345 Pareto tipo II, 345 Behrens-Fisher, 207 Boxplot, 24 Cantidad pivotal, 189 Clase de estimadores insesgados, 148 Cociente de verosimilitud, 248 Coeficiente de contingencia, 295 Coeficiente de correlación, 34, 332 Condiciones de regularidad, 149 Consistencia, 144 en ECM, 144 Contrastes de hipótesis, 227 Convergencia casi segura, 349 en distribución, 350 en probabilidad, 350 puntual, 348 uniforme, 349 Cota inferior de Cramèr, 154 Covarianza, 332 Criterio de información de Akaike, 275 Cuartiles, 28 Curtosis, 32 Desviación estándar, 30 361 362 Índice analı́tico Poisson, 77, 337 uniforme continua, 340 uniforme discreta, 336 Weibull, 348 Exponencial, 76 final, 127 posterior, 127 Distribución de la muestra, 8 puntual, 4 Estimación puntual, 105 Estimador máximo verosı́mil, 114 por el método de momentos, 109 Estimadores basados en verosimilitud, 112 Eficiencia asintótica, 167 Enfoque Bayesiano, 216 Error tamaño de, 233 tipo I, 233 tipo II, 233 cuadrático medio, 139 Escala de intervalo, 13 de razón, 14 nominal, 13 ordinal, 13 Escalas de medición, 13 Espacio de probabilidad, 2, 319 Espacio muestral, 39 Espacio parametral, 4 Espacio paramétrico, 4 Esperanza condicional, 333 esperanza, 328 Estadı́stica, 1, 39 completa, 84 de prueba, 243 suficiente, 64 Bayesiana, 4 descriptiva, 11 Estadı́sticas auxiliares, 90 Estadı́sticas de orden, 59 Estimación por intervalos, 183 por intervalos, 4 Factor de Bayes, 297 Familia de localización y escala, 8 Familia exponencial, 76 Familias conjugadas, 127 Fisher, 55, 107 Frecuencia relativa, 17 relativa acumulada, 17 Frecuencias, 17 Función de densidad continua condicional, 327 de densidad de probabilidad, 322 de densidad de probabilidad conjunta, 325 de densidad de probabilidad marginal, 326 de densidad discreta condicional, 327 de distribución, 322 de distribución acumulativa, 322 de distribución acumulativa conjunta, 322 de pérdida, 146 generadora de momentos, 330 generadora de momentos conjunta, 334 potencia, 234 de puntaje, 151 Función de verosimilitud, 114 363 Índice analı́tico Gosset, 58 Grados de libertad, 265 Gráfica de barras, 18 de pay, 18 Hipótesis compuesta, 230 estadı́stica, 227 prueba de, 231 simple, 230 Histograma, 21 Independencia, 321 Independencia estocástica, 328 Inferencia Bayesiana, 126 Inferencia estadı́stica, 4 Información esperada de Fisher, 151 por unidad muestral, 152 Intervalo para el cociente de varianzas de poblaciones independientes, 209 para la diferencia de medias de poblaciones independientes, 204 para la varianza, 203 aleatorio, 185 Intervalo intercuatil, 24 Intervalos para la media, 201 Intervalos de confianza, 183 para muestras grandes, 211 Lema Neyman-Pearson, 240 Media muestral, 27 Mediana muestral, 27 Medidas de tendencia central, 27 Medidas de dispersión, 29 Momentos, 329 Muestra, 5 Muestra aleatoria, 6, 8 Muestreo estratificado, 5 por conglomerados, 5 aleatorio simple, 5 Método de medianas, 133 de momentos, 106 de mı́nimos cuadrados, 133, 143 de percentiles, 133 Método basado en estadı́sticas suficientes, 196 Método pivotal para intervalos de confianza, 189 Métodos de estimación, 106 Nivel de significancia, 270 p-value, 268 Partición, 80 Pearson, 48, 106 Percentil, 28 Probabilidad condicional, 320 total, 321 Propiedad de invarianza, 120 Prueba de independencia, 286 Ji-cuadrada para bondad de ajuste, 276 Prueba más potente, 240 Pruebas de hipótesis, 227 de hipótesis, 296 Pruebas de bondad de ajuste, 275 Pruebas de hipótesis, 4 364 Pruebas más potentes, 240 Pruebas uniformemente más potentes, 248 R, 15 Rango, 31 intercuartil, 31 Razón de verosimilitudes, 256 Razón monótona de verosimilitud, 251 Región crı́tica, 231 Región de rechazo, 231 Series de Taylor, 265 Sesgo, 139 muestral, 32 negativo, 32 positivo, 32 Suficiencia minimal, 78 Tablas de contingencia, 286 Tamaño de la prueba, 235 Teorema de Bayes, 321 de factorización, 70 de Lehmann-Scheffé, 160 de Rao-Blackwell, 159 de Karlin-Rubin, 251, 253 UMVUE, 148 Variable aleatoria, 321 Variables aleatorias continuas, 325 aleatorias discretas, 324 Varianza, 329 condicional, 333 Varianza asintótica, 167 Varianza muestral, 29 Índice analı́tico Inferencia estadı́stica para estudiantes de ciencias editado por la Facultad de Ciencias de la Universidad Nacional Autónoma de México se terminó de imprimir el 20 de octubre de 2019 en los talleres de Gráfica Premier, S. A. de C. V. 5 de febrero 2309, San Jerónimo Chicahualco. C. P. 52170. Metepec. Estado de México. El tiraje fue de 500 ejemplares Impresión offset sobre papel Book creamy de 60 g. En su composición se utilizó tipografı́a Computern modern 11/13 pts. El cuidado editorial estuvo a cargo de Mercedes Perelló Valls