1-1 1. Estadística clásica Estadística Avanzada y Análisis de Datos Javier Gorgas y Nicolás Cardiel Curso 2006-2007 Máster Interuniversitario de Astrofísica 1-2 1. Estadística clásica Introducción En ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría? ¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares? ¿qué ha fallado, cómo podemos mejorar el experimento?) Para cada medida o parámetro derivado necesitamos una estimación del error que nos diga, en términos de probabilidades, la confianza que tenemos en su valor. La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las decisiones (el método científico). If your experiment needs statistics, you ought to have done a better experiment (E. Rutherford) En particular, en astrofísica: Nuestras medidas están sujetas a (grandes) errores de medida. Tenemos la manía de observar al límite de las capacidades instrumentales. El método clásico de repetir los experimentos no es aplicable. No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas) 1. Estadística clásica Introducción (II) No podemos evitar la estadística: ¿Cómo asignamos errores a nuestros datos? (o los de otros) ¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?) ¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores) ¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…? ¿Qué hacer con las muestras incompletas? (¿límites superiores?) NECESITAMOS DECIDIR Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo hacen. Curso con un enfoque práctico (recetas) • Métodos paramétricos clásicos • Métodos no paramétricos • Estadística bayesiana 1-3 1-4 1. Estadística clásica Programa 1. Estadística clásica 2. Introducción a la estadística bayesiana 3. Cálculo de errores 4. Regresión lineal 5. Correlación 6. Regresión múltiple 7. Contrastes de hipótesis para una muestra 8. Contrastes de hipótesis para varias muestras 9. Análisis de componentes principales 10. Estimación de parámetros 11. Detección de la señal – Surveys 12. Análisis de datos astrofísicos 1-5 1. Estadística clásica Tema 1 Estadística clásica Introducción Estadística descriptiva Distribuciones de probabilidad Distribuciones discretas de probabilidad Distribución normal Estimación de parámetros poblacionales Distribuciones muestrales de los estadísticos Estimación por intervalos de confianza Contrastes de hipótesis Métodos no paramétricos 1-6 Media aritmética Media armónica Media geométrica Mediana Media cuadrática Moda Me: Valor central (con los datos ordenados de mayor a menor) Mo: Valor con mayor frecuencia Varianza Desviación media Coeficientes de variación Desviación típica curtosis asimetría dispersión centralización 1. Estadística clásica Estadística descriptiva Momento de orden r respecto a c 1. Estadística clásica Distribuciones de probabilidad Función de probabilidad para una variable discreta: Función de densidad para una variable continua: Función de distribución: Función de distribución: media (esperanza matemática) covarianza varianza 1-7 1. Estadística clásica Distribuciones discretas de probabilidad Distribución Binomial Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo) donde Media: Desviación típica: Distribución de Poisson Probabilidad de que se den x sucesos (λ = número medio de sucesos) donde Media: Desviación típica: 1-8 1. Estadística clásica Distribución normal Media: µ Desviación típica: σ Normal tipificada: Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la variables Y = X1 + X2 + …+ Xn, entonces la variable: cuando Ej. la distribución binomial tiende a la distribución normal: Ej. la distribución de Poisson tiende a la distribución normal: 1-9 1. Estadística clásica Estimación de parámetros poblacionales La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los valores de la muestra) con funciones de probabilidad conocidas Estimación puntual Estimación por intervalos de confianza Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores puntuales: Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un valor del parámetro poblacional: El estimador de máxima verosimilitud es el valor de α que hace máximo L Ejemplo: para una distribución normal: 1-10 1. Estadística clásica Distribuciones muestrales de los estadísticos 1-11 Distribución muestral de la media: Si es la media de una muestra aleatoria de tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2, entonces la variable tipificada: tiende a una normal N(0,1) cuando n tiende a infinito Dsitribución muestral de la diferencia de medias: Si y son las medias muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces: tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito Distribución muestral de la varianza: sigue una distribución con n-1 grados de libertad El estadístico t: sigue una distribución t de Student con n-1 grados de libertad Distribución muestral de la razón de varianzas: sigue una distribución F de Fisher con n1-1 y n2-1 grados de libertad 1. Estadística clásica Estimación por intervalos de confianza Ejemplo: media de una población normal nivel de confianza Si la desviación típica es desconocida: Muestras grandes (n > 30) Muestras pequeñas (significado del intervalo de confianza) 1-12 1. Estadística clásica Intervalos de confianza 1-13 1. Estadística clásica Intervalos de confianza 1-14 1-15 1. Estadística clásica Contrastes de hipótesis Formulación de las hipótesis: Hipótesis nula (H0) • Aceptación de la hipótesis nula • Rechazo de la hipótesis nula vs Hipótesis alternativa (H1) los datos no están en contra los datos indican que es improbable que sea cierta Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta Ejemplo: media de una población normal α: nivel de significación Contraste bilateral región crítica Contrastes unilaterales región crítica región crítica región de aceptación región de aceptación región de aceptación 1. Estadística clásica Contrastes de hipótesis 1-16 1. Estadística clásica Contrastes de hipótesis 1-17 1. Estadística clásica Contrastes de hipótesis 1-18 1. Estadística clásica Métodos no paramétricos 1-19 Métodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución de probabilidad conocida (normal). El problema es determinar los parámetros de la población (ej. µ, σ) Métodos de distribución libre o NO paramétricos: no se supone ninguna distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala asignando rangos (análisis de rangos). VENTAJAS DESVENTAJAS • En general no se conoce la distribución de probabilidad (el teorema del límite central puede no aplicarse). • No usan toda la información disponible. • Menos suposiciones sobre los datos. • Sirven para datos no numéricos (variables cualitativas y de rango). • Son algo menos eficientes: (para rechazar la hipótesis nula con el mismo nivel de confianza se necesitan muestras mayores) • Respuestas rápidas con menos cálculos. Eficiencia relativa asintótica: • Válidos para muestras muy pequeñas. • La conversión a rangos elimina incertidumbres con la escala. • A veces no existe la población (no hay parámetros que estimar). • Al no haber parámetros, es difícil hacer estimaciones cuantitativas. para tomar la decisión con el mismo α (típicamente: ARE entre 0.6 y 0.95) (Ante la duda es más seguro usar métodos no paramétricos)