Estadística Avanzada y Análisis de Datos

Anuncio
1-1
1. Estadística clásica
Estadística Avanzada y
Análisis de Datos
Javier Gorgas y Nicolás Cardiel
Curso 2006-2007
Máster Interuniversitario de Astrofísica
1-2
1. Estadística clásica
Introducción
En ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría?
¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares?
¿qué ha fallado, cómo podemos mejorar el experimento?)
Para cada medida o parámetro derivado necesitamos una estimación del error que
nos diga, en términos de probabilidades, la confianza que tenemos en su valor.
La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las
decisiones (el método científico).
If your experiment needs statistics, you ought to have done a better experiment
(E. Rutherford)
En particular, en astrofísica:
Nuestras medidas están sujetas a (grandes) errores de medida.
Tenemos la manía de observar al límite de las capacidades instrumentales.
El método clásico de repetir los experimentos no es aplicable.
No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas)
1. Estadística clásica
Introducción (II)
No podemos evitar la estadística:
¿Cómo asignamos errores a nuestros datos? (o los de otros)
¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?)
¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores)
¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…?
¿Qué hacer con las muestras incompletas? (¿límites superiores?)
NECESITAMOS DECIDIR
Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo
hacen.
Curso con un enfoque práctico (recetas)
• Métodos paramétricos clásicos
• Métodos no paramétricos
• Estadística bayesiana
1-3
1-4
1. Estadística clásica
Programa
1.
Estadística clásica
2.
Introducción a la estadística bayesiana
3.
Cálculo de errores
4.
Regresión lineal
5.
Correlación
6.
Regresión múltiple
7.
Contrastes de hipótesis para una muestra
8.
Contrastes de hipótesis para varias muestras
9.
Análisis de componentes principales
10. Estimación de parámetros
11. Detección de la señal – Surveys
12. Análisis de datos astrofísicos
1-5
1. Estadística clásica
Tema 1
Estadística clásica
Introducción
Estadística descriptiva
Distribuciones de probabilidad
Distribuciones discretas de probabilidad
Distribución normal
Estimación de parámetros poblacionales
Distribuciones muestrales de los estadísticos
Estimación por intervalos de confianza
Contrastes de hipótesis
Métodos no paramétricos
1-6
Media aritmética
Media armónica
Media geométrica
Mediana
Media cuadrática
Moda
Me: Valor central (con
los datos ordenados de
mayor a menor)
Mo: Valor con
mayor frecuencia
Varianza
Desviación media
Coeficientes de variación
Desviación típica
curtosis
asimetría
dispersión
centralización
1. Estadística clásica
Estadística descriptiva
Momento de orden r
respecto a c
1. Estadística clásica
Distribuciones de probabilidad
Función de probabilidad para
una variable discreta:
Función de densidad para una
variable continua:
Función de
distribución:
Función de
distribución:
media (esperanza matemática)
covarianza
varianza
1-7
1. Estadística clásica
Distribuciones discretas de probabilidad
Distribución Binomial
Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo)
donde
Media:
Desviación típica:
Distribución de Poisson
Probabilidad de que se den x sucesos (λ = número medio de sucesos)
donde
Media:
Desviación típica:
1-8
1. Estadística clásica
Distribución normal
Media: µ
Desviación típica: σ
Normal
tipificada:
Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con
medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la
variables Y = X1 + X2 + …+ Xn, entonces la variable:
cuando
Ej. la distribución binomial tiende a
la distribución normal:
Ej. la distribución de Poisson tiende
a la distribución normal:
1-9
1. Estadística clásica
Estimación de parámetros poblacionales
La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los
valores de la muestra) con funciones de probabilidad conocidas
Estimación puntual
Estimación por intervalos de confianza
Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores
puntuales:
Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un
valor del parámetro poblacional:
El estimador de máxima verosimilitud es
el valor de α que hace máximo L
Ejemplo: para una distribución normal:
1-10
1. Estadística clásica
Distribuciones muestrales de los estadísticos
1-11
Distribución muestral de la media: Si
es la media de una muestra aleatoria de
tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2,
entonces la variable tipificada:
tiende a una normal N(0,1) cuando n tiende a infinito
Dsitribución muestral de la diferencia de medias: Si
y
son las medias
muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces:
tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito
Distribución muestral
de la varianza:
sigue una distribución
con n-1 grados de libertad
El estadístico t:
sigue una distribución t de
Student con n-1 grados
de libertad
Distribución muestral de
la razón de varianzas:
sigue una distribución F
de Fisher con n1-1 y n2-1
grados de libertad
1. Estadística clásica
Estimación por intervalos de confianza
Ejemplo: media de una población normal
nivel de confianza
Si la desviación típica es desconocida:
Muestras grandes (n > 30)
Muestras pequeñas
(significado del intervalo de confianza)
1-12
1. Estadística clásica
Intervalos de confianza
1-13
1. Estadística clásica
Intervalos de confianza
1-14
1-15
1. Estadística clásica
Contrastes de hipótesis
Formulación de las hipótesis:
Hipótesis nula (H0)
• Aceptación de la hipótesis nula
• Rechazo de la hipótesis nula
vs
Hipótesis alternativa (H1)
los datos no están en contra
los datos indican que es improbable que sea cierta
Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta
Ejemplo: media de una población normal
α: nivel de
significación
Contraste bilateral
región crítica
Contrastes unilaterales
región crítica
región crítica
región de
aceptación
región de
aceptación
región de
aceptación
1. Estadística clásica
Contrastes de hipótesis
1-16
1. Estadística clásica
Contrastes de hipótesis
1-17
1. Estadística clásica
Contrastes de hipótesis
1-18
1. Estadística clásica
Métodos no paramétricos
1-19
Métodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución
de probabilidad conocida (normal). El problema es determinar los parámetros de la
población (ej. µ, σ)
Métodos de distribución libre o NO paramétricos: no se supone ninguna
distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala
asignando rangos (análisis de rangos).
VENTAJAS
DESVENTAJAS
• En general no se conoce la distribución
de probabilidad (el teorema del límite
central puede no aplicarse).
• No usan toda la información disponible.
• Menos suposiciones sobre los datos.
• Sirven para datos no numéricos
(variables cualitativas y de rango).
• Son algo menos eficientes: (para
rechazar la hipótesis nula con el mismo
nivel de confianza se necesitan muestras
mayores)
• Respuestas rápidas con menos cálculos.
Eficiencia relativa asintótica:
• Válidos para muestras muy pequeñas.
• La conversión a rangos elimina
incertidumbres con la escala.
• A veces no existe la población (no hay
parámetros que estimar).
• Al no haber parámetros, es difícil hacer
estimaciones cuantitativas.
para tomar la decisión con el mismo α
(típicamente: ARE entre 0.6 y 0.95)
(Ante la duda es más seguro usar métodos
no paramétricos)
Descargar