Modelos Bayesianos para Valores Extremos Gabriel Huerta Department of Mathematics and Statistics University of New Mexico Albuquerque, NM. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Máximos mensuales de precipitación en Venezuela Mediciones en la estación Maiquetía cerca del aeropuerto de Caracas. 80 60 0 20 40 Rainfall 100 120 140 Cómo se puede caracterizar estos extremos? 1960 1970 1980 1990 2000 Time www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Algunos aspectos en Valores Extremos X1 , X2 , X3 . . ., son una secuencia de mediciones. Máximo sobre bloques de tamaño n, Mn = max{X1 , . . . , Xn }. La distribución Generalizada para Valores Extremos (GEV) ( −1/ξ ) z −µ H(z) = exp − 1 + ξ σ + ∞ < µ < ∞ (loc.), σ > 0 (escala) y −∞ < ξ < ∞ (forma). www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Dominios de Atracción: ξ > 0 Fréchet:. ’Cola’ de la dist. sigue función potencia. ξ < 0 Weibull: Familia con ’cola’ acotada. ξ → 0 Gumbel: Familia con ’cola’ exponencialmente decreciente. Fisher-Tippet: Si an y bn son tales que n → ∞ Mn − an P ≤ z → H(z) bn entonces H(z) es una GEV (Coles 2002). Alternativa, Métodos de Umbral o Procesos Poisson. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Cuántiles y log-verosimilitud El cuántil (1 − p) de la distribución: µ − σξ 1 − {−log(1 − p)}−ξ ; (ξ 6= 0) µ − σ log {−log(1 − p)} (ξ = 0). If y1 = M1 , . . . , ym = Mm ; yi ∼ GEV (α); α = (µ, σ, ξ), la log-verosimilitud es: l(α) = −n log σ − (1 + 1/ξ) n X log{1 + ξ(yi − µ)/σ} i=1 − n X {1 + ξ(yi − µ)/σ}−1/ξ i=1 Se pueda optimizar numericamente. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Inferencia Bayesiana en la GEV Distribución inicial en α = (µ, σ, ξ) p(α) = p(µ)p(σ)p(ξ) p(µ) = N(mµ , vµ ) p(log(σ)) = N(mσ , vσ ) p(ξ) = N(mξ , vξ ) Usar pasos Metropolis-Hastings para muestrar α, log(σ ∗ ) = log(σ (i) ) + 0.011 µ∗ = µ(i) + 102 ξ ∗ = ξ (i) + 0.013 j ∼ N(0, 1); j = 1, 2, 3. Se rechazan o aceptan los valores propuestos. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Máximos mensuales de lluvia en Venezuela Distribución final para los 3 parámetros. 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 Distribución final del cuántil GEV 95%. 7 8 9 10 11 8 9 10 µ 11 0 1 2 3 4 5 6 0.00 0.02 0.04 0.06 σ 0.3 0.4 0.5 0.6 0.7 ξ www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 50 60 70 80 90 Q0.95 UNM Un aspecto interesante El enfoque Bayesiano ofrece una distribución predictiva Z f p(y |y ) = f (y f |θ)p(θ|y )dθ donde y f representa una observación futura. Un cuántil empírico approxima, el valor y ∗ tal que P[Y f ≤ y ∗ |y ] = 1 − p Para los datos de lluvia en Venezuela p = 0.01 (cuántil 99%). Por EMV, el cuántil GEV es 152.3. Media aposteriori del cuántil GEV, 157.35. Approximación con la predictiva 162.87. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Artículo Coles y Powell (1996) Uno de los primeros artículos en el tema. Distribuciones iniciales con conocimiento experto. Uso de una Gamma sobre q1 , q2 − q1 y q3 − q2 . Estimadores Bayesianos más estables que los de MV a medida que el tamaño de los datos incrementa. Estimación de µ ’bien calibrada’. Mas difícil estimar σ y ξ. Tambien se mencionan modelos de umbral. Libreria en R evdbayes (Stephenson y Ribatet). www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Extremos para casos no-estacionarios y1 , y2 , . . . , ym son ind., yt ∼ GEV (µt , σ, ξ). Función determinista (regresión en t): µt = β0 + β1 t; µt = β0 + β1 + β2 t + β3 t 2 ; µt = β0 + β1 Xt . Se puede modelar σt y ξt en términos de t. Tratar µ1 , µ2 , . . . , µm como una serie de tiempo. Modelos Espacio-Estado o Modelos Dinámicos Lineales. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Distribución GEV con Modelos Dinámicos y1 , y2 , . . . , ym , yt ∼ GEV (µt , σ, ξ), t = 1, . . . , m. n o −1/ξ Ht (yt ) = exp −[1 + ξ(yt − µt )/σ]+ µt = θt + t ; θt = θt−1 + ωt ; 0 Forma general: µt = Ft θt + t ; θt = Gt θt−1 + ωt . Iniciales: p(σ) ∼ LN(mσ , sσ ) ; p(ξ) ∼ N(mξ , sξ ); θ0 ∼ N(m0 , C0 ). www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Algunos resultados para los datos de lluvia Media ’a-posteriori’ de µt and θt . Intervalos al 95 % de ‘credibilidad’ para µt . 20 Ajuste por MV µt = β0 + β1 t. 0 5 10 15 µ θ a + bt 1960 1970 1980 1990 2000 Time www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Estimación de Cuántiles Son variantes en el tiempo. 120 140 Considera no-linealidades y sesgos. 80 0 20 40 60 Rainfall 100 95% 75% 50% 5% 1960 1970 1980 1990 2000 Time www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM MCMC para el modelo GEV-Dinámico Y = (y1 , y2 , . . . , ym ), µ = (µ1 , µ2 , . . . , µm ) y θ = (θ1 , θ2 , . . . , θm ). p(µt |yt , σ, θt , V ); t = 1, . . . , m se simula con pasos Metropolis-Hastings. p(σ|Y , µ, ξ) and p(ξ|Y , µ, σ) tambien con pasos M-H. V se muestra con una Inversa Gamma. W se modela con Factores de Descuento. θt , con métodos para modelos espacio-estado condicionalmente Gausianos. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Diagnóstico del Modelo La gráfica esta basada en Z̃t = 1 ξ̂ n “ ”o log 1 + ξˆ yt −σ̂µ̂t La gráfica consta de los pares {i/(m + 1), exp(−exp(−z̃(i) ))} 0.0 0.2 0.4 Model 0.6 0.8 1.0 Residual Probability Plot 0.0 0.2 0.4 0.6 0.8 1.0 Empirical www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Modelos espaciales para extremos Casson y Coles (1999) modelaron velociades de viento en huracanes. Cooley, Nychka y Naveau (2007) mapa de riesgo para un evento de precipitación extrema. Huerta y Sansó (2007) modelo espacio temporal para máximos de ozono en el D.F. Sang y Gelfand (2008) modelo espacial para precipitación en Sudafrica. Cooley y Sain (2008) precipatación extrema generada por un RCM. Trabajo con estudiante de doctorado en UNM (Glenn Stark). www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Salida numérica para un modelo regional de clima Modelo “mesoscala” Penn State/NCAR (MM5). 20 años de precipitación extrema de una corrida control (“Invierno”). El dominio espacial es 56 × 44 = 2464. 50 200 50 200 45 150 45 150 100 40 Precipitation Data (t = 2) 40 Precipitation Data (t = 1) 100 −125 −120 −115 −110 −105 www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 50 35 35 50 −125 −120 −115 −110 −105 UNM Campo Aleatorio Gaussiano Modelo con estructura Markoviana (vecinos). Se usan Matrices de Precisión no covarianza. 15 30 25 20 row 10 5 Biharmonic Difference Operator Matrix 2nd−order, 5 Rows, 6 Columns 5 10 15 20 25 30 column www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Campo Gaussiano de Markov Vector aleatorio X (dim. n) con parámetros η y Q. Gráfica G = (V , E) con nodos y vertices tales que Qij 6= 0 ⇐⇒ i ∼ j. La densidad de X es f (x) = (2π) − n−k 2 1 0 (|Q| ) exp − (x − η) Q(x − η) 2 ∗ 1 2 Caso impropio: |Q|∗ es el producto de los n − k eigenvalores de Q distintos de cero. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Definición de la matriz Q La matriz define estructura en una retícula con r filas y c columnas. Matriz simétrica y semi-positiva definida con rango r × c − 3. 1 8 −2 20 Prec xi∣x−i=20k E x i∣x −i = xi www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 1 UNM Un modelo jerárquico Primer nivel: Yi,j,t ∼ GEV (µ∗i,j,t , σ, ξ); i = 1, . . . , 56; j = 1, . . . , 44; t = 1, . . . , 20. µ∗i,j,t = µi,j + φt tiene una componente espacial y otra temporal. Segundo nivel: µ ∼ GMRF (0, θQ) donde Q es una matriz de precisión de segundo orden. φ1 = 0, φi ∼ N(µφ , τφ ); i = 1, . . . , 20. Distribuciones iniciales: µφ ∼ N(0, 10−6 ) y τφ ∼ Gamma(1, 1), θ ∼ LN(mθ , sθ ), σ ∼ LN(mσ , sσ ), ξ ∼ N(mξ , sξ ). www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Resultados del modelo ’Espacial-Temporal’ MCMC con 20000 iteraciones, 10000 iniciales. Media de la distribución final de µ. Posterior Mean of µ 50 100 45 80 40 60 35 40 20 −125 −120 −115 www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 −110 −105 UNM Diagramas de caja para φi Basados en las muestras MCMC. Miden la variabilidad temporal. ● ● ● 4 ● ● ● 2 0 −2 −4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −8 −6 ● ● ● ● ● ● ● ● ● ● ● φ1 φ2 φ3 φ4 φ5 φ6 φ7 φ8 φ9 φ10 φ11 φ12 φ13 φ14 φ15 φ16 φ17 φ18 φ19 φ20 www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Distribuciones finales para σ, ξ y θ Density 500 60 Density 10.20 10.30 10.40 10.50 0 0 0 20 40 4 2 Density 6 1000 80 8 100 1500 Distribuciones bien comportadas. Tenemos un caso Fréchet. 0.140 0.150 σ www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 0.160 ξ 0.170 0.0065 0.0070 0.0075 0.0080 0.0085 θ UNM Estimación de cuántiles Basados en la distribución predictiva. Conceptualmente simple pero intensivo. 75th Percentile 50 50 Median 150 45 45 150 100 40 40 100 50 35 35 50 0 0 −125 −120 −115 −110 −125 −105 −115 −110 −105 150 45 45 150 50 99th Percentile 50 95th Percentile −120 100 40 40 100 50 35 35 50 0 −125 −120 −115 −110 −105 www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 0 −125 −120 −115 −110 −105 UNM Distribución Predictiva en Albuquerque,NM Posterior Predictive Density (Albuquerque) 99th %tile 92.9 0.020 95th %tile 63.6 0.000 0.010 Density 0.030 50th %tile 28.8 0 50 100 150 y www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Variabilidad espacial en σ y ξ Ajustes puntuales de la GEV. Mapas de los parámetros de escala y forma. σ ξ 50 50 35 0.5 30 40 15 45 latitude 20 0.0 40 latitude 45 25 −0.5 35 35 10 5 −125 −120 −115 −110 −105 longitude www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 −125 −120 −115 −110 −105 longitude UNM Red de monitoreo atmosférico en el D.F. Estaciones que miden ozono. 19.55 ωj es un nudo para centrar kernel. TLA 19.50 ω13 ω9 ω10 LAG MER 19.35 ω12 ω7 ω8 ω3 ω4 UIZ CES TAX 19.30 ω11 HAN ω6 BJU PLA ω1 ω16 CHA TAC ω5 CUA SAG ω15 AZC 19.40 latitude 19.45 EAC XAL ω14 PED ω2 19.25 TAH TPN −99.3 −99.2 −99.1 −99.0 −98.9 longitude www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Artículo Huerta y Sansó (2007) Máximos diarios de ozono (sin covariables). Suponiendo independencia condicional, modelar los parámetros de la distribucion GEV como: El parámetro de localización através de un modelo Dinámico lineal. Los parámetros de escala y forma no varian en el tiempo (o espacialmente). Extensión a un modelo espacio temporal via kernel de convolución. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Análisis de tendencias en una Estación 0.2 θt µt 0.0 0.1 ozone 0.3 Estación Merced. Estimación de µt , θt del modelo Dinámico. 1990 1992 1994 1996 1998 2000 2002 Time www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Modelo jerárquico ys,t ∼ GEV (µs,t , σ, ξ); s = 1, . . . , 19, t = 1, . . . , 365 ( −1/ξ ) ys,t − µs,t Hs,t (ys,t |µs,t , ξ, σ) = exp − 1 + ξ σ + Para cada t, µt = (µ1,t , µ2,t , . . . , µS,t )0 . (σ, ξ) constantes a tiempo-espacio. Proceso de convolución for µt : µt = K θt + t ; θt = θt−1 + νt www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM K se define con un kernel Gaussiano Kij = k (si − ωj ); k (si − ωj ) ∝ exp(−d||si − ωj ||2 /2) si representa la estación i. ωj es un nudo del kernel j. d es un paramétro de rango; d = cφ; 1/2 < c < 2; φ es la distancia entre nudos. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Ajuste en cuatro estaciones XAL 1 0 −2 −1 Sample Quantiles 1 0 −1 −2 −3 Sample Quantiles 2 2 3 AZC −2 −1 0 1 2 3 −3 −2 −1 0 Theoretical Quantiles Theoretical Quantiles TPN TAH 1 2 3 1 2 3 −3 0 −1 −4 −3 −2 Sample Quantiles 1 0 −1 −2 Sample Quantiles 1 2 2 −3 −3 −2 −1 0 1 2 3 Theoretical Quantiles www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 −3 −2 −1 0 Theoretical Quantiles UNM Mapas retrospectivos de la mediana −99.0 −98.9 −99.1 −99.0 −98.9 −99.1 BJU PLA 19.25 19.55 UIZ TAH PED CES −99.2 −99.1 19.55 19.35 19.55 −99.0 XAL −98.9 CHA TAC LAG MER CUA −99.0 −98.9 UIZ TAH CES −99.2 www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 −99.1 UIZ TAH CES TAX TPN −99.3 −99.2 −99.1 TLA EAC −99.0 XAL −98.9 CHA TAC CUA −99.0 −98.9 LAG MER HAN BJU PLA UIZ TAH CES TAX TPN −99.3 SAG AZC PED TAX TPN −99.3 HAN BJU PLA CUA SAG CHA LAG MER HAN BJU PLA −98.9 day 270 SAG AZC PED TAX TPN −99.3 EAC HAN 19.35 CUA TLA 19.45 CHA LAG MER XAL TAC PED TAX −99.2 −99.0 AZC day 263 SAG AZC TAC CES TPN −99.3 19.25 19.55 19.45 19.35 XAL UIZ TAH day 258 TLA EAC −99.1 TLA EAC 19.55 −99.1 BJU PLA CUA CES TAX −99.2 HAN 19.35 LAG MER UIZ TAH day 191 SAG CHA TAC HAN TPN −99.3 19.45 XAL AZC PED TAX −99.2 −98.9 19.25 19.55 19.35 CES TPN −99.3 −99.0 19.45 PED 19.25 UIZ TAH EAC HAN BJU PLA CUA TLA 19.45 CHA LAG MER PLA CUA SAG CHA LAG MER BJU day 127 SAG AZC TAC XAL AZC TAC PED TAX −99.2 19.25 19.55 19.45 19.35 XAL CES TPN −99.3 day 69 TLA EAC UIZ TAH EAC HAN 19.35 −99.1 PLA CUA 19.45 CHA LAG MER BJU PED TAX TPN −99.2 AZC TAC TLA 19.25 CES day 63 SAG 19.25 PED 19.25 UIZ TAH EAC XAL HAN BJU PLA −99.3 19.55 CHA LAG MER TLA 19.45 AZC TAC CUA day 61 SAG 19.35 19.45 19.35 EAC XAL 19.25 19.55 day 47 TLA −99.2 −99.1 −99.0 −98.9 UNM Medida de Dependencia Asintótica Para las estaciones s y s∗ : χ(u) = Pr (Ut,s > u|Ut,s∗ > u). 1.0 Curvas en relación a la estación AZC. 0.0 0.2 0.4 χ(u) 0.6 0.8 TAC XAL TPN TAH 0.0 0.2 0.4 0.6 0.8 1.0 u www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Algunos comentarios Modelos Bayesianos jerárquicos basados en la distribución GEV. Flexibles para estimación de cuantiles a tiempo/espacio. Ejemplo Precipitación. Enfasis en el aspecto espacial. Ejemplo ozono. Enfasis en el aspecto temporal. Basados en Campos aleatorios Gaussianos. Cálculos con MCMC. Convergencia? www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Comentarios y Extensiones Hipótesis de independencia condicional. Comunmente se utiliza para modelos espaciales no-gaussianos. No permite modelar efectos locales en las observaciones. Modelos con Cópulas (Sang y Gelfand (2008)). Dist. conjunta se expresa através de marginales. Es dificil decidir que cópula usar (Gaussiana?) www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Extensiones Modelos multivariados para Valores Extremos La busqueda del cáliz de oro. Modelos para bloque en máximos y umbrales. Modelos existentes para dimensiones ≤ 5. No hay análogo a la Distribución Normal Multivariada. Procesos Max Estables Justificados por la teoría de Valores Extremos. Libreria en R SpatialExtremes. Métodos Bayesianos con verosimilitudes compuestas (Ribatet, et. al. (2009)) www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Referencias Casson, E. and Coles, S. (1999) Spatial Regression Models for Extremes. Extremes, 4, 449-468. Coles, S. (2001) An Introduction to Statistical Modeling of Extreme Values. Springer Verlag. Coles, S. and E. Powell (1996). Bayesian methods in extreme value modelling: A review and new developments. International Statistical Review 64, 119. Cooley, D., D. Nychka, and P. Naveau (2007). Bayesian spatial modeling of extreme precipitation return levels. Journal of the American Statistical Association 102, 824-840. Cooley, D. and Sain, S. R. (2008). Spatial hierarchical modeling of precipiation extremes from a regional climate model. Accepted by JABES. Fuentes, M., J. Henry, and B. Reich (2009). Nonparametric spatial models for extremes: Application to extreme temperature data. Technical report. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM Referencias Huerta, G. and B. Sanso (2007). Time-varying models for extreme values. Environmental and Ecological Statistics 14, 285-299. Ribatet, M., Cooley, D., and Davison, A. C. (2009). Bayesian inference for composite likelihood models and an application to spatial extremes. Submitted. Sang, H. and Gelfand, A. E. (2008). Continuous spatial process models for spatial extreme values. To appear, JABES. Sang, H. and Gelfand, A. E. (2009). Hierarchical modeling for extreme values observed over space and time. Environmental and Ecological Statistics, 16:407-426. Schliep, E., D. Cooley, S. Sain, and J. Hoeting. A comparison study of extreme precipitation from six different regional climate via spatial hierarchical modeling. Extremes (to appear). Stephenson, A. and J. Tawn (2004). Bayesian inference for extremes: accounting for the three extremal types. Extremes 7, 291-307. www.stat.unm.edu/∼ghuerta 3ra Semana de Probabilidad y Estadística, BUAP, Junio 14-18 UNM