Ingenierı́a Marı́tima y Costera Oscilaciones de corto periodo: Oleaje. Descripción Estadı́stica Apuntes de Clase MDM, MOS, AMF Grupo de Dinámica de Flujos Ambientales, Universidad de Granada. Curso 2014–2015 Índice 1. Introducción 1 2. Análisis de series temporales en el dominio del tiempo 2.1. Definición de una ola individual: cortes por cero . . . . . . 2.2. Alturas y periodos de ola caracterı́sticos . . . . . . . . . . 2.3. Distribución de alturas de ola individuales . . . . . . . . . 2.4. Distribución del periodo de onda . . . . . . . . . . . . . . 2.5. Distribución conjunta de alturas de ola y periodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 4 5 9 10 3. Análisis de series temporales en el dominio de la frecuencia 3.1. Altura de ola y periodo caracterı́sticos . . . . . . . . . . . . . . . . . 3.1.1. Anchura del espectro y validez de la distribución de Rayleigh 3.1.2. Altura de ola significante y periodo de pico . . . . . . . . . . 3.1.3. Distribución conjunta espectral de alturas de ola y periodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 12 13 13 4. Análisis extremal (de altura de ola) 4.1. Nivel de diseño . . . . . . . . . . . . . . . . . . . 4.1.1. Periodo de retorno . . . . . . . . . . . . . 4.1.2. Probabilidad de encuentro . . . . . . . . . 4.1.3. Diseño . . . . . . . . . . . . . . . . . . . . 4.2. Procedimiento general . . . . . . . . . . . . . . . 4.3. Conjunto de datos . . . . . . . . . . . . . . . . . 4.4. Distribuciones candidatas . . . . . . . . . . . . . 4.5. Métodos de ajuste . . . . . . . . . . . . . . . . . 4.5.1. Método de mı́nimos cuadrados . . . . . . 4.5.2. Método de máxima verosimilitud . . . . . 4.5.3. Bondad del ajuste . . . . . . . . . . . . . 4.6. Altura de ola de diseño . . . . . . . . . . . . . . 4.6.1. Regı́menes medios y extremales . . . . . . 4.6.2. Problema . . . . . . . . . . . . . . . . . . 4.7. Fuentes de incertidumbre e intervalo de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 15 16 17 17 18 18 20 21 22 23 24 24 25 26 28 i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.1. Intervalo de confianza de la altura de ola de diseño xT . . . . . . . . . . . . . . . 4.8. Periodo de onda de diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9. Análisis extremal multiparamétrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 30 31 5. Prácticas Descripción Estadı́stica del Oleaje 32 5.1. Enunciados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Apéndices 36 A. Variable aleatorias A.1. Una variable aleatoria . . . . . . . . . . . . . . . . . . . . A.1.1. Función de densidad de probabilidad Gaussiana . . A.1.2. Desviaciones respecto del comportamiento Normal A.1.3. Estimación . . . . . . . . . . . . . . . . . . . . . . A.2. Dos variables aleatorias . . . . . . . . . . . . . . . . . . . A.2.1. Función densidad de Gauss bidimensional . . . . . A.3. Procesos estocásticos . . . . . . . . . . . . . . . . . . . . . A.3.1. Caracterización . . . . . . . . . . . . . . . . . . . . A.3.2. Procesos estacionarios . . . . . . . . . . . . . . . . A.3.3. Procesos Gaussianos . . . . . . . . . . . . . . . . . A.3.4. Procesos Gaussianos y estacionarios . . . . . . . . A.3.5. Procesos Ergódicos . . . . . . . . . . . . . . . . . . A.3.6. La elevación de la superficie libre . . . . . . . . . . ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 36 38 39 40 40 41 42 42 44 44 44 45 46 Palabras clave oleaje, altura de ola, periodo, significante, diseño, extremo, regı́menes, función de distribución, función densidad, Rayleigh. Bibliografı́a Básica Holthuijsen, L.H., 2007. Waves in Oceanic and Coastal Waters. Cambridge University Press. Goda, Y. Random Seas and Design of Maritime Structures. 2010. Vol.33 World Scientific Pub. Co. Inc. Recomendaciones para obras marı́timas ROM1.0 (2009). Stive, M.J.F. 1986 Extreme shallow water conditions. Delft Hydraulics, Intern Report H533. G.I.O.C. 1986 Documentos de referencia SMC. Vol. I. Dinámicas.. Universidad de Cantabria. Liu Z. and P. Frigaard, 2001. Generation and Analysis of Random Waves. Aalborg Universitet. Quintero, D. y M. Ortega-Sánchez. 2012. Anteproyecto Marina Playa Granada. Grupo de Dinámica de Flujos Ambientales de la Universidad de Granada. iii 1. Introducción Los cientı́ficos suelen estar interesados en la dinámica y cinemática de la onda, cómo son generadas por el viento, por qué rompen y cómo interaccionan con los contornos y las corrientes. Los ingenieros normalmente diseñan y gestionan estructuras o sistemas naturales en el entorno marino como plataformas offshore, barcos, diques, playas. El comportamiento de estas entidades están ampliamente afectadas por el oleaje y otras ondas, ası́ que es necesario un conocimiento de ellas a fin de diseñar y gestionar adecuadamente. En este Tema se pretende dar una introducción a la descripción estadı́stica del oleaje, concretamente, a la observación, análisis y predicción de las ondas de gravedad superficiales generadas por el viento (oleaje). Este tı́tulo tan largo es necesario, porque ondas superficiales hay muchas y de muy diverso origen. Las ondas oceánicas pueden ser descritas a varias escalas espaciales, desde los centenares de metros a los miles de kilómetros o más, y temporales, desde unos pocos segundos (un periodo de onda) hasta los miles de años (variabilidad climática). En general, cuando hablemos de oleaje nos estaremos refiriendo a oscilaciones del nivel del mar entre tres y treinta segundos. Como hemos visto el oleaje puede describirse en términos de series temporales o mediante su descripción equivalente en el dominio de la frecuencia. Por tanto, no es de extrañar que la descripción estadı́stica pueda hacerse desde ambos puntos de vista. En este curso nos centraremos más en la descripción a partir de las series temporales, aunque algunos conceptos espectrales serán introducidos a lo largo del Tema. 2. Análisis de series temporales en el dominio del tiempo El análisis de las series temporales de elevación de la superficie libre pueden llevarse a cabo tanto en el dominio del tiempo como en el espacio. En esta sección trataremos del análisis temporal. Se admite, asumiendo linealidad, que η el desplazamiento vertical de la superficie libre con respecto a un nivel de referencia fijo es un proceso gaussiano y ergódico. Elegido el nivel de referencia adecuadamente, para que µη = 0, η sigue un modelo de probabilidad de Gauss de media nula y desviación tı́pica ση , es decir, una Normal N (0, ση ). ση2 es la varianza del proceso y, asimismo, cuantifica su contenido energético (que depende esencialmente de la amplitud al cuadrado), η2 p(η) = exp − 2 2ση ση2 2π 2 2 ση = ηrms = Esp (η − µη )2 , 1 √ (1) donde ηrms es el desplazamiento medio cuadrático. Este modelo matemático-estadı́stico deja de ser adecuado cuando el oleaje comienza a ser asimétrico con respecto al nivel medio, tal y como ocurre en profundidades reducidas y en la zona de rompientes; en esta situación, la no-linealidad impera, y el 1 proceso es no gaussiano. No obstante, en muchas de las aplicaciones prácticas el modelo gaussiano es una aproximación suficiente. 2.1. Definición de una ola individual: cortes por cero Mediante un análisis directo de los datos brutos pueden identificarse las olas individuales. Una ola individual, que no la elevación de la superficie libre (que serı́a un η(t) concreto), está definida por dos cortes por cero sucesivos. Los cortes se refieren a un cero, que es un valor de referencia, tı́picamente el valor promedio. Se consideran los cortes por cero de valores positivos a negativos, estos son, los pasos por cero descendentes. Se define un corte por cero hacia valores negativos entre las muestras n − 1 y n cuando se cumple que η(tn−1 ) > 0 y η(tn ) < 0 (Fig. 2). En resumen, una ola es el perfil de la elevación entre cada dos pasos por cero descendentes consecutivos. Otras definiciones de ola son posibles, por ejemplo, definiendo los cruces por cero ascendentes, esto es, hacia arriba. Si la elevación de la superficie libre se considera un proceso estocástico Gaussiano no importa si se toman los cruces ascendentes o descendentes, puesto que las caracterı́sticas estadı́sticas serı́an simétricas1 . Sin embargo, es común adoptar la definición de cruces por cero descendentes puesto que estimaciones visuales de la altura de la cresta, referida al seno precedente se considera la altura de la ola. Además, en una ola que rompe, el frente, que es relevante en el proceso de rotura, está incluido en la definición de los cruces hacia abajo (bajo tales condiciones, las ondas no son simétricas y las diferencias entre cruces hacia abajo o cruces hacia arriba se hacen importantes). En la Fig. 1 se muestran los cruces por cero detectados en un registro de oleaje de 7 min a 4 Hz de frecuencia de muestreo. En este caso se han detectado 106 cortes por cero de positivo a negativo, lo que da 105 ondas individuales. La altura de la onda individual se define como el rango de alturas, esto es, la diferencia de altura máxima y mı́nima entre dos cortes por cero. Véase Fig. 2. La caracterización de las olas del registro de oleaje se basa en promediar las alturas de ola y periodos. Esto requiere que la duración del registro sea lo suficientemente corta como para garantizar la estacionariedad y la homogeneidad, pero también lo suficientemente larga como para obtener unos promedios aceptables. Normalmente, se emplean intervalos de 30 min ó 1 hora2 . 1 ¿Seguro? Piénsese. Según la (ROM1.0 , 2009), a los efectos prácticos y con las restricciones impuestas, se admite que en un estado se produce un conjunto de manifestaciones del agente o agentes que pertenecen a un proceso aleatorio estacionario y homogéneo, y que los descriptores estadı́sticos temporales y espaciales son invariantes. Esta descripción se denomina de corta duración (o a corto plazo). Es habitual denominar estado de mar al estado de oleaje cuando sus propiedades estadı́sticas son ergódicas. Sin embargo, en estas Recomendaciones se opta por generalizar estas definiciones, otorgando a cada una de ellas el ámbito de aplicación de su denominación, oleaje, nivel del mar, atmosférico y meteorológico. Ası́ el estado de nivel del mar incluye las manifestaciones lentas de la superficie libre del mar. El estado meteorológico incluye el conjunto de manifestaciones de los agentes climáticos forzados por la actividad atmosférica: viento, presión atmosférica, oleaje y marea meteorológica y, en su caso, meteomaremotos. 2 2 Figura 1: Detección de los cruces por cero en un registro de oleaje en el Golfo de Cádiz. Figura 2: Altura y periodo de ondas individuales definidas por cortes hacia valores negativos. 3 2.2. Alturas y periodos de ola caracterı́sticos La elevación de la superficie libre mostrada en las Fig. 1 tiene más de 100 olas individuales. La pregunta es cuál coger a la hora de diseñar una estructura, o bien ¿cuál es la altura representativa de esa serie temporal? Para ello se consideran las siguientes definiciones: La altura y periodos medios se definen sobre todo el registro, es decir, son P la media de alturas y periodos de todas las ondas individuales. Estos son H = 1/N N k=1 Hk PN y T = 1/N k=1 Tk , respectivamente. A veces se denota el periodo como Tz . En el caso que seguimos de ejemplo H = 0,39 m y T = 3,93 s. La altura de ola cuadrática media Hr.m.s. se define como Hr.m.s. v u N u1 X =t Hk2 . N (2) k=1 q P 2 Análogamente, el periodo es Tr.m.s. = 1/N N k=1 Tk . Esta medida puede ser relevante para proyectos en los que la energı́a de la onda sea importante. Recuérdese que la energı́a de una onda es proporcional a su amplitud al cuadrado. En el ejemplo que seguimos del registro de oleaje del Guadalquivir se obtiene Hr.m.s. = 0,46 m y Tr.m.s. = 4,47 s. Se define la ola máxima como aquella que tiene la máxima altura de ola Hmax . En nuestro caso es la ola número 101 y tiene Hmax = 1,08 m y el periodo correspondiente a esa altura es THmax = 9,55 s. La ola máxima se selecciona como onda de diseño para estructuras en las que es importante y muy sensible a la carga de ola, por ejemplo, en diques verticales. Nótese que Hmax es una variable aleatoria con la distribución dependiente del número de ola individuales. Las alturas y periodos caracterı́sticos definidos anteriormente son quizás los más obvios. Sin embargo, no se usan a menudo puesto que los resultados que arrojan se parecen muy poco a las alturas y periodos estimados visualmente. Por eso se define la altura de ola significante. Se define la altura de ola significante3 como la altura promedio del tercio de alturas mayores del registro de oleaje. Se expresa como N/3 H1/3 = 1 X Hk , N/3 (3) k=1 donde el ı́ndice k no representa la secuencia temporal de las olas, sino la posición la ola, estando ordenadas de mayor altura mayor a menor altura. El periodo se define igualmente como el periodo promedio del tercio de olas cuya altura es mayor, i.e. PN/3 T1/3 = 3/N k=1 THk . En el caso de ejemplo analizado H1/3 = 0,67 m y T1/3 = 5,80 s. 3 “Significante” es una mala traducción de “Importante”. 4 La altura de ola significante H1/3 , o a veces también definida como Hs , se usa en la mayorı́a de las aplicaciones como ola de diseño4 . La razón es que antiguamente las estructuras eran diseñadas basándose en la observación visual de la olas. La altura de ola significante H1/3 está próxima al valor observado visualmente, lo cual resulta útil puesto que recoge las experiencias previas de ingenierı́a. El concepto de altura de ola y periodo significantes es importante y muchas situaciones. Sin embargo, dos parámetros proporcionan, lógicamente, una descripción limitada de las condiciones del oleaje. Por ejemplo, dos condiciones de oleaje distintas (un mar mezclado, irregular, mar de viento y un swell, regular con olas suaves, mar de fondo) pueden presentar las mismas alturas de ola y periodos significante. Para distinguir ambas situaciones se requieren más parámetros, por ejemplo, altura y periodos significantes para mar de viento y de fondo por separado. Los puntos WANA de Puertos del Estado5 proporcionan esos parámetros en ambas condiciones. Esto se hace a veces, pero en general unos pocos parámetros no determinan unı́vocamente unas condiciones de oleaje. Una descripción completa (en el sentido estadı́stico) del oleaje requiere un análisis espectral basado en la hipótesis que el movimiento aleatorio de la superficie libre puede tratarse como la suma de un gran número de armónicos. A veces también se usa H1/10 definida como la media aritmética de las N/10 alturas de ola mayores del registro6 , esto es, H1/10 N/10 1 X = Hk , N/10 (4) k=1 donde el ı́ndice k no es el ı́ndice que representa la secuencia temporal de las olas, sino el orden de la ola, estando ordenadas de altura mayor a menor. Igualmente se PN/10 define el periodo TH1/10 = 10/N k=1 THk , i.e. como la media de los N/10 periodos correspondientes a H1/10 . En el caso de ejemplo analizado H1/10 = 0,91 m y T1/10 = 6,78 s. Lógicamente H1/10 > H1/3 y T1/10 > T1/3 . La altura de ola con probabilidad de excedencia de un α % se denota Hα % . Por ejemplo, H0,1 % , H1 % , etc. 2.3. Distribución de alturas de ola individuales En vez de mostrar todas y cada una de las altura de ola individuales, es más útil mostrar un histograma de muestre el número de olas obtenidos en varios intervalos de altura de ola. La Fig. 3 muestra el histograma de los datos de oleaje de la boya del Guadalquivir. Para comparar alturas de ola en diferentes localizaciones, el histograma de la Fig. 3 se adimensionaliza según H/H y n/(N ∆H/H), donde N es el número de olas y ∆H es 4 Al proyectar una obra se dimensiona de modo que sea capaz de soportar la acción de temporales con altura menor o igual a la altura de diseño. 5 http://www.puertos.es/oceanografia_y_meteorologia/redes_de_medida/index.html 6 Estas alturas y periodos caracterı́sticos son interesantes puesto que pueden definirse en términos del espectro de onda. 5 Figura 3: Histogramas de altura de ola y periodo. El tamaño de bin es para la altura de ola ∆H = 0,052 m y para el periodo ∆T = 0,47 s. tamaño del bin (el subintervalo). El resultado, la densidad de probabilidad, se puede ver en la Fig. 4. Cuando ∆H/H → 0 la densidad de probabilidad tiende a una curva continua. Resultados teóricos y experimentales muestran que la densidad de probabilidad sigue, aproximadamente, una función de distribución de Rayleigh7 . Se dirá entonces que las alturas de ola individuales siguen una distribución de Rayleigh. La función densidad de probabilidad de Rayleigh fR (x) ∈ (0, +∞) es8 2 fR (x) = x x − 2σ 2 x , e σx2 (5) Nótese que la función dada en la Eq. 5 está normalizada9 . Según Goda (2010) la aproximación de Rayleigh es una buena aproximación en aguas profundas y para un número de ondas muy superior a 100. Cuando la rotura de ola tiene lugar, la distribución de alturas de ola difiere de la dada por la distribución de Rayleigh. Para ese caso, correcciones empı́ricas a la distribución de Rayleigh han sido propuestas, e.g. (Stive , 7 La función de Rayleigh fue derivada originalmente por Lord Rayleigh a finales del s.XIX para describir la distribución de la intensidad del sonido emitido desde un número infinito de fuentes. LonguetHiggins solo verificó la aplicabilidad de la distribución de Rayleigh para oleaje irregular cuyos periodos y alturas presentaban pocas fluctuaciones tanto en los periodos como en las alturas (Goda , 2010). Sin embargo, las olas reales en el mar pueden presentar fluctuaciones importantes en periodos de ola individuales. Hasta ahora no se ha desarrollado una teorı́a exacta para olas reales. 8 Para las crestas tiene esta forma. La amplitud de las crestas, en una aproximación muy burda, es ηcresta ∼ H/2 (Holthuijsen , 2007). La función de densidad de Rayleigh es algo diferente para alturas de ola (véase Eq. 6). 9 La normalización no es hacer directamente Rx ≡ H/H, sino imponiendo que la integral en todo el +∞ dominio es 1. Es inmediato comprobar que 1 = 0 fR (x)dx. Véase Fig. 4. 6 1986). Para mar de fondo, con un oleaje de alturas de ola H se tiene las siguientes función densidad de probabilidad y función de distribución expresadas en términos de Hrms 2 H − H 2 fR (H) = 2 2 e Hrms , Hrms Z H 0 0 − fR (H )dH = 1 − e FR (H) = Prob {H < H, H ∈ (0, +∞)} = H2 2 Hrms (6) . 0 También puede expresarse utilizando la altura de ola media H como parámetro de la distribución, quedando fR (H) = π H − π4 H 22 e H , 2 H2 − π2 FR (H) = 1 − e H2 2 H (7) . o en función de la altura de ola significante Hs 2 H −2,005 H 2 Hs , fR (H) = 4,01 2 e Hs (8) 2 FR (H) = 1 − e −2,005 H 2 Hs . Asumiendo que la distribución de Rayleigh es una aproximación de la distribución de alturas de ola individuales 10 , las alturas caracterı́sticas H1/10 , H1/3 , Hr.m.s. y Hα % pueden expresarse en términos de H manipulando la Eq. 5. Las relaciones son las siguientes11 : H1/10 = 2,03 H, H1/3 = 1,60 H, Hr.m.s. = 1,13 H y H2 % = 2,23 H. Según estas relaciones es posible expresar la Eq. 6 en términos de otras alturas de ola caracterı́sticas. Por ejemplo, en términos de la altura de ola significante serı́a 2 FR (H) = 1 − e−2,010·(H/Hs ) . Véase la Tabla 1. 10 Al considerar la función de Rayleigh como función de distribución de la altura de ola se está admitiendo que ésta es igual a dos veces la amplitud y que cada una de las olas son sucesos estadı́sticamente independientes. En los casos en los que esto no sea aceptable, es necesario definir la distribución de alturas de ola como una distribución conjunta de dos amplitudes separadas por un intervalo de tiempo determinado. Para este caso en particular, estas dos amplitudes consideradas estadı́sticamente independientes deberı́an estar separadas por el semiperı́odo medio del proceso. La distribución de Rayleigh sobreestima, habitualmente, las probabilidades de presentación de las alturas mayores y menores del registro. Las razones de esta desviación se atribuyen a no cumplir las hipótesis iniciales. Éstas se refieren a la anchura espectral, la independencia estadı́stica entre olas sucesivas y la nolinealidad y asimetrı́a del oleaje. En general, la función de distribución de Rayleigh no se ajusta muy bien a los histogramas obtenidos experimentalmente para valores de ε> 0,5. Sin embargo, los descriptores estadı́sticos obtenidos de la aplicación de la distribución de Rayleigh pueden ser usados con notable fiabilidad. 11 La demostración se deja como ejercicio al lector. 7 Figura 4: Histogramas de altura de ola y periodo normalizados. La curva continua es la función de densidad de probabilidad de Rayleigh. Para ajustar los periodos, no obstante, no suele usarse una distribución de Rayleigh. Son tı́picas, tal y como se describe en el apartado 2.4, las funciones de Bretschneider. Asumiendo una función de distribución de Rayleigh, está claro que debe haber relaciones entre las Eqs. 6, 7 y 8, dadas a través de las relaciones entre Hs , H, Hrms y Hmax . Por ejemplo, para un registro ordenado de N olas se verifica que Prob(h ≥ H) = i , N (9) donde i es el número de orden de la ola, considerando i = 1 para la ola de altura mayor e i = N para la ola de altura menor. Despejando de la Eq. 8 se tiene H = Hs 1 ln 2 N i 1/2 . (10) Para el caso i = 1, que se corresponde con H = Hmax se obtiene una relación Hmax = Hs 1 ln N 2 1/2 , (11) que, para N = 3000, se obtiene aproximadamente Hmax ≈ 2,00Hs . El lector puede obtener sus relaciones para, por ejemplo, H1/10 y H1/100 . 8 H/Hr.m.s. 1,0 √ 1/ 2 Altura Hr.m.s. b Moda, H e Mediana, H Media, H Significante, Hs H1/10 H1/100 Hmax (ln 2)1/2 √ H/ m0 √ 2 2 H/Hs 0,706 2 0,499 (8 ln 2)1/2 0,588 0,626 1,00 1,271 1,666 ? √ 2π 4,005 5,091 6,672 ? √ π/2 1,416 1,80 2,359 ? Tabla 1: Relaciones entre estadı́sticos de la distribución de Rayleigh (ROM1.0 , 2009). m0 es el momento espectral de orden cero. A menudo es interesante conocer la probabilidad de excedencia (Prob(H > Hq en el año medio)), esto es, la probabilidad q de que una altura de ola exceda un cierto valor Hq . Empleando la definición de FR será − q = 1 − FR (Hq ) = e Hq2 2 Hrms , (12) donde FR es la función de distribución de alturas de ola individuales. La altura umbral Hq se puede obtener despejando de la expresión anterior, Hq = Hrms s 1 ln , q (13) siendo q = 1/n, la proporción de olas mayores que Hq . 2.4. Distribución del periodo de onda A diferencia de las distribuciones de ola, el periodo de las olas ha recibido mucha menos atención en la literatura. Sin embargo, el diseño de las estructuras marı́timas requiere una estimación fiable de la distribución de periodos del oleaje12 o, mejor aún, de la distribución conjunta de las alturas de ola y periodos de las olas de un estado de mar. En realidad, no hay una expresión generalmente aceptada para la distribución del periodo. Lo que sı́ se observa es que, en un tren de olas, la distribución es más estrecha que la de correspondiente para la altura de ola y que los datos presentan una dispersión en el rango 0.5-2.0 veces el periodo de ola medio. Sin embargo, cuando mar de fondo y mar de viento coexisten, el la distribución de periodos es más ancha, a menudo 12 ¿Por qué? 9 Figura 5: Funciones densidad (izquierda) y de distribución (derecha) de Bretschneider para Tz = 6,5 s. bimodal, con dos picos para cada tipo de oleaje. Por tanto, el periodo de ola no tiene un comportamiento tan universal como la altura de ola con su distribución de Rayleigh. No obstante, a veces se emplea la función densidad de probabilidad y la distribución de periodos de Bretschneider que son, respectivamente, T 3 −0,675 e Tz4 fB (T ) = 2,7 T Tz 4 4 −0,675 TT FB (T ) = 1 − e z (14) . (15) La Fig. 5 muestra un ejemplo de las funciones densidad y de distribución de Bretschneider para Tz = 6,5 s. 2.5. Distribución conjunta de alturas de ola y periodos Si la altura de ola y el periodo fueran estadı́sticamente independientes, la función densidad de probabilidad conjunta13 serı́a simplemente el producto de fconjunta (H, T ) = fR (H) · fB (T ), a saber, el producto de la pdf de Rayleigh para la altura de ola fR (H) y la pdf de, por ejemplo, Bretschneider para el periodo fB (T ). Pero no es el caso, puesto que H y T están relacionados. Según Goda, las Eqs. 24 y 27 reflejan las caracterı́sticas de la distribución conjunta de alturas de ola y periodos. Olas con alturas menores en un registro de oleaje pueden presentar periodos más cortos, mientras que olas de alturas mayores que la media no parecen mostrar ninguna correlación con el periodo de onda, aunque, sin embargo, lo 13 Los artı́culos de Rice citados en (UC , 2000) sobre ruidos blancos Gaussianos son la base para todas las distribuciones conjuntas de altura de ola - periodo existentes. Las diferencias entre las distribuciones dependen de las hipótesis y técnicas adoptadas. 10 Figura 6: Diagrama de dispersión en el punto WANA-46 de Puertos del Estado, en el Golfo de Cádiz. que muestra la Fig. 6 parece querer decirnos que existe un periodo mı́nimo por debajo del cual no hay olas. En la práctica la distribución conjunta de altura de ola y periodo es de gran importancia. Desafortunadamente, tampoco hay una distribución generalmente aceptada para la distribución conjunta, incluso aunque hay algunos llamados “diagramas de dispersión” basados en el registro de oleaje. Tales diagramas dependen fuertemente del emplazamiento. La relación entre Hs y Ts se simplifica a menudo como Ts = αHsβ , asignando valores apropiados14 a α y β. En la Fig. 6 se muestra Tp (no Ts ) frente a Hs mostrando una relación más complicada (2D). En la Fig. 6 es claro la existencia de un Tp mı́nimo para un Hs dado. 14 En aguas canadienses, α = 4,43 y Ts = 0,5 11 Figura 7: Espectro de la varianza con área m0 y frecuencia de pico fp = 1/Tp , donde Tp es el periodo de pico. 3. Análisis de series temporales en el dominio de la frecuencia 3.1. Altura de ola y periodo caracterı́sticos El espectro de la varianza, ilustrado en la Fig. 7, no dice nada de cómo serán las olas individuales. Ahora veremos cómo estimar la altura de ola caracterı́stica y el periodo a partir del espectro de la varianza. El momento de orden-n, mn se define como ∞ Z f n S(f ) df . mn = (16) 0 R∞ Ası́, por ejemplo, el momento de orden 0 es m0 = 0 S(f ) df , que es en realidad el área bajo la curva del espectro, relacionado con el contenido energético del tren de ondas. 3.1.1. Anchura del espectro y validez de la distribución de Rayleigh De la definición de mn se puede ver que cuanto mayor sea orden del momento, mayor peso se pone en las frecuencias más altas del espectro. Con el mismo m0 , un espectro más ancho da valores mayores de momentos de órdenes superiores (2 ≤ n). Cartwright y Longuett-Higgins (1956) definieron el parámetro de anchura como s = 1− m22 , m0 m4 12 (17) a partir de un análisis teórico de la distribución estadı́stica de la altura de las crestas del oleaje. El valor de ∈ (0, 1). Se ha probado teóricamente que Spectrum width parameter Wave height distribution = 0 narrow spectrum (SWELL) Rayleigh distribution = 1 wide spectrum (SEA) Normal distribution El valor de suele ser del orden de 0.4-0.5. Se encuentra que la distribución de Rayleigh es una muy buena aproximación y además es conservativa, puesto que la distribución de Rayleigh proporciona una altura de ola ligeramente mayor para cualquier nivel de probabilidad dado. Otra posible definición de la anchura espectral es r ν= m0 m2 − 1. m21 (18) Se probó teóricamente que es inversamente proporcional al número medio de olas en un grupo. La Eq. 18 indica que cuando la energı́a está concentrada en una sola frecuencia, entonces ν → 0. Cuando la energı́a está dispersa en muchas frecuencias ν → 1. Un valor tı́pico en temporales es de 0.3. 3.1.2. Altura de ola significante y periodo de pico Cuando la altura de ola sigue una distribución de Rayleigh, i.e. cuando = 0 (oleaje tipo Swell), la altura de ola significante puede derivarse teóricamente a partir del espectro de la varianza como √ Hm0 = 4 m0 . (19) Por eso se denota con el subı́ndice del momento de orden 0. La altura significante espectral está relacionada con el contenido energético del oleaje. En realidad, para valores de = 0,4 − 0,5, una buena estimación de la altura de ola significante es √ Hm0 = 3,7 m0 . La frecuencia de pico fp se define sencillamente como la frecuencia a la cual la función s(f ) es máxima. El periodo de pico Tp = 1/fp coincide aproximadamente con el periodo de ola significante. 3.1.3. Distribución conjunta espectral de alturas de ola y periodos Longuet-Higgins (1975, 1983) (citado en (UC , 2000)) definió el periodo y alturas de ola con el criterio de pasos ascendentes por cero. La distribución obtenida asume que el espectro es de banda estrecha (mar de fondo o Swell), donde ν es el parámetro de la anchura espectral definido en Eq. 18. La función densidad se expresa en función √ de las variables adimensionales Ha = H/ m0 y Ta = T /T , siendo T el periodo medio relacionado con la frecuencia media ω = 2πm0 /m1 : 13 Figura 8: Función densidad conjunta altura de ola - periodo de Longuet-Higgins para dos valores del parámetro de anchura espectral ν. Nótese que las bandas espectrales son más anchas donde hay mayor variabilidad en los valores de H y T . fHa ,Ta = CL Ha Ta 2 ( " #) Ha2 1 1 2 exp − 1+ 2 1− , 8 ν Ta (20) donde CL = 1 . 4ν 2π 1 + (1 + ν 2 )−1/2 √ (21) En la Fig. 8 se representan diagramas de contorno para la función densidad de la Eq. 20 para anchuras espectrales ν = 0,2 y ν = 0,6. Como puede verse, para anchuras espectrales pequeñas, la distribución es más simétrica alrededor de Ta = 1 (alrededor del periodo medio). La función densidad de probabilidad para (sólo) los periodos puede derivarse a parir de la distribución de probabilidad conjunta H − T dada en Eq. 20, integrando en H en todo su dominio. De esta manera, se obtiene la distribución de periodos como una distribución marginal. El resultado es √ " #−3/2 4CL 4π 1 1 2 fLH (Ta ) = 1+ 2 1− , Ta2 ν Ta 14 (22) donde Ta = T /T . Como puede comprobarse, la distribución es asimétrica lo cual está de acuerdo con las observaciones. La moda de la distribución Tb decrece con la anchura espectral ν de acuerdo con la expresión15 ca = T 2 √ . −1 + 9 + 8ν 2 (23) Asimismo, se ha observado (hecho empı́rico) que los parámetros de los periodos caracterı́sticos están interrelacionados. Del análisis de datos de campo, se verifica que Tmax /T1/3 = 0,6 − 1,3 , (24) T1/10 /T1/3 = 0,9 − 1,1 , (25) T1/3 /T = 0,9 − 1,4 . (26) Simplificando aún más (Goda (Goda , 2010)), Tmax ≈ T1/10 ≈ T1/3 ≈ 1,2T . (27) La relación T1/3 /T da sólo una indicación puesto que este valor está afectado por la forma del espectro del oleaje. 4. Análisis extremal (de altura de ola) La altura de ola de diseño (Liu et al. , 2001) se representa a menudo por la altura de ola significante Hs , que es una variable aleatoria. Varı́a con respecto al tiempo y a la localización. Si una estructura debe ser construida en una zona del mar donde se dispone de medidas de altura de ola a largo plazo, la pregunta que el ingeniero debe hacerse es cómo determinar la altura de ola de diseño. El análisis extremal da la respuesta, i.e. proporciona un método para determinar la altura de ola de diseño, basado en la importancia de la estructura (nivel de diseño) y el análisis estadı́stico de un registro de oleaje de largo plazo. 4.1. Nivel de diseño El nivel de diseño se representa por un periodo de retorno o probabilidad de encuentro. 15 Demuéstrese. Basta recordar que Tb representa el valor más probable de la distribución. 15 4.1.1. Periodo de retorno El periodo de retorno T se define como la duración promedio durante la cual eventos extremos exceden un determinado umbral 1 vez. Es el periodo promedio entre 2 excedencias del valor umbral. Establecemos la siguiente notación: X: Altura de ola significante, que es una variable aleatoria. x Es una realización particular de X. F (x) Es la función de distribución acumulada de X, F (x) = Prob(X ≤ x). t Número de años de observación de X n Número de observaciones en un periodo de t años. λ Intensidad de muestreo λ = n/t La probabilidad de no excedencia de x es F (x), es decir, la probabilidad acumulada de que X no exceda el valor de x. De modo complementario, la probabilidad de excedencia es 1 − F (x), asumiendo que la función F está debidamente normalizada. En otras palabras, con probabilidad 1 − F (x) una altura de ola significante será mayor que x. Si el número total de observaciones (realizaciones de X) es n, el número de observaciones donde X > x es k= n X Prob(X ≤ x) = n (1 − F (x)) = tλ (1 − F (x)) . (28) i=1 Luego el periodo de retorno T de una realización x se define como T = t|k=1 = 1 , λ (1 − F (x)) (29) es decir, en promedio, se excederá el valor x una vez cada T años. También se define x como el valor de retorno o como un evento de T años, i.e. el valor de retorno x es el valor umbral que define un periodo de retorno dado. La relación entre T y la prob. de no excedencia F (x), o mejor la probabilidad de excedencia 1 − F (x) puede entenderse bien fijando un valor de retorno adecuado x. Dado x, su correspondiente periodo de retorno es T . Al incrementar el valor de x, es decir, al reducir su probabilidad de excedencia, el periodo de retorno asociado a x se incrementa. Al reducir x, i.e., al incrementar su probabilidad de excedencia, el periodo de retorno asociado a x se reduce. Esto explicarı́a la relación inversa entre T y 1−F (x). 16 La relación entre tiempo y probabilidad procede de interpretar la probabilidad de excedencia 1−F (x) como la fracción de tiempo durante la cual x < X. Por ejemplo, si la probabilidad de excedencia de una altura de ola significante es Hs = 10 m es P = 0,0018, en 1 año, la altura de ola excede ese valor P = 0,0018 × 24 horas/dı́a ×365 dias/año = 16 horas/año. Ahora, si cada evento dura en promedio d(Hs > Hs ) = 8 horas/evento, entonces se tendrán (16 horas/año) / (8 horas/evento) = 2 eventos o excedencias /año, esto es, se tiene un periodo de retorno de T = 1/2 año para Hs = 10 m. 4.1.2. Probabilidad de encuentro Basándose en el hecho que, en promedio, x será superada una vez cada T años, la probabilidad de excedencia de x en 1 año será de 1/T . Por tanto, la probabilidad de no excedencia de x en 1 año será Prob(X ≤ x) = 1 − 1/T ; en dos años Prob(X ≤ x) = (1 − 1/T )2 ; y en L años Prob(X ≤ x) = (1 − 1/T )L . La probabilidad de encuentro, i.e., la probabilidad de excedencia de x en la vida de una estructura de L años de vida es 1 L p=1− 1− , T (30) que, en el caso de un valor grande de T puede aproximarse por L L p = 1 − 1 − e− T . 4.1.3. (31) Diseño Tradicionalmente el nivel de diseño para la altura de ola de diseño fue la altura de ola correspondiente a un cierto valor periodo de retorno. Por ejemplo, si la altura de ola de diseño correspondiente con un periodo de retorno de 100 años es 10 m, el significado fı́sico es que, en promedio, estos 10 m de altura de ola de diseño serán excedidos una vez cada 100 años. En el diseño de estructuras costeras basado en la fiabilidad, es mejor emplear la probabilidad de encuentro, i.e. la probabilidad de excedencia dentro de la vida útil de la estructura de la altura de ola de diseño. Por ejemplo, si la vida útil L de una estructura se estima en 25 años, la probabilidad de encuentro para la altura de diseño de 10 m es 1 p=1− 1− T 25 ≈ 22 % . (32) Esto significa que estos 10 m de altura de ola de diseño serán excedidos con un 22 % de probabilidad en los 25 años de vida útil de la estructura. 17 4.2. Procedimiento general En la práctica, los ingenieros deben determinar la altura de ola de diseño correspondiente a un cierto periodo de retorno, a partir de un registro (medido o de pronóstico) de oleaje a largo plazo. El procedimiento general para llevar a cabo esa tarea podrı́a ser el siguiente: 1. Seleccionar los datos extremos (alturas de ola) del conjunto de datos. 2. Seleccionar varias distribuciones teóricas que se ajusten a los datos extremos. 3. Ajuste de las distribuciones a datos extremos por un método adecuado de ajuste (p.ej. mı́nimos cuadrados). 4. Elegir la distribución que mejor se ajuste a los datos. 5. Calcular la altura de ola de diseño para un periodo de retorno dado. 6. Determinar el intervalo de confianza de la altura de ola de diseño para cuantificar la variabilidad de la muestra (errores). 4.3. Conjunto de datos Los datos de oleaje originales suelen obtenerse tı́picamente de medidas directas mediante boyas o a partir de predicciones basadas en datos meteorológicos. La mayorı́a de los registros no cubren más de 10 años de observación (véase Puertos del Estado, http://www.puertos.es/) o 40 si hablamos de predicciones basadas en modelos. En la práctica, suelen usarse tres conjuntos de datos de altura de ola extremal: Conjunto de datos completo: Contienen todas las medidas directas de altura de ola, usualmente equiespaciadas en el tiempo. Series anuales: Consisten en series de datos cuyo contenido son las mayores alturas de ola por cada año. Series parciales: Están compuestas por las mayores alturas de ola registrada por tormenta/borrasca, dado un umbral inferior. El umbral es determinado a partir de la localización de la estructura y la experiencia ingenieril. Véase ROM0.0. El método que se emplea con estas series de datos es el método de picos sobre umbral (POT, Peak Over Threshold). Véase Fig. 9. Es habitual que las series temporales obtenidas con instrumentos de medida tengan intervalos de tiempo en los que, por labores de conservación o fallos técnicos, presenten lagunas de información. En estos casos, se procurará aplicar técnicas de relleno de datos para completar la serie temporal, entre ellas, técnicas estadı́sticas, correlación con otras variables de estado, o relaciones fı́sicas, debidamente contrastadas, entre variables (ROM1.0 , 2009). 18 Figura 9: Para la obtención de los regı́menes extremales anuales de oleaje en profundidades indefinidas, definidos como la distribución de valores máximos locales o los picos de tormentas que superan un determinado umbral de una variable de estado de mar en profundidades indefinidas frente al puerto de Motril, se han utilizado los datos de los puntos WANA 2019013. Se ha usado el método de Picos Sobre Umbral (POT, Peaks Over Threshold). Para ello se han fijado la altura de ola umbral correspondiente a 3 m (linea horizontal azul), correspondiente al valor que es superado en menos del 1 % del tiempo en el año medio. Para garantizar la independencia estadı́stica entre temporales, se ha supuesto que la duración mı́nima entre temporales debe ser superior a 48 horas. De esta manera se han obtenido 51 eventos extremales respectivamente, en los 14 años meteorológicos analizados (Quintero et al. , 2012). 19 Los conjuntos de datos extremales, basados en datos de oleaje originales, deben cumplir las siguientes condiciones (para que la muestra sea significativa)16 : Independencia: No debe haber correlaciones entre los datos. Las series de datos anuales y las series parciales17 verifican la condición de independencia puesto que los datos vienen de distintos temporales18 . Homogeneidad: Los datos extremales deben pertenecer a la misma población estadı́stica, e.g., todos los datos extremales proceden de olas generadas por viento. Estacionariedad: Debe haber una climatologı́a a largo plazo estacionaria. Estudios de datos de oleaje en el Mar del Norte de los últimos 20 años parecen mostrar una tendencia en los datos medios que muestra una no-estacionariedad. Se observan variaciones promedio de décadas a décadas o incluso en periodos más largos. Sin embargo, la hipótesis de estacionariedad estadı́stica parece razonable y realista para propósitos ingenieriles, puesto que las variación a esas escales suele ser pequeña19 . El conjunto de datos completo, no cumple el requisito de independencia entre los datos, puesto que existen correlaciones no nulas entre los diferentes estados de mar. (Goda , 2010) encontró coeficientes de correlación de 0.3-0.5 para alturas de ola significante medidas durante 20 minutos con un espaciado temporal de 24 horas. Además, es interesante el caso de la ola de diseño con una probabilidad de no excedencia muy elevada (la cola superior de la distribución de probabilidad). Si la distribución de ajuste elegida no es la correcta, los valores de cola superior de la distribución no serán realistas (estarán mal estimados), puesto que existen correlaciones entre los datos. Por estas razones no suelen usarse los registros completos de datos para el análisis extremal. La mayorı́a de los ingenieros prefieren las series parciales por encima de las series anuales. Por una parte, es una muestra de datos mucho más numerosa y, por otra, lo normal es que el análisis de las series parciales den como resultado una altura de ola de diseño mayor, lo que implica un diseño más conservador de la estructura. 4.4. Distribuciones candidatas Generalmente las distribuciones exponencial, la de Weibull, la de Gumbel, la de Frechet, la de Pareto y la Log-normal son las distribuciones teóricas que mejor suelen ajustarse a los datos. Las acumuladas son las siguientes20 : Exponencial: FE (x) = Prob(X < x) = 1 − e−( 16 x−B A ), (33) Ejemplo de las encuestas de intención de voto. En este caso hay que tener cuidado al separar entre temporales. 18 ¿Están los temporales correlacionados? 19 ¿Qué pasa con las predicciones del Intergovernmental Panel on Climate Change (IPCC)? 20 Las “no acumuladas” se obtienen derivando éstas en virtud del teorema fundamental del cálculo. 17 20 Weibull (stretched exponential21 ): FW (x) = Prob(X < x) = 1 − e−( x−B k A ) , (34) , (35) Gumbel: FG (x) = Prob(X < x) = ee − x−B A ( ) Generalizada de Pareto: −1/C x−B FP (x) = Prob(X < x) = 1 − 1 + C , A (36) Log-normal: FL (x) = Prob(X < x) = Φ ln(x) − B A , (37) Generalizada de valores extremos: FGEV (x) = Prob(X < x) = e−(1+C x−B −1/C A ) , (38) donde X es la variable aleatoria, en este caso una altura de ola caracterı́stica, que podrı́a ser la altura de ola significante Hs o el diezmo H1/10 o la altura de ola máxima Hmax , dependiendo del conjunto de datos; la variable x representa una única realización de la variable aleatoria X; y F es la función de probabilidad acumulada complementaria, i.e. la probabilidad de no excedencia (frecuencia acumulada). Los parámetros A, B y k son parámetros ajustables de las distribuciones. En la distribución Log-normal A y B representan, respectivamente, la desviación estándar y la media de X. La función Φ representa una distribución Normal. En la Generalizada de Valores Extremos A representa el parámetro de escala (anchura), B el parámetro de localización y C es un parámetro de forma. Para C = 0 esta distribución se reduce a una Gumbel, para C > 0 es una Fréchet o Fisher-Tippet II y para C < 0 toma la forma de una Weibull22 . 4.5. Métodos de ajuste Cuatro métodos de ajuste de las colas que generalmente se emplean son el método de máxima verosimilitud, el método del momento, el de los mı́nimos cuadrados y el gráfico visual. Los más comunes son el de máxima verosimilitud y el de mı́nimos cuadrados. 21 Téngase en cuenta que MatlabTM define la Weibull sin el parámetro de localización. Se deja como ejercicio al lector determinar las propiedades estadı́sticas más notables de estas distribuciones (medias, lı́mites de los parámetros, momentos, funciones densidad, tasas de fallo, etc. 22 21 4.5.1. Método de mı́nimos cuadrados Las Eqs. 34 y 35 pueden escribirse como X =A·Y +B, (39) donde Y es la variable aleatoria reducida de acuerdo a Y = (− ln(1 − F ))1/k , (40) para la distribución de Weibull y, para la de Gumbel, Y = − (− ln F ) , (41) El procedimiento de interpolación por mı́nimos cuadrados es el siguiente 1. Reordenar los extremos (p.ej. n datos) en orden descendente: xi , i = 1, 2, . . . , n 2. Asignar una probabilidad de no excedencia Fi a cada xi mediante una fórmula para representación Q-Q23 , por lo que se obtiene un conjunto de pares (Fi , xi ). 3. Calcular el correspondiente valor de Y mediante las Eqs. 40 y 41, obteniendo un nuevo conjunto de datos (yi , xi ) 4. Determinar los coeficientes de regresión de la Eq. 39 mediante 23 Plotting position formula en inglés. Un gráfico Q-Q es una técnica gráfico para el análisis de diferencias entre la distribución de una población de la que se ha extraı́do una muestra aleatoria y una distribución teórica usada para la comparación. Cuando se emplea un método de ajuste, una fórmula para representación Q-Q debe emplearse, la cual se usa para asignar una probabilidad de no-excedencia a cada valor extremo de la altura de ola. Son especiales cuando se trabaja con muestras muy pequeñas. La probabilidad de no-excedencia Fi asignada a la realización xi puede determinarse basándose en tres principios estadı́sticos diferentes, a saber, frecuencia de las muestras, distribución de la frecuencia y el i−0,44 estadı́stico de orden. Dos ejemplos tı́picos podrı́an ser (1) para una Gumbel (Gringorton) Fi = 1− n+0,12 i−0,3−0,18/k y (2) para una Weibull (Petrauskas) Fi = 1− n+0,21+0,32/k , donde i es el ı́ndice de la muestra (ordenada), n es el número total de muestras y k una constante. Este punto se considera, para este curso, un tema avanzado y no será tratado aquı́. 22 Cov (Y, X) , V ar (Y ) B = X − AY , n 2 1X yi − Y , V ar (Y ) = n A= (42) (43) i=1 n 1X Cov (Y, X) = yi − Y · x i − X , n i=1 n 1X X= xi , n Y = 1 n i=1 n X yi . i=1 En el caso de la distribución de Weibull, varios valores de k son predefinidos y, entonces, se ajustan los valores de A y B. Los valores finales de los tres parámetros son escogidos basados en la bondad del ajuste. 4.5.2. Método de máxima verosimilitud La distribución de Weibull biparamétrica es − FW (x) = Prob(X < x) = 1 − e x−x0 A k , (44) donde x0 es la altura de ola umbral, que debe ser inferior que la mı́nima altura de ola en el conjunto de datos extremales. Si no contamos inicialmente con información respecto de los datos, varios umbrales deben probarse y seleccionar finalmente en que mejor se ajuste. La estimación de máxima verosimilitud de k se obtiene resolviendo la siguiente ecuación mediante un procedimiento iterativo N +k N X ln(xi − x0 ) = N k i=1 N PN 0 k 0 X i=1 (xi − x ) ln (xi − x ) . PN 0 )k (x − x i i=1 i=1 (45) La estimación de máxima verosimilitud para A es A= N 1 X (xi − x0 )k N !1/k . (46) i=1 Para la distribución de Gumbel, la estimación de máxima verosimilitud de A se obtiene resolviendo la siguiente ecuación mediante un proceso iterativo: 23 N X e( x − Ai ! N N X xi 1 X xi − A e− A . N )= i=1 i=1 (47) i=1 La estimación de máxima verosimilitud de B es " B = A ln PN # N x − Ai i=1 e 4.5.3. . (48) Bondad del ajuste Para ver qué distribución se ajusta mejor o peor se determina el coeficiente de correlación lineal, que se define como ρ= p Cov (X, Y ) V ar (X) V ar (X) . (49) Este coeficiente se emplea como criterio para la comparación de la bondad del ajuste. Sin embargo, ρ está definido en un dominio lineal (y, x) donde la variable reducida y es dependiente de la función de distribución. Por tanto, la interpretación de este criterio es en este caso menos clara. Con las funciones de distribución ajustadas, las alturas de ola correspondientes a la probabilidad de no-excedencia de las alturas de ola observadas pueden calcularse (Eq. 51 y 52). El error relativo promedio E, definido como n E= 1 X |xi,estimado − xi,observado | , n xi,observado (50) i=1 es un criterio sencillo y aceptable con una clara interpretación. E = 5 % significa que, en promedio, la estimación central de la altura de ola se desvı́a de la altura de ola observada por un 5 %. Obviamente, cuanto más pequeño sea E, mejor será el ajuste. El test de hipótesis estadı́stica puede igualmente emplearse para la comparación de la bondad del ajuste de cada distribución. 4.6. Altura de ola de diseño La altura de ola de diseño xT es la altura de ola correspondiente a un periodo de retorno T . Las distribuciones de Weibull y Gumbel (Eq. 34 y Eq. 35, respectivamente) se reescriben, respectivamente, como 24 x = A (− ln(1 − F ))1/k + B , (51) x = A (− ln(− ln(F ))) + B . (52) y Definiendo la intensidad de la muestra λ como número de datos extremos , número de años de observación y empleando la definición de periodo de retorno T , se tiene λ= T = o F =1− 1 λT . 1 , λ(1 − F ) (53) (54) Introduciendo la Eq. 54 en las Eqs. 51 y 52, se obtiene 1/k 1 x = A − ln +B, λT T (55) para la distribución de Weibull y 1/k 1 x = A − ln − ln 1 − +B, λT T (56) para la de Gumbel. Ahora x se expresa como xT puesto que x representa la altura de ola correspondiente a un periodo de retorno T . Los parámetros A, B y k son parámetros de ajuste. 4.6.1. Regı́menes medios y extremales La Fig. 10 ilustra la diferencia entre la estadı́stica a corto plazo y a largo plazo. En general hablaremos de Regı́menes medio y extremal según lo siguiente: Régimen medio: Cuando estudiamos el régimen medio estamos interesados en conocer la probabilidad de que en un año medio la Hrms (por ejemplo) no supere un valor dado H. Buscamos Prob(Hrms ≤ H en P el año ?medio). Si? disponemos de tal año medio, podremos calcular F (Hrms ) = N i=1 ti /t , donde t es la duración del año y ti son los intervalos donde Hrms ≤ H en el año medio. Régimen extremal o de temporales: En este caso estamos interesados en conocer la probabilidad de que en un año cualquiera Hrms no supere un valor de H dado. Esto es, Prob(Hrms máxima del año ≤ H). 25 Figura 10: Diferencia entre la estadı́stica a corto plazo y a largo plazo (extremal). 4.6.2. Problema Se han identificado 17 tormentas en un periodo de 20 años. La lista de alturas significantes, ordenadas por orden de magnitud, se muestran en la tabla siguiente (Liu et al. , 2001): Se requiere encontrar la altura de ola de diseño que tenga el 5 % de probabilidad de excedencia dentro de la vida de la estructura de 25 años. Los pasos para realizar el análisis son los siguientes: 1. Calcule la intensidad de la muestra λ mediante la Eq. 53. Sol. λ = 17/20. 2. Calcule el periodo de retorno T mediante la Eq. 32. Sol. T ≈ 487 años. 3. Asigne una probabilidad de no-excedencia Fi para cada valor observado de altura de ola de acuerdo, por ejemplo, a la fórmula Q-Q de Weibull (apartado 4.5.1, nota a pie de página) y dibuje los resultados en un papel probabilı́stico Q-Q de Weibull. Haga uso de la función de MatlabTM probplot() (concretamente probplot(’weibull’,xi). Sol. Los resultados de aplicar esta función a los datos observados xi se muestran en la segunda columna de la Tabla 2 y en la Fig.11, panel superior izquierdo, puntos negros. El resultado es un par (xi , Fi ). 4. Ahora vamos a ajustar distribuciones teóricas al par (xi , Fi ). En este caso, considere las distribuciones de Weibull (Eq. 34) y Generalizada de Valores Extremos (GEV) (Eq. 38) como las candidatas al mejor ajuste. Determine los parámetros de ajuste correspondientes a cada distribución con un intervalo de confianza al intervalos de confianza al 95 %. Haga uso de las funciones gevfit(), wblfit() y probplot(). Dibuje las curvas resultantes del ajuste sobre el resultado anterior (Fig.11, panel superior izquierdo) y además pinte dos nuevas gráficas en papel probabilı́stico (con variables reducidas) Weibull y GEV para cada caso. Sol. Los resultados 26 id. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Significante xi 9.32 8.11 7.19 7.06 6.37 6.15 6.03 5.72 4.92 4.90 4.78 4.67 4.64 4.19 3.06 2.73 2.33 Prob. no-exc. Fi 0.970 0.911 0.852 0.794 0.735 0.676 0.617 0.558 0.500 0.441 0.382 0.323 0.264 0.205 0.147 0.088 0.029 Tabla 2: Pares altura de ola significante (xi ) - probabilidad de no excedencia (Fi ). Para determinar Fi se ha hecho uso de la función de MatlabTM probplot(). se muestran también en la Fig.11, paneles superior izquierdo y derecho e inferior izquierdo. Los resultados del ajuste de la GEV con gevfit() son C = −0,2151, A = 1,7254 y B = 4,7270, y sus respectivos intervalos de confianza al 95 % son (−0,5744, 0,1441), (1,1776, 2,5279) y (3,8037, 5,6503). Los resultados del ajuste con la distribución de Weibull con wblfit() son A = 6,0533 y k = 3,2659, y sus respectivos intervalos de confianza al 95 % son (5,1912, 7,0586) y (2,2631, 4,7131). 5. Compare la bondad de los dos ajustes de acuerdo al valor del error relativo (Eq. 50). El valor de la altura de ola observado es xi , dado en la Tabla 2. Los valores de altura de ola estimados xi,estim se obtienen cruzando los valores de Fi correspondientes a xi por la funciones teóricas GEV (Eq. 38) y de Weibull (Eq. 34) ajustadas en el apartado anterior. Sol. La función GEV presenta un error de 4,73 % frente al 5 % de la de Weibull. Como en este caso la distribución de GEV presenta menor error, se la considera como el mejor ajuste y representativa de la altura de ola extremal. El error relativo se indica también en la Fig.11. 6. Realice una gráfica que muestre la altura de ola observada xi frente el periodo de retorno T correspondiente. Para ello haga uso de la Eq. 29. Represente en la misma gráfica los ajustes de Weibull y GEV y las bandas de error de los ajustes al 95 % de confianza. Emplee para esto último los intervalos de confianza dados para los parámetros de ajuste A, B y C. Sol. Los resultados se muestran en la Fig.11. 27 Figura 11: Ajustes de las distribuciones de Weibull y GEV a los datos mostrados en la Tabla 2 (Liu et al. , 2001). 7. Finalmente, calcule la altura de ola de diseño xT correspondiente al periodo de retorno T determinado en el punto segundo. Sol. Se obtiene en este caso x487 = 10,55 m. 4.7. Fuentes de incertidumbre e intervalo de confianza Como se puede observar las bandas de error en Fig.11 son bastante amplias. Algunas fuentes de incertidumbre sobre la altura de ola de diseño pueden son las siguientes: variabilidad en las muestras debido a un tamaño de muestra limitado, error directamente relacionado con la medida (error observacional), error en la elección de la distribución como representante de la distribución a largo plazo (que es desconocida), error en la elección del umbral, métodos de ajuste, etc. La incertidumbre en los dos primeros casos pueden considerarse mediante simulación numérica en la determinación de la altura de ola de diseño. Datos de oleaje contienen errores de medida. El error observacional puede proceder, por ejemplo, de un mal funcionamiento del aparato, o de no-linealidades en las medidas de acelerómetros y sensores de presión. Errores de predicción en modelos computacionales pueden ocurrir cuando los campos de presión atmosférica se convierten a campos de viento y éstos, as su vez, se convierten a datos de oleaje. La precisión en estos casos depende de los datos originales y, por supuesto, de los modelos y algoritmos 28 numéricos. Por regla general, no son fiables los datos obtenidos mediante inspección visual. El error viene dado por C, la desviación estándar sobre el valor medio. Los modernos métodos de adquisición de datos han reducido C por debajo de 0.1. 4.7.1. Intervalo de confianza de la altura de ola de diseño xT Si sobre los datos pesan incertidumbres, e.g. la variabilidad de la muestra, la altura de ola de diseño xT presentará un error asociado24 ±∆xT . Al fin y al cabo es una variable aleatoria. La forma más sencilla de estimar el intervalo de confianza es hacer uso de las barras de error de los parámetros al hacer el ajuste, e.g. C ±∆C. El problema es que la altura de ola de diseño es extremadamente sensible a los parámetros de ajuste, lo cual da lugar a alturas de ola de diseño enormemente grandes. Otra forma de obtener un intervalo de confianza más realista es mediante simulación Monte Carlo. Para fijar ideas asumamos, por ejemplo, que la altura de ola extremal sigue una distribución Gumbel. F = FX (x) = P (X < x) = exp(−exp(−((x − B)/A))) , (57) donde X es la altura de ola extremal, la cual es una variable aleatoria, x es una realización concreta de X y A y B son los parámetros de localización y anchura, respectivamente, de la distribución. Debido a la incertidumbre en la medida, los parámetros A y B son de nuevo variables aleatorias. Para tener en cuenta la incertidumbre debida a la variabilidad de las muestras se procede de la siguiente manera. Una muestra de alturas de ola xi de tamaño N se ajusta a una distribución Gumbel, obteniéndose los parámetros Averdadero y Bverdadero , asumiendo que son los valores verdaderos. A continuación, 1. Genere un número aleatorio uniformemente distribuido entre 0 y 1. Cruce la probabilidad de no-excedencia Fi con los valores de los parámetros obtenidos, a saber, xi = FX−1 (Fi ) = Averdadero [−ln(−lnFi )] + Bverdadero , (58) y obtendrá el valor extremal xi correspondiente. 2. Repita el paso anterior N veces. Con esto, obtendrá una nueva muestra de N alturas de ola cuya distribución es la Eq. 57, esto es, una distribución Gumbel con los parámetros Averdadero y Bverdadero . 3. Ajuste la muestra resultante a una distribución Gumbel y obtenga los nuevos parámetros A y B. 24 Pues cuestiones de seguridad, normalmente se considera sólo el signo positivo del error. 29 Figura 12: Altura de ola de diseño vs. periodo de retorno. Se muestra la distribución (normal) obtenida mediante simulación Monte Carlo para un periodo de retorno de 100 años. Tomado de Liu et al. (2001). 4. Calcule la altura de ola xT correspondiente con un periodo de retorno T mediante la Eq. 56. 5. Repita los pasos de (2) a (4), digamos, 10000 veces, por lo que obtendrá 10000 valores de xT . 6. Elija la altura de ola correspondiente al intervalo de confianza especificado. 4.8. Periodo de onda de diseño No hay ninguna teorı́a para determinar el periodo de onda de diseño correspondiente a la altura de ola de diseño debido a la complejidad y a la dependencia de la zona de estudio de la distribución conjunta entre altura y periodo de ola. La Fig. 13 muestra dos ejemplos del diagrama de dispersión representando la distribución conjunta entre la altura de ola significante Hs y el periodo medio Tm y con el nivel de agua en reposo z, respectivamente. Los números en el diagrama de dispersión representan el número de observaciones que caen dentro del correspondiente intervalo. En la práctica, varios periodos de onda dentro de un rango realista, dados en función de la altura de ola de diseño, se asignan para conformar el estado del mar de diseño. Mediante consideraciones teóricas y experimentos de laboratorio se conviene en algunos casos en seleccionar s 130Hs < Tp < g 30 s 280Hs . g (59) Figura 13: Diagramas de dispersión. Ejemplos de distribuciones conjuntas de Hs y Tm (panel izdo.) y de Hs y z (panel dcho.). 4.9. Análisis extremal multiparamétrico Un estado de mar se caracteriza por un estado estacionario en el que las alturas de ola Hs , periodos Tm , dirección θ y nivel medio h0 están bien definidos (estos son los cuatro parámetros más importantes en el diseño de estructuras marı́timas). También resulta de importancia la duración de un estado de mar y, en ocasiones, la forma del espectro. Los parámetros no son independientes entre sı́, por lo que es necesario analizar el efecto en la estructura de las posibles combinaciones entre los parámetros, especialmente si son varios los más importantes. Burcharth 1993 ha propuesto el siguiente principio para un análisis extremal multiparamétrico. Para el caso general en el que haya varias variables importantes pero los coeficientes de correlación no se conozcan, el mejor método de probabilidad conjunta serı́a establecer una estadı́stica a largo plazo para la respuesta que se busque, e.g. para el run-up, el empuje de la onda sobre un espaldón, etc. Si asumimos que las variables de importancia son Hs , Tm , θ y h0 es necesario obtener una serie de datos plurianuales de estas variables mediante observaciones o mediante modelos computacionales: (Hs,i , Tm,i , θi , h0,i ) para i = 1, 2, 3 . . . n. Para cada conjunto de datos, la respuesta del sistema a estos valores se calcula a partir de las fórmulas que definen la respuesta. Si, por ejemplo, estamos interesados en el run-up, Ru , que viene dado por una expresión cerrada, se determina el conjunto de datos Ru,i = Ru,i (Hs,i , Tm,i , θi , h0,i )). (60) La estadı́stica a largo plazo para Ru,i puede obtenerse ajustando a los datos una distribución extremal adecuada (análisis extremal) 31 Núm. 1 2 3 4 5 6 7 8 9 10 5. Altura H(m) 0.54 2.05 4.52 2.58 3.20 1.87 1.90 1.00 2.05 2.37 Periodo T (s) 4.2 8.0 6.9 11.9 7.3 5.4 4.4 5.2 6.3 4.3 Núm. 11 12 13 14 15 16 17 18 19 20 21 Altura H(m) 1.03 1.95 1.97 1.62 4.08 4.89 2.43 2.83 2.94 2.23 2.98 Periodo T (s) 6.1 8.0 7.6 7.0 8.2 8.0 9.0 9.2 7.9 5.3 6.9 Prácticas Descripción Estadı́stica del Oleaje 5.1. Enunciados 1. Usando los datos de la Tabla 1a, se pide: a) Determinar alturas y periodos de ola máximos (Hmax , Tmax ), significantes (Hs , Ts ), medios (Hz y Tz ) y cuadráticos medios (Hrms y Trms ). b) Dado el valor de Hz , obtenido en el punto anterior, y asumiendo que las olas siguen una distribución q de Rayleigh, determinar Hrms ≈ 1,13 Hz , Hs ≈ 1,414 Hrms y Hmax ≈ Hs 12 ln N . ¿Cuáles piensa usted que son las razones para las diferencias entre los resultados de los puntos 1 y 2? c) Dibujar un histograma de las alturas de ola empleando un tamaño de subintervalo de 1 m. d ) Calcular el valor de fR (H) en el centro de cada uno de los subintervalos y superponer la función de densidad sobre el histograma. Asuma que la escala de equivalencia es fR (H) ∼ n/(N ∆H) donde n es el número de ocurrencias en cada subintervalo. e) Determinar la altura de ola con probabilidad de excedencia del 1 % asumiendo que el oleaje se ajusta a la distribución de Rayleigh siguiente fR (H) = 2 H −(H/Hrms )2 e 2 Hrms (61) siendo Hrms la calculada en el punto primero. 2. Análisis del Régimen Medio de oleaje frente a la costa de Motril (Punto WANA 2019013). Esta práctica es similar a la realizada anteriormente para el análisis del régimen medio de viento. La carpeta proporcionada a los alumnos contiene los siguientes archivos: 32 a) ’WANA T 2019013 (Motril).dat’ suministrado por Puertos del Estado25 . En la cabecera del archivo se explica el contenido del mismo. Como puede comprobarse, se dispone de un conjunto de datos por cada estado de mar de 3 horas desde 1996. b) ’Clima medio de oleaje WANA 2019013.pdf’. Contiene un análisis pormenorizado del clima marı́timo en régimen medio de los datos de oleaje contenidos en el archivo de datos ’WANA T 2019013 (Motril).dat’. c) ’Info conjunto datos INT WANA.dat’. Este archivo, también de Puertos del Estado, recoge una descripción general del conjunto de datos sintéticos WANA. d ) ’wind rose.m’. Éste es una útil función26 realizada en MatlabTM y descargable desde Matlab Central27 que permite hacer rosas de oleaje indicando dirección y altura significante espectral. Para esta práctica deberá realizar las siguientes actividades: a) Cargue en el espacio de trabajo de Matlab el archivo ’WANA T 2019013 (Motril).dat’. b) Cree un vector de tiempos t a partir de los datos de año, mes, dı́a y hora. Haga uso de la función de Matlab datenum para expresar el vector de tiempos en dı́as julianos. c) Cree otros tres vectores para la altura significante espectral Hm0 (columna 5), el periodo de pico espectral Tp (columna 7) y dirección media de procedencia del oleaje θ (columna 8). d ) Realice las siguientes figuras tratando de responder las preguntas propuestas: 1) Tres gráficas que representen los datos de (a) altura de ola significante y (b) periodo de pico en función del tiempo y (c) altura significante frente a periodo de pico28 . Emplee el comandos plot. ¿Qué información nos aportan estas figuras? ¿Por qué existe un periodo mı́nimo para cada altura de ola? 2) Represente Hm0 y θ conjuntamente mediante una rosa de viento. La instrucción estándar es wind rose(dir, wind, ’dtype’, ’meteo’). ¿Cuál o cuáles son las direcciones predominantes de procedencia del oleaje? ¿Cómo se relacionan estas direcciones con las del viento obtenidas en la práctica del Tema anterior? ¿En qué dirección se han presentado las alturas significantes mayores? ¿Podrı́a estimar cuál es la dirección media del oleaje durante todo el registro? 25 http://www.puertos.es/oceanografia_y_meteorologia/redes_de_medida/index.html Realizada por MMA 26-11-2007, mma@odyle.net. IEO, Instituto Español de Oceanografı́a, La Coruña. 27 http://www.mathworks.es/matlabcentral/ 28 Esta información resultará útil en la parte de Aprovechamiento de energı́as marinas impartida por el Profesor Antonio Moñino. 26 33 3) Realice sendos histogramas con los datos de periodo de pico y altura de ola. Emplee la función hist() de MatlabTM . ¿Podrı́a decir cuál es la altura de ola significante más probable? ¿Y la mayor del registro? ¿Cuál es su valor y cuándo tuvo lugar? ¿Significa esto que no es posible observar una altura de ola significante mayor que la máxima del registro? e) Para el estudio del Régimen medio además se analizan estadı́sticamente los valores de altura de ola de todos los estados de mar del archivo ’WANA T 2019013 (Motril).dat’ ajustando una función de densidad y de distribución a los datos. Ajuste por tanto los datos de altura de ola Hm0 mediante una Función Densidad y Función de Distribución de Valores Extremos Generalizada. Esta última viene dada por FGEV (Hm0 ; k, σ, µ) = e H −µ −1/k − 1+k m0 σ , (62) donde k es el parámetro de forma, µ el parámetro de localización y σ es el parámetro de escala (anchura). Como ayuda, recuerde que MatlabTM ya implementa funciones que permiten hacer el ajuste de manera rápida y sencilla. En su estudio, haga uso de las funciones de MatlabTM siguientes 1) gevfit() para obtener los parámetros de ajuste y sus respectivos intervalos de confianza. ¿Qué valores de k, σ y µ resultan? ¿Cuáles son sus respectivos intervalos de confianza? 2) gevpdf() para representar, con esos parámetros, la función densidad de probabilidad teórica. Compare la gráfica resultante con el histograma de datos de velocidad del viento. Tenga en cuenta que el histograma debe estar debidamente normalizado para que pueda realizarse la comparación. ¿En qué parte de la curva se produce el mejor ajuste? 3) Represente los datos en papel probabilı́stico con gevplot() para responder mejor a las preguntas del punto anterior. 4) ecdf() para determinar la función de distribución empı́rica de los datos de velocidad del viento. 5) gevcdf() para representar la función de distribución teórica. f ) ¿Hubiera creı́do conveniente usar una función de distribución de Rayleigh para ajustar estos datos? Explique su respuesta. 3. Análisis del Régimen Extremal de oleaje frente a la costa de Motril (Punto WANA 2019013). Para el estudio del régimen extremal, a) Determine las alturas de ola significante mayores de cada año. Haga uso de las funciones MatlabTM max() y find(). b) Presente en una tabla los datos obtenidos. ¿Pueden considerarse independientes las muestras? ¿Y las del análisis de régimen medio anterior, con una separación cada 3 horas? 34 c) Ajuste a los máximos anuales una función de densidad y de distribución Generalizada de Pareto, cuya expresión general es FGP (Hm0 ) = ? Prob (Hm0 1 < Hm0 ) = σ Hm0 − µ −(1+1/k) 1+k . σ (63) Para ello, siga la misma metodologı́a que en el caso de régimen medio, pero haciendo uso de las funciones de MatlabTM gpfit(), gppdf(), ecdf(), gpcdf() y gpplot() (y dfittool()). Matlab no estima el valor umbral. d ) Determine la curva Periodo de Retorno frente a Hm0 . 35 Figura 14: Un valor de la elevación η (1) (t1 ) en un instante dado de tiempo. Apéndices A. A.1. Variable aleatorias Una variable aleatoria La elevación de la superficie libre en presencia de ondas en un instante y en un lugar dados serán tratados como variables aleatorias (Holthuijsen , 2007), en el sentido que el valor exacto no puede ser predicho. Por ejemplo, como ocurre en un canal de ensayos de oleaje generado por viento (Fig. 14), a pesar de que aquı́ es posible controlar y preparar experimentos bajo las mismas condiciones (en principio). En un punto A del canal, un sensor de presión mide la elevación de la superficie libre en función del tiempo. En un momento dado t1 , medido desde la puesta en marcha del forzamiento por viento, la superficie libre en esa ubicación tiene un valor η (1) (t1 ). El superı́ndice (1) indica el número del experimento (otros experimentos seguirán). Si el experimento fuera repetido, este valor (en la misma posición en el mismo instante de tiempo desde que se activa el viento) serı́a η (2) (t1 ). Si de nuevo fuera repetido 36 se obtendrı́a η (3) (t1 ) y ası́ sucesivamente. El valor de la superficie libre en este punto no puede, por tanto, predecirse y será una variable aleatoria. En esta sección, denotaremos una variable aleatoria x por x. La superficie libre en otros tiempos será, lógicamente, igualmente impredecible: η(t1 ), η(t2 ), η(t3 ), etc. Una variable aleatoria está totalmente caracterizada por su función densidad de probabilidad p(x), que se define tal que la probabilidad de que la variable aleatoria x alcance un valor entre x y x + dx sea x+dx Z Prob(x < x ≤ x + dx) = p(x0 )dx0 = p(x)dx . (64) x Se sigue que la probabilidad de que x sea menor o igual que x (la probabilidad de no-excedencia) sea Z x p(x0 )dx0 ≡ P (x) . Prob(x ≤ x) = (65) −∞ La distribución complementaria es la probabilidad de excedencia, esto es, la probabilidad de que la variable aleatoria x exceda el valor x: Z Prob(x ≥ x) = +∞ p(x0 )dx0 = 1 − P (x) . (66) x A P (x) se la denomina función de distribución (acumulada) de x (véase Fig. 15). El Teorema Fundamental del Cálculo proporciona la relación entre P y p, siendo la segunda la derivada de la primera. Toda la información relativa a la variable aleatoria x está contenida en la función densidad y en la función de distribución. Puesto que la probabilidad de que una variable aleatoria tome un valor inferior a +∞ es del 100 %, se sigue p(x) debe estar adecuadamente normalizada29 . Por ello, se impone R ∞ la función 0 0 que −∞ p(x )dx = 1. La función recı́proca P −1 de la función de distribución P , i.e. la función que proporciona el valor de una variable aleatoria x para una probabilidad de no-excedencia dada, se escribe como x(P ) = P −1 (x) y se denomina función cuantil. El valor medio de x puede definirse en términos de la función densidad de probabilidad p(x) como el momento centrado de primer orden30 , dividido por el momento centrado de orden cero. Se denomina valor esperado de x y se denota E {x}: R +∞ x p(x)dx m1 E {x} = µx = = R−∞ . +∞ m0 p(x)dx (67) −∞ 29 En estadı́stica las probabilidades se dan como fracciones de la unidad y no como porcentajes. R +∞ El momento centrado n-ésimo de una función densidad h(x) es, por definición, mn = −∞ (x − µx )n h(x) dx. La función h(x) puede ser cualquier función, no necesariamente una función de densidad de probabilidad. 30 37 Figura 15: Ejemplo de función densidad y la función de distribución acumulada correspondiente. Puesto que R +∞ −∞ p(x)dx = 1 se tiene Z +∞ E {x} = x p(x)dx . (68) −∞ La esperanza o la media de la función densidad puede interpretarse grosso modo como la posición de la función en el eje real. La función densidad de probabilidad debe caracterizarse adicionalmente mediante sus momentos de orden superior. El segundo, tercer y cuarto momento se emplean para definir, respectivamente, el ancho o la varianza, la inclinación o la asimetrı́a (el sesgo) y la kurtosis o lo picuda que es la función densidad. El momento de segundo orden se define como σx2 = E (x − µx )2 = Z +∞ −∞ (x − µx )2 p(x)dx = E x2 − µ2x = m2 − m21 . (69) A σx2 se le denomina varianza y a σx desviación tı́pica de x, que representa el ancho de la función densidad de probabilidad. Definiciones alternativas de la media, la anchura, asimetrı́a y kurtosis pueden definirse en términos de las funciones cuantiles31 . Los promedios deR funciones de x también se definen como valores esperados. Por +∞ ejemplo, E {f (x)} = −∞ f (x)p(x)dx es el valor esperado de f (x). A.1.1. Función de densidad de probabilidad Gaussiana Muchos procesos en la naturaleza se comportan de tal manera que, aproximadamente, siguen una función de densidad Gaussiana, a saber, 31 Los momentos en este caso serı́an βr = R1 0 P r x(P )dP . Las medidas βr se denominan L-momentos. 38 Figura 16: Funciones de densidad con los parámetros mostrados en la figura para una población femenina (linea continua) y masculina (linea discontinua) de un determinado paı́s. p(x) = 1 √ σx 2π e − (x−µx )2 2 2σx . (70) Un ejemplo, relacionado con las alturas de la población masculina y femenina de un determinado paı́s, distribuidas según una Normal, puede verse en la Fig. 16. Una explicación teórica de la amplia aplicabilidad de esta distribución la proporciona el Teorema del Lı́mite Central, el cual, expresado en términos sencillos, establece que la suma de un número elevado de variables aleatorias independientes (no necesariamente gaussianas o si hay una o varias dominantes) y de varianza finita está distribuida según una distribución de probabilidad Gaussiana. Puesto que muchos fenómenos naturales tienen por origen muchas causas, es razonable encontrar que la densidad obtenida sea Gaussiana. La función densidad de probabilidad Gaussiana se denomina a menudo función densidad de probabilidad Normal (puesto que aparece por doquier). No es la única función densidad que responde a fenómenos naturales o, más bien, se detectan desviaciones significativas del comportamiento Normal debido a correlaciones entre las variables aleatorias. Hay otras, como la de Pareto, la de Rayleigh, etc. Nótese que se ha definido σx independientemente de la distribución considerada. La función de distribución o la función densidad gaussiana queda unı́vocamente determinada por solo la media y la varianza. A.1.2. Desviaciones respecto del comportamiento Normal El sesgo y la kurtosis están relacionadas con no-linealidades en el campo de oleaje. El sesgo en la función de densidad de η es una medida estadı́stica de la asimetrı́a vertical, caracterizada por crestas cortas y peraltadas y senos largos y planos. Éstas son tı́picas 39 de profundidades reducidas. La kurtosis define estadı́sticamente el apuntamiento de la distribución con respecto a la distribución normal. A.1.3. Estimación Es habitual que que el promedio de una variable aleatoria, u otro momento, no se estime a partir de la función densidad de probabilidad p(x) sino a partir de un conjunto finito de muestras tomadas de x, es decir, a partir de un cierto número de realizaciones o experimentos de x. Esto está relacionado con la Ley (estadı́stica) de los Grandes Números. Tal conjunto de muestras se denomina colectividad o ensemble, y el promedio se denomina promedio en la colectividad y se denota en esta sección como h·i. Por ejemplo, N 1 X xi N i=1 ! µx ≈ hxi = σx ≈ h(x − hxi)2 i = N X 1 N x2i (71) − hxi2 , i=1 donde N es el número de muestras. Nótese que esto son sólo estimaciones, las cuales siempre diferirán de los valores esperados. A estas diferencias se las denominan errores de muestreo. A.2. Dos variables aleatorias Una pareja de variables aleatorias (x, y) está totalmente caracterizada por la función de densidad de probabilidad conjunta p(x, y). En analogı́a con Eq. 64 se define p(x, y) como la probabilidad de que la variable aleatoria x se encuentre entre x y x + dx y la y entre y e y + dy (simultáneamente), esto es Z x+dx Z y+dy Prob(x < x ≤ x + dx, y < y ≤ y + dy) = x p(x0 , y 0 )dx0 dy 0 = p(x, y) dx dy .(72) y Las dos variables aleatorias pueden no estar relacionadas entre sı́. Si este es precisamente el caso, se dice que las variables son independientes y la función densidad factoriza32 , verificando p(x, y) = px (x)py (y). En otro caso, estarı́an relacionadas. Se dice entonces que una variable es dependiente de la otra. Cuando la relación entre ellas es lineal, se dice que las variables están correlacionadas33 (véase Fig. 17). El grado de correlación (lineal), i.e. el grado el que el par de variables aleatorias (x, y) se agrupa en torno a una lı́nea, se cuantifica con el coeficiente de correlación γx,y , que se define como la covarianza normalizada Cx,y de las dos variables: 32 33 Compruébese que esta propiedad se traslada a la función de distribución. Pintando una variable frente a otra la relación es una lı́nea recta. 40 Figura 17: Variables aleatorias independientes (panel izquierdo, velocidad del viento en Vigo frente a elevación de la superficie libre en Motril), descorrelacionadas pero dependientes (panel central, elevación y corriente en un mismo punto) y aprox. correlacionadas linealmente (panel derecho, temperatura del agua y oxı́geno disuelto). En realidad, entre éstas últimas, y en contra de lo que aparentemente pudiera parecer, la relación tampoco es lineal sino exponencial (ley de Henry, i.e la solubilidad de un gas en un fluido es proporcional a la presión parcial del gas). γx,y = Cx,y , σx σy (73) verificando −1 ≤ γx,y ≤ 1, donde la covarianza es el valor esperado del producto de x e y referidos a sus respectivos valores medios34 , Cx,y = E (x − µx )(y − µy ) . (74) Para las variables mostradas en la Fig. 17, la covarianza35 y el coeficiente de correlación36 (lineal) para cada caso son, respectivamente, CW ind,η = −0,0054 y γW ind,η = −0,0030 (independientes), Cu,η = 0,405 y γu,η = 0,819 (dependientes) y CO2 ,T = −2,014 y γO2 ,T = −0,918 (dependientes y correlacionadas). A.2.1. Función densidad de Gauss bidimensional La función densidad de Gauss bidimensional, o distribución Normal bivariante, para el par de variables aleatorias (x, y) es 1 q p(x, y) = e 2 2πσx σy 1 − γx,y − 1 2 1−γx,y (y−µy )2 (x−µx )(y−µy ) (x−µx )2 + −γx,y 2 2 σx σy 2σx 2σy 34 . (75) Cuando dos variables aleatorias x e y son independientes, se verifica que E x · y = E {x} · E y . Esto sugiere que una buena medida para estimación de la correlación entre dos variables es Cx,y = E x · y − E {x} · E yy , esto es, lo mostrado en la Eq. 74. 35 En Matlab, Cxy = cov(x, y). 36 En Matlab, gxy = corrcoef (x, y). 41 A.3. A.3.1. Procesos estocásticos Caracterización Las variables aleatorias no sólo pueden ser dependientes, relacionadas o correlacionadas. También pueden estar ordenadas de algún modo, i.e. las variables existen en algún tipo de secuencia. Ésta es una noción útil cuando muchas más de dos variables aleatorias están presentes es un proceso. Por ejemplo, la estatura de los alumnos de la clase (considerados como variables aleatorias) se ordenan según la configuración 2D del aula. La ordenación puede ser espacial o temporal. Normalmente, en nuestro caso, nos ceñiremos a ordenaciones temporales. Ası́, definimos proceso estocástico como un concepto matemático que sirve para caracterizar una sucesión37 de variables aleatorias (estocásticas) que evolucionan en función de otra variable, generalmente el tiempo. Cada una de las variables aleatorias del proceso tiene su propia función de distribución de probabilidad y, entre ellas, pueden estar correlacionadas o no. Otros ejemplos, aparte del oleaje, de procesos estocásticos son las ondas sı́smicas o las fluctuaciones bursátiles. Un ejemplo de proceso estocástico en 1D es el canal de oleaje de la sección A.1. La medida empieza en t = 0 cuando el viento empieza a soplar sobre el agua en reposo y el siguiente conjunto de datos de elevaciones η observadas en el punto A es una función del tiempo. Los valores son impredecibles y este conjunto es un ejemplo de una ordenación (temporal) de muchas variables aleatorias. Nótese que en una secuencia temporal x(ti ), la variable aleatoria x en tiempo t1 es una variable aleatoria distinta que x medida en tiempo t2 (véase Fig. 18). Un experimento es una realización del proceso estocástico η(t1 ), η(t2 ), η(t3 ), . . . η(ti ), . . . . Obviamente, cuando la elevación de la superficie libre en un momento dado (un ti ) es grande, una fracción de segundo después, la elevación también será grande. Esto significa que las elevaciones a tiempos cortos están relacionadas y probablemente correlacionadas. Sólo después de un intervalo suficientemente largo del tiempo la correlación (la relación) entre ambas se habrá perdido, esto es, cuando el intervalo ti −tj sea mucho mayor que el periodo caracterı́stico de la onda. Según se muestra en la Fig. 18, cada η(tk ) sigue, en principio, distribuciones diferentes (no estacionario). Es más, es fácil imaginar que las variables aleatorias η(tk ) dependen de las variables aleatorias de tiempos anteriores. Están relacionadas (incluso correlacionadas). Luego para caracterizar correctamente estos estados no solo es necesario determinar las funciones densidad p(η(tk )), ∀k, sino también las funciones de densidad conjuntas p(η(tj ), η(tk )), ∀j, k. Bajo condiciones muy contraladas, es de esperar que habiendo superado el periodo transitorio se alcance algún tipo de equilibrio (estadı́stico), i.e. estacionario. En realidad, la no estacionariedad y la no homogeneidad es dominante y raras veces se alcanza un estado estacionario y homogéneo. El experimento puede repetirse a discreción una y otra vez. En tal caso, habrá tantas realizaciones del proceso estocástico η(t1 ), η(t2 ), η(t3 ), . . . η(ti ), . . . como experimentos (Fig. 18), donde cada η(ti ) es una variable aleatoria. Como cualquier variable aleatoria, η(ti ) está caracterizada por una función de densidad de probabilidad. Esto implica 37 Aquı́ está el orden... 42 Figura 18: Un conjunto de N realizaciones de la elevación de la superficie libre en función del tiempo en la ubicación A de la Fig. 14. Los experimentos son estadı́sticamente idénticos (sistema igualmente preparado, con el mismo viento, etc.). Las funciones densidad de probabilidad se han determinado promediando en la colectividad (no es un promedio temporal). Adaptado de (Holthuijsen , 2007). 43 que, para caracterizar estadı́sticamente la superficie libre en ese instante de tiempo ti , esta función densidad de probabilidad es requerida en cada instante de tiempo ti . Para caracterizar las elevaciones como un proceso estocástico, se necesitan adicionalmente a tiempo ti todas las funciones de densidad de probabilidad conjunta p(η(ti ), η(tj )), ∀tj . Nótese que hay una infinidad de instantes ti , y que cada uno requiere de tales funciones, puesto que hay infinitos momentos tj . A.3.2. Procesos estacionarios Si después de un tiempo, la elevación en el punto A es “constante” en un sentido estadı́stico (Fig. 18), todas las caracterı́sticas de las ondas son independientes del tiempo y el proceso se dice estacionario 38 . La estacionariedad de un proceso simplifica la descripción puesto que solo son necesarias las caracterı́sticas estadı́sticas en un sólo instante de tiempo39 . Concretamente, las condiciones estacionarias establecen que ∂p(η(t))/∂t = 0, luego p(η) es independiente del tiempo, es decir, es invariante frente a una traslación temporal. La condición análoga para variables que están ordenadas en el espacio se denomina homogeneidad. Si solo las medias y las varianzas son constantes en el espacio y en el tiempo, el proceso se llama débilmente estacionario o débilmente homogéneo, es otro caso se dirá simplemente estacionario o estacionario en sentido estricto. A.3.3. Procesos Gaussianos Si todas las funciones de densidad de probabilidad (conjunta o no) de un proceso estocástico (estacionario o no) son Gaussianas, el proceso se dice que es un proceso estocástico Gaussiano. Un proceso Gaussiano es relativamente fácil de describir, puesto que solo se requieren los promedios de cada pareja de variables aleatorias y su covarianza. Escribiendo el par de variables aleatorias de la Eq. 74 como x = x(t1 ) = x(t) y y(t2 ) = x(t2 ) = x(t + τ ), se puede escribir la covarianza como Cx,x = E {(x(t) − µx (t)) · (x(t + τ ) − µx (t + τ ))} = C(t, τ ). La covarianza puede verse entonces como una función del tiempo y del intervalo temporal τ . A C(t, τ ) se la denomina función covarianza. Puesto que las dos variables pertenecen al mismo proceso, a la función C(t, τ ) también se la denomina función auto-covarianza. A.3.4. Procesos Gaussianos y estacionarios Un proceso Gaussiano y estacionario es incluso más simple de describir: sólo se requieren la media y las covarianzas para un instante de tiempo dado (puesto que son idénticos para todos los tiempos). La auto-covarianza es entonces (sólo) una función del intervalo de tiempo τ y, si el promedio de la variable se considera nulo (como es habitual en ondas de superficie), puede escribirse C(t, τ ) = E{x(t)x(t + τ )}. Nótese que la auto-covarianza para τ = 0 es la varianza del proceso E x2 (t) . 38 39 Pero las caracterı́sticas estadı́sticas pueden aún depender de los intervalos de tiempo ti − tj . Incluyendo las relaciones con las variables aleatorias en cualquier intervalo de tiempo. 44 A.3.5. Procesos Ergódicos Si el promedio temporal (o espacial) da el mismo resultado que promediar sobre una colectividad de realizaciones, se dice que el proceso es ergódico. La media y la varianza (si µx = 0) de un proceso ergódico puede estimarse como Z b 1 µx ≈ hx(ti )i = x(t)dt b−a a Z b 1 σx2 ≈ h(x(ti ))2 i = (x(t))2 dt , b−a a (76) (77) y la auto-covarianza (si µx = 0) como 1 C(τ ) ≈ hx(t)x(t + τ )i = b−a Z b x(t)x(t + τ )dt , (78) a donde h·i denota el promedio en la colectividad y b − a es la longitud del intervalo de tiempo (duración) sobre la que se realiza el promedio temporal. El sı́mbolo aproximadamente igual ≈ en las igualdades anteriores refleja el hecho que, habitualmente, el promedio en la colectividad se realiza con un número de ensayos N finito y que el promedio temporal se lleva igualmente a cabo en un intervalo finito. En general se tiene hf (x(ti ))i = 1 b−a Z b f (x(t))dt . (79) a Y esto para cualquier ti . Se sigue de la definición, que todo proceso ergódico es un proceso estacionario. El inverso no es cierto. No todos los procesos estacionarios son ergódicos. Por ejemplo, el encendido de un interruptor que produce una corriente continua (impredecible), cuyo valor podrı́a estar distribuida según una Normal, i.e. el valor de la corriente es extraı́do de una distribución de probabilidad normal, produce un proceso estocástico estacionario (valores impredecibles y con caracterı́sticas estadı́sticas constantes en el tiempo). Sin embargo, no es un proceso ergódico puesto que el promedio temporal en cada realización es diferente del promedio temporal en otra realización. La superficie libre del oleaje (aleatorio), en condiciones estacionarias, generado por viento es un proceso estocástico ergódico (en la aproximación lineal), ası́ que todos los promedios que se necesiten para describir las ondas pueden estimarse a partir de promedios temporales. Esto es afortunado, puesto que no es fácil generar en el mar idénticas condiciones y sistemas idénticamente preparados para realizar los promedios en la colectividad. Básicamente, ergódico significa que la evolución temporal de η explora todas las posibles configuraciones, esto es, todos los posibles valores que pueden obtenerse en las distintas realizaciones. En cualquier caso, dadas las limitaciones de trabajar en el océano, se asumirá sin más las hipótesis ergódica que, en la mayorı́a de los casos, es imposible comprobar. 45 A.3.6. La elevación de la superficie libre La evolución temporal de la elevación de la superficie libre generada por viento se trata a menudo como un proceso estocástico Gaussiano. Datos de campo han corroborado que es una aproximación muy razonable, pero también este hecho está apoyado en resultados teóricos: la superficie libre en cualquier instante de tiempo ti puede verse como la suma de un enorme conjunto de armónicos generados independientemente unos de otros40 y que han viajado sin interaccionar hasta el emplazamiento (en la aproximación lineal (Holthuijsen , 2007)). El teorema del lı́mite central asegura que, en tal caso, la distribución resultante debe ser Gaussiana. Ondas con un marcado peralte, u ondas que verifican η/h ∼ 1 interaccionan entre sı́ y, por tanto, no son independientes. Desviaciones respecto del modelo Gaussiano ocurren por tanto en el mar, en particular, en la zona de surf (véase Fig. ?? como ejemplo). Por otra parte, para garantizar ergodicidad y estacionariedad se realiza el análisis estadı́stico (a corto plazo) sobre muestras de datos en un intervalo temporal reducido, no superior a 30min ó 1hora, según el caso. Si consideramos que una determinada propiedad del oleaje, por ejemplo, el desplazamiento de la superficie libre con respecto al nivel medio, es un proceso ergódico, las propiedades estadı́sticas del proceso pueden ser obtenidas mediante un registro los suficientemente extenso (pero no muy extenso t < 30 min) de la citada propiedad en un sólo punto del océano. Si además, el proceso en cuestión es gaussiano, la estadı́stica del mismo podrá ser definida mediante los dos primeros momentos estadı́sticos de la serie temporal: media y varianza. El oleaje que se registra en un punto dado del mar, es el resultado de diferentes procesos de generación, propagación y disipación. Estos procesos, asociados a la dinámica atmosférica y oceánica, no son nunca estacionarios ni homogéneos (no ergódicos), por lo que, en sentido estricto, el oleaje tampoco lo es. Sin embargo, si nos limitamos a áreas reducidas y a periodos de tiempo pequeños, la inercia de los procesos presentan escalas espaciales y temporales mayores, por lo que el proceso puede ser considerado ergódico (a esas escalas reducidas). Entonces, si se dispone de un registro continuo de oleaje para realizar un análisis estadı́stico bien definido es necesario dividir el registro en secciones temporales de, como decı́amos, de 30 min ó 1 hora de tal modo que en esos subintervalos se considere el oleaje ergódico (⇒ estacionario). Las propiedades estadı́sticas del oleaje en esos subintervalos no cambian, dirı́amos que son “constantes” en un sentido estadı́stico. Esas propiedades estadı́sticas definen el estado de mar y lo caracterizan temporal y espacialmente. De esta manera, en cada estado de mar se sustituye el registro temporal continuo de oleaje por una información estadı́stica más reducida. Dentro de cada estado de mar, las propiedades estadı́sticas del oleaje vienen definidas por los momentos estadı́sticos obtenidos del proceso ergódico (y estacionario) en lo que se denomina Análisis del Oleaje a Corto Plazo. La variación en el tiempo de estos parámetros estadı́sticos de los estados de mar constituye lo que se denomina curva de estados de mar. Es tı́pico caracterizar un estado de mar mediante la altura significante Hs y el periodo medio T . La estadı́stica que se realiza con la curva de estados de mar (formada por una 40 Por ejemplo, por viento turbulento en distintas localizaciones. 46 muestra de estadı́sticos de estados de mar) se denomina Análisis del Oleaje a Largo Plazo o Regı́menes de oleaje. Es este último estudio estadı́stico en el que uno suele estar interesado a la hora del diseño de estructuras. Para diseñar una obra es necesario conocer “el clima” marı́timo en el emplazamiento durante la vida útil de la misma. 47