Teorı́a clásica de la optimización En la teona clásica de la optimización se usa el cálculo diferencial para determinar puntos extremos, o de máximo o mı́nimo, para funciones sin restricciones y restringidas. Puede ser que los métodos no sean adecuados para cálculos numéricos eficientes, pero la teorı́a básica proporciona el fundamento de la mayor parte de los algoritmos de programación no lineal. Ahora estableceremos las condiciones necesarias y suficientes para determinar puntos extremos no restringidos, los métodos (del) jacobiano y (del) lagrangiano para problemas con restricciones de igualdad, y las condiciones de Karush-Kuhn-Tucker para problemas con restricciones de desigualdad. Problemas sin Restricción Un punto extremo de una función f (X) (campo escalar) define un máximo o un mı́nimo de ella. Matemáticamente, un punto X0 = (x01 , . . . , x0j , . . . , x0n ) es máximo si f (X0 + h) ≤ f (X0 ) para toda h = (h01 , . . . , h0j , . . . , h0n ) y |hj | es suficientemente pequeña para toda j. En otras palabras, X0 es un valor máximo si el valor de f en cada punto de la proximidad de X0 no es mayor que f (X0 ). En forma parecida, X0 es un mı́nimo si f (X0 + h) ≥ f (X0 ) La figura 1 ilustra los máximos y mı́nimos de una función f (x) de una sola variable dentro del intervalo [ a, b ]. Los puntos x1 , x2 , x3 , x4 y x6 son extremos de f (x), x1 , x3 y x6 son máximos, x2 y x4 son mı́nimos. Ya que f (x6 ) = máx{f (x1 ), f (x3 ), f (x6 )} f (x6 ) es un máximo global o absoluto, f (x1 ) y f (x3 ) son máximos locales o relativos. De igual modo, f (x4 ) es un mı́nimo local y f (x2 ) es un mı́nimo global. Aunque x1 (en la figura 1) es un punto máximo, se diferencia de los otros máximos locales porque el valor de f correspondiente a al menos un punto en la proximidad de x1 es igual f (x1 ). A este respecto, es un máximo débil, mientras que x3 y x4 son máximos fuertes. En general, X0 es un máximo débil si f (X0 +h) ≤ f (X0 ), y es un máximo fuerte si f (X0 +h) < f (X0 ), donde h es como se definió arriba. En la figura 1, la primera derivada o pendiente de f es igual a cero en todos los puntos extremos. Esta propiedad también se satisface en puntos de inflexión y de silla, como x5 . Si un punto con pendiente (gradiente) cero no es un extremo (máximo o mı́nimo), debe ser un punto de inflexión o un punto de silla. 1 Figure 1: Ejemplos de puntos extremos para una función de una variable Condiciones necesarias y suficientes En esta sección se presentan las condiciones necesarias y suficientes para que una función f (X) de n variables tenga puntos extremos. Se supone que las derivadas primera y segunda de f (X) son continuas en toda x. Teorema 1: Una condición necesaria para que X0 sea un punto extremo de f (X) es que ∇f (X0 ) = 0 Demostración: De acuerdo con el teorema de Taylor, para 0 < θ < 1, 1 f (X0 + h) − f (X0 ) = ∇f (X0 )h + hT Hh|X0 +θh 2 en donde h es lo que se definió antes. Para |hj | suficientemente pequeña, el término restante 21 hT Hh es del orden de h2j , y entonces f (X0 + h) − f (X0 ) = ∇f (X0 )h + O(h2j ) ≈ ∇f (X0 )h Se puede demostrar, por contradicción, que ∇f (X0 ) debe anularse en un punto mı́nimo X0 . Si no lo hiciera, para una j especı́fica, la condición siguiente será válida: ∂f (X0 ) ∂f (X0 ) <0 o >0 ∂xj ∂xj Si se selecciona hj con el signo adecuado, siempre es posible tener hj ∂f (X0 ) <0 ∂xj 2 Igualando a cero las demás hj , con el desarrollo de Taylor se obtiene f (X0 + h) < f (X0 ) Este resultado contradice la hipótesis que X0 es un punto mı́nimo. En consecuencia ∇f (X0 ) debe ser igual a cero. Se puede hacer una demostración similar para el caso de la maximización. Como la condición necesaria también queda satisfecha con los puntos de inflexión y de silla, los puntos obtenidos con la solución de ∇f (X0 ) = 0 se llaman puntos estacionarios. El teorema que sigue establece las condiciones para que X0 sea un punto extremo. Teorema 2: Una condición suficiente para que un punto estacionario X0 sea un punto extremo es que la matriz hessiana H evaluada en X0 satisfaga las siguientes condiciones: 1. Que H sea positiva definida si X0 es un punto mı́nimo. 2. Que H sea negativa definida si X0 es un punto máximo. Demostración. De acuerdo con el teorema de Taylor, para 0 < θ < 1, 1 f (X0 + h) − f (X0 ) = ∇f (X0 )h + hT Hh|X0 +θh 2 Ya que X0 es un punto estacionario, entonces ∇f (X0 ) = 0 (Teorema 1). Ası́, f (X0 + h) − f (X0 ) = 1 T h Hh|X0 +θh 2 Si X0 es un punto mı́nimo, entonces f (X0 + h) > f (X0 ), h 6= 0 Entonces, para que X0 sea un punto mı́nimo, se debe cumplir 1 T h Hh|X0 +θh > 0 2 Ya que la segunda derivada parcial es continua, la expresión 12 hT Hh debe tener el mismo signo tanto en X0 como en X0 + θh. Como 12 hT Hh|X0 define a una forma cuadrática, esta expresión (y en consecuencia 12 hT Hh|X0 +θh ) es positiva si, y sólo si H|X0 es positiva definida. Eso quiere decir que una condición suficiente para que el punto estacionario X0 sea un mı́nimo es que la matriz hessiana H, evaluada en el mismo punto, sea positiva definida. Una demostración 3 similar para el caso de la maximización indica que la matriz hessiana correspondiente debe ser negativa definida. Ejemplo 20.1-1 Se tiene la función f (x1 , x2 , x3 ) = x1 + 2x3 + x2 x3 − x21 − x22 − x23 La condición necesaria ∇f (X0 ) = 0 da como resultado ∂f ∂x1 ∂f ∂x2 ∂f ∂x3 = 1 − 2x1 = 0 = x3 − 2x2 = 0 = 2 + x2 − 2x3 = 0 La solución de estas ecuaciones simultáneas es X0 = (1/2, 2/3, 4/3) Para establecer la suficiencia se examina ∂2f ∂2f ∂2f H|X0 = ∂x21 ∂2f ∂x2 ∂x1 ∂2f ∂x3 ∂x1 ∂x1 ∂x2 ∂2f ∂x22 ∂2f ∂x3 ∂x2 ∂x1 ∂x3 ∂2f ∂x2 ∂x3 ∂2f ∂x23 −2 0 0 1 = 0 −2 0 1 −2 X0 Los determinantes menores principales de H|X0 tienen los valores −2, 4 y −6, respectivamente. Ası́, H|X0 es negativa definida y X0 = (1/2, 2/3, 4/3) representa un punto máximo. En general, si H|X0 es indefinida, X0 debe ser un punto de silla. Para casos inciertos, X0 puede ser o no un punto extremo, y la condición de suficiencia se vuelve muy complicada, porque se deben considerar términos de orden superior en el desarrollo de Taylor. La condición de suficiencia establecida por el teorema 2 se aplica a funciones de una variable como se verá a continuación. Si y0 es un punto estacionario, entonces 1. y0 es un máximo si f 0 (y0 ) < 0. 2. y0 es un mı́nimo si f 0 (y0 ) > 0. 4 Figure 2: Puntos extremos de f (y) = y 4 y g(y) = y 4 . Si en caso de una variable f 00 (y0 ) = 0, se deben investigar derivadas de orden superior, como indica el siguiente teorema. Teorema 3: Dado y0 , un punto estacionario de f (y), si las primeras (n − 1) derivadas son cero y si f (n) (y0 ) 6= 0, entonces 1. y0 es un punto de inflexión si n es impar. 2. y0 es un punto mı́nimo si n es par y f (n) (y0 ) > 0. 3. y0 es un punto máximo si n es par y f (n) (y0 ) < 0. Ejemplo 20.1-2 En la figura 2 se ven las gráficas de las dos funciones siguientes: f (y) = y 4 , g(y) = y 3 con la que se obtiene el punto estacionario y0 = 0. Ahora bien, f 0 (0) = f 00 (0) = f (3) (0) = 0, y f (4) = 24 > 0 Por consiguiente, y0 = 0 es un punto mı́nimo (véase la figura 2). Esto indica que y0 = 0 es un punto estacionario. También g 0 (0) = g 00 (0) = 0, g (3) = 6 6= 0 En consecuancia, y0 es un punto de inflexión. El método de Newton-Raphson En general, las ecuaciones de condición necesaria, ∇f (X) = 0, pueden ser difı́ciles de resolver numéricamente. El método de Newton-Raphson es un procedimiento iterativo para resolver ecuaciones simultáneas no lineales. Aunque 5 aquı́ se presenta el método en este contexto, en realidad es parte de los métodos de gradiente para optimizar numéricamente funciones no restringidas. Se tienen las ecuaciones simultáneas fi (X) = 0, i = 1, 2, . . . , m. Sea Xk un punto dado. Entonces, con el desarrollo de Taylor, fi (X) ≈ fi (Xk ) + ∇fi (Xk )(X − Xk ), i = 1, 2, . . . , m. Ası́, las ecuaciones originales, fi (X) = 0, i = 1, 2, . . . , m se pueden aproximar de esta forma: fi (Xk ) + ∇fi (Xk )(X − Xk ) = 0, i = 1, 2, . . . , m. Estas ecuaciones se pueden escribir con notación matricial del siguiente modo: Ak + Bk (X − Xk ) = 0 Si Bk es no singular, entonces X = Xk − B−1 k Ak La idea del método es comenzar en un punto inicial X0 . Al aplicar la ecuación anterior se determina un punto nuevo Xk+1 a partir de Xk . El procedimiento termina en Xm como punto de solución, cuando Xm ≈ Xm−1 . Se ilustra en la figura 3 una interpretación geométrica del método, con una función de una sola variable. La relación entre xk y xk+1 para una función f (x) de una variable se reduce a xk+1 = xk − o bien f 0 (xk ) = f (xk ) f 0 (xk ) f (xk ) − xk+1 xk En la figura se ve que xk+1 se determina con la pendiente f (x) en xk , siendo tan t = f 0 (xk ). Una dificultad del método es que no siempre se garantiza la convergencia, a menos que la función f tenga buen comportamiento. En la figura 3, si el punto inicial es a, el método diverge. No hay manera fácil de ubicar un “buen” punto inicial. 6 Figure 3: Ilustración del proceso iterativo del método de Newton-Raphson. 7