Transparencias - Departamento de Matemáticas de la UAM

Anuncio
Tema 4
Funciones convexas y optimización convexa
José R. Berrendero
Departamento de Matemáticas
Universidad Autónoma de Madrid
Contenidos del tema 4
I
Repaso de algunos resultados sobre optimización de funciones.
I
Funciones convexas. Caracterizaciones.
I
Operaciones que preservan la convexidad.
I
Resultados generales sobre optimización convexa.
Notación
Para una función f : Rn → R, denotamos
I Derivada direccional: sea d ∈ Rn con d 6= 0,
f 0 (x, d) = lim
λ→0
f (x + λd) − f (x)
.
λ
I Derivadas parciales: fi 0 (x) = f 0 (x, ei ) con ei = (0, . . . , 1, . . . , 0)> .
I Gradiente: ∇f (x) = (f10 (x), . . . , fn0 (x))> .
I Matriz Hessiana:


Hf (x) = 
00 (x)
f11
..
.
00 (x)
fn1
···
..
.
···
00 (x) 
f1n

..

.
00
fnn (x)
Propiedades básicas
I f tiene derivadas parciales continuas ⇒ f es diferenciable ⇒ f tiene derivadas
parciales.
I f diferenciable ⇒ f 0 (x, d) = ∇f (x)> d.
I f es diferenciable en x̄ si y solo si
f (x) = f (x̄) + ∇f (x̄)> (x − x̄) + kx − x̄kR(x̄; x − x̄),
donde limx→x̄ R(x̄; x − x̄) = 0.
I f es diferenciable dos veces en x̄ si y solo si
f (x) = f (x̄) + ∇f (x̄)> (x − x̄) +
1
(x − x̄)> Hf (x̄)(x − x̄) + kx − x̄k2 R(x̄; x − x̄),
2
donde limx→x̄ R(x̄; x − x̄) = 0.
I Si f es diferenciable en x̄ y ∇f (x̄)> d < 0 (resp. > 0), entonces existe δ > 0 tal
que f (x̄) > f (x̄ + λd) (resp. <) si 0 < λ < δ.
Condiciones para óptimos locales
Condición necesaria de primer orden: Sea f diferenciable en x̄.
Si x̄ es un mı́nimo o máximo local de f entonces ∇f (x̄) = 0.
Condiciones necesarias de segundo orden: Sea f dos veces
diferenciable en x̄. Si x̄ es un mı́nimo local de f entonces
1. ∇f (x̄) = 0
2. Hf (x̄) es semidefinida positiva
Condiciones suficientes de segundo orden: Sea f dos veces
diferenciable en x̄. Si
1. ∇f (x̄) = 0
2. Hf (x̄) es definida positiva
entonces x̄ es un mı́nimo local (estricto) de f .
Funciones convexas
Una función f : D → R es convexa si su dominio D ⊂ Rn es
convexo, y para todo x, y ∈ D, para todo λ ∈ [0, 1], se verifica
f (λx + (1 − λ)y ) ≤ λf (x) + (1 − λ)f (y ).
I
La convexidad estricta requiere < en lugar de ≤.
I
Una función f es (estrictamente) cóncava si −f es
(estrictamente) convexa.
I
f es convexa si y solo si para todo x y u, g (t) = f (x + tu) es
convexa (en su dominio, es decir, {t : x + tu ∈ D}).
Algunos ejemplos
I
f (x) = x 2 es convexa.
I
f (x) = max{x1 , . . . , xn } donde x = (x1 , . . . , xn )> es convexa.
I
Las funciones afines f (x) = Ax + b son cóncavas y convexas.
I
Cualquier norma f (x) = kxk es una función convexa.
I
Si S es convexo, la distancia a S,
f (x) = d(x, S) = inf kx − sk
s∈S
es una función convexa.
Desigualdad de Jensen
Teorema: Si f : D → R es convexa, entonces para todo x1 , . . . , xk
de su dominio y λ1 , . . . , λn ≥ 0 con λ1 + · · · + λk = 1 se cumple
f (λ1 x1 + · · · + λk xk ) ≤ λ1 f (x1 ) + . . . + λk f (xk ).
Demostración: Por inducción sobre k, observando que si x = λ1 x1 + · · · + λk+1 xk+1 ,
P
entonces x = λy + (1 − λ)xk+1 , donde y = ki=1 (λ1 /λ)xi , con λ = 1 − λk+1 .
Si X es una v.a. que toma los valores xi con probabilidad λi ,
entonces f [E(X )] ≤ E[f (X )].
Epigrafo
El epigrafo de una función f : D → R se define como:
epi(f ) = {(x, t) : x ∈ D, f (x) ≤ t} ⊂ Rn+1 .
Teorema: Una función es convexa si y solo si su epigrafo es un
conjunto convexo.
Teorema: Sea {fi : i ∈ I } una familia de funciones convexas
definidas sobre un conjunto convexo no vacı́o S tal que para todo
x ∈ S, el conjunto {fi (x) : i ∈ I } está acotado superiormente.
Entonces la función f (x) = sup{fi (x) : i ∈ I }, x ∈ S, es convexa.
Demostración: epi(f ) =
T
i∈I
epi(fi ).
Funciones convexas diferenciables
Teorema: Sea f : D → R diferenciable sobre un dominio convexo
y abierto D. Entonces, f es convexa si y solo si
f (x) ≥ f (x̄) + ∇f (x̄)> (x − x̄),
para todo x, x̄ ∈ D.
Demostración:
(⇒) Si x, x̄ ∈ D y f es convexa en D,
f (λx + (1 − λ)x̄) ≤ λf (x) + (1 − λ)f (x̄) ⇔ [f x̄ + λ(x − x̄) − f (x̄)]/λ ≤ f (x) − f (x̄).
Se toman lı́mites cuando λ → 0.
(⇐) Si x 6= y y λ ∈ [0, 1], se aplica la condición a x e y con x̄ = λx + (1 − λ)y :
f (x) ≥ f (x̄) + ∇f (x̄)(x − x̄) y f (y ) ≥ f (x̄) + ∇f (x̄)(y − x̄). Se multiplica la primera
desigualdad por λ, la segunda por 1 − λ y se suman.
Funciones convexas diferenciables dos veces
Teorema: Sea f : D → R con dos derivadas continuas sobre un
dominio convexo y abierto D. Entonces, f es convexa si y solo si
Hf (x) es semidefinida positiva para todo x ∈ D.
Demostración: Para n = 1 se demuestra en los ejercicios. Para n > 1 se considera
g (λ) = f (x + λd) y se tiene en cuenta que g 00 (λ) = d > Hf (x + λd)d.
I
Una función dos veces diferenciable es cóncava si D es
convexo y Hf (x) es semidefinida negativa para todo x ∈ D.
I
Si Hf (x) es definida positiva para todo x ∈ D, la función es
estrictamente convexa, pero el recı́proco no es cierto (por
ejemplo, f (x) = x 4 ).
Operaciones que preservan la convexidad
I
El supremo de funciones convexas es una función convexa.
I
Sumas ponderadas no negativas: Si fi convexa y wi ≥ 0,
para i = 1, . . . , n, entonces f = w1 f1 + . . . + wn fn es convexa.
I
Composición con una aplicación afı́n: g (x) = f (Ax + b) es
convexa si f es convexa.
I
Composición: Sea D ⊂ Rn y f : D → R convexa. Sea
I ⊂ f (D) un intervalo tal que g : I → R es creciente y
convexa. Entonces la composición g ◦ f es convexa.
I
Minimización parcial: Si f es convexa en (x, y ) y C es un
conjunto convexo no vacı́o, la función g (x) = inf y ∈C f (x, y )
es convexa en x.
Más ejemplos de funciones convexas
I
f (x) = − log x es convexa.
I
f (x) = e ax es convexa en R para todo a ∈ R.
I
f (x) = x a (x > 0) es convexa si a ≤ 0 o a ≥ 1, y cóncava si
0 ≤ a ≤ 1.
I
f (x) = x > Ax + a> x + c, donde A es simétrica, es convexa si
y solo si A es semidefinida positiva.
I
Sea X una matriz n × p y sean β ∈ Rp e y ∈ Rn , entonces
f (β) = ky − X βk es convexa, donde k · k es cualquier norma.
Problema general de optimización convexa
La optimización convexa trata el problema general de minimizar
una función convexa, sobre un conjunto factible también convexo:
minimizar f (x) s.a. x ∈ S,
donde f : D → R es convexa y S ⊂ D ⊂ Rn es convexo.
Casos particulares:
I
Optimización lineal.
I
Optimización cuadrática.
I
Mı́nimos cuadrados.
(1)
Teorema local-global
En un problema convexo no hay distinción entre mı́nimos globales
y locales.
Teorema: Todo mı́nimo local de (1) es también un mı́nimo global
de (1).
Demostración:
I Sea x̄ un mı́nimo local. Existe R > 0 tal que f (x̄) ≤ f (x), para todo
x ∈ S ∩ B(x̄, R).
I Spg. que existe y ∈ S tal que f (y ) < f (x̄).
I Consideramos z = (1 − θ)x̄ + θy , para θ > 0 suficientemente pequeño.
I z ∈ S ∩ B(x̄, R) pero f (z) < f (x̄).
Mı́nimos globales bajo convexidad y diferenciabilidad
Teorema: Consideremos el problema (1) en el que se supone
además que f es diferenciable. Un punto x̄ ∈ S es mı́nimo global
de (1) si y solo si
∇f (x̄)> (x − x̄) ≥ 0, para todo x ∈ S.
Demostración:
(⇐) Por la convexidad de f , para todo x ∈ S,
f (x) ≥ f (x̄) + ∇f (x̄)> (x − x̄) ≥ f (x̄).
(⇒)
1. Spg. existe x ∈ S con ∇f (x̄)> (x − x̄) < 0. Entonces, x − x̄ es una dirección de
descenso local.
2. Existe 0 < λ < 1 tal que f (x̄) > f x̄ + λ(x − x̄) = f (λx + (1 − λ)x̄).
3. λx + (1 − λ)x̄ ∈ S porque S es convexo.
4. Por lo tanto, x̄ no es un mı́nimo global.
Observaciones
1. Si S es abierto (por ejemplo, S = Rn ) entonces la condición
del teorema anterior se reduce a ∇f (x̄) = 0.
(Considera x = x̄ − λ∇f (x̄), para λ > 0 suf. pequeño.)
2. Sin embargo, si S no es abierto la condición sirve para
detectar óptimos en la frontera. (min x 2 s.a. 1 ≤ x ≤ 2.)
3. Si ∇f (x̄) 6= 0, entonces −∇f (x̄) define un hiperplano soporte
a S en x̄.
4. Aplicación a un problema de optimización lineal.
5. Aplicación a un problema convexo con restricciones de
igualdad:
min f (x) s.a. Ax = b,
donde f es convexa y diferenciable.
Ejemplo
Resuelve gráficamente el problema:
minimizar
s.a.
(x1 − 4)2 + (x2 − 6)2
x2 ≥ x12
x2 ≤ 4
Demuestra analı́ticamente que la solución obtenida gráficamente es
el mı́nimo global del problema.
Una versión más explı́cita del problema convexo
En la práctica consideramos problemas convexos para los que el
conjunto factible se conoce más explı́citamente:
minimizar
s.a.
f (x)
fi (x) ≤ 0,
ai> x = bi ,
i = 1, . . . , m
i = 1, . . . , p,
donde las funciones f , f1 , . . . , fn son convexas.
Equivalentemente,
minimizar
s.a.
f (x)
fi (x) ≤ 0,
Ax = b,
i = 1, . . . , m
donde las filas de A son los vectores ai> .
Denotamos por D la intersección de los dominios de todas las
funciones del problema.
Descargar