1 Control Óptimo 1.1 Introducción El control óptimo es una rama del control moderno que se relaciona con el diseño de controladores para sistemas dinámicos tal que se minimice una función de medición que se denomina ı́ndice de desempeño o costo del sistema. En términos mas formales, su objetivo principal de la teorı́a de control óptimo es determinar las señales de control que causan a un proceso el satisfacer las restricciones fı́sicas que se tengan y asimismo minimizar o maximizar segun sea el caso cierto criterio de desempeño deseado. La solución de algunos problemas de control no es posible obtenerla usando métodos de control clásicos. Esto puede ser ya sea debido a su complejidad, o que se requieran satisfacer ciertos parámetros relacionados con su desempeño. Un ejemplo tı́pico de esto es el diseño de un sistema de control de altitud para una nave espacial que minimice el gasto de combustible. El problema de control óptimo se puede representar matematicamente en las siguientes partes: 1. La descripción del proceso a controlar (modelo del sistema). 2. La descripción de las restricciones fı́sicas. 3. La descripción del objetivo buscado. 4. La descripción de algun criterio para describir el desempeño óptimo (ı́ndice de desempeño). Ejemplos básicos de control óptimo. Enunciado de control óptimo. 1.1.1 Problema tı́pico de control óptimo Como se ha mencionado, hay tres partes principales que se deben considerar en un problema de control óptimo. El modelo matemático del sistema dinámico, las restricciones a las que está sujeto el sistema, y el ı́ndice de desempeño que se desea evaluar. A continuación se estudia un problema particular analizando estas tres partes principales. Modelo Matemático Descripción matemática sencilla o simplificada de un sistema fı́sico, que en forma adecuada describe la respuesta del sistema real a una o varias entradas. La siguiente es una representación de un modelo de un sistema dinámico como ecuaciones diferenciales en términos de variables de estado: ẋ(t) = f (x(t), u(t), t); x ∈ Rn , u ∈ Rm (1.1) ẋ1 (t) = f1 (x1 (t), x2 (t), · · · , xn (t), u1 (t), u2 (t), · · · , um (t), t) ẋ2 (t) = f1 (x1 (t), x2 (t), · · · , xn (t), u1 (t), u2 (t), · · · , um (t), t) .. . ẋn (t) = f1 (x1 (t), x2 (t), · · · , xn (t), u1 (t), u2 (t), · · · , um (t), t) (1.2) (1.3) (1.4) (1.5) donde el vector de estados del sistema se define como: u1 (t) x1 (t) u2 (t) x2 (t) x(t) = .. , u(t) = .. . . um (t) xn (t) (1.6) A continuación se presenta un ejemplo tı́pico de control óptimo, el cual ilustra lo que representa una restricción y de forma similar el ı́ndice de desempeño. Ejemplo 1.1.1. Un automovil está inicialmente en reposo. Después del tiempo inicial, este se pone en movimiento en linea recta hasta detenerse a una distancia e. Para identificar y definir los elementos del sistema de control óptimo, el problema se puede plantear de la siguiente manera: Definir las variables del problema. Se sabe que y(t) es la distancia o desplazamiento recorrido del auto desde 0 en el tiempo t. De los conocimientos básicos de fı́sica, es posible conocer que la derivada de la variable anterior ẏ(t) = dy(t)/dt es la velocidad del auto en el tiempo actual t. Ası́mismo, la aceleracin del auto se representa por la derivada de la velocidad, lo cual también es la segunda derivada del desplazamiento dẏ(t)/dt = ÿ(t) = d2 y(t)/dt2 . Simplificando el modelo podemos representar el automovil como una masa que puede acelerar o deacelerar utilizando el freno, lo cual se puede expresar por la siguiente ecuación diferencial: ¨ = α(t) + β(t) d(t) (1.7) donde α es la aceleración y β a la desaceleración debido al frenado. Seleccionando variables de estado como posición y velocidad tenemos: x1 (t) = d(t) ˙ x2 (t) = d(t) (1.8) (1.9) u1 (t) = α(t) u2 (t) = β(t) (1.10) (1.11) y el control está dado como de donde u1 y u2 representa la aceleración y desaceleración, respectivamente. Las ecuaciones de estado ẋ1 (t) = x2 (t) ẋ2 (t) = u1 (t) + u2 (t) expresadas en forma matricial se representan como ¸ ¸ · · 0 0 0 1 u(t); x(t) ∈ R2 , u(t) ∈ R2 x(t) + ẋ(t) = 1 1 0 0 sabiendo de antemano que el intervalo de tiempo es t ∈ [t0 , tf ] 2 (1.12) (1.13) (1.14) Definición 1.1.1. La historia de valores de control de entrada durante el intervalo [t0 , tf ] se expresa como u y es llamado la historia de control. Definición 1.1.2. La historia de valores de estado en el intervalo [t0 , tf ] es llamado una trayectoria de estado y se expresa como x. Restricciones fı́sicas De acuerdo al enunciado de nuestro ejemplo, sabemos que inicialmente el auto se encuentra en 0 y su posición final será el punto e, por lo tanto x1 (t0 ) = 0 x1 (tf ) = e (1.15) (1.16) Además, como inicialmente se encuentra en reposo y asimismo se detiene en su estado final, tenemos que x2 (t0 ) = 0 x2 (tf ) = 0 De forma matricial, estas condiciones de frontera se expresan como · ¸ · ¸ e 0 , x(tf ) = x(t0 ) = 0 0 (1.17) (1.18) (1.19) Asumiendo que el automovil no puede ir en reversa, tenemos además la restricci on adicional: 0 ≤ x1 (t) ≤ e 0 ≤ x2 (t) (1.20) (1.21) en otras palabras, esto significa que no puede haber velocidades negativas. Restricciones de aceleración impuesta en las entradas de control aceleración depende de la capacidad del motor del automovil. aceleración depende de los parámetros del sistema de frenado Si consideramos que la aceleración máxima y la desaceleración máxima son M1 y M2 respectivamente, los controles deben satisfacer las siguientes condiciones: 0 ≤ u1 (t) ≤ M1 −M2 ≤ u2 (t) ≤ 0 (1.22) (1.23) Asimismo, se debe considerar que el automovil comienza con una cantidad G de combustible y no hay forma de abastecerlo de más combustible en el trayecto. El gasto de combustible de acuerdo a las es Ztf [k1 u1 (t) + k2 x2 (t)]dt ≤ G (1.24) t0 lo cual asume que la razon de gasto de combustible es proporcional a la aceleración y velocidad y sus constantes de proporcionalidad k1 y k2 . 3 Definición 1.1.3. Una historia de control que satisface las restricciones de control en el intervalo de tiempo [t0 , tf ] se llama control admisible. El conjunto de controles admisibles es U y la expresion u ∈ U define que la historia de control u es admisible. Definición 1.1.4. Una trayectoria de estado que satisface las restricciones de variable de estado durante el intervalo de tiempo [t0 , tf ] se llama trayectoria admisible El conjunto de trayectorias de estado admisibles se expresa como X y x ∈ X representa que la trayectoria dada por x es admisible Algunos otros ejemplos de control óptimo: 1. Cilindro de aluminio asumiendo que se tiene un volumen v = 100, se busca encontrar para qué radio r y altura h se tiene la menor cantidad de material utilizado para construirlo. 2. Sistema de Ecuaciones Lineales En un sistema de ecuaciones: Ax = y, m < n y ∈ Rm×n (1.25) (1.26) tenemos menos ecuaciones que variables desconocidas por lo cual resulta en un número infinito de soluciones. De todas las soluciones existentes para x, cuál debemos escojer? De todas las posibles soluciones para x, la solución correcta está dada como la que tiene la menor norma. 3. En un sistema con incertidumbre o ruido, se puede presentar una restricción en algunos de los estados y/o entradas del sistema. Por ejemplo, puede ser un conocimiento limitado de la variable de entrada tal como la corriente o voltaje en un circuito eléctrico, o también en la salida como lo es en el caso de un problema en que se quiera que la velocidad no sobrepase un lı́mite superior. Otro punto de vista de ver esto es considerarlo desde un enfoque cuantitativo. Encontrar u para minimizar el tiempo en que se va de a a b. También, minimizar la energı́a (este puede ser un problema de minimización de combustible en el cual se trate de aprovechar al máximo el combustible disponible. 4. Robótica Robot redundante: esto quiere decir que el extremo del robot puede llegar de una posición inicial a una final mediante un número infinito de posiciones. Aprovechar al máximo la redundancia del sistema. Las tres cosas en común que tenemos en estos ejemplos son: • las restricciones que hay en el sistema. 4 • el ı́ndice de calidad o costo que se requeiere satisfacer para llegar a la solución. • la parametrización del modelo (un modelo con parámetros o entradas que se puedan tomar distinto valor) Ejemplo: Integrador. ẏ = u (1.27) Las condiciones iniciales y finales del sistema son: y(t0 ) = y0 y(tf ) = yf (1.28) (1.29) Se quiere llevar el estado del sistema y del estado inicial y0 al estado final yf tan rápido como sea posible. Si utilizamos un control dado por el impulso u = (yf − y0 )δ(t − t0 ) (1.30) la integral de esta entrada u cambiará el estado a la salida en forma instantanea. 1.2 Definiciones importantes en control óptimo Considerando el modelo del sistema dado por: ẋ = a(t, x, u) x(t0 ) = x0 (1.31) (1.32) Los siguientes son términos que se usarán en el estudio de control óptimo: • Trayectoria de Estado Es la solución a las ecuaciones diferenciales del modelo las cuales describen el modelo del sistema dináico, en [t0 , tf ] • Control Admisible y Trayectoria Admisible Un control admisible está dado por una ley de control que satisface las restricciones en el intervalo [t0 , tf ]. Una trayectoria admisible es la trayectoria de estado que satisface las restricciones de variable de estado durante el intervalo de tiempo [t0 , tf ]. • Conjunto objetivo Región en el espacio X × T donde se encuentra la trayectoria del sistema. Un caso mas concreto de este término es la región hacia donde se dirige la trayectoria, por ejemplo en cierto caso se necesitará que un sistema no tenga que llegar exactamente al origen, pero sı́ a una vecindad del origen. 5 La dimensión de la trayectoria se dá por la dimensión del sistema. Por ejemplo, en un problema de movimiento, como lo es uno descrito por la Ley de Newton usando dos estados, posición y velocidad. 2 figuras • Índice de Desempeño J – Tiempo mı́nimo: J = Ztf dt (1.33) t0 en donde tf es la variable a minimizar del sistema. – Energı́a mı́nima J 1 = 2 Ztf uT Rudt (1.34) Ztf ||u||2R dt (1.35) t0 1 = 2 t0 ||x|| = √ xT x (1.36) donde 1.34 representa la forma cuadrática que también representa la norma Euclidiana con ganancia R y 1.35 representa el cuadrado de una norma de base dos. La matriz R debe ser definida positivamente para que le de un peso a cada coordenada del control. En general el ı́ndice de desempeño se escribe como: J = h(r(tf ), x(tf ), tf ) + Ztf g(r(t), x(t), u(t), t)dt (1.37) t0 donde h y g son funciones escalares. Dos condiciones sumamente importantes para poder ya sea controlar nuestro sistema, y/o estimar algunso de sus estados en base a ciertas mediciones que tengamos disponibles son la controlabilidad y observabilidad de nuestro modelo del sistema dinámico. Definición 1.2.1. Controlabilidad Sea el sistema ẋ(t) = a(x(t), u(t), t); x(t) ∈ Rn , u(t) ∈ Rm para t ≥ t0 , el cual tiene un estado inicial x(t0 ) = x0 . 6 (1.38) Si existe un tiempo finito t1 ≥ t0 y un control u(t), t ∈ [t0 , tf ], el cual lleve el estado inicial x0 hacia el origen en un instante de tiempo t1 se dice que el estado inicial x0 es controlable en el tiempo t1 . Si todos los valores de x0 son controlables para cualquier t0 , el sistema es completamente controlable. Al considerar problemas en que el objetivo es llevar el sistema de un estado inicial arbitrario al origen mientras se minimiza un ı́ndice de desempeño, la controlabilidad del sistema es una condición necesaria para la existencia de una solución. Un sistema lineal invariante en el tiempo es controlable si y solo si la matriz n × mn . . . . C = [B .. AB .. A2 B .. · · · ..An−1 B] (1.39) tiene rango pleno ρ(C) = n. Definición 1.2.2. Observabilidad. Si es posible determinar el estado x(t0 ) = x0 a partir de observar la salida y(t) durante el intervalo de tiempo finito [t0 , t1 ], el estado x0 se dice que es observable en el tiempo t0 . Si todos los estados x0 son observables para todo t0 , el sistema es llamado completamente observable. Análogo a la observabilidad, el sistema lineal e invariante en el tiempo 1.38 es observable si y solo si la matriz n × qn . . . . O = [C T .. AT C T .. (AT )2 C T .. · · · .. (AT )n−1 C T ] (1.40) tiene rango pleno ρ(O) = n Estatuto general de control óptimo Dados el modelo, las restricciones y el ı́ndice, encontrar el control óptimo u, y las trayectorias de estado mediante las cuales el ı́ndice de desempeño J tome un valor mı́nimo. Antes de resolver un problema de control óptimo, uno debe cuestionarse las siguientes preguntas: 1. Es posible pensar que exista un control óptimo para el sistema? 2. Es único? 3. Puede encontrarse? (matemáticamente hay solución?) 4. El valor óptimo J ∗ es mı́nimo global o local? 5. Es mediante un control de lazo abierto o lazo cerrado? 1.3 Optimización numérica La optimización tiene varias formas de hacerse. 7